SARSA - 위키백과, 우리 모두의 백과사전

기계 학습과 데이터 마이닝

패러다임 지도 학습 비지도 학습 온라인 기계 학습 메타-학습 준지도 학습 자기 지도 학습 강화 학습 규칙 기반 기계 학습 양자 기계 학습
문제 분류 클러스터 분석 회귀 분석 클러스터 분석 이상 탐지 데이터 정제 연관 규칙 구조 기반 예측 특징 공학 특징 학습 순위 학습 문법 유도 온톨로지 학습 멀티모달 학습
지도 학습 (통계적 분류 • 회귀 분석) 결정 트리 학습법 앙상블 학습법 (배깅, Boosting, 랜덤 포레스트) 최근접 이웃 탐색 k-NN 선형 회귀 나이브 베이즈 인공신경망 로지스틱 회귀 퍼셉트론 상관 벡터 머신(RVM) 서포트 벡터 머신(SVM)
클러스터 분석 BIRCH 계층적 군집화 k-평균 알고리즘 기댓값 최대화 알고리즘 DBSCAN OPTICS Mean-shift
차원 축소 인자 분석 CCA 독립 성분 분석 LDA 음수 미포함 행렬 분해 주성분 분석 t-SNE
구조화 예측 그래프 모형 베이즈 네트워크 조건부 무작위장 은닉 마르코프 모형 잠재 디리클레 할당
이상 탐지 k-최근접 이웃 알고리즘 국소 특이점 요인
인공 신경망 오토인코더 인지 컴퓨팅 딥 러닝 딥드림 생성적 적대 신경망 확산 모델 다층 퍼셉트론 순환 신경망 LSTM GRU 제한된 볼츠만 머신 변환기 비전 자기조직화지도 합성곱 신경망
강화 학습 Q 러닝 SARSA 시간차 학습
인간 참여학습 러닝 커브 크라우드소싱 인간 참여형
모델 진단 러닝 커브
이론 편향-분산 트레이드오프 계산학습이론 경험적 위험 최소화 PAC 러닝 통계적 학습이론 VC 이론
회의/저널 NeurIPS ICML ICLR ML JMLR
관련 문서 기계 학습 알고리즘 목록 기계 탈학습 지식 증류 유사도 학습 대조 학습
v t e

SARSA(State-action-reward-state-action)는 마르코프 결정 과정 정책을 학습하기 위한 알고리즘으로 기계 학습의 강화 학습 영역에서 사용된다. 이는 MCQ-L(Modified Connectionist Q-Learning)이라는 이름의 기술 노트에서 러머리(Rummery)와 니란잔(Niranjan)에 의해 제안되었다. 리치 서튼(Rich Sutton)이 제안한 대체 이름 SARSA는 각주로만 언급되었다.

이 이름은 Q-값을 업데이트하는 주요 기능이 에이전트 "S1"의 현재 상태, 에이전트가 "A1"을 선택하는 작업, 에이전트가 이 작업을 선택하여 얻는 보상 "R2", 에이전트가 해당 작업을 수행한 후 입력하는 "S2"를 지정하고 마지막으로 에이전트가 새 상태에서 선택하는 다음 작업 "A2"를 지정한다. 5중(St, At, Rt 1, St 1, At 1)의 약어는 SARSA이다. 일부 저자는 약간 다른 규칙을 사용하여 보상이 공식적으로 할당되는 시간 단계에 따라 5중(St, At, Rt, St 1, At 1)을 쓴다.

같이 보기

[편집]