본문으로 이동

SARSA

위키백과, 우리 모두의 백과사전.

SARSA(State-action-reward-state-action)는 마르코프 결정 과정 정책을 학습하기 위한 알고리즘으로 기계 학습의 강화 학습 영역에서 사용된다. 이는 MCQ-L(Modified Connectionist Q-Learning)이라는 이름의 기술 노트에서 러머리(Rummery)와 니란잔(Niranjan)에 의해 제안되었다. 리치 서튼(Rich Sutton)이 제안한 대체 이름 SARSA는 각주로만 언급되었다.

이 이름은 Q-값을 업데이트하는 주요 기능이 에이전트 "S1"의 현재 상태, 에이전트가 "A1"을 선택하는 작업, 에이전트가 이 작업을 선택하여 얻는 보상 "R2", 에이전트가 해당 작업을 수행한 후 입력하는 "S2"를 지정하고 마지막으로 에이전트가 새 상태에서 선택하는 다음 작업 "A2"를 지정한다. 5중(St, At, Rt 1, St 1, At 1)의 약어는 SARSA이다. 일부 저자는 약간 다른 규칙을 사용하여 보상이 공식적으로 할당되는 시간 단계에 따라 5중(St, At, Rt, St 1, At 1)을 쓴다.

같이 보기

[편집]