2.1 Reinforcement Learning

주로 RL의 objective function은 total expected discounted return per episode를 최대화 하는 것입니다. total expected discounted return per episode는 수식으로 다음과 같습니다.

trajectory에 대한 확률은 다음과 같이 reward에 대한 확률, policy에 의한 확률, transition probability를 통해 다음과 같이 나타낼 수 있습니다.

Last updated