Bellman Equation for MRP

MRP 에서 value function 에 대한 Bellman equation은 다음과 같이 정의된다.

즉, 현재 state 에서의 value function은 미래 state 의 value function으로 표현할 수 있다 (one-step look ahead).

Bellman Equation in a Matrix Form

위 식은 linear equation이므로, 다음과 같이 solution을 구할 수 있다.

일반적으로 inverse matrix를 explicit하게 계산하는 경우, computation cost ( for states)가 너무 높으므로 DP와 같은 다른 방법을 사용한다.

Bellman Expectation Equation for MDP

위 방법과 유사하게, MDP에서 state-value function 와 action-value function 에 대한 Bellman expectation equation을 다음과 같이 얻을 수 있다.

Bellman Equation for and

Bellman expectation equation을 의 관계로써 나타낼 수 있다.

위 식을 이용하면, 아래와 같은 식을 얻는다.

Bellman Expectation Equation in a Matrix Form

위 식 역시 다음과 같이 solution을 얻을 수 있다.

Bellman Optimality Equation

Optimal Value Function

Optimal state-value function 는 모든 policy들을 고려했을 때, 가장 높은 state-value를 말한다.

Optimal action-value function 역시 동일하게 정의된다.

만약 모든 state 에 대해, 인 경우, 라고 표현하며, 보다 더 나은 (better) policy라고 말한다.

만약 모든 policy에 대해 더 나은 policy 가 있다면, 이를 optimal policy라고 한다.

Theorem

  • Optimal policy 는 항상 존재한다.
  • Optimal policy 를 통해 계산된 state-value 는 각각 optimal state-value 및 action-value 이다. 즉, , .

Finding an Optimal Policy

만약 optimal action-value function 를 안다면, optimal policy를 다음과 같이 바로 얻을 수 있다.

즉, 가 가장 큰 action을 고르는 것이 optimal policy가 된다.

Bellman Optimality Equation for and

Bellman optimality equation에 대한 iterative equation을 제시하며, 이를 풀어냄으로써 optimal value function 및 optimal policy를 얻을 수 있다.

앞서 Bellman expectation equation과 마찬가지로 관계를 다음과 같이 표현할 수 있다.

위 식을 이용하면, 다음 Bellman optimality equation을 얻을 수 있다.

Bellman optimality equation은 non-linear 하므로 단순한 matrix 연산으로 solution을 구할 수는 없다. 따라서, iterative alogirthm을 통해 solution을 구하게 된다. 자세한 방법에 대해서는 다음 post에서 다룰 예정이다.