Word Representation
What is NLP? Natural language processing (NLP) refers to the field of enabling computers to process natural language or generate natural language. Such NLP technologies play a critical role in ...
What is NLP? Natural language processing (NLP) refers to the field of enabling computers to process natural language or generate natural language. Such NLP technologies play a critical role in ...
최근 가장 많이 사용되는 policy-based RL 알고리즘으로는 proximal policy optimization (PPO)이 있다. PPO는 trust region policy optimization (TRPO) 알고리즘으로부터 유도되었기에 PPO를 설명하기 전 우선 TRPO에 대해서 설명한다. Trust Region Policy Optimi...
참고: Monte-Carlo Policy Gradient Actor-Critic Policy Gradient Monte-Carlo policy gradient, 또는 REINFORCEMENT 알고리즘의 경우 variance가 무척 크다는 단점이 있다. 즉, 정밀한 estimation을 위해서는 아주 많은 computing이 필요하다. 이러한 이유...
참고: Deep Q-learning Policy-based Reinforcement Learning Deep Q-learning을 생각해보자. 여기서는 value와 action-value 값을 어떤 parameter $\theta$를 갖는 함수로 모델링하였다. [v_\theta(s) \approx v^\pi(s), \quad Q_\theta(s...
참고: Model-free Control Value Function Approximation SARSA와 Q-learning과 같은 model-free prediction 기법은 model의 size가 작은 경우에는 비교적 잘 동작한다. 하지만, 만약 바둑과 같이 state-action pair가 셀수없이 많은 문제에는 어떨까? 기본적으로 SAR...
참고: Model-free Prediction Model-free control이란 환경이 주어져 있지 않거나, 또는 환경을 알 수 있으나 다루기에 너무 큰 상황(예. Robot walking 등)에서 optimal policy를 찾기 위한 방법을 말한다. Model-free Policy Improvement Model-free policy im...
참고: Monte Carlo Method Model-Free RL 이전 post ‘Solving MDP’를 통해 우리가 MDP를 알고 있는 경우, DP를 이용한 prediction 및 control이 가능하다는 것을 확인했다. 하지만, 우리가 실제 마주하는 문제들의 경우 MDP에 대해서 알 수 없는 경우가 거의 100%이다. 즉, transitio...
참고 MDP Bellman Equation and Optimality MDP를 푼다는 것은 optimal policy $\pi_\ast$를 구한다는 것과 동일하며, 이는 결국 Bellman optimality equation를 푸는 것과 동일하다. 여기서는 non-linear equation인 Bellm...
참고: Markov Decision Process (MDP) Bellman Equation for MRP MRP $\langle S,P,R,\gamma \rangle$에서 value function $V(s_t)$에 대한 Bellman equation은 다음과 같이 정의된다. [\begin{aligned} V(s) &= E[G_t \mid...
Markov Process Markov process란, Markov property를 만족하는 random variable의 sequence로, $\langle S,P \rangle$로 나타낸다. State의 집합: $S$ Transition probability matrix (model): $P: S\times S...