Introduction to Reinforcement Learning
What is Reinforcement Learning? Reinforcement learning (RL, 강화학습) 이란, agent가 환경과의 상호작용을 통해 목표를 달성하는 방법을 배우는 학습 방법을 말한다. 일반적으로 사람이 무언가를 배울 때, 여러번 시행착오를 통해 목표를 달성하게 되는데 이를 모방한 학습 방법으로 볼 수 있다. RL은...
What is Reinforcement Learning? Reinforcement learning (RL, 강화학습) 이란, agent가 환경과의 상호작용을 통해 목표를 달성하는 방법을 배우는 학습 방법을 말한다. 일반적으로 사람이 무언가를 배울 때, 여러번 시행착오를 통해 목표를 달성하게 되는데 이를 모방한 학습 방법으로 볼 수 있다. RL은...
참고: Variational Autoencoder Generative Adversarial Network (GAN) Variational autoencoder (VAE)이 sample의 분포를 미리 정해두고 이를 학습하는 explicit modeling이었다면, generative adversarial network (GAN)은 density fu...
Generative model 이란 training data $p_{data}(x)$으로부터 유사한 분포를 갖는 새로운 sample ($p_{model}(x)$)을 생성하는 모델을 말한다. Explicit modeling은 그러한 $p_{model}(x)$을 수리적으로 정의하고 이를 표현한 모델을 말하며, implicit modeling은 $p_{mo...
참고 Sequence-to-Sequence and Attention Vaswani et al, “Attention is all you need” (2017) Deep learning, 특히 NLP의 발전은 self-attention 기법을 이용한 transformer 모델의 등장으로 큰 전환점을 맞이하였...
Sequence-to-Sequence (Seq2seq) Sequence-to-Sequence (seq2seq)는 encoder-decoder structure라고도 불리우는 모델이자 일종의 framework이다. Seq2seq은 input (또는 source) sequence를 입력받는 encoder 부분과 output (또는 target) seque...
Autoencoder Autoencoder (AE)란 input과 output이 동일하도록 학습하는 neural network를 의미한다. 언뜻보면 아무런 의미가 없는 NN으로 보이지만, 주로 데이터의 dimension reduction 및 feature extraction을 위해 사용되는 모델이다. 기본적인 구조는 input 데이터를 encodin...
Transfer Learning Deep learning 분야가 크게 성장할 수 있었던 이유 중 하나는 바로 transfer learning (전이 학습)이다. 이는 우리가 풀고자하는 새로운 문제를 해결하고자 할 때, 새로운 모델을 만들고 이를 처음부터 학습하는 것이 아니라 기존에 학습된 모델을 활용하는 방식을 말한다. 이 때, 기존에 학습된 모델에...
Internal Covariate Shift Normalization은 데이터의 분포를 특정 범위나 특정 평균과 표준 편차로 조정하여 특정 feature에 대해 과대/과소 평가를 하지 않도록 만드는 과정을 말한다. 일반적으로 machine learning 등에서 input data에 대해 standard 또는 min-max normalization을...
Regularization은 model의 flexibility를 조절하여 overfitting을 방지하고, model의 성능을 향상시키기 위해 사용되는 기법을 말한다. 앞서 ML에 대한 posting 중에서 norm penalty (ridge, lasso)를 활용한 regularization과 early stopping 기법에 대해서 소개한 바가 있...
참고: RNN Vanishing and Exploding Gradient Problems in RNN RNN은 sequential data를 학습하는 것에 있어서 좋은 framework였지만, 한 가지 큰 문제를 가지고 있었다. 바로 vanishing/exploding gradient라는 문제이다. 이는 backprop 과정에서 path를 거칠수...