Roh's Warehouse

❯

❯

❯

05. Reinforcement Learning

05. Reinforcement Learning

Jul 28, 20261 min read

강화학습 입문: MDP·벨만 방정식부터 model-free 제어, 정책경사, PPO·GAE, 연속제어(DDPG/TD3·SAC), LLM 정렬(RLHF·GRPO·DPO), model-based RL까지.

24 items under this folder.

Jun 30, 2026
18. 환경 모델 학습하기
- reinforcement-learning
Jun 30, 2026
19. Dyna 심화 - Dyna-Q+와 Prioritized Sweeping
- reinforcement-learning
Jun 30, 2026
20. Monte-Carlo Tree Search 깊이 보기
- reinforcement-learning
Jun 30, 2026
21. AlphaGo에서 MuZero까지
- reinforcement-learning
Jun 30, 2026
22. 연속 제어를 위한 Model-based RL
- reinforcement-learning
Jun 30, 2026
23. World Models와 Dreamer
- reinforcement-learning
Jun 30, 2026
24. Model-based는 언제 유리한가
- reinforcement-learning
Jun 23, 2026
11. Generalized Advantage Estimation
- reinforcement-learning
Jun 23, 2026
12. DDPG and TD3
- reinforcement-learning
Jun 23, 2026
13. Soft Actor-Critic
- reinforcement-learning
Jun 23, 2026
14. RLHF (Reinforcement Learning from Human Feedback)
- reinforcement-learning
Jun 23, 2026
15. GRPO (Group Relative Policy Optimization)
- reinforcement-learning
Jun 23, 2026
16. DPO (Direct Preference Optimization)
- reinforcement-learning
Jun 23, 2026
17. Model-based RL
- reinforcement-learning
Sep 22, 2025
01. Introduction to Reinforcement Learning
- reinforcement-learning
Sep 22, 2025
02. Markov Decision Process
- reinforcement-learning
Sep 22, 2025
03. Bellman Equation and Optimality
- reinforcement-learning
Sep 22, 2025
04. Solving MDP
- reinforcement-learning
Sep 22, 2025
05. Model-free Prediction
- reinforcement-learning
Sep 22, 2025
06. Model-free Control
- reinforcement-learning
Sep 22, 2025
07. Deep Q-Learning
- reinforcement-learning
Sep 22, 2025
08. Monte-Carlo Policy Gradient
- reinforcement-learning
Sep 22, 2025
09. Actor-Critic Policy Gradient
- reinforcement-learning
Sep 22, 2025
10. Proximal Policy Optimization
- reinforcement-learning

Created with Quartz v5.0.0 © 2026

GitHub
Discord Community