Courses/Reinforcement Learning

Reinforcement Learning

Policy gradient, Q-learning, and actor-critic methods built from the Bellman equation up. Train agents in MuJoCo and Atari.

Intermediate14 weeks · 14 lessons

Your progress00 / 14 · 0%

Lessons

W01Week 1: Reinforcement Learning Problem FormulationGeneral W02Week 2: Multi-Armed BanditsGeneral W03Week 3: Dynamic Programming for Finite MDPsGeneral W04Week 4: Monte Carlo and Temporal-Difference LearningGeneral W05Week 5: Function Approximation in Reinforcement LearningGeneral W06Week 6: Deep Q-Learning and VariantsGeneral W07Week 7: Policy Gradient and Actor–Critic MethodsGeneral W08Week 8: Modern Deep Reinforcement Learning AlgorithmsGeneral W09Week 9: Exploration, Partial Observability, and Multi-Agent Reinforcement LearningGeneral W10Week 10: Model-Based Reinforcement Learning and PlanningGeneral W11Week 11: Offline Reinforcement LearningGeneral W12Week 12: Reinforcement Learning from Human FeedbackGeneral W13Week 13: Direct Preference Optimization and GRPOGeneral W14Week 14: Agentic Systems and Course CapstoneGeneral