Policy Gradient Intro

בסדרת הרצאות זו נלמד על משפחה חדשה של אלגורתמים ללמידת חיזוק.
באלגורתמים אלו אנו מוצאים טת הפעולה המיטבית ישירות באמצעות רשת הנוירונים, ולא בדרך של מציאת ערך המצב.
במסגרת סדרת הרצאות זו אנו נלמד על האלגורתמים הבאים מבוססי Policy Gradient:
  • Reinforce Monte Carlo
  • Reinforce Monte Carlo with Entropy Regularization
  • Reinforce Monte Carlo - Continuous Action space
  • Actor Critic
  • Actor Critic - n-steps
  • A2C - Advantage Actor Critic
  • PPO - Proximal Policy Optimization