Policy Gradient Intro

בסדרת הרצאות זו נלמד על משפחה חדשה של אלגורתמים ללמידת חיזוק.
באלגורתמים אלו אנו מוצאים טת הפעולה המיטבית ישירות באמצעות רשת הנוירונים, ולא בדרך של מציאת ערך המצב.
במסגרת סדרת הרצאות זו אנו נלמד על האלגורתמים הבאים מבוססי Policy Gradient:

Reinforce Monte Carlo

Reinforce Monte Carlo with Entropy Regularization

Reinforce Monte Carlo - Continuous Action space

Actor Critic

Actor Critic - n-steps

A2C - Advantage Actor Critic

PPO - Proximal Policy Optimization

לינק לוידיאו

PDF לינק ל