בסדרת הרצאות זו נלמד על משפחה חדשה של אלגורתמים ללמידת חיזוק. באלגורתמים אלו אנו מוצאים טת הפעולה המיטבית ישירות באמצעות רשת הנוירונים, ולא בדרך של מציאת ערך המצב. במסגרת סדרת הרצאות זו אנו נלמד על האלגורתמים הבאים מבוססי Policy Gradient: Reinforce Monte Carlo Reinforce Monte Carlo with Entropy Regularization Reinforce Monte Carlo - Continuous Action space Actor Critic Actor Critic - n-steps A2C - Advantage Actor Critic PPO - Proximal Policy Optimization לינק לוידיאו PDF לינק ל Prev Next