תכנון דינמי - Policy Iteration בשיעור זה נלמד את האלגורתמים הראשונים של למידת חיזוק. נכיר את משוואות בלמן. נלמד כיצד למצוא את המדיניות הטובה ביותר באמצעות תכנון דינמי - תכנות באמצעות טבלה. Github Grid World שיעור - חלק א לינק לוידיאו PDF לינק ל Grid World - תרגיל לינק לוידיאו