תכנון דינמי - Policy Iteration

בשיעור זה נלמד את האלגורתמים הראשונים של למידת חיזוק. נכיר את משוואות בלמן.
נלמד כיצד למצוא את המדיניות הטובה ביותר באמצעות תכנון דינמי - תכנות באמצעות טבלה.

שיעור - חלק א




Grid World - תרגיל