Actor Critic n-steps

בסדרת הרצאות זו אנו נשפר את האלגוריתם של Actor Critic כך שיעדכן את הרשת כל מספר צעדים.
האלגוריתם של Actor Critic מעדכן את הרשת לאחר כך צעד באמצעות Bootstraping. דרך זו אינה יעילה והיא מוגבלת.
אנו נציג כיצד ניתן לשנות את האלגוריתם כך שיוכל לשמור מספר צעדים שמבצע בסיבה ולעדכן את הרשת בהתאםן לתוצאות צעדים אילו.
את מימוש האלגוריתם נדגים על משחק Space Invaders.

1 שיעור




המשך ההרצאות