Actor Critic n-steps

בסדרת הרצאות זו אנו נשפר את האלגוריתם של Actor Critic כך שיעדכן את הרשת כל מספר צעדים.
האלגוריתם של Actor Critic מעדכן את הרשת לאחר כך צעד באמצעות Bootstraping. דרך זו אינה יעילה והיא מוגבלת.
אנו נציג כיצד ניתן לשנות את האלגוריתם כך שיוכל לשמור מספר צעדים שמבצע בסיבה ולעדכן את הרשת בהתאםן לתוצאות צעדים אילו.
את מימוש האלגוריתם נדגים על משחק Space Invaders.

Github: Spave Invaders - Actor Critic n-steps

1 שיעור

לינק לוידיאו

PDF לינק ל

המשך ההרצאות

חלק ב

לינק לוידיאו

חלק ג

לינק לוידיאו