בסדרת הרצאות זו אנו נשפר את האלגוריתם של Actor Critic כך שיעדכן את הרשת כל מספר צעדים. האלגוריתם של Actor Critic מעדכן את הרשת לאחר כך צעד באמצעות Bootstraping. דרך זו אינה יעילה והיא מוגבלת. אנו נציג כיצד ניתן לשנות את האלגוריתם כך שיוכל לשמור מספר צעדים שמבצע בסיבה ולעדכן את הרשת בהתאםן לתוצאות צעדים אילו. את מימוש האלגוריתם נדגים על משחק Space Invaders. Github: Spave Invaders - Actor Critic n-steps 1 שיעור לינק לוידיאו PDF לינק ל המשך ההרצאות חלק ב לינק לוידיאו חלק ג לינק לוידיאו