בשיעור זה נלמד את הבסיס התיאורתי לאלגוריתם Policy Gradient. אנחנו נלמד כיצד לבנות את רשת הנוריונים וכיצד לעדכן את הפרמטרים של רשת הנוריונים לינק לוידיאו PDF לינק ל