Policy Gradient Method

בשיעור זה נלמד את הבסיס התיאורתי לאלגוריתם Policy Gradient.
אנחנו נלמד כיצד לבנות את רשת הנוריונים וכיצד לעדכן את הפרמטרים של רשת הנוריונים