Actor Critic

בשיעורים הקרובים נלמד על האלגוריתם המכונה Actor Critic.
אלגוריתם זה הינו שילוב של שתי שיטות: Policy Gradient and Value Base.
באלגוריתם זה נשתמש בשתי רשתות האחת לחישוב הפעולה המיטבית והשניה לחישוב ערך המצב.

Github: Actor Critic

1 שיעור

לינק לוידיאו

PDF לינק ל

המשך ההרצאות

חלק ב

לינק לוידיאו