Actor Critic

בשיעורים הקרובים נלמד על האלגוריתם המכונה Actor Critic.
אלגוריתם זה הינו שילוב של שתי שיטות: Policy Gradient and Value Base.
באלגוריתם זה נשתמש בשתי רשתות האחת לחישוב הפעולה המיטבית והשניה לחישוב ערך המצב.

1 שיעור




המשך ההרצאות