בשיעורים הקרובים נלמד על האלגוריתם המכונה Actor Critic. אלגוריתם זה הינו שילוב של שתי שיטות: Policy Gradient and Value Base. באלגוריתם זה נשתמש בשתי רשתות האחת לחישוב הפעולה המיטבית והשניה לחישוב ערך המצב. Github: Actor Critic 1 שיעור לינק לוידיאו PDF לינק ל המשך ההרצאות חלק ב לינק לוידיאו