Model Free - Temporal Difference

בשיעור זה נלמד אלגורתמים נוספים לסביבה בה המודל אינו ידוע.
האלגוריתמים שייכים לשיטה המכונה Temporal Difference, והם:
SARSA
Q-learning

Github: Tic Tac Toe - SARSA

שיעור

לינק לוידיאו

PDF לינק ל

הדגמה עם משחק איקס עיגול

לינק לוידיאו

PDF לינק ל