Model Free - Monte Carlo Method

בשיעור זה נלמד אלגורתמים לפתור את MDP כאשר המודל לא ידוע לנו.
המודל של הסביבה הינו הפונקציה שמקבלת מצב ופעולה ונותנת את המצב הבא והתגמול.
במקרים רבים אנחנו לא יכולים לדעת מה יהיה המצב הבא והתגמול כיוון שהמודל הוא אקראי ותלוי בהחלטות של סוכנים אחרים בסביבה.
כך לדוגמה, במשחק מול יריב איננו יכולים לדעת מראש מה יהיה הצעד הבא שיבחר היריב לבצע, ולכן איננו יכולים לדעת מה יהיה המצב הבא בעקבות פעולה שהסוכן יבצע בסביבה.
לצורך פתרון בעיה זו פותח אלגוריתמים המכונים Model Free, ואחד מהם הוא אלגוריתם Monte Carlo

Github: Tic Tac Toe - Monte Carlo

שיעור

לינק לוידיאו

PDF לינק ל

הדגמה עם משחק איקס עיגול

לינק לוידיאו

PDF לינק ל