Model Free - Monte Carlo Method

בשיעור זה נלמד אלגורתמים לפתור את MDP כאשר המודל לא ידוע לנו.
המודל של הסביבה הינו הפונקציה שמקבלת מצב ופעולה ונותנת את המצב הבא והתגמול.
במקרים רבים אנחנו לא יכולים לדעת מה יהיה המצב הבא והתגמול כיוון שהמודל הוא אקראי ותלוי בהחלטות של סוכנים אחרים בסביבה.
כך לדוגמה, במשחק מול יריב איננו יכולים לדעת מראש מה יהיה הצעד הבא שיבחר היריב לבצע, ולכן איננו יכולים לדעת מה יהיה המצב הבא בעקבות פעולה שהסוכן יבצע בסביבה.
לצורך פתרון בעיה זו פותח אלגוריתמים המכונים Model Free, ואחד מהם הוא אלגוריתם Monte Carlo

שיעור




הדגמה עם משחק איקס עיגול