התניה אופרנטית II: מטרות והרגלים

התניה אופרנטית II: מטרות והרגלים
מבוא ללמידה והתנהגות: התניה ומח שעור 6

נושאים מה נכנס לאסוסיאציה אופרנטית? S-R מול R-O
המניפולציה הקריטית: devaluation סוגי devaluation והשפעתם על התנהגות התנהגות הרגלית התנהגות מונחית מטרה Incentive learning מודל חישובי: איך כל זה מסתדר עם RL, ואיך המח מחליט מתי לעבור ממערכת אחת לשניה? 'ניתוח מונחה מודל אסוציאטיבי': הבסיס המוחי ללמידה אופרנטית

ניתוח תאורטי של התניה אופרנטית
תאוריה של למידה: מהן האסוסיאציות הנוצרות בעת ההתניה? כיצד שינויים אלו משפיעים על ההתנהגות? שאלה חישובית 'מקבילה': מהו המבנה החישובי הנלמד והמהווה בסיס לקבלת החלטות בהתניה אופרנטית? חשוב: נרצה לבחון שאלה זו לגבי התניה אופרנטית. בעיה: לא תמיד ברור מתי הסמיכות האופרנטית היא זו ששולטת בהתנהגות. ריצה במבוך vs לחיצה על דוושה.

S-R מול R-O (קלאסית מול אופרנטית)
התניה כרכישת ידע אודות העולם: קלאסית: לימוד של אילו ארועים בעולם מנבאים חיזוקים אופרנטית: לימוד של אילו פעולות בעולם קשורות להופעת חיזוקים תאורטיקנים ראשונים (Gutherie 1952, Hull 1943): תאוריה אחת לשתי ההתניות – S-R בשני המקרים התגובה מקושרת לגירוי המקדים אותה קלאסית: UR מקושר ל-CS אופרנטית: R מקושר ל-SD או לגירויי קונטקסט סביבתיים בשני המקרים החיזוק עצמו אינו חלק מהאסוסיאציה אבל: תאורית S-R של התניה אופרנטית מניחה שהארועים המקושרים ע"י החיה שונים מאלו שבסמיכות הקריטית בניסוי אלטרנטיבה: תאוריות R-O של התניה אופרנטית (וקלאסית?) (Tolman,Rescorla)

S-R מול R-O: איך נכריע? שאלה מרכזית: האם החיזוק הוא חלק מההתניה או לא?
שינוי ערך ה- O/המוטיבציה ל-O לאחר ההתניה האם ההתנהגות תשתנה בהתאם? שינוי ערך ה-O: שלוש שיטות (לפחות) שינוי המצב המוטיבציוני של החיה (רעב, צמא, חסך מלח, דחף מיני – ויש גם אינטראקציות ביניהם) שובע ספציפי - specific satiety התנית אברסיה לחיזוק (LiCl) מתקשר לשני מרכיבי ערכו של חיזוק: primary value - מושפע ממצב הדחפים/החסכים של החיה (הצרכים הפנימיים) incentive value - "ערך התמריץ"/"כח המשיכה" של החיזוק שימו לב: מה שונה ומה דומה בין סוגי המניפולציות?

שינוי ערך ה-O לאחר האימון: הפרדיגמה
1 - Training: 2 – Pairing with illness: ? Non-devalued Unshifted 2 – Motivational shift: Hungry Sated The basic paradigm is that of a post-training shift in motivation/outcome value followed by an extinction test. ? 3 – Test: (extinction)

שינוי ערך ה-O לאחר האימון: התוצאות
LP: Short training LP: Extensive training control devalued Magazine approach control devalued response rate control devalued Goal Directed Behavior Habitual Behavior The animal does inconsistent things in one setting!  אימון רב יוצר הרגלים  אבל.. רק עבור פעולות רחוקות מהחיזוק!

S-R מול R-O: שני סוגי התנהגות
התנהגות מכוונת למטרה: מתווכת ע"י אסוסיאצית R-O (או A-O) ה-O מהווה מטרה עבור החיה בעצם שני מבחנים: שינוי ערך ה-O או שינוי הסמיכות בין A ל-O התנהגות הרגלית: לא תלויה בתוצאה אלא מבוצעת בגלל נכחות הגירויים שהיו קיימים בעת שהפעולה נרכשה – S-R (דוגמאות?) הגדרה על דרך השלילה

גורמים המשפיעים על יצירת הרגלים
אורך האימון מרחק מהחיזוק לוח החיזוקים (מהיר יותר בחיזוק חלקי, מהיר יותר בלוחות interval בהשואה ל-ratio) כמות הפעולות שמאמנים (שתי פעולות לשני חיזוקים שונים – לא הופך להרגל)

סיבוך נוסף: התנהגות מונחית מטרה ולמידת תמריץ
סיפור המסעדה בסוף הטיול התנהגות מונחית מטרה רגישה לערך המטרה רק בהנתן אפשרות ל-"למידת תמריץ" (incentive learning)

למידת תמריץ - incentive learning
Hungry Sated 2. motivational shift use different food Incentive learning has led psychologists to propose a theory based on 3 controllers, one for each behavior: One knows the value, one has to learn it, and one doesn’t care (non parsimonious) Restaurant example

סיבוך נוסף: התנהגות מונחית מטרה ולמידת תמריץ
סיפור המסעדה בסוף הטיול התנהגות מונחית מטרה רגישה לערך המטרה רק בהנתן אפשרות ל-"למידת תמריץ" (incentive learning) אולי זה הגיוני לגבי motivational shift (קשה להפריד בין שני מרכיבי ערך החיזוק מדוגמא אחת) אבל – מה לגבי התנית אברסיה? סיפור האבטיח של טוני ממצאים ניסויים מהתנית אברסיה בפעם אחת – Dickinson מול Rescorla ו... הכי גרוע – כל זה לא תופס להתנהגות nose poke, שגם סווגה כמונחית מטרה

הפתרון של Dickinson + Balleine
שלושה סוגי התנהגות: הרגלית – לא רגישה לערך המטרה מונחית מטרה – רגישה לערך המטרה רק אחרי למידת תמריץ קלאסית – תמיד רגישה לערך המטרה, ללא צורך בלמידת תמריץ אבל: תאוריה בעייתית חוסר קונסיסטנטיות בקבלת החלטות – אם המערכת הפבלובית יודעת מה בדיוק ערך המטרה, למה המערכת מונחית המטרה 'מתעלמת' מכך? לא ברור שבאמת התנהגות קלאסית רגישה ישירות לערך המטרה ניסוי שרשרת הפעולות האופרנטיות... (1995)

Motivational control of heterogeneous instrumental chains/ Balleine, Garner, Gonzalez and Dickinson 1995 חולדות רעבות מאומנות בקופסת סקינר, ללא דלת על מחסנית המזון לחיצה על דוושה (A1)  משיכת חבל (A2)  חיזוק (O) לאחר האימון מחצית החולדות מועברות לשובע Test: מוסיפים למידת תמריץ למחצית החולדות (ניסוי נפרד, כולן נבחנות שבעות) מה לגבי פשוט לחיצה על דוושה אבל בלי דלת על המחסנית?

לחיצה על דוושה – האם יש צורך בלמידת תמריץ?
רגישות לערך המטרה תלויה במיקום של הפעולה בשרשרת! שלושה הסברים במאמר: פרוקסימלי – S-R רגיש ישירות למוטיבציה (כמו הרגלים) (??) פרוקסימלי יותר פבלובי בשל הקרבה ל-US (הדיסטלי מוצלל ע"י גירויים פרוקסימלים, ורחוק מה-US, ולכן פחות מותנה קלאסית) ייצוג היררכי A1-(A2-O) כאשר A1 מהווה SD. הקרוב (A2) רגיש ישירות, בעוד הרחוק היררכית אינו

הסבר אחר: Daw, Niv, Dayan 2005 מה תאוריות Reinforcement learning חישוביות אומרות על כל זה? הבעיה: קבלת החלטות אופטימלית במקרה של שרשרת פעולות (חיזוק בסוף השרשרת) דברנו רבות על שיטה אחת לפתרון הבעיה: ללמוד ערכים למצבים/גירויים (states) בעזרת טעויות ניבוי, וללמוד אסטרטגיה התנהגותית באמצעות אותן טעויות ניבוי. ממידע מקומי ניתן ללמוד התנהגות אופטימלית לטווח רחוק. S A Policy Environment Actor action state S evaluation Function Critic r(t) - reward TD error δ(t) 4 2 S1 S3 1 S2 “If the only tool you have is a hammer, you tend to see every problem as a nail” - A. Maslow

Actor/Critic ו-TD כלמידת S-R
מה יקרה אם: נשנה את ערך החיזוק? נשנה את מבנה המבוך? 4 2 S1 S3 1 S2 1

Actor/Critic ו-TD כלמידת S-R
למידת ערך V לגירוי: מנותק מזהות ה-US עצמה חשוב: ממיר הכל למטבע משותף בכדי להשוות ולבחור אופצית פעולה אחת אבל: מאבד קשר ישיר ל-US/O. למשל, אם החיה עכשיו צמאה ולא רעבה, איך תדע בכמה לשנות את הערכים V(S1), V(S2), V(S3)? ואיך תדע לשנות אסטרטגית התנהגות? 4 2 S1 S3 1 S2

אבל... יש עוד דרכים לפתור את אותה בעיה
S0 initial state S2 food delivered A2: approach magazine S1 nothing obtained A1: press lever r=1 ניתן ללמוד מתוך נסיון ממש את מבנה העץ One-step transitions Immediate outcomes Reward utilities בזמן ההחלטה ניתן לעבור על העץ ('סימולציה') עד לנקודות הקצה, כדי לקבוע מה הערך (בטווח ארוך) של כל פעולה יתרון: גמיש, רגיש לכל שינוי חסרון: לרוב בלתי אפשרי בשל הסיבוכיות של העץ (משחק שח) פסיכולוגיה: R-O, התנהגות מונחית מטרה

שתי דרכים שונות לחישוב מה ערכה של פעולה
No reward R = 0 S2 Food obtained R = 1 S3 Initial state S0 approach magazine press lever Food delivered S1 a Tree System approach magazine Q = 0 Initial state S0 press lever Q = 1 No reward S2 Food delivered S1 Food obtained S3 b Cache System

לימוד העץ:

השוואה: פתרון בשיטת S-R או R-O
4 2 S1 S3 1 S2 R-O יתרונות: גמישות מירבית חסרונות: קשה לחשב מה הערך של כל פעולה בזמן אמת (מהר מאוד יש יותר מדי אפשרויות) S-R בחירת פעולה עם ערך מירבי: V(S1,L) = R(S1,L) + V(S2) V(S1,R) = R(S1,R) + V(S3) יתרונות: פשוט ללמוד את הערך האופטימלי מתוך נסיון; קל מאוד לבחור פעולה בהנתן הערכים חסרונות: גמישות מוגבלת (שינוי ערך ה-O, שינוי צורת המבוך) S1 S2 S3 R L

באיזו דרך להשתמש מתי? הפתרון הנורמטיבי: להשתמש בכל שיטה במקום בו היא טובה יותר = מדוייקת יותר עץ: טוב במצבים של מעט מידע (יעיל) וקרבה לחיזוק (ניתן לחישוב) ערכים מאוחסנים: טובים לאחר למידה רבה, ואז לא משנה אם הם קרובים או רחוקים מהחיזוק (אין חיפוש איטרטיבי) ...מתאים לתוצאות של ניסויים לגבי התנהגות הרגלית לעומת מונחית מטרה

שתי המערכות קיימות ופועלות במח במקביל
פגיעות ב-dorsolateral striatum: התנהגות לא הופכת להרגלית גם לאחר אימון ממושך (ממשיכה להיות רגישה לערך החיזוק) פגיעות ב-dorsomedial striatum, prelimbic PFC: התנהגות הרגלית כבר בתחילת האימון (לא רגישה לערך החיזוק)  מעיד על שתי מערכות הפועלות במקביל ויכולות לשלוט בהתנהגות בכל עת!

Killcross+Coutureau 2003 אימון של שתי פעולות לשני חיזוקים (בנפרד) – אחד באימון ארוך והשני בקצר Test לאחר שובע ספציפי

איך המח ידע מי המערכת המדוייקת יותר?
איך המח ידע על איזו מערכת לסמוך מתי? הרעיון: כל מערכת תחשב ותדווח גם על מידת הבטחון שלה (uncertainty) עץ: אי ודאות בשל רעש בחיפוש בעץ ערכים מאוחסנים: אי ודאות בשל חוסר נסיון המח יבחר להאמין למערכת בעלת הבטחון הרב ביותר שימו לב: לא תמיד יבחר הערך הגבוה יותר (חוסר) קשר בין uncertainty ו-risk בעבר: uncertainty שמש לקביעת קצב הלמידה (Kalman filter). כאן: שימוש נוסף – בחירה בין מערכות מקבילות estimated action value cache tree בעצם השאלה היא איך המח יודע על מי לסמוך מתי?

סימולציות של ניסויי devaluation
Non- devalued Devalued Cache Tree a Distal action Rewarded trials relative to non-devalued Response rate b Proximal action Uncertainty

מה לגבי למידת תמריץ? שינוי ערך החיזוק: מעלה את אי הודאות של העץ (אך לא את זו של המערכת ההרגלית) אי ודאות גבוהה יותר בעץ  המח בוחר במערכת ההרגלית (אין רגישות לערך החדש של החיזוק) אבל: בפעולות קרובות מאוד לחיזוק (nose poke), גם עם אי הודאות הנוספת, השליטה נותרת בידי העץ (המערכת מונחית המטרה). למידת תמריץ: מורידה חזרה את אי הודאות של העץ  המח בוחר במערכת מונחית המטרה גם בפעולות מרוחקות, ורואים רגישות לערך החדש של החיזוק גם בלחיצת הדוושה

סימולציה: למידת תמריץ * Distal action Proximal action Cache Tree
Action probability Control Shift only Shift + Incentive learning

הסבר חדש ללמידת תמריץ אין צורך להניח שלוש מערכות
אין צורך להניח שהמערכת ה'חכמה' (מונחית המטרה) לא יודעת מה ערך המטרה (בעוד מערכת אחרת כן יודעת!) אבל - מערכת אחת אכן מתעלמת ממשהו שהשניה יודעת כתוצאה ממגבלות אלגוריתם החישוב!

התניה אופרנטית: איפה כל זה קורה?
Balleine ושות' – סדרת ניסויים נרחבת מונחית המודל של שתי סוגי אסוסיאציות מבחנים: שינוי ערך החיזוק, שינוי הסמיכות, קצב הלמידה, למידת אברסיה למזון, למידה של שתי פעולות לשני חיזוקים, מבחן עם/בלי חיזוקים, יכולת ללמוד שרשרת פעולות פגיעות: lesions לפני ואחרי אימון, אינאקטיבציה זמנית בשלבי אימון/מבחן שונים...

הבסיס המוחי להתנהגות מונחית מטרה
pDMS – קשור ללמידת A-O (פגיעה גוררת חוסר רגישות לערך החיזוק וכן לסמיכות בין פעולה לחיזוק) אימון: שתי פעולות ושני חיזוקים, לוח ratio. מבחן: שובע ספציפי, סמיכות Yin et al (2005)

mPFC – קשור לרכישה (פגיעה לפני רכישה אך לא אחריה יוצרת חוסר רגישות לערך המטרה) BLA – ייצוג של ערך ה-O של פעולה (רואים באימון של שני A לשני O) reacquisition Ostlund et al. (2005) Balleine, Killcross + Dickinson (2003)

היפוקמפוס – קשר סיבתי (דקלרטיבי?) בין פעולה לתוצאה (אין פגיעה ברגישות לערך החיזוק, אך כן ברגישות לסמיכות) אימון של שתי פעולות לשני חיזוקים מבחן שובע ספציפי אימון בסמיכות מופחתת מבחן בהכחדה Corbit + Balleine (2000)

הבסיס המוחי להתנהגות הרגלית
DLS (אך לא DMS) – מעורב ביצירת אסוסיאצית S-R קבוצות: Sham, DMS, DLS אימון VI ממושך CTA devaluation כולם רוכשים לחיצה ו-CTA DLS מראים רגישות לערך החיזוק ב-test Yin et al (2003)

בסה"כ:

סיכום למידה אופרנטית אינה תופעה פשוטה עם מנגנון יחיד
ההתנהגות נקבעת ע"י האינטראקציה בין מערכות למידה וזכרון רבות, חלקן משלימות וחלקן מתחרות שבוע הבא: האם המנגנונים האלו מתווכים גם למידה קלאסית או שיש גם שם מנגנונים נפרדים נוספים?

התניה אופרנטית II: מטרות והרגלים

Similar presentations

Presentation on theme: "התניה אופרנטית II: מטרות והרגלים"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

התניה אופרנטית II: מטרות והרגלים

Similar presentations

Presentation on theme: "התניה אופרנטית II: מטרות והרגלים"— Presentation transcript:

Similar presentations

About project

Feedback