מוטיבציה והתנהגות free operant


Summary of part I: prediction and RL Prediction is important for action selection The problem: prediction of future reward The algorithm: temporal difference.
Summary of part I: prediction and RL Prediction is important for action selection The problem: prediction of future reward The algorithm: temporal difference.
מוטיבציה והתנהגות free operant מבוא ללמידה והתנהגות: התניה ומח שעור 5

נושאים תרגילים (הקודם, הנכחי, הבא) המשך מודל Actor Critic חזרונת fMRI – O’Doherty+Dayan, Wightman+Phillips – FSCV Discrete trial vs. Free operant – מה חסר ב-A/C? מאפייני Free operant מודל של קצבי התנהגות: אופטימיזציה של קצב חיזוקים... השוואת לוחות חיזוק: interval vs. ratio השפעות של מוטיבציה על התנהגות Free operant איך כל זה מתקשר ל...(מי אם לא) דופמין

הבעיה: 4 2 S1 S3 1 S2 Markov Decision Process States Actions Rewards

מודל Actor-Critic 4 2 S1 S3 1 S2 wsa 2 S1 S3 1 S2 Policy V(t) - Value Function Environment Critic Actor action state r(t) - reward TD error δ(t) Positive prediction error: Things are better than expected →update value of state →update policy (prob. of action) Negative prediction error: Things are worse than expected →update policy s1 s2 s3 V wsv

Actor-Critic במח: טעות ניבוי: דופמין Actor: dorsolateral striatum Critic: ventral striatum (NAC) שני מסלולים דופמינרגים

הרבה עדויות: דוגמא - O’Doherty et al. 2004 שני סוגי צעדים: rewarding; neutral בכל צעד: שני גירויים (High – 60%, Low – 30%) קבוצה 1 – בוחרת גירויים (התניה אינסטרומנטלית) – אכן רואים העדפה ל-High בצעדי reward, אך לא בצעדי neutral קבוצה 2 – Yoked (התניה קלאסית), מצביעים רק על הצד שהמחשב בחר (מדד ללמידה – RT) (מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?)

הרבה עדויות: דוגמא - O’Doherty et al. 2004 (NAC) Ventral striatum – קורלציה עם PE בשתי המטלות: Dorsal striatum – קורלציה עם PE רק במטלה האינסטרומנטלית:

הרבה עדויות: דוגמא - Roitman et al. 2004 Fast scan cyclic voltammetry in striatum Cue-elicited lever-pressing for sucrose at peak of DA burst (discrete trial: cue→LP→intraoral sucrose+FB tone) Cues elicit DA burst in trained but not untrained rats Cue→DA→LP at DA peak

Corticostriatal synapses: 3 factor learning Stimulus Representation X1 X2 X3 XN Cortex Adjustable Connections (“weights”) V1 V2 V3 VN Striatum Explain 3 factor learning rule and contrast to normal Hebbian learning Prediction Error (Dopamine) PPTN? R P VTA/SNc

כל זה טוב ויפה אבל... חסר משהו מה לגבי קצב התנהגות? לכל פעולה שהחיה בוחרת לעשות, יש גם אלמנט של תזמון/קצב/מרץ (vigor) – מחליטים גם מה לעשות וגם מתי בא לידי ביטוי במיוחד בניסויי free operant חשוב בכדי להבין השפעות של מוטיבציה על התנהגות

כמה תכונות בסיסיות של קצב התנהגות seconds since reinforcement rate per minute LP first NP Hungry: Sated: (Herrnstein 1970, Catania+Reynolds 1968) reinforcements per hour (Niv, Dayan, Joel) (Herrnstein 1961)

מה יש למודלים לומר על זה? עד כה: כלום

הרחבת המודל לקצבי התנהגות according to schedule UR motivation dependent  cost vigor cost unit cost (reward) how fast ? LP NP Other S0 S1 S2 (+ “eating time”) 1 time 2 time choose (action,) = (LP,1) Costs Rewards choose (action,) = (LP,2) Costs Rewards

המטרה לבחור פעולות (actions ו-latencies) כך שקצב החיזוקים נטו ('רווחים' פחות 'עלויות' לחלק בזמן) יהיה מקסימלי

ARL – איך יראו הערכים וחוק הלמידה? קריטריון שונה מסכום חיזוקים מקסימלי או discounted sum of rewards באופן כללי – ערכים דיפרנציאלים: ובמקרה שלנו: Q(a,,S) = Rewards – Costs + Future Returns Differential value of taking action a with latency  when in state S R = average rewards minus costs, per unit time

תוצאות: התנהגות אופטימלית בלוחות RI LP NP Hungry: Sated: matching: response ratio = reinforcement ratio R1/(R1+R2) N1/(N1+N2) Hungry – utility of reward enhanced threefold (20->60) reinforcements per hour

לוחות ratio – מציאת אופטימום אנליטי בכדי למצוא מקסימום נגזור עפ"י  ונשווה לאפס: כלומר: קצב הלחיצות תלוי רק בקבוע המרץ ובקצב החיזוקים הממוצע

לוחות interval מול לוחות ratio בלוחות interval גם ה-state הבא תלוי ב-, כך שנקבל: כך שקצב הלחיצות האופטימלי נמוך יותר...

מה לגבי מוטיבציה?

שתי דרכי השפעה של מוטיבציה על התנהגות: מוטיבציה משפיעה על ערכי החיזוקים, וכך מכוונת התנהגות לכיוון תוצאות עם ערך יותר גבוה (directing)  השפעה ספציפית על פעולות שונות, תלוית תוצאה. מוטיבציה ממריצה התנהגות (energizing), קובעת רמת drive כללית  השפעה לא תלוית תוצאה, כללית לכל הפעולות. הסיבה לכך לא אינטואיטיבית.

מה אומר על כך המודל? מניפולצית 'רעב' response rate / minute seconds from reinforcement יותר LP (directing) אבל גם... קיצור ה-latency של 'Other' (energizing)! control high utility RR25 energizing effect response rate / minute seconds from reinforcement UR 50% directing effect

איך זה נראה מאחורי הקלעים? latency to action () value unadjusted Q values adjusted higher R Q(a,,S) = Rewards – Costs + Future – Opportunity Returns Cost קצב החיזוקים קובע את העלות של הזמן ('מחיר העצלנות') קצב חיזוקים גבוה יותר  לחץ כללי לתגובות מהירות יותר יוצר אפקט של 'המרצה' על כל הפעולות, כפתרון אופטימלי!

ומה לגבי דופמין? כבר ראינו (או שהאמנתם לי) שדופמין קשור להתניה קלאסית ואופרנטית, ע"י כך שהוא מהווה סיגנל 'טעות ניבוי' שהוא קריטי ללמידה ואף לבחירת התנהגות אבל: לדופמין גם אפקטים על קצב התנהגות יותר דופמין (אמפטמינים, אגוניסטים, פחות מפנים)  קצב עולה פחות דופמין (lesion, אנטגוניסטים, מפנים)  קצב יורד דרמטית (פרקינסון, קצב ריצה במבוך, קצב לחיצה על דוושה) מזכיר לכם משהו?

הצעה: קצב חיזוקים=tonic dopamine Aberman and Salamone 1999 number of LPs in 30 minutes number of LPs in 30 minutes Model simulation כלומר: אנו מציעים שרמת הרקע של דופמין מחושבת מקצב החיזוקים נטו (למשל, ע"י סכימת כל הסיגנלים של טעויות הניבוי) מצפים לרמת רקע גבוהה יותר במצב מוטיבציוני גבוה למידה של מיפוי 'מוטיבציה  קצב חיזוקים' תאפשר חיזוי ואפקטים ישירים של מוטיבציה על קצב התנהגות

ולסיום: ניסויי עלות/תועלת Cousins, Atherton,Turner and Salamone (1996)

אפקטים מנוגדים של דופמין זרוע חסומה: CV, CU גבוהים יותר, אך גם חיזוק גדול יותר ה'מפצה' על המחיר הגבוה. Dopamine lesion: רמת דופמין ברקע יורדת  מחיר הזמן יורד  ניתן לעלות על המחסום לאט יותר ולשלם פחות מחיר (אכן רואים ירידה ב-RT) אבל: גם סיגנלי טעות ניבוי נמוכים יותר, למשל 42; 21 בסה"כ למרות המחיר הנמוך יותר, הפרשי ה'חיזוק' כבר לא מצדיקים בחירה בזרוע החסומה