מוטיבציה והתנהגות free operant

Slides:



Advertisements
Similar presentations
Alan Pickering Department of Psychology
Advertisements

Reinforcement Learning I: prediction and classical conditioning
Unconditioned stimulus (food) causes unconditioned response (saliva) Conditioned stimulus (bell) causes conditioned response (saliva)
Lecture 18: Temporal-Difference Learning
Summary of part I: prediction and RL
Lectures 14: Instrumental Conditioning (Basic Issues) Learning, Psychology 5310 Spring, 2015 Professor Delamater.
dopamine and prediction error
INTRODUCTION TO MACHINE LEARNING 3RD EDITION ETHEM ALPAYDIN © The MIT Press, Lecture.
ETHEM ALPAYDIN © The MIT Press, Lecture Slides for.
1 Decision making. 2 How does the brain learn the values?
Journal club Marian Tsanov Reinforcement Learning.
Dopamine, Uncertainty and TD Learning CNS 2004 Yael Niv Michael Duff Peter Dayan Gatsby Computational Neuroscience Unit, UCL.
Neurobiology of drug action and
Decision making. ? Blaise Pascal Probability in games of chance How much should I bet on ’20’? E[gain] = Σgain(x) Pr(x)
Introduction: What does phasic Dopamine encode ? With asymmetric coding of errors, the mean TD error at the time of reward is proportional to p(1-p) ->
Reward processing (1) There exists plenty of evidence that midbrain dopamine systems encode errors in reward predictions (Schultz, Neuron, 2002) Changes.
FIGURE 4 Responses of dopamine neurons to unpredicted primary reward (top) and the transfer of this response to progressively earlier reward-predicting.
INTRODUCTION TO Machine Learning ETHEM ALPAYDIN © The MIT Press, Lecture Slides for.
Predicting switching behavior: using leaky integrator model Jinsook Roh Dan Corson In Dezhe Jin’s team.
Models of addiction: role of dopamine and other neurobiological substrates Paul E. M. Phillips, Ph.D. Department of Psychiatry and Behavioral Sciences.
Episodic Control: Singular Recall and Optimal Actions Peter Dayan Nathaniel Daw Máté Lengyel Yael Niv.
Psychology of Learning EXP4404 Chapter 6: Schedules of Reinforcement Dr. Steve.
Rapid Dopamine Signaling: Cocaine Versus “Natural” Rewards
Reinforcement learning This is mostly taken from Dayan and Abbot ch. 9 Reinforcement learning is different than supervised learning in that there is no.
Reinforcement learning and human behavior Hanan Shteingart and Yonatan Loewenstein MTAT Seminar in Computational Neuroscience Zurab Bzhalava.
Testing computational models of dopamine and noradrenaline dysfunction in attention deficit/hyperactivity disorder Jaeseung Jeong, Ph.D Department of Bio.
CS344 : Introduction to Artificial Intelligence Pushpak Bhattacharyya CSE Dept., IIT Bombay Lecture 26- Reinforcement Learning for Robots; Brain Evidence.
Unconditioned stimulus (food) causes unconditioned response (saliva) Conditioned stimulus (bell) causes conditioned response (saliva)
Summary of part I: prediction and RL Prediction is important for action selection The problem: prediction of future reward The algorithm: temporal difference.
INTRODUCTION TO Machine Learning
Schedules of reinforcement
CHAPTER 16: Reinforcement Learning. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) 2 Introduction Game-playing:
Summary of part I: prediction and RL Prediction is important for action selection The problem: prediction of future reward The algorithm: temporal difference.
The Neurobiology of Free Will In National Institute on Drug Abuse
Neural Reinforcement Learning Peter Dayan Gatsby Computational Neuroscience Unit thanks to Yael Niv for some slides.
Interaction between chronic and acute pain: down- regulation of motivational value for relief from acute pain 589 OHBM 2009 INTRODUCTION Our recent fMRI.
Neural correlates of risk sensitivity An fMRI study of instrumental choice behavior Yael Niv, Jeffrey A. Edlund, Peter Dayan, and John O’Doherty Cohen.
Manipulating the teaching signal: effects of dopamine-related drugs on human learning systems Wellcome Trust Centre for NeuroImaging University College.
18 Actions, Habits, and the Cortico-Striatal System.
Becoming Extinct. Extinction of Conditioned behavior Extinction is a typical part of the learning process – Pavlovian or Instrumental contingency can.
Baseline Demographic and Clinic Variables According to Office vs 24-Hour or Home BP Giuseppe Mancia, et al. Hypertension 2006;47;
PSY402 Theories of Learning
Chapter 6: Temporal Difference Learning
An Overview of Reinforcement Learning
Neuroimaging of associative learning
Risk-Responsive Orbitofrontal Neurons Track Acquired Salience
Model-based RL (+ action sequences): maybe it can explain everything
neuromodulators; midbrain; sub-cortical;
התניה אופרנטית II: מטרות והרגלים
Rei Akaishi, Kazumasa Umeda, Asako Nagase, Katsuyuki Sakai  Neuron 
Dopamine Does Double Duty in Motivating Cognitive Effort
یادگیری تقویتی Reinforcement Learning
Weighted Interval Scheduling
Neuroimaging of associative learning
Chapter 6: Temporal Difference Learning
Volume 38, Issue 2, Pages (April 2003)
Hannah M. Bayer, Paul W. Glimcher  Neuron 
Dopamine in Motivational Control: Rewarding, Aversive, and Alerting
Ronald Keiflin, Patricia H. Janak  Neuron 
Weighted Interval Scheduling
Neuroimaging of associative learning
Rei Akaishi, Kazumasa Umeda, Asako Nagase, Katsuyuki Sakai  Neuron 
Megan E. Speer, Jamil P. Bhanji, Mauricio R. Delgado  Neuron 
Predictive Neural Coding of Reward Preference Involves Dissociable Responses in Human Ventral Midbrain and Ventral Striatum  John P. O'Doherty, Tony W.
Volume 92, Issue 2, Pages (October 2016)
Firing rate following isolated, unreinforced lever presses.
Orbitofrontal Cortex as a Cognitive Map of Task Space
Cue-evoked dopamine release dynamics in the NAc shell and core.
World models and basis functions
Farshad A. Mansouri, Tobias Egner, Mark J. Buckley 
Presentation transcript:

מוטיבציה והתנהגות free operant מבוא ללמידה והתנהגות: התניה ומח שעור 5

נושאים תרגילים (הקודם, הנכחי, הבא) המשך מודל Actor Critic חזרונת fMRI – O’Doherty+Dayan, Wightman+Phillips – FSCV Discrete trial vs. Free operant – מה חסר ב-A/C? מאפייני Free operant מודל של קצבי התנהגות: אופטימיזציה של קצב חיזוקים... השוואת לוחות חיזוק: interval vs. ratio השפעות של מוטיבציה על התנהגות Free operant איך כל זה מתקשר ל...(מי אם לא) דופמין

הבעיה: 4 2 S1 S3 1 S2 Markov Decision Process States Actions Rewards

מודל Actor-Critic 4 2 S1 S3 1 S2 wsa 2 S1 S3 1 S2 Policy V(t) - Value Function Environment Critic Actor action state r(t) - reward TD error δ(t) Positive prediction error: Things are better than expected →update value of state →update policy (prob. of action) Negative prediction error: Things are worse than expected →update policy s1 s2 s3 V wsv

Actor-Critic במח: טעות ניבוי: דופמין Actor: dorsolateral striatum Critic: ventral striatum (NAC) שני מסלולים דופמינרגים

הרבה עדויות: דוגמא - O’Doherty et al. 2004 שני סוגי צעדים: rewarding; neutral בכל צעד: שני גירויים (High – 60%, Low – 30%) קבוצה 1 – בוחרת גירויים (התניה אינסטרומנטלית) – אכן רואים העדפה ל-High בצעדי reward, אך לא בצעדי neutral קבוצה 2 – Yoked (התניה קלאסית), מצביעים רק על הצד שהמחשב בחר (מדד ללמידה – RT) (מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?)

הרבה עדויות: דוגמא - O’Doherty et al. 2004 (NAC) Ventral striatum – קורלציה עם PE בשתי המטלות: Dorsal striatum – קורלציה עם PE רק במטלה האינסטרומנטלית:

הרבה עדויות: דוגמא - Roitman et al. 2004 Fast scan cyclic voltammetry in striatum Cue-elicited lever-pressing for sucrose at peak of DA burst (discrete trial: cue→LP→intraoral sucrose+FB tone) Cues elicit DA burst in trained but not untrained rats Cue→DA→LP at DA peak

Corticostriatal synapses: 3 factor learning Stimulus Representation X1 X2 X3 XN Cortex Adjustable Connections (“weights”) V1 V2 V3 VN Striatum Explain 3 factor learning rule and contrast to normal Hebbian learning Prediction Error (Dopamine) PPTN? R P VTA/SNc

כל זה טוב ויפה אבל... חסר משהו מה לגבי קצב התנהגות? לכל פעולה שהחיה בוחרת לעשות, יש גם אלמנט של תזמון/קצב/מרץ (vigor) – מחליטים גם מה לעשות וגם מתי בא לידי ביטוי במיוחד בניסויי free operant חשוב בכדי להבין השפעות של מוטיבציה על התנהגות

כמה תכונות בסיסיות של קצב התנהגות seconds since reinforcement rate per minute LP first NP Hungry: Sated: (Herrnstein 1970, Catania+Reynolds 1968) reinforcements per hour (Niv, Dayan, Joel) (Herrnstein 1961)

מה יש למודלים לומר על זה? עד כה: כלום

הרחבת המודל לקצבי התנהגות according to schedule UR motivation dependent  cost vigor cost unit cost (reward) how fast ? LP NP Other S0 S1 S2 (+ “eating time”) 1 time 2 time choose (action,) = (LP,1) Costs Rewards choose (action,) = (LP,2) Costs Rewards

המטרה לבחור פעולות (actions ו-latencies) כך שקצב החיזוקים נטו ('רווחים' פחות 'עלויות' לחלק בזמן) יהיה מקסימלי

ARL – איך יראו הערכים וחוק הלמידה? קריטריון שונה מסכום חיזוקים מקסימלי או discounted sum of rewards באופן כללי – ערכים דיפרנציאלים: ובמקרה שלנו: Q(a,,S) = Rewards – Costs + Future Returns Differential value of taking action a with latency  when in state S R = average rewards minus costs, per unit time

תוצאות: התנהגות אופטימלית בלוחות RI LP NP Hungry: Sated: matching: response ratio = reinforcement ratio R1/(R1+R2) N1/(N1+N2) Hungry – utility of reward enhanced threefold (20->60) reinforcements per hour

לוחות ratio – מציאת אופטימום אנליטי בכדי למצוא מקסימום נגזור עפ"י  ונשווה לאפס: כלומר: קצב הלחיצות תלוי רק בקבוע המרץ ובקצב החיזוקים הממוצע

לוחות interval מול לוחות ratio בלוחות interval גם ה-state הבא תלוי ב-, כך שנקבל: כך שקצב הלחיצות האופטימלי נמוך יותר...

מה לגבי מוטיבציה?

שתי דרכי השפעה של מוטיבציה על התנהגות: מוטיבציה משפיעה על ערכי החיזוקים, וכך מכוונת התנהגות לכיוון תוצאות עם ערך יותר גבוה (directing)  השפעה ספציפית על פעולות שונות, תלוית תוצאה. מוטיבציה ממריצה התנהגות (energizing), קובעת רמת drive כללית  השפעה לא תלוית תוצאה, כללית לכל הפעולות. הסיבה לכך לא אינטואיטיבית.

מה אומר על כך המודל? מניפולצית 'רעב' response rate / minute seconds from reinforcement יותר LP (directing) אבל גם... קיצור ה-latency של 'Other' (energizing)! control high utility RR25 energizing effect response rate / minute seconds from reinforcement UR 50% directing effect

איך זה נראה מאחורי הקלעים? latency to action () value unadjusted Q values adjusted higher R Q(a,,S) = Rewards – Costs + Future – Opportunity Returns Cost קצב החיזוקים קובע את העלות של הזמן ('מחיר העצלנות') קצב חיזוקים גבוה יותר  לחץ כללי לתגובות מהירות יותר יוצר אפקט של 'המרצה' על כל הפעולות, כפתרון אופטימלי!

ומה לגבי דופמין? כבר ראינו (או שהאמנתם לי) שדופמין קשור להתניה קלאסית ואופרנטית, ע"י כך שהוא מהווה סיגנל 'טעות ניבוי' שהוא קריטי ללמידה ואף לבחירת התנהגות אבל: לדופמין גם אפקטים על קצב התנהגות יותר דופמין (אמפטמינים, אגוניסטים, פחות מפנים)  קצב עולה פחות דופמין (lesion, אנטגוניסטים, מפנים)  קצב יורד דרמטית (פרקינסון, קצב ריצה במבוך, קצב לחיצה על דוושה) מזכיר לכם משהו?

הצעה: קצב חיזוקים=tonic dopamine Aberman and Salamone 1999 number of LPs in 30 minutes number of LPs in 30 minutes Model simulation כלומר: אנו מציעים שרמת הרקע של דופמין מחושבת מקצב החיזוקים נטו (למשל, ע"י סכימת כל הסיגנלים של טעויות הניבוי) מצפים לרמת רקע גבוהה יותר במצב מוטיבציוני גבוה למידה של מיפוי 'מוטיבציה  קצב חיזוקים' תאפשר חיזוי ואפקטים ישירים של מוטיבציה על קצב התנהגות

ולסיום: ניסויי עלות/תועלת Cousins, Atherton,Turner and Salamone (1996)

אפקטים מנוגדים של דופמין זרוע חסומה: CV, CU גבוהים יותר, אך גם חיזוק גדול יותר ה'מפצה' על המחיר הגבוה. Dopamine lesion: רמת דופמין ברקע יורדת  מחיר הזמן יורד  ניתן לעלות על המחסום לאט יותר ולשלם פחות מחיר (אכן רואים ירידה ב-RT) אבל: גם סיגנלי טעות ניבוי נמוכים יותר, למשל 42; 21 בסה"כ למרות המחיר הנמוך יותר, הפרשי ה'חיזוק' כבר לא מצדיקים בחירה בזרוע החסומה