התניה אופרנטית II: מטרות והרגלים

Slides:



Advertisements
Similar presentations
Classical Conditioning in Dating
Advertisements

Lectures 14: Instrumental Conditioning (Basic Issues) Learning, Psychology 5310 Spring, 2015 Professor Delamater.
Lecture 17: Instrumental Conditioning (Associative Structures) Learning, Psychology 5310 Spring, 2015 Professor Delamater.
Classical and Operant Conditioning Pavlov, Skinner, and YOU!
Psych 181: Dr. Anagnostaras Lecture 4 Behavioral Pharmacology.
Aversive Control: Avoidance and Punishment
Copyright © 2005 Pearson Education Canada Inc. Learning Chapter 5.
FIGURE 4 Responses of dopamine neurons to unpredicted primary reward (top) and the transfer of this response to progressively earlier reward-predicting.
Psychology of Learning EXP4404
Learning the Consequences of Behavior
Episodic Control: Singular Recall and Optimal Actions Peter Dayan Nathaniel Daw Máté Lengyel Yael Niv.
Learning.
B.F. SKINNER - "Skinner box": -many responses -little time and effort -easily recorded -RESPONSE RATE is the Dependent Variable.
© 2013 by McGraw-Hill Education. This is proprietary material solely for authorized instructor use. Not authorized for sale or distribution in any manner.
Learning Definition: A relatively permanent change in behavior potential caused by experience or practice. Different from warmup, fatigue, motivation,
Reinforcement & Punishment: What is an S R ? Lesson 11.
Reinforcement learning and human behavior Hanan Shteingart and Yonatan Loewenstein MTAT Seminar in Computational Neuroscience Zurab Bzhalava.
CS344 : Introduction to Artificial Intelligence Pushpak Bhattacharyya CSE Dept., IIT Bombay Lecture 26- Reinforcement Learning for Robots; Brain Evidence.
4 th Edition Copyright 2004 Prentice Hall5-1 Learning Chapter 5.
Instrumental Conditioning: Motivational Mechanisms.
The role of the basal ganglia in habit formation Group 4 Youngjin Kang Zhiheng Zhou Baoyu Wang.
OPERANT CONDITIONING. Learning in which a certain action is reinforced or punished, resulting in corresponding increases or decreases in behavior.
Chapter 16. Basal Ganglia Models for Autonomous Behavior Learning in Creating Brain-Like Intelligence, Sendhoff et al. Course: Robots Learning from Humans.
© 2013 by McGraw-Hill Education. This is proprietary material solely for authorized instructor use. Not authorized for sale or distribution in any manner.
Summary of part I: prediction and RL Prediction is important for action selection The problem: prediction of future reward The algorithm: temporal difference.
Neural Networks Chapter 7
If behavior was dominated in the past by Hull’s S-R reinforcement paradigm, what paradigm is it dominated by today? There is a causal relationship between.
A View from the Bottom Peter Dayan Gatsby Computational Neuroscience Unit.
Summary of part I: prediction and RL Prediction is important for action selection The problem: prediction of future reward The algorithm: temporal difference.
Neural Reinforcement Learning Peter Dayan Gatsby Computational Neuroscience Unit thanks to Yael Niv for some slides.
Kate M. Wassum, Ingrid C. Cely, Dr. Sean B. Ostlund, Dr. Nigel T. Maidment, Dr. Bernard W. Balleine Charles Drew University of Medicine and Science 4 th.
Chapter 7 The Associative Structure of Instrumental Conditioning.
Trial and error learning Thorndike’s puzzle box. Trial and error learning This type of learning occurs when an organism attempts to learn by undertaking.
Neural correlates of risk sensitivity An fMRI study of instrumental choice behavior Yael Niv, Jeffrey A. Edlund, Peter Dayan, and John O’Doherty Cohen.
Stimulus Control. Stimulus Control of Behavior Having stimulus control means that the probability of the behavior varies depending upon the stimuli present.
Chapter 6 LEARNING. Learning Learning – A process through which experience produces lasting change in behavior or mental processes. Behavioral Learning.
Ventral Medial Prefrontal Cortex and Emotional Perseveration: The Memory for Prior Extinction Training Maria A. Morgan, Jay Schulkin, Joseph E. LeDoux.
18 Actions, Habits, and the Cortico-Striatal System.
Becoming Extinct. Extinction of Conditioned behavior Extinction is a typical part of the learning process – Pavlovian or Instrumental contingency can.
Mechanisms of Extinction
Chapter 5 Learning © 2013 by McGraw-Hill Education. This is proprietary material solely for authorized instructor use. Not authorized for sale or distribution.
Extinction of Conditioned Behavior
Factors Affecting Performance on Reinforcement Schedules
Prior cocaine exposure disrupts extinction of fear conditioning
An Overview of Reinforcement Learning
Operant Conditioning 6.2.
Neuroimaging of associative learning
Model-based RL (+ action sequences): maybe it can explain everything
neuromodulators; midbrain; sub-cortical;
How do classical and operant conditioning differ?
Operant Conditioning Cont…
מוטיבציה והתנהגות free operant
הכללה ואבחנה – הסקת מודלים של העולם
Operant Conditioning Unit 4 - AoS 2 - Learning.
למידה, התניה ומח – מי עושה מה?
Emotion, Decision Making, and the Amygdala
Classical Conditioning
یادگیری تقویتی Reinforcement Learning
Neuroimaging of associative learning
Reward, Motivation, and Reinforcement Learning
Volume 88, Issue 6, Pages (December 2015)
Operant & Cognitive Approaches
Ronald Keiflin, Patricia H. Janak  Neuron 
Thomas G. Bowers, Ph.D. Penn State Harrisburg
PSY402 Theories of Learning
Neuroimaging of associative learning
PSY 402 Theories of Learning Chapter 7 – Behavior & Its Consequences
Orbitofrontal Cortex as a Cognitive Map of Task Space
Volume 15, Issue 2, Pages (April 2016)
World models and basis functions
Presentation transcript:

התניה אופרנטית II: מטרות והרגלים מבוא ללמידה והתנהגות: התניה ומח שעור 6

נושאים מה נכנס לאסוסיאציה אופרנטית? S-R מול R-O המניפולציה הקריטית: devaluation סוגי devaluation והשפעתם על התנהגות התנהגות הרגלית התנהגות מונחית מטרה Incentive learning מודל חישובי: איך כל זה מסתדר עם RL, ואיך המח מחליט מתי לעבור ממערכת אחת לשניה? 'ניתוח מונחה מודל אסוציאטיבי': הבסיס המוחי ללמידה אופרנטית

ניתוח תאורטי של התניה אופרנטית תאוריה של למידה: מהן האסוסיאציות הנוצרות בעת ההתניה? כיצד שינויים אלו משפיעים על ההתנהגות? שאלה חישובית 'מקבילה': מהו המבנה החישובי הנלמד והמהווה בסיס לקבלת החלטות בהתניה אופרנטית? חשוב: נרצה לבחון שאלה זו לגבי התניה אופרנטית. בעיה: לא תמיד ברור מתי הסמיכות האופרנטית היא זו ששולטת בהתנהגות. ריצה במבוך vs לחיצה על דוושה.

S-R מול R-O (קלאסית מול אופרנטית) התניה כרכישת ידע אודות העולם: קלאסית: לימוד של אילו ארועים בעולם מנבאים חיזוקים אופרנטית: לימוד של אילו פעולות בעולם קשורות להופעת חיזוקים תאורטיקנים ראשונים (Gutherie 1952, Hull 1943): תאוריה אחת לשתי ההתניות – S-R בשני המקרים התגובה מקושרת לגירוי המקדים אותה קלאסית: UR מקושר ל-CS אופרנטית: R מקושר ל-SD או לגירויי קונטקסט סביבתיים בשני המקרים החיזוק עצמו אינו חלק מהאסוסיאציה אבל: תאורית S-R של התניה אופרנטית מניחה שהארועים המקושרים ע"י החיה שונים מאלו שבסמיכות הקריטית בניסוי אלטרנטיבה: תאוריות R-O של התניה אופרנטית (וקלאסית?) (Tolman,Rescorla)

S-R מול R-O: איך נכריע? שאלה מרכזית: האם החיזוק הוא חלק מההתניה או לא? שינוי ערך ה- O/המוטיבציה ל-O לאחר ההתניה האם ההתנהגות תשתנה בהתאם? שינוי ערך ה-O: שלוש שיטות (לפחות) שינוי המצב המוטיבציוני של החיה (רעב, צמא, חסך מלח, דחף מיני – ויש גם אינטראקציות ביניהם) שובע ספציפי - specific satiety התנית אברסיה לחיזוק (LiCl) מתקשר לשני מרכיבי ערכו של חיזוק: primary value - מושפע ממצב הדחפים/החסכים של החיה (הצרכים הפנימיים) incentive value - "ערך התמריץ"/"כח המשיכה" של החיזוק שימו לב: מה שונה ומה דומה בין סוגי המניפולציות?

שינוי ערך ה-O לאחר האימון: הפרדיגמה 1 - Training: 2 – Pairing with illness: ? Non-devalued Unshifted 2 – Motivational shift: Hungry Sated The basic paradigm is that of a post-training shift in motivation/outcome value followed by an extinction test. ? 3 – Test: (extinction)

שינוי ערך ה-O לאחר האימון: התוצאות LP: Short training LP: Extensive training control devalued Magazine approach control devalued response rate control devalued Goal Directed Behavior Habitual Behavior The animal does inconsistent things in one setting!  אימון רב יוצר הרגלים  אבל.. רק עבור פעולות רחוקות מהחיזוק!

S-R מול R-O: שני סוגי התנהגות התנהגות מכוונת למטרה: מתווכת ע"י אסוסיאצית R-O (או A-O) ה-O מהווה מטרה עבור החיה בעצם שני מבחנים: שינוי ערך ה-O או שינוי הסמיכות בין A ל-O התנהגות הרגלית: לא תלויה בתוצאה אלא מבוצעת בגלל נכחות הגירויים שהיו קיימים בעת שהפעולה נרכשה – S-R (דוגמאות?) הגדרה על דרך השלילה

גורמים המשפיעים על יצירת הרגלים אורך האימון מרחק מהחיזוק לוח החיזוקים (מהיר יותר בחיזוק חלקי, מהיר יותר בלוחות interval בהשואה ל-ratio) כמות הפעולות שמאמנים (שתי פעולות לשני חיזוקים שונים – לא הופך להרגל)

סיבוך נוסף: התנהגות מונחית מטרה ולמידת תמריץ סיפור המסעדה בסוף הטיול התנהגות מונחית מטרה רגישה לערך המטרה רק בהנתן אפשרות ל-"למידת תמריץ" (incentive learning)

למידת תמריץ - incentive learning Hungry Sated 2. motivational shift use different food Incentive learning has led psychologists to propose a theory based on 3 controllers, one for each behavior: One knows the value, one has to learn it, and one doesn’t care (non parsimonious) Restaurant example

סיבוך נוסף: התנהגות מונחית מטרה ולמידת תמריץ סיפור המסעדה בסוף הטיול התנהגות מונחית מטרה רגישה לערך המטרה רק בהנתן אפשרות ל-"למידת תמריץ" (incentive learning) אולי זה הגיוני לגבי motivational shift (קשה להפריד בין שני מרכיבי ערך החיזוק מדוגמא אחת) אבל – מה לגבי התנית אברסיה? סיפור האבטיח של טוני ממצאים ניסויים מהתנית אברסיה בפעם אחת – Dickinson מול Rescorla ו... הכי גרוע – כל זה לא תופס להתנהגות nose poke, שגם סווגה כמונחית מטרה

הפתרון של Dickinson + Balleine שלושה סוגי התנהגות: הרגלית – לא רגישה לערך המטרה מונחית מטרה – רגישה לערך המטרה רק אחרי למידת תמריץ קלאסית – תמיד רגישה לערך המטרה, ללא צורך בלמידת תמריץ אבל: תאוריה בעייתית חוסר קונסיסטנטיות בקבלת החלטות – אם המערכת הפבלובית יודעת מה בדיוק ערך המטרה, למה המערכת מונחית המטרה 'מתעלמת' מכך? לא ברור שבאמת התנהגות קלאסית רגישה ישירות לערך המטרה ניסוי שרשרת הפעולות האופרנטיות... (1995)

Motivational control of heterogeneous instrumental chains/ Balleine, Garner, Gonzalez and Dickinson 1995 חולדות רעבות מאומנות בקופסת סקינר, ללא דלת על מחסנית המזון לחיצה על דוושה (A1)  משיכת חבל (A2)  חיזוק (O) לאחר האימון מחצית החולדות מועברות לשובע Test: מוסיפים למידת תמריץ למחצית החולדות (ניסוי נפרד, כולן נבחנות שבעות) מה לגבי פשוט לחיצה על דוושה אבל בלי דלת על המחסנית?

לחיצה על דוושה – האם יש צורך בלמידת תמריץ? רגישות לערך המטרה תלויה במיקום של הפעולה בשרשרת! שלושה הסברים במאמר: פרוקסימלי – S-R רגיש ישירות למוטיבציה (כמו הרגלים) (??) פרוקסימלי יותר פבלובי בשל הקרבה ל-US (הדיסטלי מוצלל ע"י גירויים פרוקסימלים, ורחוק מה-US, ולכן פחות מותנה קלאסית) ייצוג היררכי A1-(A2-O) כאשר A1 מהווה SD. הקרוב (A2) רגיש ישירות, בעוד הרחוק היררכית אינו

הסבר אחר: Daw, Niv, Dayan 2005 מה תאוריות Reinforcement learning חישוביות אומרות על כל זה? הבעיה: קבלת החלטות אופטימלית במקרה של שרשרת פעולות (חיזוק בסוף השרשרת) דברנו רבות על שיטה אחת לפתרון הבעיה: ללמוד ערכים למצבים/גירויים (states) בעזרת טעויות ניבוי, וללמוד אסטרטגיה התנהגותית באמצעות אותן טעויות ניבוי. ממידע מקומי ניתן ללמוד התנהגות אופטימלית לטווח רחוק. S A Policy Environment Actor action state S evaluation Function Critic r(t) - reward TD error δ(t) 4 2 S1 S3 1 S2 “If the only tool you have is a hammer, you tend to see every problem as a nail” - A. Maslow

Actor/Critic ו-TD כלמידת S-R מה יקרה אם: נשנה את ערך החיזוק? נשנה את מבנה המבוך? 4 2 S1 S3 1 S2 1

Actor/Critic ו-TD כלמידת S-R למידת ערך V לגירוי: מנותק מזהות ה-US עצמה חשוב: ממיר הכל למטבע משותף בכדי להשוות ולבחור אופצית פעולה אחת אבל: מאבד קשר ישיר ל-US/O. למשל, אם החיה עכשיו צמאה ולא רעבה, איך תדע בכמה לשנות את הערכים V(S1), V(S2), V(S3)? ואיך תדע לשנות אסטרטגית התנהגות? 4 2 S1 S3 1 S2

אבל... יש עוד דרכים לפתור את אותה בעיה S0 initial state S2 food delivered A2: approach magazine S1 nothing obtained A1: press lever r=1 ניתן ללמוד מתוך נסיון ממש את מבנה העץ One-step transitions Immediate outcomes Reward utilities בזמן ההחלטה ניתן לעבור על העץ ('סימולציה') עד לנקודות הקצה, כדי לקבוע מה הערך (בטווח ארוך) של כל פעולה יתרון: גמיש, רגיש לכל שינוי חסרון: לרוב בלתי אפשרי בשל הסיבוכיות של העץ (משחק שח) פסיכולוגיה: R-O, התנהגות מונחית מטרה

שתי דרכים שונות לחישוב מה ערכה של פעולה No reward R = 0 S2 Food obtained R = 1 S3 Initial state S0 approach magazine press lever Food delivered S1 a Tree System approach magazine Q = 0 Initial state S0 press lever Q = 1 No reward S2 Food delivered S1 Food obtained S3 b Cache System

לימוד העץ:

השוואה: פתרון בשיטת S-R או R-O 4 2 S1 S3 1 S2 R-O יתרונות: גמישות מירבית חסרונות: קשה לחשב מה הערך של כל פעולה בזמן אמת (מהר מאוד יש יותר מדי אפשרויות) S-R בחירת פעולה עם ערך מירבי: V(S1,L) = R(S1,L) + V(S2) V(S1,R) = R(S1,R) + V(S3) יתרונות: פשוט ללמוד את הערך האופטימלי מתוך נסיון; קל מאוד לבחור פעולה בהנתן הערכים חסרונות: גמישות מוגבלת (שינוי ערך ה-O, שינוי צורת המבוך) S1 S2 S3 R L

באיזו דרך להשתמש מתי? הפתרון הנורמטיבי: להשתמש בכל שיטה במקום בו היא טובה יותר = מדוייקת יותר עץ: טוב במצבים של מעט מידע (יעיל) וקרבה לחיזוק (ניתן לחישוב) ערכים מאוחסנים: טובים לאחר למידה רבה, ואז לא משנה אם הם קרובים או רחוקים מהחיזוק (אין חיפוש איטרטיבי) ...מתאים לתוצאות של ניסויים לגבי התנהגות הרגלית לעומת מונחית מטרה

שתי המערכות קיימות ופועלות במח במקביל פגיעות ב-dorsolateral striatum: התנהגות לא הופכת להרגלית גם לאחר אימון ממושך (ממשיכה להיות רגישה לערך החיזוק) פגיעות ב-dorsomedial striatum, prelimbic PFC: התנהגות הרגלית כבר בתחילת האימון (לא רגישה לערך החיזוק)  מעיד על שתי מערכות הפועלות במקביל ויכולות לשלוט בהתנהגות בכל עת!

Killcross+Coutureau 2003 אימון של שתי פעולות לשני חיזוקים (בנפרד) – אחד באימון ארוך והשני בקצר Test לאחר שובע ספציפי

איך המח ידע מי המערכת המדוייקת יותר? איך המח ידע על איזו מערכת לסמוך מתי? הרעיון: כל מערכת תחשב ותדווח גם על מידת הבטחון שלה (uncertainty) עץ: אי ודאות בשל רעש בחיפוש בעץ ערכים מאוחסנים: אי ודאות בשל חוסר נסיון המח יבחר להאמין למערכת בעלת הבטחון הרב ביותר שימו לב: לא תמיד יבחר הערך הגבוה יותר (חוסר) קשר בין uncertainty ו-risk בעבר: uncertainty שמש לקביעת קצב הלמידה (Kalman filter). כאן: שימוש נוסף – בחירה בין מערכות מקבילות estimated action value cache tree בעצם השאלה היא איך המח יודע על מי לסמוך מתי?

סימולציות של ניסויי devaluation Non- devalued Devalued Cache Tree a Distal action Rewarded trials relative to non-devalued Response rate b Proximal action Uncertainty

מה לגבי למידת תמריץ? שינוי ערך החיזוק: מעלה את אי הודאות של העץ (אך לא את זו של המערכת ההרגלית) אי ודאות גבוהה יותר בעץ  המח בוחר במערכת ההרגלית (אין רגישות לערך החדש של החיזוק) אבל: בפעולות קרובות מאוד לחיזוק (nose poke), גם עם אי הודאות הנוספת, השליטה נותרת בידי העץ (המערכת מונחית המטרה). למידת תמריץ: מורידה חזרה את אי הודאות של העץ  המח בוחר במערכת מונחית המטרה גם בפעולות מרוחקות, ורואים רגישות לערך החדש של החיזוק גם בלחיצת הדוושה

סימולציה: למידת תמריץ * Distal action Proximal action Cache Tree Action probability Control Shift only Shift + Incentive learning

הסבר חדש ללמידת תמריץ אין צורך להניח שלוש מערכות אין צורך להניח שהמערכת ה'חכמה' (מונחית המטרה) לא יודעת מה ערך המטרה (בעוד מערכת אחרת כן יודעת!) אבל - מערכת אחת אכן מתעלמת ממשהו שהשניה יודעת כתוצאה ממגבלות אלגוריתם החישוב!

התניה אופרנטית: איפה כל זה קורה? Balleine ושות' – סדרת ניסויים נרחבת מונחית המודל של שתי סוגי אסוסיאציות מבחנים: שינוי ערך החיזוק, שינוי הסמיכות, קצב הלמידה, למידת אברסיה למזון, למידה של שתי פעולות לשני חיזוקים, מבחן עם/בלי חיזוקים, יכולת ללמוד שרשרת פעולות פגיעות: lesions לפני ואחרי אימון, אינאקטיבציה זמנית בשלבי אימון/מבחן שונים...

הבסיס המוחי להתנהגות מונחית מטרה pDMS – קשור ללמידת A-O (פגיעה גוררת חוסר רגישות לערך החיזוק וכן לסמיכות בין פעולה לחיזוק) אימון: שתי פעולות ושני חיזוקים, לוח ratio. מבחן: שובע ספציפי, סמיכות Yin et al (2005)

הבסיס המוחי להתנהגות מונחית מטרה mPFC – קשור לרכישה (פגיעה לפני רכישה אך לא אחריה יוצרת חוסר רגישות לערך המטרה) BLA – ייצוג של ערך ה-O של פעולה (רואים באימון של שני A לשני O) reacquisition Ostlund et al. (2005) Balleine, Killcross + Dickinson (2003)

הבסיס המוחי להתנהגות מונחית מטרה היפוקמפוס – קשר סיבתי (דקלרטיבי?) בין פעולה לתוצאה (אין פגיעה ברגישות לערך החיזוק, אך כן ברגישות לסמיכות) אימון של שתי פעולות לשני חיזוקים מבחן שובע ספציפי אימון בסמיכות מופחתת מבחן בהכחדה Corbit + Balleine (2000)

הבסיס המוחי להתנהגות הרגלית DLS (אך לא DMS) – מעורב ביצירת אסוסיאצית S-R קבוצות: Sham, DMS, DLS אימון VI ממושך CTA devaluation כולם רוכשים לחיצה ו-CTA DLS מראים רגישות לערך החיזוק ב-test Yin et al (2003)

בסה"כ:

סיכום למידה אופרנטית אינה תופעה פשוטה עם מנגנון יחיד ההתנהגות נקבעת ע"י האינטראקציה בין מערכות למידה וזכרון רבות, חלקן משלימות וחלקן מתחרות שבוע הבא: האם המנגנונים האלו מתווכים גם למידה קלאסית או שיש גם שם מנגנונים נפרדים נוספים?