מבוא ללמידה והתנהגות: התניה ומח שעור 4

Slides:



Advertisements
Similar presentations
1 Formal Specifications for Complex Systems (236368) Tutorial #4 Refinement in Z: data refinement; operations refinement; their combinations.
Advertisements

(Paradigm=Example) Artist unknown A group of scientists placed 5 monkeys in a cage and in the middle, a ladder with bananas on the top. קבוצת מדענים.
Operant or Instrumental Conditioning Psychology 3306.
1 Formal Specifications for Complex Systems (236368) Tutorial #5 Refinement in Z: data refinement; operations refinement; their combinations.
שאילת שאלות שאלת חקר המפתח למנעול 1. שאילת שאלות – שאלת חקר מה ניתן לשנות ? :  בתנאים : טמפ ' או לחץ או הכלים, או הציוד  בחומרים : איכות או כמות או.
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
למידה ענף בפסיכולוגיה העוסק בשאלה: How do we come to know things? על איזה סוג למידה נלמד? הגדרה ללמידה – רעיונות? שינוי מתמשך במנגנוני ההתנהגות בסיטואציה.
Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה.
A. Frank File Organization Hardware Size Parameters.
OPERANT CONDITIONING DEF: a form of learning in which responses come to be controlled by their consequences.
OPERANT CONDITIONING Changing Behavior Through Reinforcement and Punishment.
Operant Conditioning E.L. Thorndike and B.F. Skinner.
Behavioral Approaches to Personality What is behavior?
PSY402 Theories of Learning Chapter 6 – Appetitive Conditioning.
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
Instrumental/Operant Conditioning. Thorndike’s Puzzle Box.
B. F. Skinner Radial Behaviorism B.F. Skinner ( ) 1925: Hamilton College (NY): degree in English, no courses in psychology Read about Pavlov’s.
Chapter 6 Learning and Behavior Learning n A more or less permanent change in behavior that results from experience.

Costs and Filters Dr. Avi Rosenfeld Department of Industrial Engineering Jerusalem College of Technology
Operant Conditioning Chapter 6.
Trial and error learning Thorndike’s puzzle box. Trial and error learning This type of learning occurs when an organism attempts to learn by undertaking.
Chapter 6 LEARNING. Learning Learning – A process through which experience produces lasting change in behavior or mental processes. Behavioral Learning.
Operant Conditioning First Hour – How is behaviour shaped by operant conditioning? Paradigms of Operant Conditioning Edward Thorndike The Law of Effect.
Instrumental Conditioning
מספרים אקראיים ניתן לייצר מספרים אקראיים ע"י הפונקציה int rand(void);
Learning Ch. 5.
Learning Chapter 9.
Operant or Instrumental Conditioning
Chapter 5 Learning © 2013 by McGraw-Hill Education. This is proprietary material solely for authorized instructor use. Not authorized for sale or distribution.
Unit 6 Learning.
Learning Operant (Instrumental) Conditioning
מבוא ללמידה והתנהגות: התניה ומח שעור 2
Learning.
Module 20 Operant Conditioning.
Operant Conditioning 6.2.
Operant Conditioning Module 27.
Chapter 6: Learning Ch. 6.
Chapter 6 Learning.
SQL בסיסי – הגדרה אינדוקטיבית
מבוא ללמידה והתנהגות: התניה ומח
פרק 3- למידה                                                                                    
פרוקטוז, C6H12O6 , חד-סוכר מיוחד
PSY402 Theories of Learning
1. התניה קלאסית ואופרנטית: דומה ושונה 2. הכחדה
Learning (Behaviorism)
Operant Conditioning Terms
Operant Conditioning Terms
Operant Conditioning Chapter 9 Section 2.
מבוא ללמידה והתנהגות: התניה ומח שעור 3
Operant Conditioning of Canis lupis familiaris
ההשפעה של מוטיבציה על התנהגות
הנעה חשמלית.
מוטיבציה והתנהגות free operant
Operant Conditioning Unit 4 - AoS 2 - Learning.
Ivan Pavlov ( ). Ivan Pavlov ( )
תוכנה 1 תרגול 13 – סיכום.
Operant Conditioning of Canis lupis familiaris
Chapter 7 (C): Operant Conditioning
Neuroimaging of associative learning
II. Operant Conditioning
Operant Conditioning.
Do-Now: Describe the following phenomena of Classical Conditioning:
Learning (Behaviorism)
Module 27 – Operant Conditioning 27
PSY 402 Theories of Learning Chapter 7 – Behavior & Its Consequences
Chapter 7: Learning.
Learning A.P. Psychology.
Part 1- Behaviorist Learning Theory
Operant Conditioning of Canis lupis familiaris
Presentation transcript:

מבוא ללמידה והתנהגות: התניה ומח שעור 4 התניה אופרנטית – חלק א' מבוא ללמידה והתנהגות: התניה ומח שעור 4

נושאים חובות מפעם קודמת: Thorndike וה- Law of Effect כמה מלים על חוק בייס ו-Kalman filter התניה קלאסית ובני אדם: טיפול בפוביות Thorndike וה- Law of Effect סוגי פרוצדורות בצעדים בדידים Skinner ולוחות חיזוק מודל Actor Critic – קשר ל-TD, מימוש ברשת נוירונים מימוש במח – תאוריה, ומעשה (fMRI – O’Doherty+Dayan, Wightman+Phillips - FSCV)

אי ודאות והתניה קלאסית לכל ערך של גירוי מוצמד גם מידת בטחון (uncertainty) בערך. הבטחון יורד ככל שעובר זמן מאז שהגירוי הוצג לאחרונה. מבחינת שילוב אופטימלי של מידע חדש עם ישן, ככל שהבטחון נמוך יותר, נרצה להגביר את קצב הלמידה איך זה קשור לחוק בייס ולהסקה סטטיסטית אופטימלית? מה יקרה ב-t* ומה יקרה ב-ts?

חוק Bayes – הסקה סטטיסטית המטרה: לייצג אמונות על העולם אקסיומות Cox: אם מייצגים אמונות ע"י מספרים ממשיים, הדרך היחידה לתפעל אותם, שהיא סבירה וקונסיסטנטית, היא ע"י חוק Bayes. דרך אופטימלית (מבחינה סטטיסטית) לשלב בין הנחות קודמות למידע חדש המון מחקר כיום מראה כי אנשים ובע"ח משתמשים בהסקה בייסאנית (מע' מוטורית, ויזואלית וכו'). עוד בסוף הקורס. Cox Axioms (Desiderata): • Strengths of belief (degrees of plausibility) are represented by real numbers • Qualitative correspondence with common sense • Consistency – If a conclusion can be reasoned in more than one way, then every way should lead to the same answer. – The agent always takes into account all relevant evidence. – Equivalent states of knowledge are represented by equivalent plausibility assignments. Consequence: Belief functions (e.g. b(x), b(x|y), b(x,y)) must satisfy the rules of probability theory, including Bayes rule.

Kalman filter – הסקה סטטיסטית ותחרות במודל סטטיסטי מסויים של העולם (הילוך מקרי עם רעש גאוסיאני של הערכים, רעש גאוסיאני בתצפיות), ההסקה הסטטיסטית האופטימלית (מהנצפה אל הערכים האמיתיים, לפי חוק Bayes) היא עפ"י Kalman filter: כמודל של למידה קלאסית מגלם: קצב למידה תלוי בבטחון היחסי; תחרות בין גירויים (לא כתוצאה ממחסור במשאבים!)

שימושי התניה קלאסית בבני אדם: טיפול בפוביות רוב התגובות האמוציונליות שלנו נלמדות, דרך התניה קלאסית Watson+Rayner (1920) – בדקו תגובות של תינוקות לגירויים שחשבו שהם מפחידים מלידה (אש, חולדות, כלבים) – אף אחד מהם לא היה מפחיד. צליל חזק: כן. ניסוי אלברט הקטן המפורסם (לא הגיע לסיומו) פוביות: פחד בלתי פרופורציונלי לסכנה שבמצב. ל- 7-20% מהאוכלוסיה יש סימפטומים, ב- 1% - פוביה חמורה הפוגעת בתפקוד. תלמידה של Watson: Mary Jones השתמשה בהתניית נגד בכדי לבטל התניית פחד. התניית נגד: שילוב CS-ים עם תגובות נוגדות. התהליך הדרגתי כיום מקובל: Systematic desensitization במצב של רגיעה עמוקה מעלים באופן הדרגתי גירויים יותר ויותר מפחידים

שימושים נוספים בהתניה קלאסית בבני אדם מניעת אברסיה למזון בחולים המקבלים כמותרפיה ע"י סוכריה מסויימת לפני הטיפול (תהיה אברסיה רק אליה) פרסום: צימוד של המוצר ל-US המעורר תגובה רגשית חיובית גורם ליחס חיובי יותר למוצר Conditioned immunosuppression: לטיפול בשלבקת חוגרת (Lupus), למשל. התרופות גורמות לעיכוב מערכת החיסון. צימוד של CS (שמן עם טעם מסויים) עם התרופה  בהמשך ניתן לתת את השמן במקום התרופה ותתקבל אותה תגובה חיסונית! (אותו דבר אולי באלרגיות – אלרגיה נלמדת למראה פרחים, ולא לאבקנים)

סיכום: התניה קלאסית צימוד בין גירויים גורר (בתנאים מסויימים) למידה ללא תלות בהתנהגות החיה – אך מתבטא בהתנהגות (סרט) נעבור עכשיו להתניה אופרנטית תזכורת: שאלות חשובות באילו תנאים ישנה למידה (מה תפקיד החיזוק?) מה נכנס לאסוסיאציה הנוצרת? האם יש יותר מסוג אחד של למידה?

Edward Thorndike (1874-1949) רקע: דרווין, נסיונות להראות שבע"ח אינטליגנטים הראשון שעשה זאת באופן סיסטמטי (לא אנקדוטות). בגיל 23 הגיש תזת דוקטורט:Animal intelligence: An experimental study of the associative processes in animals חתולים רעבים ב-Puzzle boxes (גם כלבים, אפרוחים) הגדרה אופרציונלית ללמידה: זמן עד החלצות עקומת למידה: הדרגתית. לא נראה כמו insight אלא ניסוי וטעיה (הצלחה). From: THORNDIKE’S PUZZLE BOXES AND THE ORIGINS OF THE EXPERIMENTAL ANALYSIS OF BEHAVIOR PAUL CHANCE, JEAB 1999: There were 15 of these boxes, and they were constructed mainly of wooden slats and hardware cloth. Each box contained a door that the cat could open by manipulating some device. Cats opened the door to Box I by pressing a lever (see Figure 3). (The cat that first escaped from Box I may well deserve a place in history for being the first in a long line of lever-pressing animals.) Box K, the only box depicted graphically in the dissertation, required the performance of three distinct responses: The cat had to depress a treadle, pull on a string, and push a bar up or down before the door would finally fall open (see Figure 4). At first the cat’s behavior appeared to be almost random, one might even say chaotic. Gradually, however, it became more orderly, more deliberate, more efficient. ‘‘The cat that is clawing all over the box in her impulsive struggle will probably claw the string or loop or button so as to open the door. And gradually . . . After many trials, the cat will, when put in the box, immediately claw the button or loop in a definite way’’.

Law of Effect החיזוק "מקבע" (stamps in) קשר בין הגירויים לפעולות מסוימות, ולא אחרות. (satisfiers vs. annoyers) אין צורך להניח אינטליגנציה נוספת (אין חיקוי), או למידה מתוך תובנה/הבנת סיבתיות תהליך אוטומטי (ברגע שיש לחיה מטרה) גם: ניסויי הכללה, אבחנה אנקדוטה (אבחנה): “I must feed those cats” “I will not feed them” From: THORNDIKE’S PUZZLE BOXES AND THE ORIGINS OF THE EXPERIMENTAL ANALYSIS OF BEHAVIOR PAUL CHANCE, JEAB 1999: Other experiments involved discrimination. Thorndike noticed that some cats climbed the wire netting in their home cages when he was about to feed them. Could he get control over this behavior by systematically manipulating the environment? Thorndike tested this idea by saying, ‘‘I must feed those cats!’’ just before feeding them. At other times he announced, ‘‘I will not feed them,’’ and then did not provide food. Thorndike recorded whether the cat climbed up to the wire netting of its pen after each of the statements. He recorded error data in two frequency graphs, one showing the failure to climb to the netting at the first signal, the other showing climbing the netting at the second signal. The animal learned to respond appropriately to what would now be called the SD+ in 60 trials, but learning not to approach at the SD- took much longer—380 trials. The opposition: Learning through reasoning. “In accounting for a cat opening a door by manipulating a latch, for example, George Romanes (1882) wrote, ‘‘First the animal must have observed that the door is opened by the hand grasping the handle and moving the latch. Next she must reason, by ‘the logic of feelings’—‘If a hand can do it, why not a paw?’ Then strongly moved by this idea she makes the first trial’’ (quoted in Thorndike, p. 41).

תפקיד החיזוק עפ"י Thorndike רק stamping in, אך לא חלק מהאסוסיאציה  S-R תפקיד רק בלמידה  הופך בסוף להרגל ולא תלוי יותר בחיזוק (לא חקר/הסביר הכחדה כלל) כנ"ל תפקיד המוטיבציה – חיונית ללמידה, לא לביצוע (סרט)

התניה אופרנטית/אינסטרומנטלית מקור השם (פעולה רצונית על הסביבה; משיגה מטרה) תגובות נחקרות: ריצה במבוך, לחיצה על דוושה/מקש/key, משיכת חבל, וכו' סוגי פרוצדורות: ניתן עם כל US להגביר או להוריד תגובה! בשונה מהתניה קלאסית – לטבע החיזוק אין השפעה אוטומטית על התגובה   השמטה Omission חיזוק חיובי Reward אפטטיבי עונש חיזוק שלילי Escape/ avoidance אברסיבי הגדרה אופרציונלית לחיזוק; על מעגליות ההגדרה דוגמאות לכל סוג

מספר גורמים המשפיעים על הביצוע מוטיבציה (drive) – משפיע גם על למידה וגם על ביצוע (נפרט יותר בהמשך הקורס) גודל החיזוק (גם: אפקט קונטרסט וכו') עיכוב החיזוק. הסברים אפשריים: תגובות מתערבות בזמן ה-delay ערך החיזוק מוקטן (חיות מעדיפות חיזוק מיידי על מעוכב) חיזוק חלקי (PRF לעומת CRF) – נפוץ מאוד בחיים. סדר רנדומלי: ריצה מהירה אחרי צעד מחוזק, איטית אחרי לא מחוזק. בסדר קבוע (דוג' – לסירוגין) בהדרגה לומדים את החוקיות. (החיזוק גם יכול לספק מידע. איך נראה שהחיה משתמשת בזכרון הצעד הקודם לקביעת תגובתה?)

Free operant training: B.F. Skinner בהביוריסט, 1904-1990 (Watson – אבי הבהביוריזם – שלל מנטליזם) (1938) The behavior of organisms טען שפסיכולוגיה צריכה להתבסס רק על מה שניתן למדוד. מדע תאורי ולא תאורטי, black box. האמין שמלבד מעט רפלקסים כל ההתנהגות היא נלמדת דיבר על עיצוב התנהגות ע"י חיזוקים. הבנת התנהגות = ניבוי ושליטה בה (functional analysis של התנהגות – הסברים מנטליסטים חסרי ערך ניבויי ושליטתי). נגד S-R – לא ברור מה ה-S, וכן – למה להניח שנוצרים קשרים תאורטים היפותטים? ת'ורנדייק השתמש רק בפרוצדורה של צעדים בדידים discrete trials

Schedules of reinforcement אימון Free operant בקופסת סקינר לוחות חיזוק: Fixed ratio (FR) Fixed interval (FI) Variable ratio (VR) Variable interval (VI) תוספת מאוחרת: RR/RI לוחות מורכבים: DRL, DRH... כמו כן – גירוי מבחין SD (occasion setter) – עוד התנגדות ל-S-R, גירוי שאינו מעורר תגובה בעצמו אלא מעיד על כדאיות של תגובה

מבחינה מעשית – אימון Pretraining Shaping (superstitious behaviors) יש תגובות שקל יותר ללמד כי הסמיכות הקלאסית מסייעת להם (ניקור ביונים) ויש להיפך. מתחילים תמיד עם CRF Ratio מייצר תגובות מהירות יותר מ-interval (yoked) Interval קל יותר ללמד מ-ratio (בייחוד גבוהים) מסובך לנתח את ההתנהגות בלוחות אלו: הרבה התיאשו. נחזור לכך בעוד שני שעורים.

הרחבת TD להתניה אופרנטית: Actor Critic 4 2 S1 S3 1 S2 S3 - אם בוחרים חצי מהפעמים שמאל, V(S3) = 1, אבל: בכל בחירה של שמאל תהיה טעות ניבוי חיובית (קבל יותר מהצפוי) בכל בחירה של ימין תהיה טעות ניבוי שלילית (קבל פחות מהצפוי) אם החיה תבחר יותר פעמים את הפעולה שיצרה טעות ניבוי חיובית, ההתנהגות תהיה יותר אופטימלית אותו דבר בדיוק ב-S2 ו-S1 – תכנון אופטימלי לטווח ארוך!

TD: לא רק למידת ניבוי אלא גם שליטה s1 s2 s3 a1 a2 a3 wsa 4 2 S1 S3 1 S2 Policy V(t) - Value Function Environment Critic Actor action state r(t) - reward TD error δ(t) Positive prediction error: Things are better than expected →update value of state →update policy (prob. of action) Negative prediction error: Things are worse than expected →update policy s1 s2 s3 V wsv

Actor-Critic במח: טעות ניבוי: דופמין Actor: dorsolateral striatum Critic: ventral striatum (NAC) (שני מסלולים דופמינרגים)

הרבה עדויות: דוגמא - O’Doherty et al. 2004 שני סוגי צעדים: rewarding; neutral בכל צעד: שני גירויים (High – 60%, Low – 30%) קבוצה 1 – בוחרת גירויים (התניה אינסטרומנטלית) – אכן רואים העדפה ל-High בצעדי reward, אך לא בצעדי neutral קבוצה 2 – Yoked (התניה קלאסית), מצביעים רק על הצד שהמחשב בחר (מדד ללמידה – RT) (מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?)

הרבה עדויות: דוגמא - O’Doherty et al. 2004 (NAC) Ventral striatum – קורלציה עם PE בשתי המטלות: Dorsal striatum – קורלציה עם PE רק במטלה האינסטרומנטלית:

הרבה עדויות: דוגמא - Roitman et al. 2004 Fast scan cyclic voltammetry in striatum Cue elicited lever-pressing for sucrose at peak of DA burst Cues elicit DA burst in trained but not untrained rats

Corticostriatal synapses: 3 factor learning Stimulus Representation X1 X2 X3 XN Cortex Adjustable Connections (“weights”) V1 V2 V3 VN Striatum Explain 3 factor learning rule and contrast to normal Hebbian learning Prediction Error (Dopamine) PPTN? R P VTA/SNc

קריאה נוספת: דוגמאות לחיזוקים שליליים וללוחות חיזוק – באתר קיצור תולדות הבהביוריזם- http://www.biozentrum.uni-wuerzburg.de/genetics/behavior/learning/behaviorism.html מאמר קצר של סקינר על אמונות תפלות ביונים http://psychclassics.yorku.ca/Skinner/Pigeon ביוגרפיה קצרה של סקינר (נכתבה ע"י בתו) - http://www.bfskinner.org/bio.asp סקינר על התנהגות אופרנטית - http://www.bfskinner.org/Operant.asp ועוד סיכום טוב על האיש ופועלו - http://www.ship.edu/~cgboeree/skinner.html