ההשפעה של מוטיבציה על התנהגות
האם מוטיבציה משפיעה על התנהגות? Pavlov – ברור שכן (אבל רק בהתניה קלאסית) Thorndike – ברור שלא (בהרגלים אופרנטים) Skinner – לא חקר את החשיבות של רמת החסך (וחבל) אחד הנושאים הכי חשובים בחקר התנהגות ולמידה – אך זכה (למעט) התעניינות מחקרית אמיתית, ורק בעשרים שנים האחרונות... "The fact is that the study of psychological processes controlling simple goal-directed instrumental actions by primary motivational states has been neglected since Hull and Tolman (40’s)” (Dickinson+Balleine 1994)
חזרה קצרה – מורכבותה של התנהגות: Associative learning is not a simple, unitary phenomenon התנהגות נקבעת ע"י האינטראקציה בין מערכות למידה וזכרון רבות, חלקן משלימות וחלקן מתחרות.
האם מוטיבציה משפיעה על התנהגות? שני סוגים של מוטיבציה (לא תמיד קל להפריד ביניהם) Primary motivation – מושפע ממצב הדחפים/החסכים של החיה (הצרכים הפנימיים) Incentive motivation – המוטיבציה הנגרמת ע"י החיזוק ("ערך התמריץ"/"כח המשיכה" של החיזוק) שני תפקידים של מוטיבציה הכוונת התנהגות (directing) עירור של התנהגות (energizing)
מוטיבציה והתניה קלאסית בוודאי שמוטיבציה משפיעה על ביצוע התגובה הלא מותנית (UR) לגבי התגובה המותנית: נוטים לקבל את גישתו של פבלוב בכל מה שנוגע לגירוי מותנה מסדר ראשון, כלומר, מוטיבציה ל-US אכן משפיעה על ביצוע ה-CR (תומך בכך שהתניה קלאסית מתווכת ע"י אסוציאציה בין CS ל-US) לגבי גירוי מסדר שני – כנראה לא מושפע ממניפולציות מוטיבציוניות (ההתנהגות מתווכת ע"י אסוציאצית S-R) (Rescorla, Holland, Colwill)
התניה קלאסית – מבט רחב Cardinal et al. (2002) Konorski (1976), Balleine+Dickinson (2002) Cardinal et al. (2002) Pavlovian associations: CS-CR – demonstrated convincingly in second order conditioning (see below) US specificity – (CS-US association) – demonstrated by sensory preconditioning The direct link of the CS to affect is demonstrated in trans-reinforcer blocking (example – the presence of an aversive CS (paired with shock) can block the conditioning of a CS signaling the omission of an appetitive reward – the two reinforcers share nothing except their aversiveness, hence the blocking effect must depend on an association between the CS and affect). Pavlovian conditioning gives rise to at least two types of associations. One is between a representation of the CS and a representation of the US. This gives rise to stimulus substitution effects (in which the animal treats the CS as if it were the US), and a class of CRs which reflect the specific sensory-perceptual properties of the US, and have been termed ``consummatory responses'', such as salivating to food, licking to water, eye-blinking to a puff of air, etc. A second type of association is formed between the CS and a generic appetitive or aversive motivational system (depending on the class of USs used). This direct association does not depend on the specific sensory properties of the US, and allows the CS to activate non-US-specific preparatory CRs, such as approach or withdrawal (termed ``preparatory responses''). The motivational system can also be activated by the CS indirectly, via a link between the US representation (which is associated with the CS) and the appropriate motivational system. Dickinson and Balleine (2002) hypothesize that the indirect activation of the motivational system by the US representation is gated by the motivational importance of the US. Thus, for instance, the strength of a consummatory response to a water US is monotonically related to the degree of thirst. Thus, although Pavlovian CRs are not controlled by the contingency between the conditioned response and the US, their performance can be sensitive to the level of motivation for the US. Furthermore, associations can also be formed directly between the CS and the CR, as has been shown in secondary conditioning paradigms. The direct CS-CR association can be demonstrated by pairing the first order CS with a new US eliciting a new CR, which does not affect the prior conditioning of the second order CS, which continues to elicit the original CR. In inhibitory conditioning, the existence of CS-CS associations has also been implied (Rescorla, 1982) by the incomplete transfer of inhibition to a new CS
איך בודקים השפעה של מוטיבציה? שינוי בדחף הראשוני – primary motivational shift רעב (חסך מזון) צמא (חסך מים) – משפיע גם על רעב! Sodium appetite (לא ברור אם משפיע גם על רעב או צמא) דחף מיני שינוי ערך החיזוק – post-training shift in outcome value Conditioned aversion (LiCl) – מתווך למידה קלאסית Specific satiety (יתכן שמשפיע גם על מוטיבציה ראשונית) במאמרים רבים מערבבים בין סוגי המניפולציות, ורואים זהות ביניהם (מבחינת ההשפעה על התנהגות). בכל מקרה – לא ניתן לשנות דחף ראשוני בלי לשנות את ערך החיזוק.
נו, אז מוטיבציה משפיעה על התנהגות אופרנטית? תלוי את מי שואלים תלוי על מה שואלים
התנהגות אופרנטית – שני סוגים (לפחות) התנהגות מכוונת למטרה – goal directed action ביצוע ההתנהגות מתווך ע"י הסמיכות של פעולה-תוצאה (A-O) נדרוש גם שהתוצאה של הפעולה היא אכן מטרה עבור החיה התנהגות הרגלית – habitual behavior ההגדרה העממית – התנהגות שאינה נעשית למען תוצאתה ההגדרה התאורטית – אינה מתווכת ע"י A-O אלא ע"י S-R אבל – איך נדע מה האסוציאציה המתווכת? בדיקה ע"י שינוי הסמיכות בין הפעולה לתוצאה (contingency degradation) בדיקה ע"י שינוי ערך התוצאה (LiCl או specific satiety) בעיה – התערבות של התניה קלאסית – קשה לבודד את המרכיבים האופרנטית כראוי (חשוב קבוצות ביקורת) באופן כללי יש ערבוב בין ההגדרה של ההתנהגות לבין הבדיקה של איך מוטיבציה משפיעה עליה
1. ההשפעה של מוטיבציה על התנהגות מכוונת למטרה המחקרים הראשונים: ניסויי irrelevant incentive חיות לומדות גם על התכונות המוטיבציוניות של החיזוק, שאינן רלוונטיות למצב המוטיבציוני הנכחי (ניסויי Y-maze, רפליקציה של Adams באופרנטי טהור יותר) ביצוע ההתנהגות מתווך ע"י הסמיכות של פעולה-תוצאה אבל... מסתבר שהמוטיבציה למטרה אינה משפיעה ישירות על ההתנהגות דרושה "למידת תמריץ" (incentive learning) – שלב בו החיה לומדת מה ערכו של החיזוק במצב המוטיבציוני החדש (נותנת ערך חדש לחיזוק) זה נכון גם לשינוי במוטיבציה הראשונית, וגם לשינוי ערך החיזוק Dickinson+Balleine - בלמידת התמריץ התכונות הסנסוריות של החיזוק (בעיקר טעם) נקשרות למצב אפקט חדש המשמעות: שני ייצוגים שונים של ערך החיזוק במח כל זה שנוי במחלוקת – Rescorla טוען להשפעה ישירה של LiCl, Dickinson טוען לצורך ב-incentive learning. שני ייצוגים של ערך החיזוק – Affective/hedonic (Garcia), וערך אינסטרומנטלי (incentive value)
2. ההשפעה של מוטיבציה על התנהגות הרגלית ראשית - איך נוצרת התנהגות הרגלית? אימון יתר – overtraining Adams – חשובה החשיפה לחיזוק, חשוב הפיזור של האימון\החשיפה, וחשובה ההכללה משלב שינוי ערך החיזוק לסיטואציית הניסוי Adams + Dickinson – חשוב לוח החיזוק – VI מעודדים יצירת הרגלים יותר מהר מ-VR (אבל – רק עם LiCl ולא עם שינוי מצב מוטיבציוני); Dickinson מסיק מכך שחשובה החשיפה לקורלציה בין התנהגות לחיזוק. גם כאן – שנוי במחלוקת – Rescorla+Colwill טוענים בתוקף שעם האימון רק מתחזקת אסוציאצית ה-R-O, ובוודאי לא נחלשת (אבל – משתמשים ב-choice extinction test) אין הסכמה כוללת על הגדרה (ובוודאי שלא על מדד בלתי תלוי במוטיבציה) שיגדיר מתי התנהגות היא הרגלית (ומתי כבר לא).
אז איך מוטיבציה משפיעה על התנהגות הרגלית? כלל לא ברור... Balleine+Dickinson טוענים שההשפעה של מוטיבציה ראשונית ישירה, כמו בהתניה קלאסית. עם זאת, אין השפעה ספציפית של שינוי ערך התוצאה (לא ממש נבדק). בסה"כ - לא חד משמעי מהמחקרים (תוצאות סותרות, חסרה הגדרה, גם התנהגות הרגלית יכולה להפסיק להיות הרגלית במצב חדש (הכחדה)).
ואם עד עכשיו זה לא היה מסובך מספיק.. Balleine, Dickinson et al. 1995 - השפעה שונה של מוטיבציה על מרכיבים ב-instrumental chain (קרובה – השפעה ישירה; רחוקה – דרושה למידת תמריץ) האם magazine approach היא תגובה פבלובית או פעולה אינסטרומנטלית? הקבלה בין שרשראות של תגובות לבין גירוי מותנה קלאסי מסדר גבוה (אי תלות בערך החיזוק כשעולים בסדר)?
ועוד... השפעת מוטיבציה פבלובית על התנהגות אופרנטית - Pavlovian Instrumental Transfer (PIT) השפעה כללית - general motivating effect – CS המנבא חיזוק הרלוונטי למצב המוטיבציוני של החיה, ישפיע גם על לחיצה על דוושה למען outcome אחר (אף אם זה לא רלוונטי מוטיבציונית) – "conditioned motivation”. השפעה ספציפית על פעולה המבוצעת למען אותה מטרה (same>different) היות וההשפעה של ה-CS תלויה ברלוונטיות של ה-US למצב המוטיבציוני של החיה, דרושה מערכת נוירונלית שתקבע את הערך של ה-US כאשר ה-CS מוצג. ואכן הערך הפבלובי מושפע ישירות מהמצב המוטיבציוני המשמעות: שוב, מדובר בתהליך הערכה נפרד מזה האופרנטי. ואכן – שני התהליכים ניתנים לדיסוסיאציה ע"י פרמקולוגיה (DA antagonists פוגעים ב-PIT, אך לא בלמידה הפבלובית עצמה, וכן לא פוגעים ב-Incentive learning אינסטרומנטלי). CS המקושר לתמיסת סוכרוז יגביר בחיה צמאה לחיצה על דוושה למען סוכרוז, אך גם למען אוכל יבש
ובמח - מי עושה מה? המטרה: לברר מהם הייצוגים הנוירונלים השולטים בשני סוגי ההתנהגות – פבלובית ואופרנטית. Amygdala: BLA – נחוצה כדי לאפשר ל-CS פבלובי לגשת לערך הנכחי של ה-US אותו הוא מנבא CeN – אולי controller של עוררות גזע המח ומערכות תגובה, ומשמש בסוגים מסויימים של התנית S-R קלאסית Nucleus Accumbens: לא דרוש לידע של סמיכות ה-R-O אך משפיע על התנהגות אופרנטית ע"י תיווך PIT. דרוש בכדי לאפשר בחירת חיזוקים מעוכבים (delayed) Cortex: Prelimbic – דרשו ללמידת R-O Insular Cortex – אחזור הערך של מזון ספציפי עפ"י תכונותיו הסנסוריות Orbitofrontal Cortex – בדומה ל-BLA, אולי מייצג אספקטים של ערך החיזוק המשפיעים על התנהגות אופרנטית (instrumental choice behavior) Anterior Cingulate – מספר תפקידים בתגובה לחשיבות האמוציונלית של גירויים ושל טעויות בביצוע. תיקון טעות – לגבי Hebb – 1949 ולא לפני מאה שנה. The primary candidate for the DA-dependent pathway presumably mediating Pavlovian incentives (i.e., driving Pavlovian behavior), is the nucleus accumbens (NAC, also referred to as ventral striatum, comprised of core and shell regions). \citeA{RobbinsEveritt1996} stress the role of the NAC in mediating Pavlovian motivation for appetitive rewards, especially in preparatory and not consummatory responses, as extracellular DA concentration in the NAC peaks at lever press and then goes down as the animal retrieves the reward (\citeNP{KiyatinGratton1994}, using chronoamperometric techniques, and see \citeNP{PhillipsEtAl2003}, for more recent fast scan voltammetry measures with sub-second resolution). Furthermore, the effects of Pavlovian stimuli on instrumental behavior in PIT depend crucially on DA-dependent interactions between the NAC and its limbic afferents (in particular the basolateral nuclei of the amygdala (BLA)). In a recent study, \citeA{CorbitEtAl2001} elaborated the anatomical distinction between the two pathways by demonstrated a double dissociation between NAC core-mediated, DA-independent, effects of a motivational shift treatment, and NAC shell-mediated DA-dependent effects of PIT. Whereas NAC core lesions impaired instrumental learning, and disrupted the effect of specific satiety devaluation, shell lesioned and sham controls exhibited a normal devaluation effect. However, in PIT the sham and core lesioned groups showed normal transfer, while the shell lesioned group did not, demonstrating that the NAC shell mediated the effects of PIT. Lesions to the Central nucleus of the Amygdala, but not to the BLA, have also been shown to abolish PIT \cite{HallEtAl2001}. The BLA, in turn, is implicated in the DA-independent instrumental incentive pathway, as the structure crucial for integration of outcome value into the A-O association, in order to guide performance. In a study of the role of the BLA in instrumental learning, \citeA{BalleineEtAl2003} showed that BLA lesions did not affect instrumental learning curves, or discrimination between two actions leading to two outcomes, but disrupted the effects of specific satiety treatment, similar to the results of NAC core lesions. Further experimentation showed that this effect was due to the inability of the lesioned animals to associate or represent the sensory or hedonic properties of the different outcomes \cite{BalleineEtAl2003,KillcrossBlundell2002}. %The authors concluded %that BLA lesions impair the ability to discriminate between two %outcomes based on their sensory properties, and thus attenuate the %ability of the outcomes to control behavior differentially. However, %the outcomes are still able to engage a general reinforcement %mechanism, by which instrumental learning can proceed, possibly %through an S-R controlled process, which is sensitive only to the %general reinforcing impact of instrumental outcomes. Thus they argue %for a role of the BLA in ``liking'', and in the evaluation of the %sensory-specific hedonic value of an outcome. This places the BLA %(with its strong connections to the NAC core) as a fundamental %component in instrumental learning, through which outcome value is %integrated into the A-O association, in order to guide performance. Similarly, the dorsolateral prefrontal cortex (and its homologue, the prelimbic area of the prefrontal cortex, in rats) has been implicated in response selection and planning using A-O knowledge. Lesions in the prelimbic area produced a general decrement in both responses after the instrumental contingency of only one of the responses is degraded, and resulted in insensitivity to specific satiety moticational shift, implying the use of S-R knowledge to control behavior in the absence of ability to utilise or encode A-O associations \cite{BalleineDickinson1998}. %\citeA{BalleineDickinson1998} further showed that the insular cortex, %which has been implicated in gustatory processing, may be a site for %memory of incentive value of food, based on taste. Lesions of the %insular cortex were shown to have no effect on responding after %degradation of contingencies, but to abolish the effects of specific %satiety by prefeeding, as animals continue to choose the action %leading to the prefed outcome and the action leading to the non-sated %outcome equally. However, in this case, when the choice test was not %conducted in extinction, the animals were able to show a preference %for the non-devalued food. This implies that the insular cortex is %necessary for retaining information about an unavailable outcome's %value, but not for assigning the value to an available reward.
לסיכום (של כל הקורס) מה למדנו פה? למרות שיתכן שהביטוי הכולל והרחב של רגשות ומודעות אנושיים הוא מעבר ל-scope של התניה פשוטה, סביר להניח שהרבה מהתנהגותנו האמוציונלית (במובן הרחב) מושפעת מתהליכי למידה אסוציאטיבית בסיסיים.
ההיפוקמפוס והתניה אופרנטית Corbit+Balleine 2000 היפוקמפוס - מצוי באונה הטמפורלית, תת-קורטיקלי (עתיק). דברנו עליו בעבר בהקשר של למידה מרחבית, זכרון דקלרטיבי, והיום – תזמון. אם התניה אופרנטית מתווכת ע"י זכרון דקלרטיבי של קשרי R-O, פגיעה בו תפגע בלמידה אופרנטית (סופסוף בודקים את Dickinson). ההיפותזה: חולדות פגועות היפוקמפוס ייאלצו להשתמש רק ב-S-R ולכן לא יהיו מושפעים מ-postconditioning outcome devaluation. ניסוי 1 – specific satiety שתי דוושות, שתי תוצאות, מבחן בחירה בתנאי הכחדה choice extinction test אין הבדל בין חולדות פגועות לקבוצת ביקורת ברכישה או בביצוע בסוף האימון (VR) אין הבדל מובהק ב-test
ההיפוקמפוס והתניה אופרנטית Corbit+Balleine 2000 אז אולי ההיפוקמפוס מעורב בזיהוי יחס סיבתי בין פעולה לתוצאה? ניסוי 2 – contingency degradation נראה שחיות פגועות פחות רגישות ל-degradation (אם כי לא מובהק) ב-test חולדות פגועות מבצעות את שתי הפעולות באותה תדירות שימו לב – האפקט הוא דרך ה-nondegraded בקבוצת הבקרה...
ההיפוקמפוס והתניה אופרנטית Corbit+Balleine 2000 מסקנות: חיות ללא היפוקמפוס רגישות לשינוי ערך התוצאה (מבחינות גם בשינוי על סמך תכונת טעם אחת), ויכולות לעשות אינטגרציה של הערך החדש לתוך קשרי R-O שנלמדו בעבר פגיעה היפוקמפלית גורמת לחיות לאבד רגישות לתוצאות הסיבתיות של פעולותיהם תפקיד ספציפי יחסית להיפוקמפוס בהתניה אופרנטית – זיהוי הקשר הסיבתי בין פעולה לתוצאה. אולי הפגיעה היא ביכולת לקשור את ה-context לחיזוק (לא רגישים להסתברות לקבל חיזוקים בהנתן ההקשר בלבד ולכן לא יכולים להשוות זאת להסתברות בהנתן התגובה) – פגיעה ביכולת לחשב predictive validity (תוקף יחסי). הסביבה צריכה היתה להצליל את התגובה ולמנוע ממנה להכנס לאסוציאצית R-O. בהעדר יכולת כנ"ל – אולי החיות מיחסות את כל החיזוקים לפעולותיהם (אך אז... למה מגיבות פחות ולא יותר?)
הסטריאטום ולמידת הרגלים – Knowlton, Mangels and Squire 1996 מטלת חיזוי מזג אויר לפי קומבינצית גירויים – לא מתווכת זכרון אלא "פרוצדורלית" (+ שאלון דקלרטיבי על הגירויים בסוף הניסוי) משווים בין חולי אמנזיה (אזורים לימבים והיפוקמפוס) וחולי פרקינסון (סטריאטום ו-basal ganglia) חולי אמנזיה לומדים את המטלה (זכרון פרוצדורלי), אך לא זוכרים טוב את סיטואצית הלימוד (זכרון דקלרטיבי) חולי פרקינסון זוכרים את סיטואצית הלימוד אך פגועים בלמידת המטלה Double dissociation המצביע על שתי מערכות למידה נפרדות הפועלות במקביל