Download presentation
1
تعاملات در سیستم چندعامله
2
آزمایشگاه سیستمهای هوشمند
رئوس مطالب سودمندی ها و ترجیحات مواجهات چندعامله استراتژی های غالب و موازنه Nash تعاملات رقابتی و صفر-یک معمای زندانیان نوع تک مرحله ای اشاره ای ازآینده : بازی معمای زندانیان بصورت تکرارشونده استراتژی های معمای زندانیان رقابتی: مسابقه Axelrod سایر بازیهای متقارن 2X2 آزمایشگاه سیستمهای هوشمند
3
آزمایشگاه سیستمهای هوشمند
ساختار سیستم چند عامله عامل تعامل ارتباط سازمانی حوزه درک عامل محیط آزمایشگاه سیستمهای هوشمند
4
آزمایشگاه سیستمهای هوشمند
سودمندی ها و ترجیحات فرض کنید دو عامل i و j داریم و هر عامل دارای نفع شخصی (self-interested) است، به این معنی که هر عامل ترجیحات و خواسته های خاص خود را از وضعیت جهان دارد. مجموعه حالات (یا برامد های) محیط: حالت هایی که هر عامل نسبت به هر یک از آنها ترجیحاتی دارد. توابع سودمندی عامل ها: ترتیب (ordering) ترجیحات: حالت ω توسط عامل i بر حالت ω‘بصورت ضعیف ترجیح دارد اگر و بصورت روبرو نوشته می شود: ترتیب (ordering) ترجیحات: حالت ω توسط عامل i بر حالت ω‘بصورت قوی ترجیح دارد اگر و بصورت روبرو نوشته می شود: رابطه یک ترتیب است (یعنی خواص بازتابی، تراگذری و قیاسی را دارد) سودمندی utility ترجیحات preferences قیاسی comparability برامد outcome آزمایشگاه سیستمهای هوشمند
5
سودمندی ها و ترجیحات (ادامه)
سودمندی چیست؟ آیا سودمندی معادل پول است؟ توابع سودمندی فقط یک راه نمایش ترجیحات یک عامل هستند و معادل پول نیستند. ارتباط سودمندی و پول آزمایشگاه سیستمهای هوشمند
6
مواجهات (encounters) چندعامله
دو عامل فرضی بصورت همزمان اعمالی برای اجرا کردن انتخاب می کنند. نتیجه اعمال آنها منجر به برامد در W می شود. برامد واقعی به ترکیب اعمال بستگی دارد. از این رو هر دو عامل می توانند در برامد تاثیر بگذارند. فرض کنید هر عامل فقط دو عمل ممکن دارد: C(همکاری) و D(عدم همکاری) رفتار محیط توسط تابع انتقال حالت تعیین می شود. Cooperate همکاری Defect عدم همکاری آزمایشگاه سیستمهای هوشمند
7
مواجهات چندعامله (ادامه)
مثال برای تابع انتقال حالت: محیط نسبت به رفتار هر دو عامل حساس است. هیچ یک از دو عامل تاثیری روی محیط ندارد. محیط توسط عامل دوم کنترل می شود. آزمایشگاه سیستمهای هوشمند
8
مواجهات چندعامله (ادامه)
رفتار عقلانی: یعنی این که عامل، عملی را انتخاب کند که به برامدی که برایش ترجیح دارد منجر شود. به مثال زیر توجه کنید: فرض کنید محیط وابسته رفتار هر دو عامل است: توابع سودمندی: ترجیحات عاملها: انتخابهای منطقی: برای عامل i: C برای عامل j: C j j j آزمایشگاه سیستمهای هوشمند
9
مواجهات چندعامله (ادامه)
سناریوی قبل را با ماتریس منفعت (pay off) در نظر بگیرید: در واقع این ماتریس مشابه نمایش زیر است: عامل i: بازیکن ستون(column player) عامل j: بازیکن سطر(row player) آزمایشگاه سیستمهای هوشمند
10
استراتژی های غالب (dominant) و موازنه Nash
هر عامل چه کاری باید انجام دهد؟ اگر می گوییم Ω1 بصورت ضعیف برΩ2 برای عامل i غالب است اگر و تنها اگر برای عامل i، هر حالت (برامد) در Ω1 به هر حالت در Ω2 ترجیح داشته باشد و یا حداقل به خوبی آن باشد. اگر می گوییم Ω1 بصورت قوی برΩ2 برای عامل i غالب است اگر و تنها اگر برای عامل i، هر حالت (برامد) در Ω1 به هر حالت در Ω2 ترجیح داشته باشد. مثال: Ω1 بصورت قوی برΩ2 برای عامل i غالب است آزمایشگاه سیستمهای هوشمند
11
استراتژی های غالب و موازنه Nash
اعمال را استراتژی می نامیم s* مجموعه تمام برامدهای ممکن در هنگام بازی کردن استراتژی s (اجرای عمل s) است. مثال: اگر داشته باشیم داریم (از دید عامل i): استراتژی s1 (بصورت قوی، بصورت ضعیف) بر استراتژی s2 غالب است اگر و تنها اگر s1* (بصورت قوی، بصورت ضعیف) بر s2* غالب باشد. اگر یک استراتژی بصورت قوی بر دیگری غالب باشد عامل باید استراتژی اول را اجرا کند. آزمایشگاه سیستمهای هوشمند
12
استراتژی های غالب و موازنه Nash (ادامه)
استراتژی های بصورت قوی مغلوب را از گزینه ها حذف کنید. مشکلات: اگر استراتژی های بصورت ضعیف مغلوب وجود داشته باشند و آنها را حذف کنیم، حذف آنها به از دست رفتن گزینه های احتمالا بهینه منجر می شود. موازنه Nash دو استراتژی s1 و s2 به ترتیب متعلق به دو عامل i و j در موازنه Nash می باشند اگر و تنها اگر: عامل i نتواند بهتر از s1 را بازی کند. عامل j نتواند بهتر از s2 را بازی کند. در یک موازنه Nash هیچ عاملی انگیزه ای برای انحراف از استراتژی موازنه را ندارد. آزمایشگاه سیستمهای هوشمند
13
استراتژی های غالب و موازنه Nash (ادامه)
متاسفانه: هر سناریوی تعاملی لزوما موازنه Nash نمی باشد. برخی از سناریوهای تعامل بیش از یک موازنه Nash دارند. آزمایشگاه سیستمهای هوشمند
14
تعاملات رقابتی (competitive) و صفر-یک
سناریوی رقابتی محض (Strictly competitive): عامل i برامد ω را بر ω‘ ترجیح می دهد اگر و تنها اگر عامل j برامد ω‘ را برω ترجیح دهد. سناریوی صفر-یک: بازی های صفر-یک همیشه رقابتی محض می باشند. بازی های صفر-یک به سودمندی منفی برای بازنده منجر می شوند. صفر-یک محض: فقط در بازیهایی مانند شطرنج. جهان واقعی هرگز صفر-یک محض نیست. (مثال: دو پسر برای بدست آوردن دل یک دختر با هم رقابت می کنند) اما متاسفانه بسیاری از مواجهات بصورت بازیهای صفر-یک ادراک می شوند. صفر-یک zero-sum آزمایشگاه سیستمهای هوشمند
15
معمای زندانیان (The Prisoner’s Dilemma)
دو مجرم در سلول های جداگانه نگهداری می شوند و نمی توانند با هم ارتباط برقرار کنند. به دو مجرم گفته شده که اگر یکی از آنها اعتراف کند و دیگری نکند، آنگاه اعتراف کننده، آزاد می شود و دیگری برای 3 سال زندانی می شود. اگر هر دو اعتراف کنند، هر کدام 2 سال زندانی می شوند. اگر هیچ کدام اعتراف نکنند هر کدام 1 سال زندانی می شوند. اعتراف را با D و عدم اعتراف را با C نشان می دهیم ماتریس منفعت: i defects i cooperates j defects 2 5 j cooperates 3 „sucker‘s payoff“ آزمایشگاه سیستمهای هوشمند
16
معمای زندانیان (ادامه)
i:D i:C 2 j:D 2 5 5 3 j:C 3 فرض کنید یکی از زندانیان هستید. مسیراستدلال: فرض کنید من cooperate کنم: اگر j هم cooperate کند آنگاه هر دو، منفعت 3 می گیریم. اگر j، defect کند آنگاه من منفعت صفر می گیرم. بهترین منفعت تضمین شده اگر من cooperate کنم صفر است. فرض کنید من defect کنم. اگر j،cooperate کند آنگاه منفعت 5 می گیرم. اگر j هم defect کند آنگاه هر دو، منفعت 2 می گیریم. بهترین منفعت تضمین شده اگر من defect کنم 2 است. اگر defect کنم آنگاه حداقل منفعت تضمین شده 2 خواهم گرفت. اگر cooperate کنم، حداقل منفعت تضمین شده صفر خواهم گرفت. اگر منفعت تضمین شده ی 2 را ترجیح دهم باید defect کنم. آزمایشگاه سیستمهای هوشمند
17
معمای زندانیان (ادامه)
i:D i:C j:D 2 2 5 j:C 5 3 3 فقط یک موازنه Nash وجود دارد: (D,D) از نظر شهودی به نظر می رسد (C,C) بهتر از (D,D) است، پس چرا (C,C) نه؟ اما اگر عامل فرض کند که عامل دیگر C را انجام می دهد، آنگاه بهترین گزینه D است که منجر به هدر رفتن سودمندی می شود. حقیقت تکان دهنده: defect عقلانی است و cooperate غیرعقلانی. آزمایشگاه سیستمهای هوشمند
18
معمای زندانیان (ادامه)
Defect عقلانی تر از cooperate است.Machiavellism (با نوع دوستی واقعی مغایرت دارد) سوال فلسفی: آیا نوع دوستی نیز نوعی بهینه سازی به سمت اهداف شخصی نیست؟ جنبه دیگر: عقلانیت محض (در مورد معمای زندانیان: defect) معمولا فقط وقتی به کار می رود که sucker‘s payoff واقعا ضرر می زند. آنچه که تا به حال در نظر نگرفته ایم: چندین بازی همزمان بین بازیکن های یکسان: اشاره ای ازآینده (The shadow of the future) آزمایشگاه سیستمهای هوشمند
19
اشاره ای ازآینده : بازی معمای زندانیان بصورت تکرارشونده
بازی چندین بار بازی می شود. عاملها می توانند تمامی اعمال گذشته ی عامل دیگر را ببینند. مسیر استدلال: اگر defect کنم، عامل دیگر ممکن است من را با defect کردن در اجرای بعدی تنبیه کند. در حالی که این وضع در معمای زندانیان تک مرحله ای پیش نمی آید. امتحان cooperation (و احتمال گرفتن sucker‘s payoff) خیلی اسفبار نیست، چون در اجرای طولانی یک یا چند sucker‘s payoff خیلی مهم نیست و می تواند از طریق منافعی که از طریق cooperation دوطرفه بدست می آید جبران شود. در بازی معمای زندانیان بصورت تکرارشونده: cooperation عقلانی است. Iterated Prisoner‘s Dilemma Game آزمایشگاه سیستمهای هوشمند
20
اشاره ای ازآینده : بازی معمای زندانیان بصورت تکرارشونده (ادامه)
”cooperation عقلانی است“ فقط زمانی معتبر است که تعداد تکرارها نامتناهی باشد. اگر فقط تعداد ثابتی تکرار (مثلا n) داشته باشیم: استقرای رو به عقب cooperation را خراب می کند: در n امین اجرا اشاره از آینده نداریم در نتیجه defect عقلانی است و بنابراین فقط n-1 اجرا را باید در نظر بگیریم. اگر بصورت بازگشتی این بحث را ادامه دهیم نتیجه می گیریم که Defect همیشه عقلانی است. خوشبختانه: در بیشتر سناریوها n از قبل معلوم نیست و در واقع اشاره از آینده ی مجازی وجود دارد. در نتیجه cooperation همچنان عقلانی است آزمایشگاه سیستمهای هوشمند
21
استراتژی های معمای زندانیان رقابتی: مسابقه Axelrod
برخی از استراتژی ها رقابتی هستند: ALL-D: همیشه defect RANDOM: D یا C را بصورت تصادفی انتخاب کنید. TIT-FOR-TAT: در مرحله اول cooperate کنید. در مرحله t آن کاری را انجام دهید که رقیب در مرحله t-1 انجام داده. TESTER: هدف این استراتژی بهره برداری از برنامه هایی است که defection را تنبیه نمی کنند. در مرحله اول رقیب را با D امتحان می کنیم. اگر رقیب با D، مقابله به مثل کرد آنگاه TIT-FOR-TAT را بازی می کنیم. اگر رقیب C را انجام داد آنگاه CCD را انجام می دهیم. JOSS: درست مانند TESTER اما با p=0.1 بجای CCD، CCC را انجام می دهیم. Axelrod‘s tournament آزمایشگاه سیستمهای هوشمند
22
استراتژی های معمای زندانیان رقابتی: مسابقه Axelrod (ادامه)
برنده TIT-FOR-TAT شد (فقط 5 خط کد فرترن بود). چرا؟ امتیاز نهایی یک استراتژی بصورت میانگین performance در مقابل تمامی استراتژی های دیگر تعریف می شود. در بازی دیگر، TIT-FOR-TAT در برابر ALL-D شکست خورد. TIT-FOR-TAT در برابر استراتژی های رقابتی برنده شد. دوباره (مانند تحلیل معمای زندانیان تک مرحله ای) زیاد cooperative نبودن نتیجه داد. Axelrod چندین قانون را از نتایج مسابقات استنتاج کرد: آزمایشگاه سیستمهای هوشمند
23
استراتژی های معمای زندانیان رقابتی: مسابقه Axelrod (ادامه)
حسود نباشید: برای خوب نتیجه گرفتن لزوما لازم نیست به حریف ضربه بزنید. اولین کسی نباشید که defect می کند: cooperation خطرناک است اما در کل، چندین باخت خیلی اهمیت ندارد و cooperative به وضعیت win-win منجر می شود. با C و D مقابله به مثل کنید: TIT-FOR-TAT بین تنبیه کردن و بخشیدن توازن برقرار می کند. در نتیجه عاملها را به cooperation تشویق می کند. TIT-FOR-TAT منصفانه است: فقط با مقدار یکسانی از بدخواهی با رقیب خود عمل می کند. بیش از حد زرنگ نباشید: TIT-FOR-TAT آسان ترین بود اما در برابر برنامه های دارای مدل پیچیده از استراتژی های رقبا برنده شد. آزمایشگاه سیستمهای هوشمند
24
استراتژی های معمای زندانیان رقابتی: مسابقه Axelrod (ادامه)
دلیل آنکه کم بودن مدل از رقبا سودمند بود: در مسیر مسابقه، مدلها با یادگیری بهبود پیدا نمی کنند، یعنی به یادگیری (learning) متقابل سایر عاملها احترام می گذارند. برنامه های پیچیده دچار over-generalization شدند، یعنی وقتی از سایرین defect می دیدند آن را عفو نمی کردند. برنامه های پیچیده ای که یادگیری نداشتند مشابه برنامه های تصادفی بودند. آزمایشگاه سیستمهای هوشمند
25
آزمایشگاه سیستمهای هوشمند
سایر بازیهای متقارن 2X2 2x2: two agents, each with two actions; Symmetric: symmetry axis Other symmetric 2x2 games (There are 4!=24 such games): Prisoner‘s Dilemma Game of Chicken Stag Hunt Defection dominates Defection dominates Cooperation dominates Cooperation dominates آزمایشگاه سیستمهای هوشمند
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.