Download presentation
Presentation is loading. Please wait.
Published byΛαμία Βασιλικός Modified over 6 years ago
2
کنترل پیشبین مبتنی بر مدل (MPC) MPC on Discrete Event Systems
سمینار درس کنترل پیشبین مبتنی بر مدل (MPC) کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته MPC on Discrete Event Systems استاد درس: دکتر فرزاد توحید خواه ارائه دهنده: گلناز بغدادی
3
فهرست مطالب مقدمه ای بر سیستم های وقایع گسسته
دلیل معرفی سیستم های وقایع گسسته مثالهایی از انواع سیستم های وقایع گسسته مدلسازی سیستم های وقایع گسسته معرفی انواع روشهای مدلسازی سیستم های وقایع گسسته مقایسه انواع روشهای مدلسازی ارائه مثالهایی از مدل های پرکاربرد در مدلسازی سیستم های وقایع گسسته صنعتی و بیولوژیکی کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته بیان تفاوت مفاهیم کنترلی در سیستم های وقایع گسسته شرح نحوه اعمال کنترل پیشبین برروی انواعی از مدلهای ارائه شده مقایسه الگوریتم یادگیری تقویت شده با کنترل پیشبین مبتنی بر مدل کاربرد الگوریتم یادگیری تقویت شده در سیستم های وقایع گسسته
4
مقدمه ای بر سیستم های وقایع گسسته
مقدمه ای بر سیستم های وقایع گسسته
5
سیستم های وقایع گسسته (DEVS) در سال 1976 توسط دکتر برنارد زیگلر (B
سیستم های وقایع گسسته (DEVS) در سال 1976 توسط دکتر برنارد زیگلر (B. Zeigler) معرفی شدند لغت "گسسته" به معنای "گسسته بودن زمان" و یا به معنای "گسسته بودن حالت ها" نیست. time Discrete state x1 x2 x3 x4 x5 e1 e2 e4 e5 e6 e3 Holding time CVDS Note that axes are different. For DEDS, y-axis has no structure, metric, or definition; no value. For CVDS, y-axis will have absolute meaning. اگر چه که در زندگی روزمره ما با سیستم هایی مواجه هستیم که در طول زمان با رویداد های اتفاقاتی در زمانهایی با فواصل غیر منظم در حال تغییر هستند. به بیان دیگر لزومی ندارد که رویداد ها منطبق با هر تیک کلاک رخ بدهند. در این مورد انتقال از یک حالت به حالت دیگر در نتیجه رویداد های غیر همزمان است به همین علت دیگر زمان به عنوان یک متغیر مستقل به حساب نمی اید. این سیستم ها به عنوان سیستم های وابسته به رویداد به حساب می ایند. و در این گونه سیستم ها متغیر k شمارنده رویداد است. در سیستم های وابسته به رویداد فواصل زمانی بین رخداد رویداد ها می تواند قطعی و یا کاملا تصادفی باشد. . بسیاری از سیستمهای دینامیکی دارای ساختار سیستم های دینامیکی وقایع گسسته هستند. سیستم های تولیدو سیستم های ارتباطی نمونه هایی از این سیستم ها هستند. همچنین فرض می شود که فقط مجموعه ای از رویداد ها در چنین سیستم های قابل مشاهده است. به بیان دیگر ما فقط می توانیم تعدادی از رویداد هایی که در سیستم رخ می دهند را ببینیم نه همه آنها را. در بعضی از موارد ما مجبور هستیم، با توجه به حالت سیستم تصمیم هایی بگیریم و فقط با توجه به مشاهداتمان این چنین سیستم هایی را کنترل کنیم. اینگونه سیستم ها دارای تقابلات زیادی با محیط اطراف خود هستند و توسط ساختار پیچیده و سلسله مراتبی مشخص می شوند. در این گونه سیستمها معمولا تعدادی منابع محدود (همانند ماشین ها، کانال های ارتباطی، پردازنده هاو...) وجود دارد که برای تمامی کاربران (همانند انواع تولیدات، بسته های اطلاعات، وظایف و...) به اشتراک گذاشته می شود که همه این کارابران با هم در حال مشارکت برای رسیدن به هدفهای مشترک (همانند سرهم کردن محصولات، انتقال متوالی اطلاعات، پردازشهای موازی و ...) هستند. زمان بین رویداد ها ممکن است در سیستمهای وقایع گسسته یکسان نباشد. مثال از یکسان بودن زمان چرغ راهنما، اتوبوس دینامیک چنین سیستم هایی را رویداد ها می سازند که ممکن است این رویداد ها زمانی که آغاز می شوند دارای سیر تکاملی گسسته و یا پیوسته باشند. تمرکز اولیه، برروی شروع و پایان چنین رویداد هایی است، زیرا هر پایانی باعث یک شروع جدید می شود
6
مثال (یک سیستم تولید) رویداد ها: ماشین شروع به کار می کند، خراب می شود، کارش تمام شده است، تعمیرش به اتمام رسیده است. حالت ها: ماشین بیکار است، در حال انجام کار است، خراب شده است، در دست تعمیر است. انتقال بین حالت ها با رویداد ها برچسب می خورند. ماشین در حال انجام کار است x3 روش فضای حالت، یکی از روشهای کاربردی برای آنالیز و بررسی چنین سیستم هایی به شمار می رود. در توسعه روش فضای حالت برای آنالیز سیستم های دینامیکی وقایع گسسته ، فرض می شود که تعدادی از رویداد ها در سیستم قابل کنترل هستند، به این معنا که می توان آنها را فعال یا غیر فعال نمود. هدف از کنترل سیستم های دینامیکی وقایع گسسته، هدایت رفتار سیستم در جهتی است که یک رفتار مطلوب به شمار می رود. x4 ماشین در حال انجام کار است x2 x1 ماشین بیکار است e1 e2 e3 time e4 e5 ماشین شروع به کار می کند ماشین خراب می شود تعمیر به اتمام رسید
7
… Switching Time xi+1 = fi(xi,ui,t) Temporal State, x x1 x2 xi
The switch time of the states is not deterministic in real system. We can use the variable ui to describe this. The switch time corresponds to the event. The system is time-driven between two neighboring switch time points, and the event-driven dynamics appear at the switch time points. Events->switch times In-between events, CVDS dynamics dictate. xi+1 = fi(xi,ui,t) Switching Time
8
مثال های دیگر فرایند های تجاری: ”ورود اسناد“، "پردازش یک سند” و ...
کنترل زمانبندی ورود اسناد و مراحل انجام کار و استفاده از منابع جهت جلوگیری از ایجاد صف های از اسناد که نیاز به پردازش دارند. شبکه های ارتباطی: ”تماسهای تلفنی“، ”رسیدن یک فایل برای پرینت“، ”تقاضا از سرور برای تحویل یک صفحه معین“، .... کنترل ترافیک موجود برروی لینک های ارتباطی، بهینه سازی ساختار شبکه و انتخاب طول مناسبی از صف سیستم های کامپیوتری: درخواست استفاده از ابزارهای ورودی و خروجی همانند کنترلر شبکه ، دستورالعمل های ماشین و.... کنترل اولویت بندی و انتخاب مسیر اجرای عملیات و تخصیص منابع سیستم های تولیدی: ورود مواد اولیه، بیکار شدن ماشین، شروع به کار ماشین، ... کنترل در جهت به اتمام رسیدن تولید مشخص در یک زمان مشخص، جلوگیری از پر شدن بافر ها سیستم های بیولوژیکی: رسیدن اطلاعات سنسوری مختلف به مغزو اعصاب، تغییرات غلظت عناصر شیمیایی مختلف در خون یا بافت های دیگر کنترل در جهت اولویت بندی پردازش اطلاعات سنسوری، انتخاب مسیر مناسب جهت پاسخ، .... سیستم حمل و نقل سیستم های صف شبکه های ارتباطی جز اولین سیستم هایی بود که تئوری سیستم های وقایع گسسته در آنها به طور موفقیت آمیزی عمل نمود
9
مسائل مطرح در سیستمهای وقایع گسسته
وظایف متعددی وجود دارد که ممکن است لازم باشد بعضی از آنها حتما انجام شوند. ممکن است لازم باشند بعضی وظایف با ترتیب خاصی انجام شوند. ممکن است الزامی به اجرای بعضی از وظایف نباشد. گاهی ممکن است بین اجرای دو وظیفه بالاجبار انتخابی انجام شود. مجموعه ای از منابع وجود دارد که ممکن است بین عناصر موجود در سیستم های وقایع گسسته به اشتراک گذاشته شود. فرایند رویداد ها که توصیف کننده یک سیستم وقایع گسسته است توسط یک برنامه کنترلی اداره و اجرا می شوند. در این برنامه لیستی از رویداد هایی که در آینده قرار است به سیستم اعمال شود، وجود دارد. برنامه کنترل اصلی زمان اعمال رویداد بعدی به سیستم را مشخص می کند. بعد از اعمال و اجرای رویداد مورد نظر به طور نوعی حالت سیستم تغییر پیدا می کند و ممکن است باعث تغییر و یا حذف بعضی از رویداد ها در برنامه کنترلی شود. بعد از اجرا، این رویداد از لیست رویداد های موجود در لیست کنترل حذف می شود. این فرایند ادامه پیدا می کند تا زمان اجرا یا ازمایش به پایان برسد. A set of resources: machines, AGVs, nodal CPUs, communication links and subnetworks, etc
10
مدلسازی سیستم های وقایع گسسته
در سیستم های وقایع گسسته توانایی تشخیص رویداد ها در سیستم نیاز به مهارت دارد، به طور پایه می توان از گامهای زیر برای تشخیص رویداد ها در سیستم استفاده نمود: هدف سیستم خود را مشخص کنید. البته باید توجه داشته باشید که ممکن است چندین هدف که با هم تداخل هم دارند وجود داشته باشد. هدف خود را از مطالعه سیستم مشخص کنید. حداقل به طور کیفی، ازمایشاتی را که می خواهید بر روی سیستم اجرا کنید، مشخص نمایید. ویژگی های دینامیکی موجود در سیستم و عواملی که باعث ایجاد تغییر در آنها می شوند را مشخص کنید. این عوامل در واقع رویداد های موجود در سیستم خواهند بود. مدلسازی معمولا با دو هدف انجام می شود: شناخت سیستم واقعی اعمال استراتژی های مختلف مدل باید ضروریات سیستم را نشان بدهد مدل می توان قطعی یا تصادفی، پیوسته یا گسسته، دینامیک یا استاتیک باشد خروجی مدل می تواند با توجه به ورودی داده شده پریودیک، بی اتمام، یا پایان پذیر باشد.
11
روشهای مدلسازی متعددی برای توصیف سیستم های وقایع گسسته ارائه شده است:
مدلهای جبری-ماکس پلاس شبکه های پتری مدلهای تصادفی مانند مدلهای مارکوف ... تمامی این مدل ها و روشهای انالیز دارای مزایا و معایب خاص خود هستند که با توجه به سیستمی که قرار است مدل شود و اهدافی که خواهان رسیدن به آنها هستیم یکی از روشهای بالا که با توجه نوع مسئله مناسب تر است انتخاب می شود. مسئله ای که در مدل سازی اینگونه سیستم ها باید به آن توجه شود، ایجاد یک نوع مصالحه بین انرژی مدل سازی و انرژی تصمیم گیری است مدلهای منطقی (همانند شبکه های پتری (غیر زمانی)) به مطالعه خصوصیاتی می پردازند که فقط به توالی رویداد ها اهمیت می دهند. اگر ما علاقه مند به لحظات زمانی هستیم که در آنها یک رویداد رخ می دهدباید از مدل های زمانی (همانند شبکه های پتری زمانی و مدلهای جبری-ماکس) استفاده کنیم. مدلهای تصادفی (همانند فرایند های شبه مارکو عمومی) زمانی استفاده می شوند که ما بخواهیم رفتار قابل انتظار یک سیستم را تحت یک سری شرایط آماری داده شده تعیین کنیم. تا به امروز روشی که بیشتر برای مطالعه سیستم های وقایع گسسته به کار گرفته شده است، شبیه سازی کامپیوتری بوده است. یکی از عمده ترین معایب شبیه سازی کامپیوتری این است که محاسبات کامپیوتری در این روش نیاز به درجه بالایی از جزئیات در مدل دارد. اگرچه که این مسئله خود باعث یک تطابق و تنناظر زیاد بین مدل و سیستم واقعی می شود. عیب دیگر شبیه سازی کامپیوتری این است که همیشه به ما یک درک واقعی از تاثیر تغییر پارامترهای مختلف برروی خصوصیاتی نظیر مقاومت، پایداری، بهینه بودن کارایی سیستم و ... نمی دهد.
12
مدلهای جبری ماکس-پلاس
13
مثال: سیستم تولید نشان داده شده در شکل زیر را در نظر بگیرید
مثال: سیستم تولید نشان داده شده در شکل زیر را در نظر بگیرید. این سیستم متشکل از 3 واحد (ماشین) پردازشگر است. هر واحد فقط زمانی برروی یک محصول شروع به کار می کند که پردازش قبلی برروی محصول به پایان رسیده باشد. همچنین فرض می شود که هر واحد به محض اینکه تمامی قطعات حاضر شود شروع به کار می کند. t2=1 t1=1 t3=3 p1=1, p2=2, p3=2 u(k): نشان دهنده لحظه زمانی است که در آنها بسته ای از مواد خام برای سیکل (k+1) ام به سیستم داده می شود. xi(k): نشان دهنده لحظه زمانی است که در آن واحد i در سیکل k ام شروع به کار می کند. y(k): نشان دهنده لحظه زمانی است که در آن محصول kام سیستم را ترک می کند. زمان پردازش برای این سه سیستم به ترتیب برابر با p1=1, p2=2, p3=2 واحد زمانی است فرض می شود که t1=1 و t2=1 واحد زمانی طول می کشد تا مواد خام از منبع اولیه به ترتیب به سمت واحد های p1 و p2 فرستاده شوند و مدت t3=3 واحد زمانی طول می کشد تا محصول تمام شده واحد p1 به واحد p3 برسد. در ورودی سیستم و بین واحد های پردازش بافر هایی وجود دارد که ظرفیت آنها به حدی است که بتوان اطمینان حاصل نمود که هیچ سرریزی در بافر ها اتفاق نخواهد افتاد.
15
خصوصیات جبر ماکس-پلاس مناسب برای بررسی زمان بندی سیستم های وقایع گسسته
مناسب برای برنامه ریزی و آنالیز زمانبندی های پیچیده متخصصین این حوزه در فرانسه، هلند و چین هستند And finally, the Min-Max Algebra. We also call this dioid algebra, since there are only two operations (addition and max). There are mainly three limitations of this approach: The inverse of the max operation does not exist. We are limited to the marked graphs in deriving and analyzing in Min-Max Algebra framework. It is mainly restricted to deterministic and periodic operations (e.g., train schedule) The extensions to stochastic timed DES models are not easily obtained. For details, see CLB 5.4. This is the overall introduction of complex systems, especially DEDS. We have talked about: DEDS, models of DEDS, tools for DEDS and future directions for DEDS. To get a close view of how we evaluate and optimize the performance of DEDS, proceed to the two more examples of DEDS in separate slides. (in week 1 teaching module.)
16
شبکه های پتری (Carl Adam Petri(1939))
17
اجزای تشکیل دهنده یک مدل پتری کلاسیک
Places Transitions Direct arcs Input places Output places Tokens Consume token Produce token Marking p1 t1 p2 Tokens represent objects (humans, goods, machines), information, conditions or states of objects. Places represent buffers, channels, geographical locations, conditions or states. Transitions represent events, transformations or transportations. state transition of form (1, 0) (0, 1) p1 : input place p2: output place
18
مثال
19
Finite tree Infinite tree
20
چراغ راهنما
21
rg1 red1 yellow1 green1 yr1 gy1 rg2 red2 yellow2 green2 yr2 gy2
22
Two safe traffic lights
rg1 red1 yellow1 green1 yr1 gy1 rg2 red2 yellow2 green2 yr2 gy2 safe
23
Two safe and fair traffic lights
red1 red2 safe2 yr1 yr2 yellow1 yellow2 rg1 rg2 gy1 gy2 safe1 green1 green2
24
Example: life-cycle of a person
child puberty marriage bachelor married divorce death dead Current State Reachable State Dead State
25
اضافه کردن وزن به اتصالات
black red bb rr br 2H2 + O2 2H2O H2 O2 H2O t 2 The number of arcs between two objects specifies the number of tokens to be produced/consumed. This can be used to model (dis)assembly processes.
26
مسائل مطرح در رویداد ها p1 t1 p2 t2 p3 t1 Sequential Execution
Synchronization Merging Concurrency Conflict Confusion بیشتر از یک حالت گذر توانایی فعال شدن را دارد. Sequential Execution: Transition t2 can fire only after the firing of t1. This impose the precedence of constraints "t2 after t1." Synchronization: Transition t1 will be enabled only when a token there are at least one token at each of its input places. Merging Happens when tokens from several places arrive for service at the same transition. Concurrency: independent preconditions, with this property, Petri net is able to model systems of distributed control with multiple processes executing concurrently in time. Conflict: related preconditions Two transitions fight for the same token: conflict. t1 and t2 are both ready to fire but the firing of any leads to the disabling of the other transitions. Even if there are two tokens, there is still a conflict. the resulting conflict may be resolved in a purely non-deterministic way or in a probabilistic way, by assigning appropriate probabilities to the conflicting transitions Confusion: mixed concurrency and conflict t1
27
شبکه های پتری رنگی
28
شبکه های پتری زمانی FIFO
29
مدل چراغ راهنما با شبکه های پتری زمانی
30
شبکه های پتری سلسله مراتبی
Unfolding
31
یک شبکه پتری کلاسیک را می توان با 5 مولفه بیان نمود:
S is a set of places T is a set of transitions F is a set of arcs s.t. M0 is an initial marking W is the set of arc weights به این ترتیب معادلات حالت سیستم به صورت زیر قابل بیان است: M’ = M0 + WT * σ Where is how many times each transition fires WT state transition matrix
32
σ Firing sequence (t2 t3 t1 t4) Mn Final state (1,3,2,0)
p1 p2 p3 p4 t1 t2 t3 t4 1 2 W S={p1,p2,p3,p4} T={t1,t2,t3,t4} F={(p1,t1) (p2,t2) (p3,t3) (p4,t4) (t1,p2)(t2,p3)(t2 p4) (t3,p1) (t4,p2)} M0 Initial state (1,1,2,1) σ Firing sequence (t2 t3 t1 t4) Mn Final state (1,3,2,0)
33
تعداد تکرار دنباله رویداد ها
p1 p2 p3 p4 t1 t2 t3 t4 1 2 تعداد تکرار دنباله رویداد ها حالت اولیه حالت نهایی مینیمم تعداد رویداد ها= صرف انرژی کمتر
34
امکان نمایش محدود از حالت های نامحدود حالت ماشین ها
خصوصیات شبکه های پتری امکان نمایش محدود از حالت های نامحدود حالت ماشین ها مناسب برای مسائل با سایز کوچک مراجع و شواهد متعددی در مورد این مدل و کاربردهای آن در مدلسازی سیستم های تولیدی و صنعتی وجود دارد.
35
Example: In a Restaurant (Scenario 1)
Waiter free Customer 1 Customer 2 Take order Order taken Tell kitchen wait Serve food eating Scenario 1: Waiter takes order from customer 1; serves customer 1; takes order from customer 2; serves customer 2. Scenario 2: Waiter takes order from customer 1; takes order from customer 2; serves customer 2; serves customer 1.
36
Example: In a Restaurant (Scenario 2)
Waiter free Customer 1 Customer 2 Take order Order taken Tell kitchen wait Serve food eating
37
مقایسه مدلهای معرفی شده
سیستم های جبر ماکس-پلاس (برنامه ریزی و زمان بندی) شبکه های پتری (توالی و تکرار رویداد ها) تمامی این مدل ها و روشهای انالیز دارای مزایا و معایب خاص خود هستند که با توجه به سیستمی که قرار است مدل شود و اهدافی که خواهان رسیدن به آنها هستیم یکی از روشهای بالا که با توجه نوع مسئله مناسب تر است انتخاب می شود. مسئله ای که در مدل سازی اینگونه سیستم ها باید به آن توجه شود، ایجاد یک نوع مصالحه بین انرژی مدل سازی و انرژی تصمیم گیری است مدلهای منطقی (همانند شبکه های پتری (غیر زمانی)) به مطالعه خصوصیاتی می پردازند که فقط به توالی رویداد ها اهمیت می دهند. اگر ما علاقه مند به لحظات زمانی هستیم که در آنها یک رویداد رخ می دهدباید از مدل های زمانی (همانند شبکه های پتری زمانی و مدلهای جبری-ماکس) استفاده کنیم. مدلهای تصادفی (همانند فرایند های شبه مارکو عمومی) زمانی استفاده می شوند که ما بخواهیم رفتار قابل انتظار یک سیستم را تحت یک سری شرایط آماری داده شده تعیین کنیم. تا به امروز روشی که بیشتر برای مطالعه سیستم های وقایع گسسته به کار گرفته شده است، شبیه سازی کامپیوتری بوده است. یکی از عمده ترین معایب شبیه سازی کامپیوتری این است که محاسبات کامپیوتری در این روش نیاز به درجه بالایی از جزئیات در مدل دارد. اگرچه که این مسئله خود باعث یک تطابق و تنناظر زیاد بین مدل و سیستم واقعی می شود. عیب دیگر شبیه سازی کامپیوتری این است که همیشه به ما یک درک واقعی از تاثیر تغییر پارامترهای مختلف برروی خصوصیاتی نظیر مقاومت، پایداری، بهینه بودن کارایی سیستم و ... نمی دهد.
38
به کار گیری شبکه های پتری در مدلسازی شبکه های بیولوژیکی
Wnt signaling pathway The Wnt signaling pathway is a network of proteins best known for their roles in embryogenesis and cancer, but also involved in normal physiological processes in adult animals
40
کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته
روش فضای حالت، یکی از روشهای کاربردی برای آنالیز و بررسی چنین سیستم هایی به شمار می رود. در توسعه روش فضای حالت برای آنالیز سیستم های دینامیکی وقایع گسسته ، فرض می شود که تعدادی از رویداد ها در سیستم قابل کنترل هستند، به این معنا که می توان آنها را فعال یا غیر فعال نمود. هدف از کنترل سیستم های دینامیکی وقایع گسسته، هدایت رفتار سیستم در جهتی است که یک رفتار مطلوب به شمار می رود. Application areas: scheduling, operating procedures, resource allocation We have introduced the models and analysis tools of DEDS in the previous slides ahead. After evaluation, we come to the most important part: optimization. We want to control DEDS to optimize some given parameters. We supply some typical control problems of DEDS here: Access control is used when the resources are very limited. One well known example is the AIDM (additive increase and multiplicative decrease) algorithm used in flow control of networks. Routing control is used to find a way to route a communication packet or a manufacturing job so that it reaches the destination or exits the plant in the quickest way. Scheduling control is used when the order of the tasks affects the cost a lot. It often appears in the manufacturing automation.
41
PLANT EVENT-DRIVEN DYNAMICS TIME-DRIVEN CONTROLLER
42
l m A B m l This is a simple and familiar problem, showing the type of optimization possible in DEDS in Queueing Networks. Everything being equal (l is the arrival rate and m is the service rate), the order of efficiency ( inverse of the average waiting time) is C>B>A. First, why B>A? If all the guests arrive at the same queue in A while leaving another queue empty, let the efficiency of A be m. But the efficiency of B is 2m (with the exception of only one guest in the queue). Second, why C>B? If there is only one guest in the queue, the efficiency of B is m. But the efficiency of C is 2m. And, we can see now how a simple change of the system can improve the performance radically. (Supermarkets uses A, why? Airport, at check in, uses B and C is used in barren-provided services, by better training preserved.) The reason why supermarket uses A: it would probably be difficult to get supermarket cost owners to store in one huge line to cost effectively raise service rate to 2m. In fact, they should simply minimize(cost), because the efficiency (measured by time in line) is of little concern for them, as long as they don’t loose customers because of it. Finding room for huge line is also troublesome. 2m l C
43
کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پلاس
براساس این مدل فرض می کنیم که x(k) که حالت رویداد در گام kام است قابل اندازه گیری بوده و یا با استفاده از اندازه گیری های قبلی قابل تخمین باشد. آنگاه با استفاده از روابط بالا می توان خروجی سیستم را برای دنباله ای از ورودی های به صورت زیر تخمین زد: همچنین با توجه به مطالب بیان شده در فصل قبلی : u(k) نشان دهنده لحظه زمانی است که در آنها بسته ای از مواد خام در سیکل (k+1) ام به سیستم داده می شود. x(k): نشان دهنده لحظه زمانی است که در آن هر واحد (مولفه های برداری x) در سیکل k ام شروع به کار می کند و y(k) نشان دهنده لحظه زمانی است که در آن محصول kام سیستم را ترک می کند. بعد از پیشینی خروجی باید به مسئله کنترل یعنی محاسبه مقدار بهینه u(k) پرداخته شد. در این مرحله یک تابع هزینه تعریف می شود که معمولا با مینیمم کردن آن مقدار بهینه برای سیگنال کنترل u محاسبه می شود.
44
کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پلاس
تابع هزینه در سیستم های کلاسیک که دراین روابط r سیگنال مرجع (زمان نهایی مورد انتظار برای تولید محصول)، Np افق پیش بین ، y(k+j|k) تخمین خروجی در زمان k+j بر اساس اطلاعات موجود در زمان k ، λ یک عد اسکالر که درجه اهمیت سیگنال کنترل نسبت به خطا را نشان می دهد و u(k+j-1) سیگنال کنترل است
45
اگر زمانی نهایی مورد نظر r برای تولید محصولات مشخص باشد و اگر برای هر مقدار تاخیر بعد از این زمان تعیین شده مجبور به پرداخت جریمه باشیم بخش Jout در تابع هزینه را می توان به صورت زیر برای سیستم های وقایع گسسته خطی ماکس –پلاس تعریف نمود: اگر علاوه بر شرایط قبلی ، برای مثال با محصولات فاسد شدنی روبرو باشیم که نتوانیم آنها را زود تر از تاریخ تعیین شده تولید کنیم آنگاه تابع هزینه را می توان به صورت زیر تعریف نمود: و یا اگر فقط بخواهیم که زمان تولید را به یک حالت تعادل برسانیم می توان از تابع هزینه زیر استفاده نمود:
46
در مورد بخش Jin نیز به صورت زیر عمل می شود: معیار هزینه ورودی در سیستم های کلاسیک به صورت تعریف شد، اما در مورد سیستم های وقایع گسسته خطی ماکس- پلاس مینیمم کردن این تابع منجر به کوچک کردن لحظات زمانی ورودی می شود. که ممکن است نتیجه آن سرریز بافر ورودی باشد. بنابراین به نظر می رسد که بهتر باشد تابع ورودی ماکسیمم شود. در مورد سیستم های تولیدی به این معنا است که مواد خام با حداکثر تاخیر ممکن به سیستم داده شود. که در نتیجه آن سایز بافر ورودی نیز می تواند کوچک گرفته شود. همچنین سر ریز شدن ممکن است باعث ناپایداری در سیستم شود. به این ترتیب به نظر می رسد که برای سیستمهای وقایع گسسته MPL بهتر است تابع هزینه ورودی به صورت زیر تعریف شود که دقیقا مخالف سیستم های کلاسیک زمان گسسته خطی است. در تمامی تابع هزینه های تعریف شده برای ورودی و خروجی می توان عملگر های جمع را با عملگر های جمع در جبر ماکس-پلاس جایگزین نمود و یا می توان ترکیب وزن داری از توابع معیار مختلف را در نظر گرفت.
47
اما در مورد سیستم های وقایع گسسته MPL مولفه u(k+j) دلالت بر زمان دادن ورودی (مواد خام) به سیستم در رویداد k+j ام دارد به این ترتیب با افزایش j بدیهی است که زمان نیز افزایش می یابد و ثابت ماندن این زمان از یک رویدادی به بعد، بی معنا به نظر می رسد. بنابراین در این سیستم ها این مسئله به این صورت تغییر داده می شود که به جای زمان ورودی ، نرخ تغییرات زمان ورودی در نظر گرفته می شود، به بیان دیگر: همچنین مسئله دیگری که در اینجا باید به آن اشاره شود این است که در روابط MPC مربوط به سیستم های کلاسیک سیگنال کنترل در زمانهای بعد از افق کنترل ثابت در نظر گرفته می شود، یعنی: این شرط باعث تنظیم دنباله ورودی می شود و از سرریز شدن بافر ورودی که به علت دادن تمامی منابع در زمان یکسان اتفاق می افتد جلوگیری می کند. به این ترتیب بر اساس مینیمم کردن تابع هزینه تعیین شده یک مقدار بردار بهینه برای سیگنال ورودی u محاسبه می شود که مولفه اول این بردار به عنوان سیگنال ورودی بهینه انتخاب شده و در روابط بدست آمده جهت پیش بینی خروجی سیستم قرار داده می شود تا خروجی بعدی تخمین زده شود.
48
extended linear complementarity problem (ELCP)
قیود extended linear complementarity problem (ELCP)
49
تعاریف کنترلی در سیستم های وقایع گسسته
پایداری: یک سیستم وقایع گسسته پایدار است اگر در سطح تمامی بافر هایش محدود باقی بماند. همچنین تاخیر بین زمان تولید محصول و زمان مورد انتظار (مطلوب) نیز محدود باشد. به این ترتیب می توان گفت در مورد یک سیستم SISO روابط زیر برقرار باشد پایداری سیستم تضمین می شود: که در این روابط Myr, Mry, Myu مقادیری ثابت محدود و y(k) زمان تولید خروجی در رویداد kام و r(k) زمان مطلوب و مورد انتظار برای تولید محصول است. یک مسئله مهم در اینجا این است که پایداری یک ویژگی ذاتی سیستم نیست و به تاریخ و زمان شروع دادن ورودی و زمان پایان تولید خروج دارد. پایداری: در سیستم های متعارف پایداری به معنای محدود بودن مقادیر متغیر های حالت سیستم تعریف می شود. اما در سیستم های وقایع گسسته MPL متغیر k شمارنده رویداد است و متغیر های حالت xi(k) به عنوان زمان رخداد یک رویداد تعریف می شود. بنابراین دنباله xi(k), xi(k+1), … همیشه به طور افزایشی است و در k→∞ زمان رویداد xi(k) معمولا نامحدود خواهد بود. بنابراین تعریف پایداری که برای سیستم های کلاسیک بیان شده است در مورد این سیستم های MPL صادق نیست به این منظور پایداری برای اینگونه سیستم های وقایع گسسته به صورت زیر تغییر پیدا کرده است: که در این روابط Myr, Mry, Myu مقادیری ثابت محدود و y(k) زمان تولید خروجی در رویداد kام و r(k) زمان مطلوب و مورد انتظار برای تولید محصول است. اولین نامساوی دلالت بر این مسئله دارد ه تاخیر بین زمان تولید محصول توسط سیستم و زمان مورد انتظار محدود باقی می ماند. برقرار بودن نامساوی دوم دلالت بر این دارد که تعداد اجزا در بافر خروجی ثابت باقی خواهد ماند. و نامساوی آخر به این معنا است که زمان بین تاریخ شروع u(k) و تاریخ تولید محصول y(k) محدود است.
50
تعاریف کنترلی در سیستم های وقایع گسسته
امکان پذیری: زمانی که هیچگونه پاسخی برای u(k) بدست نیاید می گوییم کنترل این سیستم امکان پذیر نیست. این حالت در صورت تداخل قیود اتفاق می افتد. که می توان تعدادی از قیود را با توجه به اولویتشان بازتر نمود. امکان پذیری: مشابه با بحث امکان پذیری در کنترل مبتنی بر مدل در سیستم های کلاسیک وجود یک راه حل برای MPL-MPC در رویداد k ام نیز حاکی از امکان پذیر بودن آن است و زمانی می گوییم امکان پذیر نیست که هیچگونه پاسخی برای سیگنال کنترل u(k) بدست نیاید و این مسئله زمانی رخ می دهد که محدودیت های در نظر گرفته شده با هم تداخل داشته باشند. اما زمانی که هیچگونه قیدی و محدودیتی وجود ندارد همیشه یک جواب ممکن وجود خواهد داشت. مشابه با بحث MPC در سیستم های کلاسیک هنگام تداخل قیود در سیستم های وقایع گسسته نیز باید تعدادی از قیود (با توجه به اولویت شان) بر داشته شده و یا باز تر شوند. معمولا محدودیت ها و قیود زیر به دلیل معنای فیزیکشان باید حتما رعایت شوند: علاوه بر این محدودیت زیر نیز که جهت کاهش متغیر ها اعمال شده است باید رعایت شود: ابتدا یک ماتریس قطری با درایه های مثبت قطری که نشان دهنده وزن محدودیت ها است را مشخص می کنیم. به این معنا که اگر رعایت قید i مهم تر از رعایت قید j است آنگاه rii و rjj طوری انتخاب می شوند که rii بسیار کوچکتر از rjj باشد. که دراین رابطه nE تعداد ردیف های E(k) است. سپس متغیر تعریف می شود و مسئله زیر جایگزین مسئله قبلی که به علت تداخل قیود دارای یک جواب ممکن نبود می شود: اگر دنباله زمان پایان r(k) طوری انتخاب شود که شیب آن به حد کافی تند نباشد. حتی اگر u(k+j)=u(k-1) برای j=0,1,… (به این معنا که تمامی وظایف در سریع ترین زمان ممکن شروع شوند)، سیستم نمی تواند به موقع کارش را تمام کند (به بیان دیگر y(k)>>r(k) برای k های بزرگ). ماکسیمم نرخ تولید سیستم با مقدار 1/ρ مشخص می شود. به این ترتیب شیب دنباله r(k) باید طوری انتخاب شود که نرخ متوسط زمان تولید، کمتر از 1/ρ باشد. برای داشتن یک جواب ممکن ما نیاز به داشتن دنباله r(k) هستیم که در آن ρr>ρ و r0 متعلق به R وجود داشته باشد که r(k)>=r0+kρr برای همه k ها باشد. انتخاب دنباله زمان پایان r(k)
51
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
The derivative of firing vector represents the flow of the timed model The flow of the forced (or controlled) timed contPN will be denoted
52
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
تعداد تکرار دنباله رویداد ها حالت اولیه حالت نهایی
53
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
54
مثال
55
مقایسه الگوریتم یادگیری تقویت شده با کنترل پیشبین مبتنی بر مدل
56
الگوریتم یادگیری تقویت شده Reinforcement Learning
در يادگيری تقويتیReinforcement earning))سيستم تلاش میکند تا تقابلات خود با يک محيط پويا را از طريق خطا و آزمايش بهينه نمايد. در يادگيری تقويتی هيچ نوع زوج ورودی- خروجی ارائه نمیشود. به جای آن، پس از اتخاذ يك عمل، حالت بعدی و پاداش بلافصل به عامل ارائه میشود. هدف اوليه برنامهريزی عاملها با استفاده از تنبيه و تشويق است بدون آنکه ذکری از چگونگی انجام وظيفه آنها شود. یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم. ادگيری تحت سرپرستی، يک روش عمومی در يادگيری ماشين است که در آن به يک سيستم، مجموعه جفتهای ورودی – خروجی ارائه شده و سيستم تلاش میکند تا تابعی از ورودی به خروجی را فرا گيرد. يادگيری تحت سرپرستی نيازمند تعدادی داده ورودی به منظور آموزش سيستم است. با اين حال ردهای از مسائل وجود دارند که خروجی مناسب که يک سيستم يادگيری تحت سرپرستی نيازمند آن است، برای آنها موجود نيست. اين نوع از مسائل چندان قابل جوابگويی با استفاده از يادگيری تحت سرپرستی نيستند. يادگيری تقويتی مدلی برای مسائلی از اين قبيل فراهم میآورد.در يادگيری تقويتی(Reinforcement Learning)، سيستم تلاش میکند تا تقابلات خود با يک محيط پويا را از طريق خطا و آزمايش بهينه نمايد. يادگيری تقويتی مسئلهای است که يک عامل که میبايست رفتار خود را از طريق تعاملات آزمايش و خطا با يک محيط پويا فرا گيرد، با آن مواجه است. در يادگيری تقويتی هيچ نوع زوج ورودی- خروجی ارائه نمیشود. به جای آن، پس از اتخاذ يك عمل، حالت بعدی و پاداش بلافصل به عامل ارائه میشود. هدف اوليه برنامهريزی عاملها با استفاده از تنبيه و تشويق است بدون آنکه ذکری از چگونگی انجام وظيفه آنها شود. در اين سمينار ابتدا مسئله يادگيری تقويتی معرفی شده و سپس الگوريتمهای مختلف مطرح در آن بيان میشوند.
57
الگوریتم یادگیری تقویت شده Reinforcement Learning
در یک مسئله RL استاندارد با اجزای اصلی زیر روبرو هستیم: عامل که قرار است یادگیری را از طریق تعامل با محیط انجام دهد. برای اینکار باید اعمالی که عامل میتواند در محیط انجام دهد مشخص باشند. محیط برای محیط باید مشخصه های زیر تعیین شوند: وضعیت پاداش عامل میتواند از طریق ورودیهایش تشخیص دهد که در چه وضعیتی قرار دارد. عامل در وضعیت St عمل at را انجام میدهد. اینکار باعث میشود وضعیت محیط به St+1 تغییر نماید. در اثر این تغییر وضعیت عامل سیگنال reinforcement و یا پاداش rt+1 را از محیط دریافت می نماید. این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل مشاهده برای عامل باشد. (partially observable) مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد. عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت پاداش حداکثر از محیط گردد. Agent Policy State Reward Action Environment سیاست
58
الگوریتم یادگیری تقویت شده Reinforcement Learning
در RLوقتی عامل در یک حالت خاص عملی را انجام میدهد، در مقابل پاداش (reward or reinforcement) دریافت میکند. در این سیستم عامل وظیفه دارد تا پاداش دریافتی در دراز مدت را حداکثر نماید. یکی از نکات طراحی یک سیستم RL تعریف یک reinforcement functionمناسب با اهداف عامل است.
59
پاداش اگر دنباله ای از پاداش ها بصورت زیر موجود باشند:
عامل باید سعی نماید تا پاداشی را که از محیط دریافت میکند حد اکثر نماید. در واقع امید ریاضی پاداش را به حداکثر میرساند. در بسیاری از مسایل تعامل با محیط بصورت اپیزودی انجام میشود. مثلا روباتی که قرار است خروج از اتاق را یاد بگیرد به محض خارج شدن از اتاق یک اپیزود یادگیری خاتمه می یابد. لذا کل پاداشی که با شروع از یک حالت St و رسیدن به حالت نهائی ( خاتمه اپیزود یادگیری) ST بدست می آید برابر است با: روبات شطرنج بازی کن
60
در نظر گرفتن پاداشهای آینده
اگر پاداش Rt مجموع پاداشی باشد که عامل با شروع از زمانt میتواند جمع کند به طرق مختلف میتوان این پاداش را محاسبه نمود. یک راه بصورت زیر است که در آن به پاداشهای نزدیکتر ارزش بیشتری داده میشود. +50 -1 +3 r9 r5 r4 r1
61
یکی از نکات مهم در انتخاب عمل نحوه لحاظ کردن رخداد های آینده در تصمیم فعلی عامل است. برای اینکه یک عامل بتواند تاثیر رخدادهای آینده در انتخاب عمل مناسب برای حالت فعلی را در نظر بگیرد مدلهای مختلفی پیشنهاد شده است: finite horizon ساده ترین مدل این است که عامل برای انتخاب عمل مقادیر پاداشی را که در h مرحله بعد میگیرد محاسبه نموده و عملی را انتخاب نماید که مجموع پاداش را حداکثر نماید. (discounted cumulative reward) infinite horizon در این روش بجای h مرحله، پاداش درازمدت دریافتی در نظر گرفته میشود. این روش بسیار مرسوم بوده و به پاداشهائی که در آینده گرفته خواهد شد ارزش کمتری نسبت به پاداشهای فوری داده میشود.
62
در این روش فرقی بین پاداشهای نزدیک و دور در نظر گرفته نمیشود.
average reward در این روش فرقی بین پاداشهای نزدیک و دور در نظر گرفته نمیشود. هدف یادگیری تقویتی این است که یک خط مشی بهینه ای مثل p* پیدا نماید به نحویکه مقدار امید ریاضی فوق را برای تمامی حالات ماکزیمم کند. در واقع RL سعی دارد عامل را وادار کند در اثر تجربه با محیط سیاست خود را تغییر داده و طوری رفتار نماید که در دراز مدت پاداش بیشتری کسب نماید.
63
Reinforcement learning example
Start S2 Arrows indicate strength between two problem states Start maze … S4 S3 S8 S7 S5 Goal
64
Start S2 S4 S3 S8 S7 S5 Goal The first response leads to S2 …
The next state is chosen by randomly sampling from the possible next states weighted by their associative strength Associative strength = line width S4 S3 S8 S7 S5 Goal
65
Start S2 Suppose the randomly sampled response leads to S3 … S4 S3 S8 S7 S5 Goal
66
Start S2 At S3, choices lead to either S2, S4, or S7. S7 was picked (randomly) S4 S3 S8 S7 S5 Goal
67
Start S2 By chance, S3 was picked next… S4 S3 S8 S7 S5 Goal
68
Start S2 Next response is S4 S4 S3 S8 S7 S5 Goal
69
Start S2 And S5 was chosen next (randomly) S4 S3 S8 S7 S5 Goal
70
Start S2 And the goal is reached … S4 S3 S8 S7 S5 Goal
71
مقایسه الگوریتم یادگیری تقویت شده با کنترل پیش بین مبتنی بر مدل
Reinforcement learning and model predictive control are two families of control techniques which tackle control problems by formalizing them as optimal control problems. While MPC techniques assume that a model of the optimal control problem is available, reinforcement learning techniques assume that the only information available from the model is the one gathered from interaction with the system.
72
مدلهای مارکو
73
با تشکر از توجه شما
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.