Jānis Zuters, Ratnieki Latvijas Universitāte Datorikas fakultāte

Slides:



Advertisements
Similar presentations
Ma.
Advertisements

1 te 2 1 te 2 1 te-- 1 te-- 1 te 2 1 te 2 1 te 2 te ta 2-- ta 1 te-- 1 te-- 1 te ta 2-- ta 1 te-- 1 te 2 te 1-2.
KJ 242 : “ MULIAKAN ALLAH BAPA ” Syair: Horatius Bonar ( ) Terjemahan: H. A. Pandopo / J. M. Malessy (1978/1983) Lagu: Henry Smart ( )
1 1 1 OTHERS “ DOA BAPA KAMI ” Adaptasi: Pdt. Juswantori Ichwan.
Arnoldus Isaak Apituley (1998)
PKJ 012 : “ KAMI MULIAKAN NAMAMU ” Syair dan Lagu: Twila Paris (1982) Terjemahan: Yamuger (1999)
NKB 039 : “ DIKAU, ALLAH, KUSEMBAH ” Syair: Wang Da-Wei Terjemahan: F. Suleeman (1990) Lagu: Wang Da-Wei (China)
Bayesian Reinforcement Learning Machine Learning RCC 16 th June 2011.
Līguma jēdziens, veidi, noslēgšana. Līgumu brīvība.
SAM «Veicināt efektīvu energoresursu izmantošanu, enerģijas patēriņa samazināšanu un pāreju uz AER apstrādes rūpniecības nozarē» , Uzraudzības.
7. lekcija Datortīkli dr. dat. Valdis Vītoliņš gada pavasaris
G.Bārzdiņš, D.Goško, P.Paikens 02/12/2016
Education, base for future water companies needs and sustainability
Reinforcement learning
The State Employment Agency
Es esmu Krišjānis Liepiņš no biedrības “Bērnu Vides skola”.
Brokastis ar Amadeus Neatkarīgi un unikāli Līga Kovale gada 17
INFORMĀCIJAS SISTĒMU METODOLOĢIJAS (DSP404)
SECURITY SERVICES STATISTICS IN LATVIA
Bibliotēka 2.0 Teorija „Teorētiskā bāze maģistra darba izstrādei”
Autoceļu problemātika
Kvalitātes vadība universitātē
Programmatūras paštestēšana
Emocijas un jūtas. Garastāvoklis un stress
STARPTAUTISKĀS ORGANIZĀCIJAS
Atjaunojamā enerģija - ar mazāko ietekmi uz patērētāju
Kopīpašums kā aprobežojums. Kopīpašuma vēsturiskie tipi
Dace Tirzīte, tel , e-pasts:
Modelēšana un rīku būve (specseminārs)
– instruments komunikācijas prasmju uzlabošanai biznesam
Kopīpašums.
Darbības - sazarojuma operatori
Redzes evolūcija un IT revolūcija… Kopsolis vai kļūda attīstībā?
NEKOMPETENCE VAI BEZDARBĪBA Neatkarīgā policistu arodbiedrība
Mazās un vidējās pilsētas Eiropā: tendences un attīstības potenciāls
Elīna Putniņa, Rödl & Partner Kādas pārmaiņas nodokļu jomā sagaidāmas 2013.gadā?
Formālās specifikācijas
G.Bārzdiņš, D.Goško, P.Paikens 24/11/2017
VPP „SOPHIS” 2.projekta „Uz ontoloģijām balstītas tīmekļa videi pielāgotas zināšanu inženierijas tehnoloģijas” LU Datorikas fakultātes 3.posma uzdevumi.
11/20/2018 5:11 PM Kreditoru prasījumu izvērtēšana maksātnespējas procesā. Problemātika un aktuālā tiesu prakse. Ivanda Avotiņa – sertif. maksātnespējas.
Eiropas Sociālā fonda projekts
Rīgas 25. vsk g. Vita Ozola Ģeogrāfija.
PVN numura pārbaude Guntis Strazds Rīga, 2004.gada 23.septembris
Emisijas faktori un smaku mērījumi
1.seminārs “Pētījuma stratēģija un problēmas identificēšana”
ENERGOEFEKTIVITĀTES PIRMSPROJEKTA PLĀNOŠANA
Ms Access Tabulas 2. daļa Andris Šteins, 2009.
Datorika Liepājas Universitātē (LiepU)
DMF Informātikas katedra
Dzeramā ūdens kvalitātes stabilitāte pilota mēroga ūdens apgādes sistēmā VPP Projekts Nr.4 – Tehnoloģijas drošai un uzticamai gudrajai pilsētai (GUDPILS)
TIENS CINKA KAPSULAS.
Projekts “Eiropas pētījums par HIV matemātisko modelēšanu un HIV testēšanas aktivitāšu izmēģinājumiem riska grupās” HERMETIC – HIV European Research.
E-grāmatas bibliotēkās : Latvijas situācija
New approach to the strategic analysis of the municipal sector
Atvērtā koda programmatūra
Eiro- zona Latvija ES ES valstis Perso- nības Kontū- ras
REACH 2018 Sagatavojiet reģistrācijas pieteikumu kā IUCLID dokumentāciju.
Farmakokinētika un farmakodinamika geriatrijā.
Latvijas ģeoīda modeļa precizitātes uzlabošanas iespējas
Ievads proteīnu kristalogrāfijā
Programmēšanas valodu klasifikācija un lietojumsfēra
Attēlojuma līmenis (Presentation Layer)
Darbinieku nosūtīšanas tiesiskie un praktiskie aspekti.
Zinātniski metodiskie Analizatora uzbūves pamati:
Kompetenču pieeja mācību saturā
IEVADS MENTORDARBĪBĀ Eiropas Sociālā fonda projekts “Inovatīva un praksē balstīta pedagogu izglītības ieguve un mentoru profesionālā pilnveide” Nr.2010/0096/1DP/ /09/IPIA/VIAA/001.
Latvijai adaptētas nākotnes klimata projekcijas un klimata projekciju analīzes rīks – Klimata datu menedžeris (Climate Data Manager) Daiga Cepīte-Frišfelde.
Reinforcement Learning
یادگیری تقویتی Reinforcement Learning
Reinforcement Learning
Presentation transcript:

Pastiprinājuma vadītas apmācīšanās problēmu risināšana ar neironu tīklu Jānis Zuters, 06.08.2012. Ratnieki Latvijas Universitāte Datorikas fakultāte Mākslīgā intelekta fonds

Pastiprinājuma vadīta apmācīšanās (Reinforcement learning, RL) Problēmu, nevis algoritmu kopums Stāvokļi -> darbības (states -> actions) Nav iepriekš zināms, kuras ir pareizās darbības Tā vietā pastiprinājums – atlīdzības (rewards) katrā solī

MDP (Markov Decision Process) –RL problēmas formulēšanai Darbības Actions Stāvokļi States Pārejas un atlīdzības Transitions and Rewards Politika – problēmas risinājums Policy – solution to a problem

Aģenta mijiedarbība ar vidi – RL pamatideja * A.M. Schaefer, 2008

RL problēmas risināšana Uzraudzītā apmācīšanās Supervised learning eksperts Problēma Problem Politika Policy Aģents Agent Pastiprinājuma vadīta apmācīšanās Reinforcement learning

RL sistēmas funkcijas Vākt paraugus (pēc noteiktas metodikas pārstaigāt stāvokļus vidē) Meklēt risinājumu (politiku) Exploring/exploiting dilemma

Vērtību funkcijas (value function) pieeja RL problēmu risināšanā 10 -10 Vērtību tabula Dynamic programming Sarsa Actor-critic methods

Neironu tīkli RL problēmas risināšanā 10 Neironu tīkls kā vērtību funkcija -10 Neironu tīkls kā pilna RL sistēma A.M. Schaefer, 2008

Vienslāņa neironu tīkls ar RL mehānismu input neurons up down left right

Kāpēc neironu tīkls kā RL problēmas risinātājs Vairāk atbilst RL būtībai Potenciāls plašākas problēmu klases aptveršanā, nav obligāti MDP Potenciāls kļūdu noturībā Sarežģītāks un grūtāk kontrolējams algoritms

RL izaicinājumi un nepieciešamie apmācīšanās mehānismi Vēlamo darbību stimulēšanas mehānisms (value function) Vai atlīdzība ir liela vai maza? (reinforcement comparison, reference rewards) Stāvokļu telpas pārstaigāšanas nejaušības komponente (exploring) Skatīšanās vairākus soļus uz priekšu

s r a 1 x x+ r+ right up down left w y x++

Tīkla apmācības algoritms Module train_network() λ1 – step-size parameter for input decay (0..1) α3 – step-size parameter for reinforcement cumulation (0..1) Begin Forall input values #i in x Do If x(i) > X1(i) Then X1(i) := x(i) Else X1(i) := X1(i) · λ1 Endif R(i) := R(i) + α3 · X1(i) · [r - R(i)] Endforall Forall neurons #j Do train_neuron(j) End

Viena neirona apmācīšana Module train_neuron(j) λ2 – step-size parameter for input cumulation (0..1) η – learning rate Begin Forall synapses #i of j Do If IsWinner(j) And s(i) > X2(j,i) Then X2(j,i) := s(i) Else X2(j,i) := X2(j,i) · λ2 Endif W(j,i) := W(j,i) + [r - R(i)] · X2(j,i) · η If W(j,i) > 1 Then W(j,i) := 1 Elseif W(j,i) < 0 Then W(j,i) := 0 Endforall End

Izveidotā algoritma spēja risināt RL problēmas Vēlamo darbību stimulēšanas mehānisms – algoritms strādā “proof of the concept” līmenī. Vai atlīdzība ir liela vai maza? Tiek lietots lokālais reference reward katram ievadam Stāvokļu telpas pārstaigāšanas nejaušības komponente – iebūvēta neirona darbināšanas algoritmā Skatīšanās vairākus soļus uz priekšu – prot skatīties vairākus soļus uz priekšu

Algoritma papildināšana