Jānis Zuters, Ratnieki Latvijas Universitāte Datorikas fakultāte

Slides:

Advertisements

Similar presentations

Advertisements

1 te 2 1 te 2 1 te-- 1 te-- 1 te 2 1 te 2 1 te 2 te ta 2-- ta 1 te-- 1 te-- 1 te ta 2-- ta 1 te-- 1 te 2 te 1-2.

KJ 242 : “ MULIAKAN ALLAH BAPA ” Syair: Horatius Bonar ( ) Terjemahan: H. A. Pandopo / J. M. Malessy (1978/1983) Lagu: Henry Smart ( )

1 1 1 OTHERS “ DOA BAPA KAMI ” Adaptasi: Pdt. Juswantori Ichwan.

Arnoldus Isaak Apituley (1998)

PKJ 012 : “ KAMI MULIAKAN NAMAMU ” Syair dan Lagu: Twila Paris (1982) Terjemahan: Yamuger (1999)

NKB 039 : “ DIKAU, ALLAH, KUSEMBAH ” Syair: Wang Da-Wei Terjemahan: F. Suleeman (1990) Lagu: Wang Da-Wei (China)

Bayesian Reinforcement Learning Machine Learning RCC 16 th June 2011.

Līguma jēdziens, veidi, noslēgšana. Līgumu brīvība.

SAM «Veicināt efektīvu energoresursu izmantošanu, enerģijas patēriņa samazināšanu un pāreju uz AER apstrādes rūpniecības nozarē» , Uzraudzības.

7. lekcija Datortīkli dr. dat. Valdis Vītoliņš gada pavasaris

G.Bārzdiņš, D.Goško, P.Paikens 02/12/2016

Education, base for future water companies needs and sustainability

Reinforcement learning

The State Employment Agency

Es esmu Krišjānis Liepiņš no biedrības “Bērnu Vides skola”.

Brokastis ar Amadeus Neatkarīgi un unikāli Līga Kovale gada 17

INFORMĀCIJAS SISTĒMU METODOLOĢIJAS (DSP404)

SECURITY SERVICES STATISTICS IN LATVIA

Bibliotēka 2.0 Teorija „Teorētiskā bāze maģistra darba izstrādei”

Autoceļu problemātika

Kvalitātes vadība universitātē

Programmatūras paštestēšana

Emocijas un jūtas. Garastāvoklis un stress

STARPTAUTISKĀS ORGANIZĀCIJAS

Atjaunojamā enerģija - ar mazāko ietekmi uz patērētāju

Kopīpašums kā aprobežojums. Kopīpašuma vēsturiskie tipi

Dace Tirzīte, tel , e-pasts:

Modelēšana un rīku būve (specseminārs)

– instruments komunikācijas prasmju uzlabošanai biznesam

Darbības - sazarojuma operatori

Redzes evolūcija un IT revolūcija… Kopsolis vai kļūda attīstībā?

NEKOMPETENCE VAI BEZDARBĪBA Neatkarīgā policistu arodbiedrība

Mazās un vidējās pilsētas Eiropā: tendences un attīstības potenciāls

Elīna Putniņa, Rödl & Partner Kādas pārmaiņas nodokļu jomā sagaidāmas 2013.gadā?

Formālās specifikācijas

G.Bārzdiņš, D.Goško, P.Paikens 24/11/2017

VPP „SOPHIS” 2.projekta „Uz ontoloģijām balstītas tīmekļa videi pielāgotas zināšanu inženierijas tehnoloģijas” LU Datorikas fakultātes 3.posma uzdevumi.

11/20/2018 5:11 PM Kreditoru prasījumu izvērtēšana maksātnespējas procesā. Problemātika un aktuālā tiesu prakse. Ivanda Avotiņa – sertif. maksātnespējas.

Eiropas Sociālā fonda projekts

Rīgas 25. vsk g. Vita Ozola Ģeogrāfija.

PVN numura pārbaude Guntis Strazds Rīga, 2004.gada 23.septembris

Emisijas faktori un smaku mērījumi

1.seminārs “Pētījuma stratēģija un problēmas identificēšana”

ENERGOEFEKTIVITĀTES PIRMSPROJEKTA PLĀNOŠANA

Ms Access Tabulas 2. daļa Andris Šteins, 2009.

Datorika Liepājas Universitātē (LiepU)

DMF Informātikas katedra

Dzeramā ūdens kvalitātes stabilitāte pilota mēroga ūdens apgādes sistēmā VPP Projekts Nr.4 – Tehnoloģijas drošai un uzticamai gudrajai pilsētai (GUDPILS)

TIENS CINKA KAPSULAS.

Projekts “Eiropas pētījums par HIV matemātisko modelēšanu un HIV testēšanas aktivitāšu izmēģinājumiem riska grupās” HERMETIC – HIV European Research.

E-grāmatas bibliotēkās : Latvijas situācija

New approach to the strategic analysis of the municipal sector

Atvērtā koda programmatūra

Eiro- zona Latvija ES ES valstis Perso- nības Kontū- ras

REACH 2018 Sagatavojiet reģistrācijas pieteikumu kā IUCLID dokumentāciju.

Farmakokinētika un farmakodinamika geriatrijā.

Latvijas ģeoīda modeļa precizitātes uzlabošanas iespējas

Ievads proteīnu kristalogrāfijā

Programmēšanas valodu klasifikācija un lietojumsfēra

Attēlojuma līmenis (Presentation Layer)

Darbinieku nosūtīšanas tiesiskie un praktiskie aspekti.

Zinātniski metodiskie Analizatora uzbūves pamati:

Kompetenču pieeja mācību saturā

IEVADS MENTORDARBĪBĀ Eiropas Sociālā fonda projekts “Inovatīva un praksē balstīta pedagogu izglītības ieguve un mentoru profesionālā pilnveide” Nr.2010/0096/1DP/ /09/IPIA/VIAA/001.

Latvijai adaptētas nākotnes klimata projekcijas un klimata projekciju analīzes rīks – Klimata datu menedžeris (Climate Data Manager) Daiga Cepīte-Frišfelde.

Reinforcement Learning

یادگیری تقویتی Reinforcement Learning

Reinforcement Learning

Presentation transcript:

Pastiprinājuma vadītas apmācīšanās problēmu risināšana ar neironu tīklu Jānis Zuters, 06.08.2012. Ratnieki Latvijas Universitāte Datorikas fakultāte Mākslīgā intelekta fonds

Pastiprinājuma vadīta apmācīšanās (Reinforcement learning, RL) Problēmu, nevis algoritmu kopums Stāvokļi -> darbības (states -> actions) Nav iepriekš zināms, kuras ir pareizās darbības Tā vietā pastiprinājums – atlīdzības (rewards) katrā solī

MDP (Markov Decision Process) –RL problēmas formulēšanai Darbības Actions Stāvokļi States Pārejas un atlīdzības Transitions and Rewards Politika – problēmas risinājums Policy – solution to a problem

Aģenta mijiedarbība ar vidi – RL pamatideja * A.M. Schaefer, 2008

RL problēmas risināšana Uzraudzītā apmācīšanās Supervised learning eksperts Problēma Problem Politika Policy Aģents Agent Pastiprinājuma vadīta apmācīšanās Reinforcement learning

RL sistēmas funkcijas Vākt paraugus (pēc noteiktas metodikas pārstaigāt stāvokļus vidē) Meklēt risinājumu (politiku) Exploring/exploiting dilemma

Vērtību funkcijas (value function) pieeja RL problēmu risināšanā 10 -10 Vērtību tabula Dynamic programming Sarsa Actor-critic methods

Neironu tīkli RL problēmas risināšanā 10 Neironu tīkls kā vērtību funkcija -10 Neironu tīkls kā pilna RL sistēma A.M. Schaefer, 2008

Vienslāņa neironu tīkls ar RL mehānismu input neurons up down left right

Kāpēc neironu tīkls kā RL problēmas risinātājs Vairāk atbilst RL būtībai Potenciāls plašākas problēmu klases aptveršanā, nav obligāti MDP Potenciāls kļūdu noturībā Sarežģītāks un grūtāk kontrolējams algoritms

RL izaicinājumi un nepieciešamie apmācīšanās mehānismi Vēlamo darbību stimulēšanas mehānisms (value function) Vai atlīdzība ir liela vai maza? (reinforcement comparison, reference rewards) Stāvokļu telpas pārstaigāšanas nejaušības komponente (exploring) Skatīšanās vairākus soļus uz priekšu

s r a 1 x x+ r+ right up down left w y x++

Tīkla apmācības algoritms Module train_network() λ1 – step-size parameter for input decay (0..1) α3 – step-size parameter for reinforcement cumulation (0..1) Begin Forall input values #i in x Do If x(i) > X1(i) Then X1(i) := x(i) Else X1(i) := X1(i) · λ1 Endif R(i) := R(i) + α3 · X1(i) · [r - R(i)] Endforall Forall neurons #j Do train_neuron(j) End

Viena neirona apmācīšana Module train_neuron(j) λ2 – step-size parameter for input cumulation (0..1) η – learning rate Begin Forall synapses #i of j Do If IsWinner(j) And s(i) > X2(j,i) Then X2(j,i) := s(i) Else X2(j,i) := X2(j,i) · λ2 Endif W(j,i) := W(j,i) + [r - R(i)] · X2(j,i) · η If W(j,i) > 1 Then W(j,i) := 1 Elseif W(j,i) < 0 Then W(j,i) := 0 Endforall End

Izveidotā algoritma spēja risināt RL problēmas Vēlamo darbību stimulēšanas mehānisms – algoritms strādā “proof of the concept” līmenī. Vai atlīdzība ir liela vai maza? Tiek lietots lokālais reference reward katram ievadam Stāvokļu telpas pārstaigāšanas nejaušības komponente – iebūvēta neirona darbināšanas algoritmā Skatīšanās vairākus soļus uz priekšu – prot skatīties vairākus soļus uz priekšu

Algoritma papildināšana