Presentation is loading. Please wait.

Presentation is loading. Please wait.

Temida d.o.o. & Inštitut Jožef Stefan

Similar presentations


Presentation on theme: "Temida d.o.o. & Inštitut Jožef Stefan"— Presentation transcript:

1 Temida d.o.o. & Inštitut Jožef Stefan
Proces Odločanja doc. dr. Bojan Cestnik Temida d.o.o. & Inštitut Jožef Stefan Ljubljana

2 Vsebina Strojno učenje iz primerov
Upravljanje odnosov s strankami (CRM) Ocenjevanje verjetnosti pri strojnem učenju

3 Strojno učenje iz primerov
Vloga strojnega učenja pri sintezi baze znanja Sistemi za strojno učenje Področja uporabe Gradnja odločitvenih dreves Trije praktični primeri Zaključek

4 Struktura ekspertnih sistemov
Mehanizem sklepanja Uporabniški vmesnik Baza znanja

5 Vloga strojnega učenja
“Know-how” Tehnolog znanja “Say-how” ??? Baza znanja Eksperti Strojno učenje Podatki Literatura

6 Vhodni podatki C A1 A2 … AN C1 V1,1 V1,2 … V1,N C2 V2,1 V2,2 … V2,N …
______________________________________________ C1 V1,1 V1,2 … V1,N C2 V2,1 V2,2 … V2,N CM VM,1 VM,2 … VM,N Naloga: poiskati pravilo za razred C glede na vrednosti A1 do AN

7 Primer 1 Dobiček Starost Konkurenca Vrsta pada staro ne SW
_______________________________________________________________________________________ pada staro ne SW pada srednje da SW narašča srednje ne HW pada staro ne HW narašča novo ne HW narašča novo ne SW narašča srednje ne SW narašča novo da SW pada srednje da HW pada staro da SW

8 Odločitveno drevo 1 Starost staro srednje, novo pada Konkurenca ne da
narašča srednje novo pada narašča

9 Sistemi za strojno učenje
Statistične metode k-najbližjih sosedov, diskriminantna analiza, Bayesov klasifikator, … Induktivno učenje simboličnih pravil odločitvena drevesa, odločitvena pravila, indukcija logičnih programov, … Umetne nevronske mreže večnivojske usmerjene NM s povratno povezavo, Kohonenove NM, Hopfieldove NM, …

10 Zahteve Zanesljivost delovanja Transparentnost naučenega znanja
iz podatkov dobimo relevantno informacijo, velika klasifikacijska točnost Transparentnost naučenega znanja eksplicitna simbolična oblika, razumljiva ekspertom Sposobnost pojasnjevanja argumentiranje, podpora ekspertnim odločitvam Odpornost proti manjkajočim podatkom problemi iz realnega sveta

11 Primer 2 1 S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 Luč
1 S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 Luč sveti

12 Odločitveno drevo 2

13 Področja uporabe Medicina Industrija Upravljanje in odločanje
Diagnostika in prognostika Industrija Kontrola kvalitete Procesna kontrola Upravljanje in odločanje Analiza podatkov “Data mining” - “Podatkovno rudarjenje” – odkrivanje zakonitosti v podatkih

14 Postopek gradnje odločitvenih dreves
Če vsi učni primeri pripadajo istemu razredu C, potem je rezultat list C Sicer Izberi najinformativnejši atribut A Razdeli učno množico glede na vrednosti A Rekurzivno zgradi poddrevesa T1..Tk za vsako podmnožico Rezltat je drevo z vozliščem A in poddrevesi T1..Tk A T1 Tk

15 Izboljšave sistemov Splošno pravilo: dopolnitve z dodatnimi mehanizmi za izboljšanje delovanja Izbira atributa atributi z večjim številom vrednosti prednost delitve na manjše podmnožice Preveliko prilagajanje učnim primerom rezanje odločitvenih dreves oz. pravil kot sredstvo za borbo proti “šumu” v podatkih Ocenjevanje verjetnosti na majhnih vzorcih

16 Rezanje dreves R Rezanje naprej N N1 N2 Rezanje nazaj

17 Funkcija nečistoče f(p1, p2, ..., pn)
Izbira atributa Funkcija nečistoče f(p1, p2, ..., pn) maksimum pri (1/n, 1/n, ..., 1/n) minimum pri (1, 0, ..., 0), ..., (0, 0, ..., 1) f je simetrična glede na argumente Merilo nečistoče i = f(p1, p2, ..., pn) Kvaliteta razbitja množice:

18 Mere nečistoče v podatkih
Gini index (Breiman in sod. 1984) Entropija (Shannon & Weaver 1949)

19 Ocenjevanje verjetnosti
n poskusov, r uspešnih Relativna frekvenca Laplaceov zakon zaporednosti m-ocena verjetnosti

20 Bayesova formula Bayesova formula: verjetnost razreda C pri pogoju V1..Vn Predpostavka neodvisnosti V1..Vn (naivnost)

21 Primer 3 Igra: “Ugani kdo?” Vprašanja z odgovori da/ne
Določitev ustreznih vprašanj (atributov) Cilj: čim manjše odločitveno drevo (strategija igranja) Alternative: različni nabori atributov Možnosti eksperimentiranja

22 Odločitveno drevo 3

23 Zaključek Uporabnost: iskanje medsebojnih odvisnosti v podatkih
Dodatno razumevanje in opisovanje pojavov Spodbujanje kreativnega (kritičnega) razmišljanja

24 Vsebina Strojno učenje iz primerov 
Upravljanje odnosov s strankami (CRM) Ocenjevanje verjetnosti pri strojnem učenju

25 Življenjski cikel kupca I
Potencialni kupec Novi kupec Uveljavljeni kupec visoka vrednost visok potencial nizka vrednost Bivši kupec

26 Življenjski cikel kupca II
Uveljavljeni kupec Bivši kupec Potencialni kupec Novi kupec Visoka vrednost Prostovoljni izstop Ciljno tržišče Novi kupec Začetni kupec Visok potencial Nizka vrednost Načrtovan izstop Ponovna pridobitev

27 Dogodki v ciklu Pridobivanje novih kupcev (kampanja)
Odgovori na kampanjo (pošta, telefon, web-obrazec, …) Prvi nakup, ostali nakupi Kampanje za razširitev spektra uporabljanih izdelkov in storitev, nakup izboljšanih verzij, … Izstopi kupcev: načrtovani, prostovoljni, tihi Kampanje za ponovno pridobitev bivših kupcev

28 Podatki v ciklu Zgodovina kampanj, demografski podatki, …
Uporaba izdelkov in storitev, plačilni podatki, odgovori na kampanje, … Razlogi za izstop (prekinitev)

29 Primer I – Ponudba novega izdelka
Pošiljanje pošte po seznamu znanih strank Tipičen odziv: 1% strank, ki so prejele pošto, se odzove in kupi ponujeni izdelek 100,000 pisem bo prineslo okoli 1,000 nakupov Data mining: ugotovitev, katere stranke se bodo najverjetneje odzvale na ponujeni izdelek z nakupom (glede na pretekle izkušnje) Povečanje odziva od 1% na 1.25%: prodajo 1,000 izdelkov lahko dosežemo s samo 80,000 pismi, kar zmanjša stroške pošiljanja za petino

30 Primer II – Avtomobilsko zavarovanje
Lastniki hitrih športnih avtomobilov spadajo v skupino z visokim tveganjem Data mining iz zbranih podatkov: če imajo lastniki hitrih športnih avtomobilov še drugi (navaden) avto, potem njihovo tveganje ni večje od preostale populacije – lahko jim ponudimo ugodno zavarovalno polico Kot rezultat odkrite niše med lastniki hitrih športnih avtomobilov je zavarovalnica spremenila politiko določanja cen pri zavarovanju športnih avtomobilov

31 Primer III – Obnašanje strank
Trije tipi lastnikov kreditnih kartic glede na njihovo donosnost: “Revolvers”: visoki zneski na računih, zamude pri plačilih (limit), visoka donosnost zaradi obresti na visoke zneske “Transactors”: visoki zneski, redno plačevanje; majhne obresti, samo članarina “Convenience users”: občasno visoki računi (potovanja, večji nakupi, …), obročno odplačevanje Podatki: 18 mesecev zgodovine Segmentacija glede na oceno donosnosti in potencial

32 Primer IV – Modeliranje prestopov
“Churn” – stranka mobilnega operaterja, ki bo v bližnji prihodnosti zamenjala ponudnika Cena zadržanja stranke je bistveno manjša kot cena ponovne pridobitve stranke Tradicionalni pristop: prepričevanje dobrih strank (darilo), da podpišejo pogodbo še za eno leto Data mining: segmentiranje strank, ocena vrednosti stranke, ponuditi stranki to, kar potrebuje (zanesljivost, sodobno funkcionalnost, ugodno ceno nočnih pogovorov, …) Upoštevanje časa: izbira pravega trenutka

33 Zaključek Vse širša vrzel med
zmožnostjo zbiranja in hranjenja podatkov o strankah, izdelkih, … zmožnostjo analiziranja in identificiranja uporabnih informacij (“actionable information”) iz podatkov Vloga “Data mininga”: premoščanje nastale vrzeli

34 Vsebina Strojno učenje iz primerov 
Upravljanje odnosov s strankami (CRM)  Ocenjevanje verjetnosti pri strojnem učenju

35 Ocenjevanje verjetnosti
Strojno učenje ob koncu 80-tih Gradnja odločitvenih dreves Naivni Bayesov klasifikator Ocenjevanje pogojnih verjetnosti z m-oceno Vpliv m-ocene na delovanje algoritmov in rezultate

36 Atributna predstavitev primerov
Naloga: poišči pravilo za C v odvisnosti od A1 … AN

37 Gradnja odločitvenih dreves
Gradimo drevo na množici primerov S: Če vsi primeri iz S pripadajo enemu razredu C, potem je rezultat list z oznako C sicer izberi najinformativnejši atribut A, ki ima vrednosti v1 do vK razdeli množico S na S1 do SK glede na vrednosti atributa A rekurzivno zgradi poddrevesa T1 do TK za S1 do SK rezultat je vozlišče A s poddrevesi T1 do TK A v1 vK T1 TK

38 Izbira atributa v vozlišču
Funkcija nečistoče Maximum pri (1/n, 1/n, …, 1/n) Minimum pri (1, 0, …, 0), …, (0, 0, …, 1) Simetrična funkcija glede na argumente Mera nečistoče Ocena razdelitve (“goodness of split”):

39 Mere nečistoče Gini-indeks (Breiman et. al. 1984)
Entropija (Shannon & Weaver 1949, Quinlan 1979)

40 Gini-indeks in entropija
Za dva razreda: p1

41 Izboljšave pri gradnji dreves
Atributi z več vrednostmi => normalizacija, binarizacija Delitev na majhne podmnožice => razmerje informacijskega prispevka Prevelika prilagoditev drevesa podatkom => rezanje (poenostavljanje) dreves

42 Bayesova formula aposteriorna verjetnost H apriorna verjetnost H
verjetnost, da se zgodi E, če velja H verjetnost, da se neodvisno zgodi E

43 Bayesova formula: primer (I)
Z metom kocke določimo, iz katere vreče bomo vzeli kroglico. Če vržemo 1 ali 2, potem kroglico vzamemo iz prve vreče, sicer (3, 4, 5 ali 6) iz druge vreče.

44 Bayesova formula: primer (II)
Denimo, da smo izvlekli modro kroglico. Kakšna je verjetnost, da smo jo izvlekli iz prve vreče? E – izvlekli smo modro kroglico; H – vlekli smo iz prve vreče.

45 Naivni Bayesov klasifikator
Bayesova formula za razred C pri pogoju V1 do VN: Ob predpostavki neodvisnosti atributov:

46 Ocenjevanje verjetnosti
Očitna vloga v sistemih za strojno učenje, vendar zapostavljena Običajno: relativna frekvenca Knjige: I.J.Good (1965): The Estimation of Probabilities J.O.Berger (1980): Statistical Decision Theory and Bayesian Analysis “The estimation of probabilities can be difficult when the sample is small.” (I.J.Good, 1965)

47 Bayesovska ocena verjetnosti
Verjetnostna porazdelitev z gostoto Beta funkcija a uspešnih poskusov, b neuspešnih: Matematično upanje Varianca

48 Bayesovska ocena II Apriorna porazdelitev , n poskusov, r uspešnih
Relativna frekvenca: apriorna porazdelitev Laplaceov zakon: apriorna porazdelitev m-ocena verjetnosti:

49 Vplivi m-ocene Pomembne izboljšave rezultatov delovanja
Poenostavitev algoritmov Nadomesti nekatere ‘ad-hoc’ mehanizme Bolj realistične razlage

50 Izbira atributov pri gradnji odločitvenih dreves
Vpliv m-ocene podoben kot vpliv Quinlanove normalizacije Vpliv m-ocene je večji kot vpliv različnih mer nečistoče Z ustrezno nastavitvijo parametra m omilimo vpliv šuma in dosežemo izboljšanje klasifikacijske točnosti

51 Rezanje odločitvenih dreves
Osnova: rezanje po metodi Niblett-Bratko (Laplaceov zakon za oceno klasifikacijske napake) Nov postopek rezanja: apriorna porazdelitev verjetnosti razredov ocenjena iz učne množice S spreminjanjem parametra m dobimo več dreves različnih velikosti

52 “No free lunch” princip
Za oceno verjetnosti moramo najprej oceniti vrednost parametra m Odprta vprašanja: Ali uporabimo enak m za vse atribute in vrednosti? Ali je m odvisen od domene ali od podatkov? Kako učinkovito ocenimo m?

53 Odmevi na m-oceno Publikacije:
ECAI 90: Estimating probablilities: A crucial task in machine learnig (Cestnik) EWSL 91: On estimating probabilities in tree pruning (Cestnik, Bratko) CIT 93: Using the m-estimate in rule induction (Džeroski, Cestnik, Petrovski) Večina raziskovalcev na področju strojnega učenja uporablja m-oceno Zlati znak Jožefa Stefana v letu 1992 Še vedno povpraševanje po člankih ECAI 90 in EWSL 91

54 Vsebina Strojno učenje iz primerov 
Upravljanje odnosov s strankami (CRM)  Ocenjevanje verjetnosti pri strojnem učenju 


Download ppt "Temida d.o.o. & Inštitut Jožef Stefan"

Similar presentations


Ads by Google