Presentation is loading. Please wait.

Presentation is loading. Please wait.

Odkrivanje zakonitosti iz podatkov

Similar presentations


Presentation on theme: "Odkrivanje zakonitosti iz podatkov"— Presentation transcript:

1 Odkrivanje zakonitosti iz podatkov
doc. Janez Demšar Laboratorij za umetno inteligenco Fakulteta za računalništvo in informatiko Univerza v Ljubljani

2

3 Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

4 Data mining (DM) finding interesting regularities/rules/patterns in the data
Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Is “zelenjavna juha” a kind of soup or a sausage? How do you say “soup” in Slovenian language? You all speak Slovenian You are experienced text miners (an area of DM)

5 Data mining (DM) finding interesting regularities/rules/patterns in the data
Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Predictive model Is “zelenjavna juha” a kind of soup or a sausage? How do you say “soup” in Slovenian language? Pattern (general knowledge)

6 Kaj je na spodnjih slikah?

7 Kdaj bo sovražnik napadel?

8 Kakšna orodja potrebujemo?
Vsi smo naravno nadarjeni iskalci zakonitosti iz podatkov Še več: naravno nesposobni smo spregledati vzorec Vendar: blestimo, ko gre za besedilo in slike, na pa v številkah in simbolih, klonemo, ko imamo opraviti s prevelikim številom podatkov ali prezapletenimi vzorci torej potrebujemo orodja, ki nam pomagajo, kjer smo šibki ne potrebujemo orodij, ki nas zamenjujejo, kjer smo močni potrebujemo orodja, ki tisto, česar ne obvladamo (številke, velike količine podatkov) spremenijo v to, kar obvladamo (slike, preprosti formalni modeli) slabovidni ne potrebujejo kamere, temveč očala. Gledal bo že sam.

9 Sodobni pripomočki … iščejo formalne opise, koristne vizualizacije
preiskujejo ogromen prostor opisov zmorejo delati z ogromno količino podatkov so nepristranski, brez subjektivne presoje in osebnih želja

10 Področja uporabe Analiza poslovanja, proizvodnje, trga
Analiza poslovnih partnerjev, strank Predvidevanje izjemnih dogodkov, zlorab Trženje, odnosi z javnostjo Znanstvene raziskave medicina (diagnostika, prognoza, odločanje) farmacija (učinkovine, načrtovanje zdravil) genetika (določanje funkcij genov, genskih mrež,  farmacija) ekologija Številna druga področja internet (npr. Google...)

11 Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

12 odkrivanje zakonitosti iz podatkov
sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki

13 Glavne značilnosti in razlike
Statistika matematična disciplina omejen izbor modelov (po značilnostih, ne po številu!) zna preveriti vnaprej sestavljene hipoteze, ne zna pa jih sestavljati šestdeseta: “data fishing” Strojno učenje ad hoc (v primerjavi s statistiko) bolj zapleteni modeli (po izraznosti, ne po razložljivosti ali izpeljavi!) sestavlja (“išče”) hipoteze, ne zna pa jih preveriti Vizualizacija prikazuje podatke v človeku razumljivi obliki ne sestavlja modelov in jih ne preverja najpreprostejša, najučinkovitejša in najlažje zavajajoča tehnika

14 Kaj je na sliki? “The researchers found that when people were primed to feel out of control, they were more likely to see patterns where none exist.” (See a Pattern on Wall Street?, John Tierney, po Science)

15 CRISP-DM CRoss Industry Standard Process for Data Mining

16 Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

17 Razumevanje problema Kaj nas pravzaprav zanima?
Kaj so relevantna vprašanja, na katera želimo odgovoriti? Kakšne odgovore pričakujemo? Kakšne vrste odgovorov pričakujemo? Kaj že vemo? Problemi Feigenbaumovo ozko grlo: “odkrivanje znanja eksperta” Zaupnost podatkov

18 Razumevanje podatkov Kaj pomenijo posamezni podatki?
Kaj pomenijo posamezne vrednosti? So podatki točni? So med seboj povezani? Kaj pomenijo neznane vrednosti? Je vzorec relevanten? So podatki konsistentni – imajo stalno isti pomen? Če gre za napovedni model: kaj želimo napovedati in iz česa? Česa ne moremo uporabiti v modelu? Zakaj ne?

19 Priprava podatkov Kateri atributi nas zanimajo?
Odstrani atribute, ki niso povezani s problemom Odstrani atribute, ki jih ni mogoče uporabiti Odstrani atribute, ki so nezanesljivo merjeni, imajo preveč manjkajočih vrednosti... Po potrebi odstrani “duplikate” atributov Moremo “uganiti” neznane in napačne vrednosti? Namesto neznanih vrednosti vstavimo najverjetnejše vrednosti ali vrednosti napovedani iz drugih vrednosti Napačne vrednosti lahko odkrijemo vizualno Kateri primeri nas zanimajo? Odstrani nerelevantne primere Odstrani nezanesljive primere (šum, manjkajoče vrednosti) Vedno oblikuj čim objektivnejši kriterij izbiranja pred izbiranjem.

20 Priprava podatkov (2) Je mogoče atribute transformirati v priročnejšo obliko? Poenostavi prezapletene atribute (preveč vrednosti, znane skupine vrednosti...) Po potrebi spremeni diskretne atribute v zvezne in obratno Združuj atribute v nove, izpeljane atribute, kadar je to smiselno Vse našteto – izbor atributov, primerov, predelava atributov – moremo opravljati tudi sproti, če uporabljeni sistem to omogoča to moremo početi dovolj objektivno to ni proti pravilom igre Sprotno predelovanje podatkov ni le dovoljeno, temveč zaželjeno Ne le zaželjeno: to je neločljiv del iskanja zakonitosti kateri atributi so uporabni, kako jih sestaviti, vidimo sproti... metode določanja nezanesljivih primerov temeljijo na metodah modeliranja, vizualizacije...

21 Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

22 Vizualizacija Kako podatke najboljše narisati?
Uporabljaj orodja, ki imajo veliko različnih vizualizacij Osnovne vizualizacije: porazdelitve, histogrami, krožni grafikoni, krivulje Večparameterske vizualizacije: razpršitveni diagrami, RadViz, parketni diagrami, mozaik Priložnostne vizualizacije: vizualni pripomočki sestavljeni posebej za specifične podatke Excel nima veliko vizualizacij Uporabi pravo vizualizacijo za to, kar bi rad pokazal Bodi ustvarjalen Ne bodi baročen: razmišljaj, kako narisati čim manj, a povedati čim več Pazi, da te vizualizacija ne zavede Ne zavajaj drugih z vizualizacijo Ne pusti se zavesti vizualizacijam drugih

23 Vizualizacija mladoletniki moški ženske kadilci 2104 29148 19242
nekadilci 12503 82194 91023

24 kakšni so deleži (ne)kadilcev v posamezni skupini?
mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 koliko je katerih? brez nepotrebnih grafičnih elementov (ozadje...) “razumljive” barve kakšni so deleži (ne)kadilcev v posamezni skupini? kako se razlikujejo deleži (ne)kadilcev po skupinah?

25 kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci?
mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 koliko je katerih? kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci? kako se razlikujejo deleži skupin med kadilci in nekadilci?

26 Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj.
mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 Pogosta zgleda grafov, ne povesta ničesar o podatkih (govorita le o svojem avtorju) “Ko mladoletnik postane moški, začne kaditi. Ko se kasneje spremeni v žensko, bo morda nehal.” Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj.

27 mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 kadilci nekadilci Krožni grafikoni so primerni za prikazovanje porazdelitev, manj pa za primerjanje.

28 mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 Primer, kako z nepotrebno tridimenzionalnostjo napravimo graf manj berljiv

29 Vizualizacija z Excelom
Ostale vizualizacije v Excelu vizualizacije z zvezno osjo x zvezdni grafikoni večdimenzionalni grafi ... in kup okraskov pravkar videnega

30 Primeri slabih grafov (1)

31 Primeri slabih grafov (2)

32 Primeri slabih grafov (2)
Poudarjaj očitno, da se izogneš bistvenemu...

33 Primeri slabih grafov (3)

34 Primeri slabih grafov (3)
Sotheby’s Christies’s Preveč poudarja razlike Riše s perspektive Christie’s

35 Primeri slabih grafov (4)
Morda pa se vpisujejo vedno “revnejši” študenti? Spodnji graf velja za zadnjih 12 let Nihanje med 10. in 14. najboljšo v ZDA, ne med vrhom in sredino Različne letnice! To ni padec, temveč vzpon s 13. na 6. najboljšo! Ni “erratically” pretirano, da spremembe so, pa je normalno?

36 Primeri slabih grafov (5)
V poprečju? Zakaj primerjati poprečne delavce z dvajsetimi najboljše plačanimi “menedžerji”? Sečišče, ki ga ni! /35500 = 239

37 Vlaki na progi Paris-Lyon

38 Epidemija kolere

39 Kako je oblikovan svet? Žrtve vojn Izvoz igrač Cene hiš
Poraba alkohola Uvoz igrač AIDS

40 Teorija vizualizacije
Grafični elementi Diskretne količine pokažemo z obliko simbolov, barvo, zapolnjenostjo... Zvezne količine prikažemo z dolžino in položajem Površina je manj primerna za zvezne količine Barve so praviloma neprimerne za zvezne količine in jih uporabimo, ko ni potrebna natačnost ali pa ne moremo drugače Izogibaj se nepotrebnim elementom: osem, črtam, slikam, ki ne sporočajo ničesar; “chartjunk”: črnilo, ki ne posreduje informacije navidezna perspektiva le popači sliko Več E. R. Tufte: The Visual Display of Quantitative Information E. R. Tufte: The Cognitive Style of Powerpoint

41 Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

42 Računsko modeliranje, iskanje vzorcev
Katere metode modeliranja so primerne za naš problem? Katera metoda more delati z našimi podatki? Katera je teoretično najprimernejša? Katera metoda da najbolj natančen model? Kateri modeli bodo najrazumljivejši uporabniku? Katere modele bo najlažje uporabljati?

43 Modeliranje Osnovne statistične metode
srednja vrednost, mediana, modus porazdelitve, korelacije Napovedovanje (nadzorovano učenje, regresija) statistične/verjetnostne metode linearna in logistična regresija naivni Bayesov klasifikator subsimbolične metode metoda najbližjih sosedov nevronske mreže metoda podpornih vektorjev simbolične metode klasifikacijska in regresijska drevesa odločitvena pravila Iskanje vzorcev razvrščanje v skupine (clustering) iskanje povezav (asociativna pravila) analiz mrež kombinacije vizualizacije in učenja FreeViz, VizRank, MDS

44 Sistemi za odkrivanje zakonitosti iz podatkov
Komercialni sistemi Zelo dragi, dobra uporabniška podpora Najbolj znani SPSS: Clementine SAS Institute: SAS Enterprise Miner Prosto dostopni Zastonj, a z manj podpore (razen uporabnikov med sabo) Ker izvirajo iz raziskovalnih okolij, so pogosto inovativnejši Največja Weka, University of Waikato osredotočen na strojno učenje velika skupnost uporabnikov Orange, Fakulteta za računalništvo in informatiko, Ljubljana več metod za odkrivanje zakonitosti iz podatkov, predvsem vizualizacije hiter inovativen in zmogljiv uporabniški vmesnik, dobra dokumentacija za skriptni nivo uporabniški vmesnik in podpora v slovenščini 

45 Ocenjevanje modelov Točnost modela Uporabnost modela Smiselnost modela
Kateri vidik točnosti nas pravzaprav zanima? Klasifikacijska točnost Kalibracija verjetnosti Senzitivnost, specifičnost, ... ROC (TPR vs. FPR) Krivulja dviga (TP vs. P) Uporabnost modela Je model uporaben v praksi? Je za to dovolj natančen, preprost? Napoveduje, kar potrebujemo, s tistim, kar imamo? Smiselnost modela Je model skladen s prej znanimi dejstvi in zakonitostmi? Če ni: zakaj ne? Napačni podatki Napačna interpretacija modela Napačna “znana dejstva in zakonitosti” Pogoste mere true positive (TP) true negative (TN) false positive (FP) false negative (FN) true positive rate (TPR) (hit rate, recall, sensitivity) TPR = TP / P = TP / (TP + FN) false positive rate (FPR) (false alarm rate, fall-out) FPR = FP / N = FP / (FP + TN) accuracy (ACC) specificity (SPC) SPC = TN / (FP + TN) = 1 − FPR positive predictive value (PPV) (precision) PPV = TP / (TP + FP) negative predictive value (NPV) NPV = TN / (TN + FN) false discovery rate (FDR) FDR = FP / (FP + TP)

46 Uporaba modelov V kakšni obliki pripraviti model za rabo?
Ekspertni sistem, sistem za podporo odločanju Sistem za “ročno” napovedovanje Članek, poročilo...

47 Literatura in povezave
Splošno Skripta s sorodnega predavanja: Standard CRISP: Vizualizacija O estetiki in korektnosti vizualizacij E. R. Tufte: The Visual Display of Quantitative Information Domača stran: Zanimive vizualizacije Gapminder Kako je videti svet Zbirka zanimivih vizualizacij

48 Literatura in povezave (2)
Programi Orange – strojno učenje, vizualizacija, interaktivnost Knime – podobno kot Orange Weka – poudarek na strojnem učenju, težja uporaba, manj interaktivno GGobi – znan vizualizacijski paket, navezan na statistični paket R:


Download ppt "Odkrivanje zakonitosti iz podatkov"

Similar presentations


Ads by Google