Download presentation
Presentation is loading. Please wait.
Published byFrancisca María José Palma Luna Modified over 6 years ago
1
Odkrivanje zakonitosti iz podatkov
doc. Janez Demšar Fakulteta za računalništvo in informatiko Univerza v Ljubljani
2
podatki o legah zvezd (Tycho Brahe)
vsi planeti (tudi Zemlja) krožijo okrog Sonca T 2 ~ r 3 (Johannes Kepler) svet je mogoče opisati z matematičnimi formulami zakon težnosti (Isaac Newton) centrifugalna sila ipd.
3
pomik spektra svetlobe oddaljenih zvezd (Ives, Stilwell)
Dopplerjev efekt deluje tudi na svetlobo posebna relativnostna teorija (Albert Einstein) ni posebnega mesta ali gibanja
4
podatki vzorci, hipoteze teorija lege planetov spekter svetlobe
T 2 ~ r 3 Dopplerjev pojav posebna relativnost zakon težnosti Galileo, Newton... genetika družboslovje ... matematika fizika ...
5
odkrivanje zakonitosti iz podatkov
sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki
6
Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje
7
Data mining (DM) finding interesting regularities/rules/patterns in the data
Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Is “zelenjavna juha” a kind of soup or a sausage? How do you say “soup” in Slovenian language? You all speak Slovenian You are experienced text miners (an area of DM)
8
Data mining (DM) finding interesting regularities/rules/patterns in the data
Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Predictive model Is “zelenjavna juha” a kind of soup or a sausage? How do you say “soup” in Slovenian language? Pattern (general knowledge)
9
Data mining (DM) finding interesting regularities/rules/patterns in the data
Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Foundations of machine learning/data mining Occam’s razor: we prefer simple rules Bias: we know what kind of rules to expect Background knowledge: existing knowledge related to the problem
10
Kakšna orodja potrebujemo?
Vsi smo naravno nadarjeni iskalci zakonitosti iz podatkov Še več: naravno nesposobni smo spregledati vzorec Vendar: blestimo, ko gre za besedilo in slike, na pa v številkah in simbolih, klonemo, ko imamo opraviti s prevelikim številom podatkov ali prezapletenimi vzorci torej potrebujemo orodja, ki nam pomagajo, kjer smo šibki ne potrebujemo orodij, ki nas zamenjujejo, kjer smo močni potrebujemo orodja, ki tisto, česar ne obvladamo (številke, velike količine podatkov) spremenijo v to, kar obvladamo (slike, preprosti formalni modeli) slabovidni ne potrebujejo kamere, temveč očala. Gledal bo že sam.
11
Sodobni pripomočki … iščejo formalne opise, koristne vizualizacije
preiskujejo ogromen prostor opisov zmorejo delati z ogromno količino podatkov so nepristranski, brez subjektivne presoje in osebnih želja
12
Področja uporabe Analiza poslovanja, proizvodnje, trga
Analiza poslovnih partnerjev, strank Predvidevanje izjemnih dogodkov, zlorab Trženje, odnosi z javnostjo Znanstvene raziskave medicina (diagnostika, prognoza, odločanje) farmacija (učinkovine, načrtovanje zdravil) genetika (določanje funkcij genov, genskih mrež, farmacija) ekologija Številna druga področja internet (npr. Google...)
13
Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje
14
odkrivanje zakonitosti iz podatkov
Orodja odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija
15
Glavne značilnosti in razlike
Statistika matematična disciplina omejen izbor modelov (po značilnostih, ne po številu!) zna preveriti vnaprej sestavljene hipoteze, ne zna pa jih sestavljati šestdeseta: “data fishing” Strojno učenje ad hoc (v primerjavi s statistiko) bolj zapleteni modeli (po izraznosti, ne po razložljivosti ali izpeljavi!) sestavlja (“išče”) hipoteze, ne zna pa jih preveriti Vizualizacija prikazuje podatke v človeku razumljivi obliki ne sestavlja modelov in jih ne preverja najpreprostejša, najučinkovitejša in najlažje zavajajoča tehnika
16
Francoski paradoks Francozi (domnevno) jedo mastnejšo hrano, vendar imajo manj težav s srcem in ožiljem. Naivni iskalec zakonitosti: jejmo več mastnega! Razlaga (1992): Francoskih src ne poživlja maščoba, temveč rdeče vino, ki vsebuje resveratrol. Tudi v to še vedno dvomimo, zato se izvajajo nadaljnji poskusi o biokemičnem delovanju resveratrola. Odkrite zakonitosti morajo biti podprte s teorijo!
17
Pasti “If you torture your data long enough, it will eventually confess.” (James L. Mills) Rešitev pravilna uporaba statistike (resen problem!) utemeljevanje modelov s teorijo “Lahko ti povem biološko razlago za vsak graf, ki mi ga prineseš.” (G. Shaulsky) jemanje izpeljanega s ščepcem soli
18
CRISP-DM CRoss Industry Standard Process for Data Mining
19
Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje
20
Razumevanje problema Kaj nas pravzaprav zanima?
Kaj so relevantna vprašanja, na katera želimo odgovoriti? Kakšne odgovore pričakujemo? Kakšne vrste odgovorov pričakujemo? Kaj že vemo? Problemi Feigenbaumovo ozko grlo: “odkrivanje znanja eksperta” Zaupnost podatkov
21
Razumevanje podatkov Kaj pomenijo posamezni podatki?
Kaj pomenijo posamezne vrednosti? So podatki točni? So med seboj povezani? Kaj pomenijo neznane vrednosti? Je vzorec relevanten? So podatki konsistentni – imajo stalno isti pomen? Če gre za napovedni model: kaj želimo napovedati in iz česa? Česa ne moremo uporabiti v modelu? Zakaj ne?
22
Priprava podatkov Kateri atributi nas zanimajo?
Odstrani atribute, ki niso povezani s problemom Odstrani atribute, ki jih ni mogoče uporabiti Odstrani atribute, ki so nezanesljivo merjeni, imajo preveč manjkajočih vrednosti... Po potrebi odstrani “duplikate” atributov Moremo “uganiti” neznane in napačne vrednosti? Namesto neznanih vrednosti vstavimo najverjetnejše vrednosti ali vrednosti napovedani iz drugih vrednosti Napačne vrednosti lahko odkrijemo vizualno Kateri primeri nas zanimajo? Odstrani nerelevantne primere Odstrani nezanesljive primere (šum, manjkajoče vrednosti) Vedno oblikuj čim objektivnejši kriterij izbiranja pred izbiranjem.
23
Priprava podatkov (2) Je mogoče atribute transformirati v priročnejšo obliko? Poenostavi prezapletene atribute (preveč vrednosti, znane skupine vrednosti...) Po potrebi spremeni diskretne atribute v zvezne in obratno Združuj atribute v nove, izpeljane atribute, kadar je to smiselno Vse našteto – izbor atributov, primerov, predelava atributov – moremo opravljati tudi sproti, če uporabljeni sistem to omogoča to moremo početi dovolj objektivno to ni proti pravilom igre Sprotno predelovanje podatkov ni le dovoljeno, temveč zaželjeno Ne le zaželjeno: to je neločljiv del iskanja zakonitosti kateri atributi so uporabni, kako jih sestaviti, vidimo sproti... metode določanja nezanesljivih primerov temeljijo na metodah modeliranja, vizualizacije...
24
Priprava podatkov > Izbira atributov
Statistične mere Mere nečistoče Atributi, ki predlaga model Atributi, ki jih model potrebuje
25
Priprava podatkov > Izbira atributov
Kdo bo vračal kredit? ne da <10 10 10-20 20 20-30 >30 50 ne da < 5 30 > 5 70 ne da 13 35 17 št. let na trenutnem delovnem mestu nosi očala? subjektivna ocena
26
Priprava podatkov > Sestavljanje atributov
Sestavljanje s pomočjo znanja področnega eksperta Statistične metode Analiza osnovnih komponent (Principle Components Analysis, PCA) Delni najmanjši kvadrati (Partial Least Squares, PLS) Metode strojnega učenja Funkcijska dekompozicija (HINT) Sestavljanje atributov na osnovi modela
27
Sistem Orange
28
Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje
29
Vizualizacija Kako podatke najboljše narisati?
Uporabljaj orodja, ki imajo veliko različnih vizualizacij Osnovne vizualizacije: porazdelitve, histogrami, krožni grafikoni, krivulje Večparameterske vizualizacije: razpršitveni diagrami, RadViz, parketni diagrami, mozaik Priložnostne vizualizacije: vizualni pripomočki sestavljeni posebej za specifične podatke Excel nima veliko vizualizacij Uporabi pravo vizualizacijo za to, kar bi rad pokazal Bodi ustvarjalen Ne bodi baročen: razmišljaj, kako narisati čim manj, a povedati čim več Pazi, da te vizualizacija ne zavede Ne zavajaj drugih z vizualizacijo Ne pusti se zavesti vizualizacijam drugih
30
Vizualizacija mladoletniki moški ženske kadilci 2104 29148 19242
nekadilci 12503 82194 91023
31
kakšni so deleži (ne)kadilcev v posamezni skupini?
mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 koliko je katerih? brez nepotrebnih grafičnih elementov (ozadje...) “razumljive” barve kakšni so deleži (ne)kadilcev v posamezni skupini? kako se razlikujejo deleži (ne)kadilcev po skupinah?
32
kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci?
mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 koliko je katerih? kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci? kako se razlikujejo deleži skupin med kadilci in nekadilci?
33
Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj.
mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 Pogosta zgleda grafov, ne povesta ničesar o podatkih (govorita le o svojem avtorju) “Ko mladoletnik postane moški, začne kaditi. Ko se kasneje spremeni v žensko, bo morda nehal.” Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj.
34
mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 kadilci nekadilci Krožni grafikoni so primerni za prikazovanje porazdelitev, manj pa za primerjanje.
35
mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 Primer, kako z nepotrebno tridimenzionalnostjo napravimo graf manj berljiv
36
Vizualizacija z Excelom
Ostale vizualizacije v Excelu vizualizacije z zvezno osjo x zvezdni grafikoni večdimenzionalni grafi ... in kup okraskov pravkar videnega
37
Primeri slabih grafov (1)
38
Primeri slabih grafov (2)
39
Primeri slabih grafov (2)
Poudarjaj očitno, da se izogneš bistvenemu...
40
Primeri slabih grafov (3)
41
Primeri slabih grafov (3)
Sotheby’s Christies’s Preveč poudarja razlike Riše s perspektive Christie’s
42
Primeri slabih grafov (4)
Morda pa se vpisujejo vedno “revnejši” študenti? Spodnji graf velja za zadnjih 12 let Nihanje med 10. in 14. najboljšo v ZDA, ne med vrhom in sredino Različne letnice! To ni padec, temveč vzpon s 13. na 6. najboljšo! Ni “erratically” pretirano, da spremembe so, pa je normalno?
43
odkrivanje zakonitosti iz podatkov
sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki
44
odkrivanje zakonitosti iz podatkov
sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki
45
Najobupnejša prosojnica vseh časov
sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki
46
Vlaki na progi Paris-Lyon
47
Epidemija kolere
48
Kako je oblikovan svet? Žrtve vojn Izvoz igrač Cene hiš
Poraba alkohola Uvoz igrač AIDS
49
Teorija vizualizacije
Grafični elementi Diskretne količine pokažemo z obliko simbolov, barvo, zapolnjenostjo... Zvezne količine prikažemo z dolžino in položajem Površina je manj primerna za zvezne količine Barve so praviloma neprimerne za zvezne količine in jih uporabimo, ko ni potrebna natačnost ali pa ne moremo drugače Izogibaj se nepotrebnim elementom: osem, črtam, slikam, ki ne sporočajo ničesar; “chartjunk”: črnilo, ki ne posreduje informacije navidezna perspektiva le popači sliko Več E. R. Tufte: The Visual Display of Quantitative Information E. R. Tufte: The Cognitive Style of Powerpoint
50
Vizualizacija podatkov z Orangeom
Gap Minder
51
Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov
Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje
52
Računsko modeliranje, iskanje vzorcev
Katere metode modeliranja so primerne za naš problem? Katera metoda more delati z našimi podatki? Katera je teoretično najprimernejša? Katera metoda da najbolj natančen model? Kateri modeli bodo najrazumljivejši uporabniku? Katere modele bo najlažje uporabljati?
53
Modeliranje Osnovne statistične metode
srednja vrednost, mediana, modus porazdelitve, korelacije Napovedovanje (nadzorovano učenje, regresija) statistične/verjetnostne metode linearna in logistična regresija naivni Bayesov klasifikator subsimbolične metode metoda najbližjih sosedov nevronske mreže metoda podpornih vektorjev simbolične metode klasifikacijska in regresijska drevesa odločitvena pravila Iskanje vzorcev razvrščanje v skupine (clustering) iskanje povezav (asociativna pravila) kombinacije vizualizacije in učenja FreeViz, SOM, MDS matematični temelji jezik modelov točnost razumljivost statistične metode subsimbolične metode simbolične metode
54
Sistemi za odkrivanje zakonitosti iz podatkov
Komercialni sistemi Zelo dragi, dobra uporabniška podpora Najbolj znani SPSS: Clementine SAS Institute: SAS Enterprise Miner Prosto dostopni Zastonj, a z manj podpore (razen uporabnikov med sabo) Ker izvirajo iz raziskovalnih okolij, so pogosto inovativnejši Največja Weka, University of Waikato osredotočen na strojno učenje velika skupnost uporabnikov Orange, Fakulteta za računalništvo in informatiko, Ljubljana več metod za odkrivanje zakonitosti iz podatkov, predvsem vizualizacije hiter inovativen in zmogljiv uporabniški vmesnik, dobra dokumentacija za skriptni nivo uporabniški vmesnik in podpora v slovenščini
55
Ocenjevanje modelov Točnost modela Uporabnost modela Smiselnost modela
Kateri vidik točnosti nas pravzaprav zanima? Klasifikacijska točnost Kalibracija verjetnosti Senzitivnost, specifičnost, ... AUC, ROC Krivulja dviga Uporabnost modela Je model uporaben v praksi? Je za to dovolj natančen, preprost? Napoveduje, kar potrebujemo, s tistim, kar imamo? Smiselnost modela Je model skladen s prej znanimi dejstvi in zakonitostmi? Če ni: zakaj ne? Napačni podatki Napačna interpretacija modela Napačna “znana dejstva in zakonitosti”
56
Uporaba modelov V kakšni obliki pripraviti model za rabo?
Ekspertni sistem, sistem za podporo odločanju Sistem za “ročno” napovedovanje Članek, poročilo...
57
Literatura in povezave
Splošno Skripta s sorodnega predavanja: Standard CRISP: Vizualizacija O estetiki in korektnosti vizualizacij E. R. Tufte: The Visual Display of Quantitative Information Domača stran: Zanimive vizualizacije Gapminder Kako je videti svet Zbirka zanimivih vizualizacij
58
Literatura in povezave (2)
Programi Orange – strojno učenje, vizualizacija, interaktivnost Knime – podobno kot Orange Weka – poudarek na strojnem učenju, težja uporaba, manj interaktivno GGobi – znan vizualizacijski paket, navezan na statistični paket R:
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.