Odkrivanje zakonitosti iz podatkov

Slides:



Advertisements
Similar presentations
THE PRESENT SIMPLE TENSE
Advertisements

INFORMACIJSKA TEHNOLOGIJA projektna naloga pri predmetu informatika
SPH 247 Statistical Analysis of Laboratory Data May 19, 2015SPH 247 Statistical Analysis of Laboratory Data1.
Miha Pihler MCSA, MCSE, MCT, CISSP, Microsoft MVP
REFLEKSIJA 2 Razvijanje strokovnega besedišča. Učna / Strokovna pismenost v/pri TJ: NEKAJ UČNIH STRATEGIJ 1.Vključite razvijanje učne/strokovne pismenost.
Ekspertne ocene in bibliometrijske ocene: Dve strani istega kovanca? Primož Južnič Pripravljeno za predmet Bibliometrija.
POVEZLJIVOST PROGRAMA SAP IN SAS Anton Čižman Fakulteta za organizacijske vede, Kranj Delavnica SAP
Univerza v Ljubljani Fakulteta za gradbeništvo in geodezijo Open Workflow Infrastructure: A Research Agenda Vlado Stankovski, Paolo Missier, Carole Goble,
Uvod v C# Drugi del. Dedovanje Sintaksa Prirejanje in preverjanje tipov.
1 EDUKACIJA BOLNIKOV pred uvedbo zdravila MAREVAN (tudi Sintrom) Alenka Mavri.
Organisations and Human Resources Research Centre Uporaba ADS podatkov v praksi (predavanja) Doc. dr. Miroljub Ignjatović februar 2014.
WEKA Waikato Environment for Knowledge Analysis
INTELIGENTNI SISTEMI POSLOVNA INTELIGENCA M. Gams.
TIPI PODATKOV. Načrt Najprej je potrebno dobro premisliti o problemu Katere podatke hranimo, kako podatke razporediti v tabele, kakšne vrste podatkov.
Installfest delavnica mag. Aleš Košir Lugos
Področje: 3.05 Reprodukcija človeka
Področje: 3.07 Metabolne in hormonske motnje
Slovenija in razvoj e-vsebin v primerjavi s svetovnimi trendi
6. poglavje: Računalniška vezja
Srečko Bončina Izposoja e-knjig eBooks na EBSCOHost-u
Kvantitativna analiza podatkov
TRETJI TIR ZA INDUSTRIJO
MALE SIVE CELICE, RTV Slovenija
Measuring Success in Prediction
Poslovni informacijski sistemi
INTELLIGENT AGENTS Properties of intelligent agents
Uvod v Python
Poslovni informacijski sistemi
Urnik – varno programiranje – odmor – napredno razhroščevanje Cilj: v prvem delu vsakomur dati vsaj eno dobro.
PRAVIČNA TRGOVINA Neža Dolmovič, 8.b April 2014.
R V P 2 Predavanje 04 Animacija RVP2 Animacija.
Grafični vmesnik - GUI Izdelava obrazca: lastnosti, odzivne metode
DELOVANJE POVEZAV V STANOVANJU
ENERGETIKA IN ENERGETSKE NAPRAVE
Označevalni jeziki 3 Extensible markup language (XML)
Fotografiranje hrane Predmet: Tipografija in reprodukcija.
Računalniško podprto skupinsko delo
Odkrivanje zakonitosti iz podatkov
IZBRANI PRIMERI UPORABE IKT V VELIKI BRITANIJI IN NEMČIJI
Modulacija in demodulacija signalov (prirejeno po gradivu avtorja N
THE PAST SIMPLE TENSE navadni preteklik.
‚Sintezna bioinformatika‘
Izbrana Poglavja iz Informacijskih Tehnologij (IPIT)
Uporaba vrtilnih tabel za analizo množice podatkov
OBDELAVA (PROCESIRANJE PODATKOV)
ABAQUS Erik Zupančič Seminar iz konstrukcij
Microsoftove rešitve za šolstvo
MS Excel, Open Office Calc, Gnumeric …
Operacijski sistemi Lucijan Katan, 1.at Mentor: Branko Potisk.
22. marketinški fokus - Ljubljana,
OGM – VAJE RAČUNALNIŠKI PROGRAMI: Amses FRAME 2D
VIZUALIZACIJA Aleks Jakulin.
Šalej Mirko Iskraemeco, d.d. Kranj
Referat za NIT Anže Povhe, 4.b
Projekt eMarket Services
Arhiv družboslovnih podatkov:
Binarna logistična regresija
Opazovalne metode kot tehnika / kot splošni dizajn
UML – je standardno pogoj za univerzalno ?
Why are we for PEACE? Zakaj smo za mir.
Hofstedejevi indeksi in paradoksi v našem šolstvu
Ugani število Napišimo program, ki si “izmisli” naključno število, potem pa nas v zanki sprašuje, katero je izmišljeno število. Če število uganemo, nas.
REINOVIRANJE SPOSOBNOST OZAVEŠČENEGA POSLOVNEGA OKOLJA, KI OMOGOČA OBSTOJ PODJETJA NE GLEDE NA VELIKOST, NEPREDVIDLJIVOST SPREMEMB V OKOLJU.
TERMODINAMIKA / THERMODYNAMICS
Razlaga korelacije vzročna povezanost X in Y ???
mag. Sebastjan Repnik, višji predavatelj
Informacijska varnost v Oracle okolju
Hip hop kultura Vse slike so iz tekmovanja IBE. HIP HOP kultura.
Antoine Laurent de Lavoisier
Orodja ActionScript 3.0.
Presentation transcript:

Odkrivanje zakonitosti iz podatkov doc. Janez Demšar Laboratorij za umetno inteligenco Fakulteta za računalništvo in informatiko Univerza v Ljubljani

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

Data mining (DM) finding interesting regularities/rules/patterns in the data Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Is “zelenjavna juha” a kind of soup or a sausage? How do you say “soup” in Slovenian language? You all speak Slovenian You are experienced text miners (an area of DM)

Data mining (DM) finding interesting regularities/rules/patterns in the data Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Predictive model Is “zelenjavna juha” a kind of soup or a sausage? How do you say “soup” in Slovenian language? Pattern (general knowledge)

Kaj je na spodnjih slikah?

Kdaj bo sovražnik napadel?

Kakšna orodja potrebujemo? Vsi smo naravno nadarjeni iskalci zakonitosti iz podatkov Še več: naravno nesposobni smo spregledati vzorec Vendar: blestimo, ko gre za besedilo in slike, na pa v številkah in simbolih, klonemo, ko imamo opraviti s prevelikim številom podatkov ali prezapletenimi vzorci torej potrebujemo orodja, ki nam pomagajo, kjer smo šibki ne potrebujemo orodij, ki nas zamenjujejo, kjer smo močni potrebujemo orodja, ki tisto, česar ne obvladamo (številke, velike količine podatkov) spremenijo v to, kar obvladamo (slike, preprosti formalni modeli) slabovidni ne potrebujejo kamere, temveč očala. Gledal bo že sam.

Sodobni pripomočki … iščejo formalne opise, koristne vizualizacije preiskujejo ogromen prostor opisov zmorejo delati z ogromno količino podatkov so nepristranski, brez subjektivne presoje in osebnih želja

Področja uporabe Analiza poslovanja, proizvodnje, trga Analiza poslovnih partnerjev, strank Predvidevanje izjemnih dogodkov, zlorab Trženje, odnosi z javnostjo Znanstvene raziskave medicina (diagnostika, prognoza, odločanje) farmacija (učinkovine, načrtovanje zdravil) genetika (določanje funkcij genov, genskih mrež,  farmacija) ekologija Številna druga področja internet (npr. Google...)

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

odkrivanje zakonitosti iz podatkov sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki

Glavne značilnosti in razlike Statistika matematična disciplina omejen izbor modelov (po značilnostih, ne po številu!) zna preveriti vnaprej sestavljene hipoteze, ne zna pa jih sestavljati šestdeseta: “data fishing” Strojno učenje ad hoc (v primerjavi s statistiko) bolj zapleteni modeli (po izraznosti, ne po razložljivosti ali izpeljavi!) sestavlja (“išče”) hipoteze, ne zna pa jih preveriti Vizualizacija prikazuje podatke v človeku razumljivi obliki ne sestavlja modelov in jih ne preverja najpreprostejša, najučinkovitejša in najlažje zavajajoča tehnika

Kaj je na sliki? “The researchers found that when people were primed to feel out of control, they were more likely to see patterns where none exist.” (See a Pattern on Wall Street?, John Tierney, po Science)

CRISP-DM CRoss Industry Standard Process for Data Mining

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

Razumevanje problema Kaj nas pravzaprav zanima? Kaj so relevantna vprašanja, na katera želimo odgovoriti? Kakšne odgovore pričakujemo? Kakšne vrste odgovorov pričakujemo? Kaj že vemo? Problemi Feigenbaumovo ozko grlo: “odkrivanje znanja eksperta” Zaupnost podatkov

Razumevanje podatkov Kaj pomenijo posamezni podatki? Kaj pomenijo posamezne vrednosti? So podatki točni? So med seboj povezani? Kaj pomenijo neznane vrednosti? Je vzorec relevanten? So podatki konsistentni – imajo stalno isti pomen? Če gre za napovedni model: kaj želimo napovedati in iz česa? Česa ne moremo uporabiti v modelu? Zakaj ne?

Priprava podatkov Kateri atributi nas zanimajo? Odstrani atribute, ki niso povezani s problemom Odstrani atribute, ki jih ni mogoče uporabiti Odstrani atribute, ki so nezanesljivo merjeni, imajo preveč manjkajočih vrednosti... Po potrebi odstrani “duplikate” atributov Moremo “uganiti” neznane in napačne vrednosti? Namesto neznanih vrednosti vstavimo najverjetnejše vrednosti ali vrednosti napovedani iz drugih vrednosti Napačne vrednosti lahko odkrijemo vizualno Kateri primeri nas zanimajo? Odstrani nerelevantne primere Odstrani nezanesljive primere (šum, manjkajoče vrednosti) Vedno oblikuj čim objektivnejši kriterij izbiranja pred izbiranjem.

Priprava podatkov (2) Je mogoče atribute transformirati v priročnejšo obliko? Poenostavi prezapletene atribute (preveč vrednosti, znane skupine vrednosti...) Po potrebi spremeni diskretne atribute v zvezne in obratno Združuj atribute v nove, izpeljane atribute, kadar je to smiselno Vse našteto – izbor atributov, primerov, predelava atributov – moremo opravljati tudi sproti, če uporabljeni sistem to omogoča to moremo početi dovolj objektivno to ni proti pravilom igre Sprotno predelovanje podatkov ni le dovoljeno, temveč zaželjeno Ne le zaželjeno: to je neločljiv del iskanja zakonitosti kateri atributi so uporabni, kako jih sestaviti, vidimo sproti... metode določanja nezanesljivih primerov temeljijo na metodah modeliranja, vizualizacije...

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

Vizualizacija Kako podatke najboljše narisati? Uporabljaj orodja, ki imajo veliko različnih vizualizacij Osnovne vizualizacije: porazdelitve, histogrami, krožni grafikoni, krivulje Večparameterske vizualizacije: razpršitveni diagrami, RadViz, parketni diagrami, mozaik Priložnostne vizualizacije: vizualni pripomočki sestavljeni posebej za specifične podatke Excel nima veliko vizualizacij Uporabi pravo vizualizacijo za to, kar bi rad pokazal Bodi ustvarjalen Ne bodi baročen: razmišljaj, kako narisati čim manj, a povedati čim več Pazi, da te vizualizacija ne zavede Ne zavajaj drugih z vizualizacijo Ne pusti se zavesti vizualizacijam drugih

Vizualizacija mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023

kakšni so deleži (ne)kadilcev v posamezni skupini? mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 koliko je katerih? brez nepotrebnih grafičnih elementov (ozadje...) “razumljive” barve kakšni so deleži (ne)kadilcev v posamezni skupini? kako se razlikujejo deleži (ne)kadilcev po skupinah?

kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci? mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 koliko je katerih? kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci? kako se razlikujejo deleži skupin med kadilci in nekadilci?

Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj. mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 Pogosta zgleda grafov, ne povesta ničesar o podatkih (govorita le o svojem avtorju) “Ko mladoletnik postane moški, začne kaditi. Ko se kasneje spremeni v žensko, bo morda nehal.” Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj.

mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 kadilci nekadilci Krožni grafikoni so primerni za prikazovanje porazdelitev, manj pa za primerjanje.

mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 Primer, kako z nepotrebno tridimenzionalnostjo napravimo graf manj berljiv

Vizualizacija z Excelom Ostale vizualizacije v Excelu vizualizacije z zvezno osjo x zvezdni grafikoni večdimenzionalni grafi ... in kup okraskov pravkar videnega

Primeri slabih grafov (1)

Primeri slabih grafov (2)

Primeri slabih grafov (2) Poudarjaj očitno, da se izogneš bistvenemu...

Primeri slabih grafov (3)

Primeri slabih grafov (3) Sotheby’s Christies’s Preveč poudarja razlike Riše s perspektive Christie’s

Primeri slabih grafov (4) Morda pa se vpisujejo vedno “revnejši” študenti? Spodnji graf velja za zadnjih 12 let Nihanje med 10. in 14. najboljšo v ZDA, ne med vrhom in sredino Različne letnice! To ni padec, temveč vzpon s 13. na 6. najboljšo! Ni “erratically” pretirano, da spremembe so, pa je normalno?

Primeri slabih grafov (5) V poprečju? Zakaj primerjati poprečne delavce z dvajsetimi najboljše plačanimi “menedžerji”? Sečišče, ki ga ni! 8500000/35500 = 239

Vlaki na progi Paris-Lyon

Epidemija kolere

Kako je oblikovan svet? Žrtve vojn Izvoz igrač Cene hiš Poraba alkohola Uvoz igrač AIDS

Teorija vizualizacije Grafični elementi Diskretne količine pokažemo z obliko simbolov, barvo, zapolnjenostjo... Zvezne količine prikažemo z dolžino in položajem Površina je manj primerna za zvezne količine Barve so praviloma neprimerne za zvezne količine in jih uporabimo, ko ni potrebna natačnost ali pa ne moremo drugače Izogibaj se nepotrebnim elementom: osem, črtam, slikam, ki ne sporočajo ničesar; “chartjunk”: črnilo, ki ne posreduje informacije navidezna perspektiva le popači sliko Več E. R. Tufte: The Visual Display of Quantitative Information E. R. Tufte: The Cognitive Style of Powerpoint http://www.edwardtufte.com/tufte/

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Razumevanje problema, priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

Računsko modeliranje, iskanje vzorcev Katere metode modeliranja so primerne za naš problem? Katera metoda more delati z našimi podatki? Katera je teoretično najprimernejša? Katera metoda da najbolj natančen model? Kateri modeli bodo najrazumljivejši uporabniku? Katere modele bo najlažje uporabljati?

Modeliranje Osnovne statistične metode srednja vrednost, mediana, modus porazdelitve, korelacije Napovedovanje (nadzorovano učenje, regresija) statistične/verjetnostne metode linearna in logistična regresija naivni Bayesov klasifikator subsimbolične metode metoda najbližjih sosedov nevronske mreže metoda podpornih vektorjev simbolične metode klasifikacijska in regresijska drevesa odločitvena pravila Iskanje vzorcev razvrščanje v skupine (clustering) iskanje povezav (asociativna pravila) analiz mrež kombinacije vizualizacije in učenja FreeViz, VizRank, MDS

Sistemi za odkrivanje zakonitosti iz podatkov Komercialni sistemi Zelo dragi, dobra uporabniška podpora Najbolj znani SPSS: Clementine SAS Institute: SAS Enterprise Miner Prosto dostopni Zastonj, a z manj podpore (razen uporabnikov med sabo) Ker izvirajo iz raziskovalnih okolij, so pogosto inovativnejši Največja Weka, University of Waikato osredotočen na strojno učenje velika skupnost uporabnikov Orange, Fakulteta za računalništvo in informatiko, Ljubljana več metod za odkrivanje zakonitosti iz podatkov, predvsem vizualizacije hiter inovativen in zmogljiv uporabniški vmesnik, dobra dokumentacija za skriptni nivo uporabniški vmesnik in podpora v slovenščini 

Ocenjevanje modelov Točnost modela Uporabnost modela Smiselnost modela Kateri vidik točnosti nas pravzaprav zanima? Klasifikacijska točnost Kalibracija verjetnosti Senzitivnost, specifičnost, ... ROC (TPR vs. FPR) Krivulja dviga (TP vs. P) Uporabnost modela Je model uporaben v praksi? Je za to dovolj natančen, preprost? Napoveduje, kar potrebujemo, s tistim, kar imamo? Smiselnost modela Je model skladen s prej znanimi dejstvi in zakonitostmi? Če ni: zakaj ne? Napačni podatki Napačna interpretacija modela Napačna “znana dejstva in zakonitosti” Pogoste mere true positive (TP) true negative (TN) false positive (FP) false negative (FN) true positive rate (TPR) (hit rate, recall, sensitivity) TPR = TP / P = TP / (TP + FN) false positive rate (FPR) (false alarm rate, fall-out) FPR = FP / N = FP / (FP + TN) accuracy (ACC) specificity (SPC) SPC = TN / (FP + TN) = 1 − FPR positive predictive value (PPV) (precision) PPV = TP / (TP + FP) negative predictive value (NPV) NPV = TN / (TN + FN) false discovery rate (FDR) FDR = FP / (FP + TP)

Uporaba modelov V kakšni obliki pripraviti model za rabo? Ekspertni sistem, sistem za podporo odločanju Sistem za “ročno” napovedovanje Članek, poročilo...

Literatura in povezave Splošno Skripta s sorodnega predavanja: http://eprints.fri.uni-lj.si/archive/00000198/ Standard CRISP: http://www.crisp-dm.org/ Vizualizacija O estetiki in korektnosti vizualizacij E. R. Tufte: The Visual Display of Quantitative Information Domača stran: http://www.edwardtufte.com/tufte/ Zanimive vizualizacije Gapminder http://www.ted.com/index.php/talks/view/id/92 http://tools.google.com/gapminder/ Kako je videti svet http://www.dailymail.co.uk/pages/live/articles/news/worldnews.html?in_article_id=439315&in_page_id=1811 Zbirka zanimivih vizualizacij http://infosthetics.com/archives/infovis/

Literatura in povezave (2) Programi Orange – strojno učenje, vizualizacija, interaktivnost www.ailab.si/orange Knime – podobno kot Orange http://www.knime.org/ Weka – poudarek na strojnem učenju, težja uporaba, manj interaktivno http://www.cs.waikato.ac.nz/ml/weka/ GGobi – znan vizualizacijski paket, navezan na statistični paket R: http://www.ggobi.org/