Odkrivanje zakonitosti iz podatkov

Slides:



Advertisements
Similar presentations
Ma.
Advertisements

Click on each of us to hear our sounds.
POVEZLJIVOST PROGRAMA SAP IN SAS Anton Čižman Fakulteta za organizacijske vede, Kranj Delavnica SAP
HIRAGANA by number of strokes Images from:
Organisations and Human Resources Research Centre Uporaba ADS podatkov v praksi (predavanja) Doc. dr. Miroljub Ignjatović februar 2014.
INTELIGENTNI SISTEMI POSLOVNA INTELIGENCA M. Gams.
TIPI PODATKOV. Načrt Najprej je potrebno dobro premisliti o problemu Katere podatke hranimo, kako podatke razporediti v tabele, kakšne vrste podatkov.
PHONICS Repeat each sound. Blend the sounds. Read each word.
ma mu mi mo me pe pi pa pu po si sa so.
Zakaj postati podjetnik?. Nekateri izmed razlogov, zakaj… Ne dvomite več v svoje sposobnosti, pa bi se radi sem ter tja zopet vprašali, če ste res top.
Sílabas con m,p,s tema 2. pe so ma si mu se.
SREČNO NOVO LETO 2009 Lara Koren, 2.c.
Statistično zaključevanje (inferenčna statistika)
Področje: 3.05 Reprodukcija človeka
Srečko Bončina Izposoja e-knjig eBooks na EBSCOHost-u
Tečaj SPSS in statistike
SPACE OF OPPORTUNITIES
Ocenjevanje vrednosti blagovnih znamk (BZ)
Informacijski model objekta BIM Building Information Modelling
Microsoftovi programi in tehnologija Silverlight
Kako tehnično vpeljati Office 2010 v poslovno okolje
UČENJE IN IZPITI IZ ZNANJA SLOVENŠČINE
PADEC KOMUNIZMA DN DZ str nal.1-9
Uvod v Python
red.prof.dr. Srečko Devjak
Sodelovanje za razvijanje podjetnosti v šolah in vrtcih
PRAVIČNA TRGOVINA Neža Dolmovič, 8.b April 2014.
R V P 2 Predavanje 04 Animacija RVP2 Animacija.
Odkrivanje zakonitosti iz podatkov
ODBOJKA Projektna naloga iz Multimedije
Irena Setinšek, IRM Mediana Janez Jereb, IRM Mediana
Označevalni jeziki 3 Extensible markup language (XML)
Fotografiranje hrane Predmet: Tipografija in reprodukcija.
Raznolikost podnebja v gorah glede na geografsko širino
Verstva in etika Izbirni predmet
THE PAST SIMPLE TENSE navadni preteklik.
Uporaba vrtilnih tabel za analizo množice podatkov
Agencija Republike Slovenije za okolje
OBDELAVA (PROCESIRANJE PODATKOV)
ABAQUS Erik Zupančič Seminar iz konstrukcij
Microsoftove rešitve za šolstvo
Glavne lastnosti multimetrov so:
MS Excel, Open Office Calc, Gnumeric …
Enterprise Europe Network
Operacijski sistemi Lucijan Katan, 1.at Mentor: Branko Potisk.
MODELIRANJE UVOD.
Metoda v tržnem raziskovanju
22. marketinški fokus - Ljubljana,
11/21/2018 3:49 PM © Microsoft Corporation. All rights reserved. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN.
GEOMETRIJSKA TELESA Pripravili: Mojca Vitez, Metka Kuk in Janez Jurančič Študijsko leto: 2016/2017 Kraj in datum: Sežana, maj 2017.
Motivacijski seminar za podiplomske študente
Šalej Mirko Iskraemeco, d.d. Kranj
Referat za NIT Anže Povhe, 4.b
Primerjava kurikuluma v Sloveniji in Veliki Britaniji
Binarna logistična regresija
Opazovalne metode kot tehnika / kot splošni dizajn
UML – je standardno pogoj za univerzalno ?
Why are we for PEACE? Zakaj smo za mir.
Ela Reven, Katarina urbančič
Ugani število Napišimo program, ki si “izmisli” naključno število, potem pa nas v zanki sprašuje, katero je izmišljeno število. Če število uganemo, nas.
E-mobilnost in njena integracija v elektroenergetski sistem
Korelacijske metode psihologija (1.st.) – 2. letnik 2011/12
TERMODINAMIKA / THERMODYNAMICS
Elektronski viri dostopni na daljavo
Razlaga korelacije vzročna povezanost X in Y ???
mag. Sebastjan Repnik, višji predavatelj
Informacijska varnost v Oracle okolju
Antoine Laurent de Lavoisier
Katedra za metalne konstrukcije
Uporabniški vmesnik – načrtovanje in izdelava
Presentation transcript:

Odkrivanje zakonitosti iz podatkov doc. Janez Demšar Fakulteta za računalništvo in informatiko Univerza v Ljubljani

podatki o legah zvezd (Tycho Brahe) vsi planeti (tudi Zemlja) krožijo okrog Sonca T 2 ~ r 3 (Johannes Kepler) svet je mogoče opisati z matematičnimi formulami zakon težnosti (Isaac Newton) centrifugalna sila ipd.

pomik spektra svetlobe oddaljenih zvezd (Ives, Stilwell) Dopplerjev efekt deluje tudi na svetlobo posebna relativnostna teorija (Albert Einstein) ni posebnega mesta ali gibanja

podatki vzorci, hipoteze teorija lege planetov spekter svetlobe T 2 ~ r 3 Dopplerjev pojav posebna relativnost zakon težnosti Galileo, Newton... genetika družboslovje ... matematika fizika ...

odkrivanje zakonitosti iz podatkov sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

Data mining (DM) finding interesting regularities/rules/patterns in the data Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Is “zelenjavna juha” a kind of soup or a sausage? How do you say “soup” in Slovenian language? You all speak Slovenian You are experienced text miners (an area of DM)

Data mining (DM) finding interesting regularities/rules/patterns in the data Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Predictive model Is “zelenjavna juha” a kind of soup or a sausage? How do you say “soup” in Slovenian language? Pattern (general knowledge)

Data mining (DM) finding interesting regularities/rules/patterns in the data Soups: Goveja juha Porova juha Gobova juha Sausages: Krvavice Kranjska Pečenica Foundations of machine learning/data mining Occam’s razor: we prefer simple rules Bias: we know what kind of rules to expect Background knowledge: existing knowledge related to the problem

Kakšna orodja potrebujemo? Vsi smo naravno nadarjeni iskalci zakonitosti iz podatkov Še več: naravno nesposobni smo spregledati vzorec Vendar: blestimo, ko gre za besedilo in slike, na pa v številkah in simbolih, klonemo, ko imamo opraviti s prevelikim številom podatkov ali prezapletenimi vzorci torej potrebujemo orodja, ki nam pomagajo, kjer smo šibki ne potrebujemo orodij, ki nas zamenjujejo, kjer smo močni potrebujemo orodja, ki tisto, česar ne obvladamo (številke, velike količine podatkov) spremenijo v to, kar obvladamo (slike, preprosti formalni modeli) slabovidni ne potrebujejo kamere, temveč očala. Gledal bo že sam.

Sodobni pripomočki … iščejo formalne opise, koristne vizualizacije preiskujejo ogromen prostor opisov zmorejo delati z ogromno količino podatkov so nepristranski, brez subjektivne presoje in osebnih želja

Področja uporabe Analiza poslovanja, proizvodnje, trga Analiza poslovnih partnerjev, strank Predvidevanje izjemnih dogodkov, zlorab Trženje, odnosi z javnostjo Znanstvene raziskave medicina (diagnostika, prognoza, odločanje) farmacija (učinkovine, načrtovanje zdravil) genetika (določanje funkcij genov, genskih mrež,  farmacija) ekologija Številna druga področja internet (npr. Google...)

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

odkrivanje zakonitosti iz podatkov Orodja odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija

Glavne značilnosti in razlike Statistika matematična disciplina omejen izbor modelov (po značilnostih, ne po številu!) zna preveriti vnaprej sestavljene hipoteze, ne zna pa jih sestavljati šestdeseta: “data fishing” Strojno učenje ad hoc (v primerjavi s statistiko) bolj zapleteni modeli (po izraznosti, ne po razložljivosti ali izpeljavi!) sestavlja (“išče”) hipoteze, ne zna pa jih preveriti Vizualizacija prikazuje podatke v človeku razumljivi obliki ne sestavlja modelov in jih ne preverja najpreprostejša, najučinkovitejša in najlažje zavajajoča tehnika

Francoski paradoks Francozi (domnevno) jedo mastnejšo hrano, vendar imajo manj težav s srcem in ožiljem. Naivni iskalec zakonitosti: jejmo več mastnega! Razlaga (1992): Francoskih src ne poživlja maščoba, temveč rdeče vino, ki vsebuje resveratrol. Tudi v to še vedno dvomimo, zato se izvajajo nadaljnji poskusi o biokemičnem delovanju resveratrola. Odkrite zakonitosti morajo biti podprte s teorijo!

Pasti “If you torture your data long enough, it will eventually confess.” (James L. Mills) Rešitev pravilna uporaba statistike (resen problem!) utemeljevanje modelov s teorijo “Lahko ti povem biološko razlago za vsak graf, ki mi ga prineseš.” (G. Shaulsky) jemanje izpeljanega s ščepcem soli

CRISP-DM CRoss Industry Standard Process for Data Mining

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

Razumevanje problema Kaj nas pravzaprav zanima? Kaj so relevantna vprašanja, na katera želimo odgovoriti? Kakšne odgovore pričakujemo? Kakšne vrste odgovorov pričakujemo? Kaj že vemo? Problemi Feigenbaumovo ozko grlo: “odkrivanje znanja eksperta” Zaupnost podatkov

Razumevanje podatkov Kaj pomenijo posamezni podatki? Kaj pomenijo posamezne vrednosti? So podatki točni? So med seboj povezani? Kaj pomenijo neznane vrednosti? Je vzorec relevanten? So podatki konsistentni – imajo stalno isti pomen? Če gre za napovedni model: kaj želimo napovedati in iz česa? Česa ne moremo uporabiti v modelu? Zakaj ne?

Priprava podatkov Kateri atributi nas zanimajo? Odstrani atribute, ki niso povezani s problemom Odstrani atribute, ki jih ni mogoče uporabiti Odstrani atribute, ki so nezanesljivo merjeni, imajo preveč manjkajočih vrednosti... Po potrebi odstrani “duplikate” atributov Moremo “uganiti” neznane in napačne vrednosti? Namesto neznanih vrednosti vstavimo najverjetnejše vrednosti ali vrednosti napovedani iz drugih vrednosti Napačne vrednosti lahko odkrijemo vizualno Kateri primeri nas zanimajo? Odstrani nerelevantne primere Odstrani nezanesljive primere (šum, manjkajoče vrednosti) Vedno oblikuj čim objektivnejši kriterij izbiranja pred izbiranjem.

Priprava podatkov (2) Je mogoče atribute transformirati v priročnejšo obliko? Poenostavi prezapletene atribute (preveč vrednosti, znane skupine vrednosti...) Po potrebi spremeni diskretne atribute v zvezne in obratno Združuj atribute v nove, izpeljane atribute, kadar je to smiselno Vse našteto – izbor atributov, primerov, predelava atributov – moremo opravljati tudi sproti, če uporabljeni sistem to omogoča to moremo početi dovolj objektivno to ni proti pravilom igre Sprotno predelovanje podatkov ni le dovoljeno, temveč zaželjeno Ne le zaželjeno: to je neločljiv del iskanja zakonitosti kateri atributi so uporabni, kako jih sestaviti, vidimo sproti... metode določanja nezanesljivih primerov temeljijo na metodah modeliranja, vizualizacije...

Priprava podatkov > Izbira atributov Statistične mere Mere nečistoče Atributi, ki predlaga model Atributi, ki jih model potrebuje

Priprava podatkov > Izbira atributov Kdo bo vračal kredit? ne da <10 10 10-20 20 20-30 >30 50 ne da < 5 30 > 5 70 ne da 13 35 17 št. let na trenutnem delovnem mestu nosi očala? subjektivna ocena

Priprava podatkov > Sestavljanje atributov Sestavljanje s pomočjo znanja področnega eksperta Statistične metode Analiza osnovnih komponent (Principle Components Analysis, PCA) Delni najmanjši kvadrati (Partial Least Squares, PLS) Metode strojnega učenja Funkcijska dekompozicija (HINT) Sestavljanje atributov na osnovi modela

Sistem Orange

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

Vizualizacija Kako podatke najboljše narisati? Uporabljaj orodja, ki imajo veliko različnih vizualizacij Osnovne vizualizacije: porazdelitve, histogrami, krožni grafikoni, krivulje Večparameterske vizualizacije: razpršitveni diagrami, RadViz, parketni diagrami, mozaik Priložnostne vizualizacije: vizualni pripomočki sestavljeni posebej za specifične podatke Excel nima veliko vizualizacij Uporabi pravo vizualizacijo za to, kar bi rad pokazal Bodi ustvarjalen Ne bodi baročen: razmišljaj, kako narisati čim manj, a povedati čim več Pazi, da te vizualizacija ne zavede Ne zavajaj drugih z vizualizacijo Ne pusti se zavesti vizualizacijam drugih

Vizualizacija mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023

kakšni so deleži (ne)kadilcev v posamezni skupini? mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 koliko je katerih? brez nepotrebnih grafičnih elementov (ozadje...) “razumljive” barve kakšni so deleži (ne)kadilcev v posamezni skupini? kako se razlikujejo deleži (ne)kadilcev po skupinah?

kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci? mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 koliko je katerih? kakšni so deleži mladoletnikov, moških in žensk med (ne)kadilci? kako se razlikujejo deleži skupin med kadilci in nekadilci?

Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj. mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 Pogosta zgleda grafov, ne povesta ničesar o podatkih (govorita le o svojem avtorju) “Ko mladoletnik postane moški, začne kaditi. Ko se kasneje spremeni v žensko, bo morda nehal.” Še enkrat isto, vendar v treh dimenzijah, tako da vidimo še manj.

mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 kadilci nekadilci Krožni grafikoni so primerni za prikazovanje porazdelitev, manj pa za primerjanje.

mladoletniki moški ženske kadilci 2104 29148 19242 nekadilci 12503 82194 91023 Primer, kako z nepotrebno tridimenzionalnostjo napravimo graf manj berljiv

Vizualizacija z Excelom Ostale vizualizacije v Excelu vizualizacije z zvezno osjo x zvezdni grafikoni večdimenzionalni grafi ... in kup okraskov pravkar videnega

Primeri slabih grafov (1)

Primeri slabih grafov (2)

Primeri slabih grafov (2) Poudarjaj očitno, da se izogneš bistvenemu...

Primeri slabih grafov (3)

Primeri slabih grafov (3) Sotheby’s Christies’s Preveč poudarja razlike Riše s perspektive Christie’s

Primeri slabih grafov (4) Morda pa se vpisujejo vedno “revnejši” študenti? Spodnji graf velja za zadnjih 12 let Nihanje med 10. in 14. najboljšo v ZDA, ne med vrhom in sredino Različne letnice! To ni padec, temveč vzpon s 13. na 6. najboljšo! Ni “erratically” pretirano, da spremembe so, pa je normalno?

odkrivanje zakonitosti iz podatkov sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki

odkrivanje zakonitosti iz podatkov sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki

Najobupnejša prosojnica vseh časov sistemi za podporo odločanju ekspertni sistemi odkrivanje zakonitosti iz podatkov statistika strojno učenje vizuali-zacija podatki

Vlaki na progi Paris-Lyon

Epidemija kolere

Kako je oblikovan svet? Žrtve vojn Izvoz igrač Cene hiš Poraba alkohola Uvoz igrač AIDS

Teorija vizualizacije Grafični elementi Diskretne količine pokažemo z obliko simbolov, barvo, zapolnjenostjo... Zvezne količine prikažemo z dolžino in položajem Površina je manj primerna za zvezne količine Barve so praviloma neprimerne za zvezne količine in jih uporabimo, ko ni potrebna natačnost ali pa ne moremo drugače Izogibaj se nepotrebnim elementom: osem, črtam, slikam, ki ne sporočajo ničesar; “chartjunk”: črnilo, ki ne posreduje informacije navidezna perspektiva le popači sliko Več E. R. Tufte: The Visual Display of Quantitative Information E. R. Tufte: The Cognitive Style of Powerpoint http://www.edwardtufte.com/tufte/

Vizualizacija podatkov z Orangeom Gap Minder

Načrt predavanja Kaj je odkrivanje zakonitosti iz podatkov Kako se ga lotiti, standard CRISP Priprava podatkov Vizualizacija kako risati kaj risati Sestavljanje modelov in interaktivno raziskovanje

Računsko modeliranje, iskanje vzorcev Katere metode modeliranja so primerne za naš problem? Katera metoda more delati z našimi podatki? Katera je teoretično najprimernejša? Katera metoda da najbolj natančen model? Kateri modeli bodo najrazumljivejši uporabniku? Katere modele bo najlažje uporabljati?

Modeliranje  Osnovne statistične metode srednja vrednost, mediana, modus porazdelitve, korelacije Napovedovanje (nadzorovano učenje, regresija) statistične/verjetnostne metode linearna in logistična regresija naivni Bayesov klasifikator subsimbolične metode metoda najbližjih sosedov nevronske mreže metoda podpornih vektorjev simbolične metode klasifikacijska in regresijska drevesa odločitvena pravila Iskanje vzorcev razvrščanje v skupine (clustering) iskanje povezav (asociativna pravila) kombinacije vizualizacije in učenja FreeViz, SOM, MDS matematični temelji jezik modelov točnost razumljivost statistične metode  subsimbolične metode simbolične metode

Sistemi za odkrivanje zakonitosti iz podatkov Komercialni sistemi Zelo dragi, dobra uporabniška podpora Najbolj znani SPSS: Clementine SAS Institute: SAS Enterprise Miner Prosto dostopni Zastonj, a z manj podpore (razen uporabnikov med sabo) Ker izvirajo iz raziskovalnih okolij, so pogosto inovativnejši Največja Weka, University of Waikato osredotočen na strojno učenje velika skupnost uporabnikov Orange, Fakulteta za računalništvo in informatiko, Ljubljana več metod za odkrivanje zakonitosti iz podatkov, predvsem vizualizacije hiter inovativen in zmogljiv uporabniški vmesnik, dobra dokumentacija za skriptni nivo uporabniški vmesnik in podpora v slovenščini 

Ocenjevanje modelov Točnost modela Uporabnost modela Smiselnost modela Kateri vidik točnosti nas pravzaprav zanima? Klasifikacijska točnost Kalibracija verjetnosti Senzitivnost, specifičnost, ... AUC, ROC Krivulja dviga Uporabnost modela Je model uporaben v praksi? Je za to dovolj natančen, preprost? Napoveduje, kar potrebujemo, s tistim, kar imamo? Smiselnost modela Je model skladen s prej znanimi dejstvi in zakonitostmi? Če ni: zakaj ne? Napačni podatki Napačna interpretacija modela Napačna “znana dejstva in zakonitosti”

Uporaba modelov V kakšni obliki pripraviti model za rabo? Ekspertni sistem, sistem za podporo odločanju Sistem za “ročno” napovedovanje Članek, poročilo...

Literatura in povezave Splošno Skripta s sorodnega predavanja: http://eprints.fri.uni-lj.si/archive/00000198/ Standard CRISP: http://www.crisp-dm.org/ Vizualizacija O estetiki in korektnosti vizualizacij E. R. Tufte: The Visual Display of Quantitative Information Domača stran: http://www.edwardtufte.com/tufte/ Zanimive vizualizacije Gapminder http://www.ted.com/index.php/talks/view/id/92 http://tools.google.com/gapminder/ Kako je videti svet http://www.dailymail.co.uk/pages/live/articles/news/worldnews.html?in_article_id=439315&in_page_id=1811 Zbirka zanimivih vizualizacij http://infosthetics.com/archives/infovis/

Literatura in povezave (2) Programi Orange – strojno učenje, vizualizacija, interaktivnost www.ailab.si/orange Knime – podobno kot Orange http://www.knime.org/ Weka – poudarek na strojnem učenju, težja uporaba, manj interaktivno http://www.cs.waikato.ac.nz/ml/weka/ GGobi – znan vizualizacijski paket, navezan na statistični paket R: http://www.ggobi.org/