Download presentation
Presentation is loading. Please wait.
1
Jožo Kováč 7SEGMENTS s.r.o. jozo.kovac@7segments.com
Strojové učenie Jožo Kováč 7SEGMENTS s.r.o.
2
Agenda Úplné základy strojového učenia
Predtým ako sa pustíme do učenia ... Rozhodovacie stromy – CART, CHAID Boosting, Bagging, AdaBoost, Random Forrests Iné aplikácie strojového učenia Hodnotenie zručnosti v hrách ELO / True Skill / Multiplayer Matchmaking Rating Product Recommendation systémy
3
BIG Data & Machine Learning
Big data 3V: Volume Variety Velocity
4
Velocity – rýchlo pribúdajú
Big data Velocity – rýchlo pribúdajú Volume – je ich veľa Variety – sú rôznorodé Hadoop – distribuovaná databáza, spoľahlivá, škálovateľná MapReduce – prístup ako nad hadoopom paralerne spúšťať výpočty Hive – SQL v Hadoope Mahout – strojové učenie pre Hadoop
5
Základy strojového učenia
Algoritmy strojového učenia: Učenie s učiteľom (supervised) Učenie bez učiteľa (unsupervised) A taktiež: Učenie odmenou a trestom (Reinforcement learning) Recommendation systémy
6
Učenie s učiteľom Klasifikácia
Zadeľovanie objektov do dvoch (binárna) alebo viacerých tried Kúpi si Jano paušál v Orange? {áno, nie} Ktorý z troch paušálov si Jano kúpi? {X, Y, Z, ..} Regresia Predikcia celočíselnej hodnoty Koľko Jano zaplatí za svoj paušál budúci rok? ( € ) Koľko paušálov predá Orange budúci rok? ( # )
7
Príklad: Ceny nehnuteľností
Plocha domu (feets^2) Počet izieb Počet poschodí Predá sa do 30 dní? Predajná cena (tisíce $) 2104 5 1 Yes 460 1416 3 2 No 232 1534 315 852 178 … Predajná cena = b0 + b1 . Plocha + b2 * Izby + b3 * Poschodia Úloha A – určiť b0 až b3 tak, aby rovnica sedela na dáta Úloha B – vybrať minimálny set atribútov, ktoré postačujú pre kvalitnú predikciu ( nepoužiť všetky )
8
Predtým ako sa pustíme do učenia ... ... stanovíme pravidla hry
Vyhráva najpresnejší algoritmus. Ako merať presnosť? A: “ algoritmus má úspešnosť 80% “ B: “ algoritmus je o 400% lepší ako náhodný výber ” C: “ algoritmus dokonale zachytáva všetky pozitívne prípady ”
9
Predtým ako sa pustíme do učenia ... ... stanovíme pravidla hry
Letisko v Iraku: 10 z pasažierov sú teroristi. A: “ algoritmus má úspešnosť 80% “ Lenže pravidlo: nikto nie je terorista má 99,9%. B: “ algoritmus je o 400% lepší ako náhodný výber ” Náhodne je zo 1000 zadržaných 1 terorista. Takto 4 z Stačí? C: “ algoritmus dokonale zachytáva všetky pozitívne prípady ” To aj pravidlo: každý je terorista? Nezavrieme radšej letisko?
10
Študentovo očakávanie
Ešte k očakávaniam Študentovo očakávanie Tvrdá realita x1 x2 Strojové učenie pomáha riešiť ťažké problémy, riešenie nebýva dokonalé, len je lepšie ako existujúce prístupy.
11
Vyhodnocovanie kvality modelov
Regresia korelačný koeficient R^2 Vyjadruje ako dobre sedí funkcia na dát, t.j. akú kvalitnú predikciu môžeme očakávať chybová funkcia RSME (root square mean error) Klasifikácia Zle: Úspešnosť = správne / (správne + nesprávne) [%] Lepšie: Presnosť a návratnosť 1 0.5 Návratnosť Presnosť true positives Presnosť = no. of predicted positive true positives Návratnosť = no. of actual positive
12
Ďalšie kritéria úspešnosti
Úspešnosť, presnosť, návratnosť Lift GINI index Kolmogorov-Smirnov štatistika Informačný zisk Chybová funkcia (RMSE, ...) Prezradí viac
13
Vyhodnotenie kvality klasifikácie
true positives Presnosť = no. of predicted positive true positives Návratnosť = no. of actual positive Chi kvadrát= Očakávané vs. Skutočné Chi test – je skutočnosť odlišná od očakávania? Čím je skutočnosť odlišnejšia, tým lepší model. p – pravdepodobnosť, že skutočnosť je odlišná od očakávania F1 score =
14
Tvorba modelov Štatisticky prístup
Majme funkciu (predpokladaný “tvar” dát) a poďme nájsť, ako dobre sa dá napasovať na naše dáta Lineárna regresia, polynomiálna, logistická .... Data-miningový prístup Nemáme žiadne predpoklady o tvare dát a učíme sa čisto z pozorovaní Rozhodovacie stromy, neurónové siete, ... “TESTOVANIE HYPOTÉZ” “IDE O VÝSLEDKY, NIE O MODEL”
21
Logistická regresia
22
Logistická regresia ... je tiež jednoduchá
Šanca = P (true) / P (false) samozrejme : P (false) = 1 - P(true) … pridajme logaritmus … … ten ma lineárny vzťah k prediktorom ... ... odstránime logaritmus e^... ... vyjadríme pravdepodobnosť ... ... a máme výsledok:
23
CART – Classification And Regression Tress
Neparametrická metóda, samovalidačný (train/validation/test) Automatický výber prediktorov, kritérium GINI Binárny split Strom rastie do hĺbky Výsledky sú invariantné lineárnym transformáciám atribútov napr. x’=Log(x); nie je citlivý na extrémne hodnoty Samoorezávanie (minimálna chyba na validačnej množine) Nevýhody Nestabilný, malá zmena v dátach – celkom iný strom Rozdeľuje iba cez jeden atribút, oproti stromom, ktoré dokážu rozdeľovať cez kombináciu napr. (b0 + b1 X + b2 Y)
24
CHi-squared Automatic Interaction Detection
Rozdeľovacím kritérium: ChiSquare pri klasifikácií F-test pri regresii Väčšina vlastností podobná s CART Numerické atribúty diskretizuje do N (napr. 10) binov Spája diskrétne hodnoty, ak sa spojením nestratí sila Vytvára viac-cestné splity (vs. binárne) Strom rastie do šírky, jednoduchšie na interpetáciu
25
Random Forests
26
Cesta za najlepším algoritmom
Bagging Bootstrap aggregating – vytváranie nových prediktorov výberom s opakovaním Boosting Adaboost – v tom čase najlepší, ale konverguje? Nie vždy Prvý model na celej populácií, potom upravuje váhy a trénuje ďalšie RandomForest – Bagging + náhodný výber prediktorov
27
Random Forests Parametre:
M je celkový počet premenných v trénovacej množine N je celkový počet prípadov v trénovacej množine Náhodne sa vyberie m premenných z M; m=odmocnina(M) Príklady do trénovacej množiny sa vyberú n-násobným výberom s opakovaním z N (bootstraping). Na zvyšnej 1/3 prípadov sa otestuje chyba stromu. Nechá sa narásť celý rozhodovací strom (neorezávať) Pri hodnotení nového príkladu sa vypočíta výsledok každého stromu a rozhodne sa hlasovaním jednotlivých stromov.
28
Random Forests Jeden z najpresnejších algoritmov v súčasnosti
Dá sa použiť na veľmi veľké datasety Nepotrebujú testovaciu množinu ani krížovú validáciu, samé pri učení vypočítavajú odhad skutočnej chyby Nie je to black-box; významnosť atribútov sa vypočítava permutáciou hodnôt atribútu a otestovaním, ako veľmi sa zmenili výsledky Náhrada chýbajúcich hodnôt: medián triedy, modus triedy Nevýhodou je na prvý pohľad zložitosť a niekedy aj náchylnosť na preučenie
29
Správa od p. Breimana Ani najmúdrejší algoritmus nedokáže nahradiť ľudskú inteligenciu a nerozumie dátam tak, ako im rozumie človek. Berte výstupy náhodných stromov nie ako absolútnu pravdu, ale ako inteligentný počítačom generovaný odhad, ktorý môže napomôcť hlbšiemu porozumeniu. [Leo Breiman]
30
Recommendation systémy
Kolaboratívne filtrovanie Netflix 1M$ cena za zlepšenie odporúčania filmov (2008) Yahoo KDD cup – hodnotenie hudby (2011) Radio.FM + Kaggle (2012)
31
Algoritmy pre kolaboratívne filtrovanie
vi,j= hlas používateľa i pre položku j Ii = položky ktoré používateľ i už ohodnotil Priemerné hodnotenie i je Odhadovaný hlas pre používateľa a je vážená suma Rozdiel priemeru a hodnotenia tejto položky priemerné hodnotenie používateľa a normalizátor váha n-podobných používateľov
32
Ako vybrať “podobných” používateľov
K-nearest neighbor Pearson correlation coefficient Cosine distance (from IR)
33
Player Skill Rating Systémy pre hodnotenie schopností hráčov / tímov
Spravodlivo prideľujú body pri výhre / prehre aj pokiaľ ide o súboje Dávida s Goliášom Umožňujú robiť rebríčky (ladder boards) vytvárať vyrovnané zápasy pri zohľadnení zručností X hráčov predikovať šance na výhru $10,000 prize to be awarded to the team that submits the most accurate predictions;
34
Triviálne systémy Výhra +X bodov , prehra –Y
Viac zápasov, viac bodov, nevyjadruje priamo zručnosť Príklad: tenis WTA, ATP, hokejová liga Nevhodné pre balancovanie zápasov Otázna schopnosť predikovať víťaza (HC Košice prehrali s HK Nitra 2:3, Košice vyhrali ligu s 110 bodmi, Nitra je posledná s 52) Rank, Name & Nationality Points Week Change Tourn Played 1 Djokovic, Novak (SRB) 12,670 19 2 Nadal, Rafael (ESP) 10,175 20 3 Federer, Roger (SUI) 9,350
35
ELO známy zo šachu, vhodný pre 1 vs. 1
o 200 bodov vyššie skóre dosiahne priemerne o 75% win-rate (0.75 bodu v šachu, 0 prehra, 1 výhra, 0.5 remíza) 5839 players had an active rating between 2200 and 2299, and are usually associated with the Candidate Master title. 2998 players had an active rating between 2300 and 2399, and are usually associated with the FIDE Master title. 1382 players had an active rating between 2400 and 2499, most of whom had either the International Master or the International Grandmaster title. 587 players had an active rating between 2500 and 2599, most of whom had the International Grandmaster title 178 players had an active rating between 2600 and 2699, all but one of whom had the International Grandmaster title 42 players had an active rating between 2700 and 2799 4 active players had a rating over 2800: Magnus Carlsen, Viswanathan Anand, Vladimir Kramnik and Levon Aronian. Ra – rating hráča A Ea – očakávanie Sa – výsledok K – násobiteľ zmeny Očakávané skóre hráča A – znova raz logistická regresia Nové body:
36
True Skill Microsoft Research, použitý v X-Box Live
u – priemerný skill hráča sigma – stupeň istoty, že naozaj má tento skill Rýchlejšie sa dostanem na skutočný skill a tam +- ostanem viac hier, vyššia istota, menšia sigma
37
MMR – Multiplayer Matchmaking Rating
Hra 10 hráčov v 2 teamoch, median skóre 1600, nováčik 1500 Pred zápasom sa zráta šanca na výhru Čím horšie šance, tým viac bodov sa dá získať Autobalancing
38
Ďakujem za pozornosť!
39
Classification problem
How to split Good and Bad customers? y How to split Good and Bad customers? x © IBM 2011
40
Linear regression Line between good & bad
If a1*x1 + a2*x2 + … + b0 > 0 then Good else Bad y Regression for prediction of future values: Target value y = a*x + b (in 2D) x © IBM 2011
41
Logistic regression Sigmoid between good & bad
z = a1*x1 + a2*x2 + … + b0 P(good) = 1 / ( 1+exp(-z) ) P(bad) = 1 – P(good) 100% probability 0% x © IBM 2011
42
Decision tree Create set of rules: If x>5 and y<5 then Good
Else If x>5 and y<20 then Good Else If x>15 and y>20 then Good Else Bad Decision tree y x © IBM 2011
43
What is Clustering? A technique to find “natural grouping” in the data
No target outcome (unsupervised learning) Cited from Modules in Emerging Fields (Connecticut College HHMI/Keck project) Volume 7: Data Mining, Academic Host – Gary Parker, Visiting Expert – Gregory Piatetsky, Director – Marc Zimmer Copyright SPSS Inc. 2008
44
Clustering Techniques in SPSS Modeler
K-Means Kohonen Two-Steps Clustering Copyright SPSS Inc. 2008
45
K-Means Clustering Distance based clustering technique
Based on "Euclidean distance“ of objects in N-dimensional space Distance2 = (xi-xc)2 + (yi-yc)2 + (zi-zc)2 + … Analyst picks # of clusters (K) Nice to have prior knowledge about data Try different K to find the best segmentation Clusters represented by means objects attributes what belong to them Copyright SPSS Inc. 2008
46
K-means Example: Step 1 k1 Y Pick 3 initial k2 cluster centers
(randomly) Cited from Modules in Emerging Fields (Connecticut College HHMI/Keck project) Volume 7: Data Mining, Academic Host – Gary Parker, Visiting Expert – Gregory Piatetsky, Director – Marc Zimmer Copyright SPSS Inc. 2008
47
K-means Example: Step 2 k1 Y k2 Assign each point to the closest
cluster center k3 Cited from Modules in Emerging Fields (Connecticut College HHMI/Keck project) Volume 7: Data Mining, Academic Host – Gary Parker, Visiting Expert – Gregory Piatetsky, Director – Marc Zimmer Copyright SPSS Inc. 2008
48
K-means Example: Step 3 X Y k1 k1 k2 Move each cluster center
to the mean of each cluster k3 k2 k3 Cited from Modules in Emerging Fields (Connecticut College HHMI/Keck project) Volume 7: Data Mining, Academic Host – Gary Parker, Visiting Expert – Gregory Piatetsky, Director – Marc Zimmer Copyright SPSS Inc. 2008
49
K-means Example: Step 4 Reassign k1 points
Y Reassign points closest to a different new cluster center Q: Which points are reassigned? k1 k3 k2 Cited from Modules in Emerging Fields (Connecticut College HHMI/Keck project) Volume 7: Data Mining, Academic Host – Gary Parker, Visiting Expert – Gregory Piatetsky, Director – Marc Zimmer Copyright SPSS Inc. 2008
50
K-means Example: Step 4 (continued)
Y k1 Three furthest Points from the cluster center k3 k2 Cited from Modules in Emerging Fields (Connecticut College HHMI/Keck project) Volume 7: Data Mining, Academic Host – Gary Parker, Visiting Expert – Gregory Piatetsky, Director – Marc Zimmer Copyright SPSS Inc. 2008
51
K-means Example: Step 4 (continued)
Y k1 Re-compute cluster means k3 k2 Cited from Modules in Emerging Fields (Connecticut College HHMI/Keck project) Volume 7: Data Mining, Academic Host – Gary Parker, Visiting Expert – Gregory Piatetsky, Director – Marc Zimmer Copyright SPSS Inc. 2008
52
K-means Example: Step 5 k1 Y Move cluster centers to cluster means k2
Cited from Modules in Emerging Fields (Connecticut College HHMI/Keck project) Volume 7: Data Mining, Academic Host – Gary Parker, Visiting Expert – Gregory Piatetsky, Director – Marc Zimmer Copyright SPSS Inc. 2008
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.