Presentation is loading. Please wait.

Presentation is loading. Please wait.

Aplikačné možnosti strojového učenia

Similar presentations


Presentation on theme: "Aplikačné možnosti strojového učenia"— Presentation transcript:

1 Aplikačné možnosti strojového učenia
Kristína Machová

2 OSNOVA: Úvod Spracovanie textových dokumentov
Predspracovanie textových dokumentov Váhovacie techniky Generovanie kľúčových slov Zhlukovanie textových dokumentov Aktívne učenie

3 ÚVOD SU je použiteľné v širokej škále oblastí problémov,
ktoré je možné modelovať ako úlohy klasifikačné respektíve predikčné SU je základom dolovania v dátach (datamining) Kategorizácia textových dokumentov, anotovanie textových dokumentov a automatické priradzovanie kľúčových slov textom Inteligentné vyhľadávanie na webe, znižovanie kognitívnej záťaže používateľov internetu, predikcia záujmov používateľa internetu Automatická klasifikácia názorov vo web diskusiách Predikcia: spotreby vody, počasia, potreby vypúšťania vodných nádrží

4 SPRACOVANIE TEXTOVÝCH DOKUMENTOV
Hľadanie aproximácie neznámej funkcie Ф: D x C  {true, false}, kde D je množina dokumentov a C je množina preddefinovaných kategórií Reprezentácia textových dokumentov: booleovská (vektor váh obsahuje 0 a 1), pravdepodobnostná (predpoklad nezávislosti atribútov), vektorová (vektor váh je určený na základe niektorej váhovacej schémy)

5 SPRACOVANIE TEXTOVÝCH DOKUMENTOV
Vektorová reprezentácia dokumentov

6 PREDSPRACOVANIE TEXTOVÝCH DOKUMENTOV
Eliminácia neplnovýznamových slov (slovník stop slov) Lematizácia – redukcia na základný tvar pomocou slovníka kmeňov a koreňov, odstránením afixov (sufix – prípona, prefix – predpona), štatistickými metódami Váhovanie – určenie váhy: selektívnu silu termu pri vyhľadávaní (klasifikácii) dokumentu. Selektívna sila je priamo úmerná početnosti slova v dokumente a nepriamo úmerná početnosti slova v korpuse. Redukcia príznakového priestoru – na základe váh, resp. informačného zisku

7 VÁHOVACIE TECHNIKY Binárne váhovanie F: T x C {0, 1} teda F(di, tj)=0/1 TF váhovanie (term frequency) F(di, tj)=k TF-IDF váhovanie – kombinácia TF a IDF kde IDF (Inverse Document Frequency) sa určuje: G(ti)=log(N/dfi), kde N je počet dokumentov v korpuse a dfi je počet dokumentov s termom ti. IW váhovanie (Inquery Weghting) Váhovanie Sparck, Jones a Robertson

8 VÁHOVACIE TECHNIKY Priemerná presnosť klasifikácie na kolekcii 20 News Groups v závislosti od použitej váhovacej schémy (zľava do prava: Sparks, Jones and Robertson, Inquery, TF-IDF(ltc), binary, TF-IDF(ntc) a TF).

9 GENEROVANIE KĽÚČOVÝCH SLOV
Ide o redukciu príznakového priestoru, ktorá sa môže realizovať štatistickými metódami alebo niektorou váhovacou technikou. Štatistické metódy (Yiming-Pedersen, 1997): Informačný zisk (Information Gain) Vzájomná informácia (Mutual Information) Χ2 štatistika Podrobnejšie – Machová, K.: Strojové učenie v systémoch spracovania informácií.

10 GENEROVANIE KĽÚČOVÝCH SLOV
Kľúčové slová generované z kolekcie 20 News Groups metódou X2 štatistika. 01.atheism 02.comp.graphics 08.rec.auto 12.sci.crypt 15.sci.space 1 atheists Graphics car Encryption Space 2 atheism Image cars Clipper Orbit 3 livesey Images engine Key Shuttle 4 benedikt Gif ford Keys Launch 5 keith Animation toyota Escrow Nasa 6 o'dwyer Jpeg mustang Nsa Spacecraft 7 atheist Polygon auto Crypto Moon 8 beauchaine Format dealer Chip Solar 9 mathew Tiff callison Encrypted Henry 10 morality Pov taurus Sternlight Spencer 11 jaeger Polygons nissan cryptogrphy Lunar 12 god Viewer eliot Secure Orbital 13 mozumder Formats chevy Pgp Satelite 14 gregg Texture engines Privacy Flight 15 objective Tga tires Algorithm Mission 16 schneider Files wagon Wiretap Sky

11 GENEROVANIE KĽÚČOVÝCH SLOV
Kľúčové slová generované z 20 News Groups metódou TF-IDF. Kategórie Kľúčové slová 01.alt.atheism wt (3; 4) black, god, islam, jesus, souls, dogma, lucifer, satanists, rushdie, mary, israel, messiah, isaiah, religously, crucified 02.comp.graphicss wt (4; 5) volume, quality, row, file, ray, images, gif, processing, transformations, mirror, colorview 08.rec.autos wt (2,5; 3,5) bolsters, car, inflammatory, oil, indicators, fuels, probe, diesel, gasoline, socket, diameter, abs, radar, brake, chevrolet, alarm, sensor, emissions, rotor, clunker, clutch, autobahn, carburetor, gtz, sprint, braking, ethanol, skidpad, carerra, idling, diesels, diaphram, overboost, vehical 12.sci.crypt wt (2,5; 2,9) detection, networking, ansi, wordperfect, symbolic, encryption, passwords, cryptanalysis, cryptanalyst, cypherpunks, keyphrase, cryptosystem, coder 15.sci.space wt (2,5; 3) universe, moon, atmosphere, landscape, physicist, planets, solar, nasa, ship, comet, astronomical, explorer, sun, infrared, spacecraft, orbiter, detectors, ozone, saturn, mercury, asteroids, astronaut, martian, rocketry, neptune, constellation

12 GENEROVANIE KĽÚČOVÝCH SLOV
Detekcia vzťahov medzi termami (pij > m) (pji < m) – term ti sa vyskytuje vo väčšom počte dokumentov ako term tj. Term ti je teda všeobecnejší ako term tj. (pij < m) (pji > m) – term ti sa vyskytuje v menšom počte dokumentov ako term tj. Term ti je teda špecifickejší ako term tj. (pij > m) (pji > m) – termy ti a tj sa vyskytujú často spolu a ich vzájomný vzťah je silný a vyvážený. (pij < m) (pji < m) – relácia medzi termami ti and tj je slabá. Ich súčasný výskyt v dokumentoch je skôr náhodný.

13 GENEROVANIE KĽÚČOVÝCH SLOV
Detekcia vzťahov medzi termami (20 News Groups, Χ2 štatistika). Kategórie Páry termov 01.alt.atheism atheists-atheism, morality-objective, morality-moral, objective-moral 02.comp.graphicss gif-tiff, gif-formats, jpeg-tiff, polygons-texture, polygons-vertices, program-file, adobe-photoshop 08.rec.autos mustang-taurus, mustang-camaro, callison-camaro, chevy-camaro, sedan-wagon 12.sci.crypt encryption-key, encryption-chip, encryption-cryptography, encryption-secure, encryption-privacy, encryption-algorithm, encryption-communications, encryption-scheme, cryptography-privacy, wiretap-phones, decrypt-encrypt 15.sci.space orbit-shuttle, orbit-launch, orbit-moon, orbit-solar, orbit-satellite, orbit-mission, shuttle-nasa, shuttle-flight, shuttle-mission, payload-missions, spacecraft-satellites, spacecraft-propulsion, spacecraft-mars, spacecraft-missions, moon-lunar, henry-spencer, lunar-mars, orbital-propulsion, satellites-missions, mars-spacecraft, mars-missions, mars-jupiter, jupiter-orbiting

14 ZHLUKOVANIE TEXTOVÝCH DOKUMENTOV
Zhlukovanie pomocou k-means s náhodnou inicializáciou nad kolekciou 20 News Groups (štandardná odchýlka)

15 ZHLUKOVANIE TEXTOVÝCH DOKUMENTOV
Zhlukovanie pomocou k-means na 20 News Groups s kontrolovanou inicializáciou (jadrá sú vyberané z kategórií značkovaním, menšia štandardná odchýlka).

16 AKTÍVNE UČENIE Vplyv predikcie kategórie na presnosť klasifikácie
Trénovanie [%] Predikcia [%] Presnosť kNN s predikciou 10 90 20 80 30 70 40 60 50 100 00

17 AKTÍVNE UČENIE Vplyv predikcie kategórie trénovacích príkladov na presnosť klasifikácie

18 Ďakujem za pozornosť


Download ppt "Aplikačné možnosti strojového učenia"

Similar presentations


Ads by Google