Aplikačné možnosti strojového učenia

Slides:



Advertisements
Similar presentations
Downs 4 th Grade Science Solar System Review The Planets & Other Objects in Space.
Advertisements

THE SOLAR SYSTEM By: Natalie Natale LRC 320 Final Project.
3 rd Grade. The Sun is a star. The Sun is the center of the solar system.
Announcements Pick up graded homework. Pick up handout (“The Virtual Astronaut”) and read over the weekend. First project due today by 5:00 p.m.
Vocabulary.  Our solar system includes the sun, the planets and many smaller objects.
Jeopardy Satellites The Solar System Space Travel Earth Movements Potpourri Q $100 Q $200 Q $300 Q $400 Q $500 Q $100 Q $200 Q $300 Q $400 Q $500 Final.
My Solar System Slide Show YOUR NAME.
Do you know your space facts?. Is the sun a star? Yes.
Our Solar System The 9 (or 8? or 10+?) Planets and their satellites The 9 (or 8? or 10+?) Planets and their satellites
Solar System. Sun Mercury Venus Earth Mars Jupiter.
What YOU can see of the Solar System With Images by Fred Klein Member of Amateur Astronomers Association of Pittsburgh.
The Solar System By: Madison Nunley.
The Solar System Chapter 6 COPY DOWN THE LEARNING GOALS ON PG SKIP 5 LINES BETWEEN EACH!
Space Exploration 1957 Through Explorer ► 74 successful missions ► 4 unsuccessful ► Explorer satellites have made important discoveries:  Earth's.
Space Vocabulary Rotation Revolution Planets Asteroids.
Exploring the Solar System GCSE Astronomy – Lesson 26.
Chapter 22 Exploring Space. Electromagnetic Radiation What is it ??? –Radio waves –Visible light –Gamma rays –X-rays –Ultraviolet light –Infrared waves.
A moon is a natural satellite of each planet. The moon only comes out at night and bights up the night sky.
April, 12 – Cosmonauts Day. Yuri Gagarin 1934 – 1968.
TOURING THE SOLAR SYSTEM Use the Internet to research this project and use the following websites as a place to start:
2 AR Reading until 10:29. Student Planner May 7, 2015 Place this in the proper place Vocabulary Test Monday You need planner, notes, pen/pencil, spacecraft.
Pioneer 11 By: Anna and Daniel March 10 th, 2016.
Space and Solar System Word wall. NASA National Aeronautics and Space Administration the federal agency that that deals with aeronautical research and.
Introducing The Solar System WHAT’S IN IT? HOW DID IT FORM?
Unmanned Space Probes.
PLANETS.
Space 27th April 2017.
Planets Lesson 1.
The Tim Peake Primary Project
Space Station-The International Space Station is a satellite that serves as a home for the crew while they perform scientific research and experiments.
History of Space Exploration
INTRANSNET Contract No. G7RT-CT
Example Bullet Point Slide
Fyzika a chemie společně CZ/FMP/17B/0456
Predstavenie Sféra, s.r.o. založená v r. 1992
VOĽNE DOSTUPNÝ REFERENČNÝ MANAŽÉR
Geografický informačný systém
Life in the Solar System
Solar System.
Space Insert your name here….
Yulia Šurinová "There is always a better way; it should be found."
Makrá v PowerPointe Joshua Lajčiak.
Človek vo sfére peňazí ročník.
7. prednáška 3. november 2003.
Our Solar System.
Využitie IKT na hodinách anglického jazyka
Vlastnosti kvantitatívnych dát
Šifrovanie Dešifrovanie
Ako manažovať smartfóny z cloudu TechDays East 2014
Základné princípy strojového učenia
Lokálne príznaky vo farebných obrazoch
Vysoko subjektívna prezentácia o používaní podcastov
Heuristické optimalizačné procesy
Veľkosť trhu agentúrnych zamestnancov
doc. Ing. Kristína Machová, PhD.
Seminár č. 9 - osnova Metódy sieťového plánovania a riadenia:
Recent and future space missions
Interaktívna kniha a e-learningový systém pre deti - Opera nehryzie
8. prednáška 10. november 2003.
Recent and future space missions
Inkrementálne učenie na konvolučných neurónových sieťach
Mrs. Niki Midyett 4th Grade Science.
...bzučanie miliónov plastických koliesok
Podpora adaptívneho WEB-u prostriedkami strojového učenia
& Other Objects in Space
Nine Planets and the Space Probes
THE SOLAR SYSTEM BY TIMEARIA
Comparing Distances from the Sun to Planets in our Solar System
UNIT SELF-TEST QUESTIONS
Terrestrial Planets INNER PLANETS
Presentation transcript:

Aplikačné možnosti strojového učenia Kristína Machová

OSNOVA: Úvod Spracovanie textových dokumentov Predspracovanie textových dokumentov Váhovacie techniky Generovanie kľúčových slov Zhlukovanie textových dokumentov Aktívne učenie

ÚVOD SU je použiteľné v širokej škále oblastí problémov, ktoré je možné modelovať ako úlohy klasifikačné respektíve predikčné SU je základom dolovania v dátach (datamining) Kategorizácia textových dokumentov, anotovanie textových dokumentov a automatické priradzovanie kľúčových slov textom Inteligentné vyhľadávanie na webe, znižovanie kognitívnej záťaže používateľov internetu, predikcia záujmov používateľa internetu Automatická klasifikácia názorov vo web diskusiách Predikcia: spotreby vody, počasia, potreby vypúšťania vodných nádrží

SPRACOVANIE TEXTOVÝCH DOKUMENTOV Hľadanie aproximácie neznámej funkcie Ф: D x C  {true, false}, kde D je množina dokumentov a C je množina preddefinovaných kategórií Reprezentácia textových dokumentov: booleovská (vektor váh obsahuje 0 a 1), pravdepodobnostná (predpoklad nezávislosti atribútov), vektorová (vektor váh je určený na základe niektorej váhovacej schémy)

SPRACOVANIE TEXTOVÝCH DOKUMENTOV Vektorová reprezentácia dokumentov

PREDSPRACOVANIE TEXTOVÝCH DOKUMENTOV Eliminácia neplnovýznamových slov (slovník stop slov) Lematizácia – redukcia na základný tvar pomocou slovníka kmeňov a koreňov, odstránením afixov (sufix – prípona, prefix – predpona), štatistickými metódami Váhovanie – určenie váhy: selektívnu silu termu pri vyhľadávaní (klasifikácii) dokumentu. Selektívna sila je priamo úmerná početnosti slova v dokumente a nepriamo úmerná početnosti slova v korpuse. Redukcia príznakového priestoru – na základe váh, resp. informačného zisku

VÁHOVACIE TECHNIKY Binárne váhovanie F: T x C {0, 1} teda F(di, tj)=0/1 TF váhovanie (term frequency) F(di, tj)=k TF-IDF váhovanie – kombinácia TF a IDF kde IDF (Inverse Document Frequency) sa určuje: G(ti)=log(N/dfi), kde N je počet dokumentov v korpuse a dfi je počet dokumentov s termom ti. IW váhovanie (Inquery Weghting) Váhovanie Sparck, Jones a Robertson

VÁHOVACIE TECHNIKY Priemerná presnosť klasifikácie na kolekcii 20 News Groups v závislosti od použitej váhovacej schémy (zľava do prava: Sparks, Jones and Robertson, Inquery, TF-IDF(ltc), binary, TF-IDF(ntc) a TF).

GENEROVANIE KĽÚČOVÝCH SLOV Ide o redukciu príznakového priestoru, ktorá sa môže realizovať štatistickými metódami alebo niektorou váhovacou technikou. Štatistické metódy (Yiming-Pedersen, 1997): Informačný zisk (Information Gain) Vzájomná informácia (Mutual Information) Χ2 štatistika Podrobnejšie – Machová, K.: Strojové učenie v systémoch spracovania informácií.

GENEROVANIE KĽÚČOVÝCH SLOV Kľúčové slová generované z kolekcie 20 News Groups metódou X2 štatistika. 01.atheism 02.comp.graphics 08.rec.auto 12.sci.crypt 15.sci.space 1 atheists Graphics car Encryption Space 2 atheism Image cars Clipper Orbit 3 livesey Images engine Key Shuttle 4 benedikt Gif ford Keys Launch 5 keith Animation toyota Escrow Nasa 6 o'dwyer Jpeg mustang Nsa Spacecraft 7 atheist Polygon auto Crypto Moon 8 beauchaine Format dealer Chip Solar 9 mathew Tiff callison Encrypted Henry 10 morality Pov taurus Sternlight Spencer 11 jaeger Polygons nissan cryptogrphy Lunar 12 god Viewer eliot Secure Orbital 13 mozumder Formats chevy Pgp Satelite 14 gregg Texture engines Privacy Flight 15 objective Tga tires Algorithm Mission 16 schneider Files wagon Wiretap Sky

GENEROVANIE KĽÚČOVÝCH SLOV Kľúčové slová generované z 20 News Groups metódou TF-IDF. Kategórie Kľúčové slová 01.alt.atheism wt (3; 4) black, god, islam, jesus, souls, dogma, lucifer, satanists, rushdie, mary, israel, messiah, isaiah, religously, crucified 02.comp.graphicss wt (4; 5) volume, quality, row, file, ray, images, gif, processing, transformations, mirror, colorview 08.rec.autos wt (2,5; 3,5) bolsters, car, inflammatory, oil, indicators, fuels, probe, diesel, gasoline, socket, diameter, abs, radar, brake, chevrolet, alarm, sensor, emissions, rotor, clunker, clutch, autobahn, carburetor, gtz, sprint, braking, ethanol, skidpad, carerra, idling, diesels, diaphram, overboost, vehical 12.sci.crypt wt (2,5; 2,9) detection, networking, ansi, wordperfect, symbolic, encryption, passwords, cryptanalysis, cryptanalyst, cypherpunks, keyphrase, cryptosystem, coder 15.sci.space wt (2,5; 3) universe, moon, atmosphere, landscape, physicist, planets, solar, nasa, ship, comet, astronomical, explorer, sun, infrared, spacecraft, orbiter, detectors, ozone, saturn, mercury, asteroids, astronaut, martian, rocketry, neptune, constellation

GENEROVANIE KĽÚČOVÝCH SLOV Detekcia vzťahov medzi termami (pij > m) (pji < m) – term ti sa vyskytuje vo väčšom počte dokumentov ako term tj. Term ti je teda všeobecnejší ako term tj. (pij < m) (pji > m) – term ti sa vyskytuje v menšom počte dokumentov ako term tj. Term ti je teda špecifickejší ako term tj. (pij > m) (pji > m) – termy ti a tj sa vyskytujú často spolu a ich vzájomný vzťah je silný a vyvážený. (pij < m) (pji < m) – relácia medzi termami ti and tj je slabá. Ich súčasný výskyt v dokumentoch je skôr náhodný.

GENEROVANIE KĽÚČOVÝCH SLOV Detekcia vzťahov medzi termami (20 News Groups, Χ2 štatistika). Kategórie Páry termov 01.alt.atheism atheists-atheism, morality-objective, morality-moral, objective-moral 02.comp.graphicss gif-tiff, gif-formats, jpeg-tiff, polygons-texture, polygons-vertices, program-file, adobe-photoshop 08.rec.autos mustang-taurus, mustang-camaro, callison-camaro, chevy-camaro, sedan-wagon 12.sci.crypt encryption-key, encryption-chip, encryption-cryptography, encryption-secure, encryption-privacy, encryption-algorithm, encryption-communications, encryption-scheme, cryptography-privacy, wiretap-phones, decrypt-encrypt 15.sci.space orbit-shuttle, orbit-launch, orbit-moon, orbit-solar, orbit-satellite, orbit-mission, shuttle-nasa, shuttle-flight, shuttle-mission, payload-missions, spacecraft-satellites, spacecraft-propulsion, spacecraft-mars, spacecraft-missions, moon-lunar, henry-spencer, lunar-mars, orbital-propulsion, satellites-missions, mars-spacecraft, mars-missions, mars-jupiter, jupiter-orbiting

ZHLUKOVANIE TEXTOVÝCH DOKUMENTOV Zhlukovanie pomocou k-means s náhodnou inicializáciou nad kolekciou 20 News Groups (štandardná odchýlka)

ZHLUKOVANIE TEXTOVÝCH DOKUMENTOV Zhlukovanie pomocou k-means na 20 News Groups s kontrolovanou inicializáciou (jadrá sú vyberané z kategórií značkovaním, menšia štandardná odchýlka).

AKTÍVNE UČENIE Vplyv predikcie kategórie na presnosť klasifikácie Trénovanie [%] Predikcia [%] Presnosť kNN s predikciou 10 90 0.0991280 0.3059036 20 80 0.1795129 0.5051619 30 70 0.2602987 0.6137115 40 60 0.3444923 0.6706425 50 0.4364037 0.6879824 0.5294177 0.7281748 0.6262404 0.7499248 0.7164478 0.8104641 0.7942267 0.8159767 100 00 0.8353212

AKTÍVNE UČENIE Vplyv predikcie kategórie trénovacích príkladov na presnosť klasifikácie

Ďakujem za pozornosť