doc. Ing. Kristína Machová, PhD.

Slides:



Advertisements
Similar presentations
Ma.
Advertisements

Click on each of us to hear our sounds.
Las Vocales En Espanol.
HIRAGANA by number of strokes Images from:
ma mu mi mo me pe pi pa pu po si sa so.
MA. ME MI MO MU MÁ MÉ MÍ MÓ MŮ LA LE LI.
Hľadanie motívov v reťazcoch DNA
Slovak HEROINE Comenius project
INTRANSNET Contract No. G7RT-CT
Example Bullet Point Slide
Fyzika a chemie společně CZ/FMP/17B/0456
Predstavenie Sféra, s.r.o. založená v r. 1992
Ing. Eva Koščová/ Informatika
Bakalárska práca Webová výuka programovania v C++ pomocou jednotkového testovania Školiteľ: František Gyárfáš Viliam Vakerman.
VOĽNE DOSTUPNÝ REFERENČNÝ MANAŽÉR
Renesancia a humanizmus
Informácie okolo nás Informácia Údaj
Aplikačné možnosti strojového učenia
Present by Leon & Andy Art Technical Gallery © 2014 Ultimate - All rights reserved 1. Letné stretnutie pracovníkov v NDT LT Piešťany, Rybársky dvor,
Prečo šimpanzy nevedia rozprávať?
MuZIKÁL Andrea Ratkošová 2.A.
Geografický informačný systém
Domény a DNS.
INTERNATIONAL TRADE AND FORWARDING AGENTS
RIZIKÁ PRI REALIZOVANÍ PROJEKTU
Vývoj a druhy počítačov
ProCeSI Prognostické Centrum pre Spoločenskú Integráciu
Databázový systém pre malý a veľký podnik
Yulia Šurinová "There is always a better way; it should be found."
Makrá v PowerPointe Joshua Lajčiak.
Schémy financovania v 7RP
Seminár "Zelené podnikanie ako konkurenčná výhoda a investícia do budúcnosti, , Bratislava Oľga NÉMETHOVÁ, SBA.
Vytvorenie bázy športových motívov, priestorov a hodnôt ich expozície.
Človek vo sfére peňazí ročník.
aktivácia Vladimír Hricka License Sales Specialist Microsoft Slovakia
7. prednáška 3. november 2003.
Využitie IKT na hodinách anglického jazyka
Výučba cudzích jazykov
Skrutkovica na rotačnej ploche
Vlastnosti kvantitatívnych dát
Ing. Róbert Chovanculiak, Ph.D. INESS
História vzniku internetu
Šifrovanie Dešifrovanie
Znaky športu pravidlá inštitucionalizácia súťaže diváctvo
Ako manažovať smartfóny z cloudu TechDays East 2014
SPŠ elektrotechnická Košice Stredoškolská odborná činnosť
Lokálne príznaky vo farebných obrazoch
22. – OTVORENÝ PRÍSTUP
PRACOVNÉ PROSTREDIE PRI PRÁCI S POČÍTAČMI Z HĽADISKA ERGONÓMIE
Vysoko subjektívna prezentácia o používaní podcastov
Servio as a Service Service desk z Telekom cloudu
Heuristické optimalizačné procesy
Zásady hygieny pri stolovaní
REACH 2018 Nájdite svojich spoluregistrujúcich a pripravte sa na spoločnú registráciu.
Ing. Anita Sáreníková/ Cvičenia z aplikovanej informatiky
komercia vs. dokonalosť
INFORMATION AND COMMUNICATION TECHNOLOGY IN SECONDARY EDUCATION
Metodológia CVM— Client Value Method
Veľkosť trhu agentúrnych zamestnancov
De Bonových 6 klobúkov myslenia
Seminár č. 9 - osnova Metódy sieťového plánovania a riadenia:
Ponúkame: poradenstvo technickú podporu - help desk školenia
Interaktívna kniha a e-learningový systém pre deti - Opera nehryzie
8. prednáška 10. november 2003.
Neformálne ekonomické fórum 3. marec 2011
Inkrementálne učenie na konvolučných neurónových sieťach
Využitie biomasy v environmentálnych biotechnológiách
...bzučanie miliónov plastických koliesok
TVORBA VIET A OTÁZOK a KRÁTKYCH ODPOVEDÍ
Podpora adaptívneho WEB-u prostriedkami strojového učenia
Presentation transcript:

doc. Ing. Kristína Machová, PhD. Analýza názorov doc. Ing. Kristína Machová, PhD. kristina.machova@tuke.sk http://people.tuke.sk/kristina.machova

Osnova: Diskusné skupiny Klasifikácia názorov Analýza sentimentu

Diskusné skupiny Diskusné fóra predstavujú jeden z prostriedkov prispievania k obsahu webu. Umožňujú používateľom webu pretvárať jeho obsah. Vytvárajú konverzačný obsah (blog, mikroblog, chat, IRC...) formou „point-to-point“, „multicast“. Diskusné fóra sú taktiež zdrojom poznatkov o názoroch, pocitoch a postojoch používateľov. Nárastom množstva dát na diskusných fórach sa stávajú pre človeka ťažko spracovateľné – automatická klasifikácia názorov.

Diskusné skupiny Diskusné fóra – rozsiahle databázy názorov, pocitov, postojov a nálad ľudí, ktorí používajú Internet ako spôsob komunikácie. Na rozdiel od databáz neobsahujú štruktúrované dáta, preto vyžadujú špeciálne postupy (klasifikácia názorov). diskusný príspevok Diskusné fórum Klasifikácia názorov Použiteľné informácie: - S výrobkom sú ľudia spokojní Obyvatelia vnímajú reformu negatívne

Klasifikácia názorov Klasifikácia dokumentov je zatrieďovanie dokumentov do preddefinovaných tried na základe analýzy obsahu textu pomocou metód SU. Dala podnet ku vzniku nového smeru – klasifikácii názorov, resp. dolovaniu názorov. Ang. ekvivalenty: sentiment classification, sentiment analysis, opinion mining, opinion extraction,... Klasifikácia názorov sa zameriava na subjektívne stránky textu (na rozdiel od klasifikácie dokumentov): postoje , názory, pocity autora. Tieto subjektívne informácie sa musia na niečo vzťahovať – na osobu, udalosť, film, tovar,..

Klasifikácia názorov Nositeľmi subjektívnych postojov sú slová: prídavné mená, podstatné mená, príslovky, slovesá... Niektoré slová nevyjadrujú názor, iba popisujú udalosti, fakty, preto nie je žiadúce ich použiť v klasifikácii názorov. Základné problémy, ktoré klasifikácia názorov rieši sú: určenie subjektivity určenie polarity (orientácie) určenie sily orientácie

Klasifikácia názorov Určenie subjektivity Príklad 1: „Klasifikácia názorov ma zaujíma.“ osobný postoj autora k danej veci veta prospešná pre klasifikáciu názorov Príklad 2: „Klasifikácia názorov je v tejto prezentácii.“ informácia o fakte bez postojov pre extrahovanie postojov bezvýznamná

Klasifikácia názorov Určenie orientácie, resp. polarity Autori príspevkov na niečo reagujú. Príspevky sú vzťahované k podstate veci: výrobok, film, politik, spoločenský problém. Príspevky sa delia do troch kategórií: pozitívne, neutrálne a negatívne názory. Vyhodnotenie pozitívnosti, negatívnosti, resp. neutrálnosti názoru je určenie orientácie, resp. polarity.

Klasifikácia názorov Určenie sily orientácie Každý príspevok vyjadruje spravidla názor s inou vervou, intenzitou – silou orientácie. Sila orientácie sa vyjadruje na škále od veľmi slabej po veľmi silnú. Negatívna orientácia môže byť: slabo negatívna, mierne negatívna a silno negatívna. Príklady: „Tá kniha je otrasná.“ (silná orientácia) „Tá kniha nebola až taká dobrá.“ (slabá orientácia)

Klasifikácia názorov v praxi Uplatnenie v oblastiach, kde je potrebné agregovať veľké množstvo rôznych názorov. Potreba získania jednej výslednej ucelenej informácie. Výroba, vývoj a predaj produktov. Tieto oblasti sa skúmajú z dvoch pohľadov: z pohľadu spotrebiteľa (kúpa) z pohľadu výrobcu (vývoj a predaj)

Klasifikácia názorov v praxi Pohľad spotrebiteľa Internet môže byť zdrojom informácie pre rozhodnutie o kúpe produktu: Zdroj 1 – webové stránky produktu. Zdroj 2 – diskusia na portáloch o vlastnostiach produktu zo strany jeho vlastníkov. Problém 1 – obrovský počet diskusných príspevkov. Problém 2 – nehomogénnosť príspevkov, ktoré vyjadrujú rôzne názory na komentovaný produkt. Riešenie – automatická klasifikácia názorov a následná extrakcia sumarizovaného názoru.

Klasifikácia názorov v praxi Pohľad výrobcu Podnikanie v súčasnosti kladie na podnikateľov mimoriadne informačné nároky: Zdroj 1 – informácie o dodávateľoch a konkurencii. Zdroj 2 – informácie o potrebách zákazníkov. Potreby zákazníkov – marketingový výskum prostredníctvom dotazníka alebo telefónu. Nevýhoda marketingového výskumu – náklady na výskum (dotazníky – veľa ľudí, telefón – telefónne účty) a čas. Rýchlosť získavania informácií o zákazníkovi je zásadná.

Klasifikácia názorov v praxi Pohľad výrobcu Diskusné fóra – výborný zdroj informácií pre marketingový výskum. Čas získavania informácií z diskusných skupín je veľmi krátky. Odpadá čas potrebný na zber údajov – prístupné na Internete okamžite. Dotazníky nie sú potrebné, telefónne účty sú oveľa nižšie.

Klasifikácia názorov Orientácia diskusnej skupiny je súčet orientácií jej príspevkov. Orientácia príspevku je súčet orientácií jeho častí (slovo, fráza, veta). Hlavnými nositeľmi subjektívneho názoru sú prídavné mená a príslovky. Zápor mení orientáciu časti textu. Synonyma majú rovnakú orientáciu. Antonyma majú opačnú orientáciu.

Klasifikácia názorov Kroky postupného získavania orientácie: Part-of-speech analýza (priradenie slovného druhu) Vytvorenie seedlistu (zoznam pozitívnych a negatívnych prídavných mien a prísloviek) Nájdenie synoným a antoným v seedliste Porovnanie počtu kladne a záporne orientovaných slov (častí) príspevku Otočenie orientácie záporom Antonyma majú opačnú orientáciu.

Klasifikácia názorov Problémy znižujúce úspešnosť klasifikácie názorov Prídavné meno s kladnou (zápornou) orientáciou nesie opačný postoj: „Rád si prečítam dobrú knihu. Táto taká nebola.“ Prídavné mená a príslovky majú opačnú orientáciu ako sa predpokladalo: „Tento výrobok je dobrá hlúposť.“ Názor je vyjadrený nepriamo (bez prídavných mien a prísloviek): „Na ten film by som už nešiel.“ „Inú značku by som si nekúpil.“

Klasifikácia názorov Riešenia zvyšujúce úspešnosť klasifikácie názorov Uvažovanie kontextu Zahrnutie ďalších slovných druhov Identifikácia typických znakov hodnotenej veci: film, kniha – zápletka, dej, efekty digitálny fotoaparát – ostrosť, obraz, farby Tvorba špecializovaných seedlistov pre rôzne domény

Klasifikácia názorov Vyhodnotenie úspešnosti bez prahu count(positive) > count(negative)  Positive count(positive) < count(negative)  Negative count(positive) = count(negative)  Unknown Vyhodnotenie úspešnosti s použitím prahu count(positive)-count(negative)>2  Positive count(positive)-count(negative)<-2  Negative |count(positive)-count(negative)|<3  Unknown

Analýza sentimentu Dnes komerčné firmy ponúkajú mediálny monitoring na sledovanie ohlasov v mediách pre: veľké firmy a organizácie politické strany subjekty verejnej a štátnej správy rôzne odvetvia hospodárstva Monitorovanie mediálnych ohlasov je len prvým krokom. Dôležitejším je určovanie charakterov príspevkov a analýza sentimentu. Prvýkrát použili túto metódu Bo Pang a Lillian Lee v 2004 na analýzu recenzií filmov.

Analýza sentimentu Analýza sentimentu z oficiálnych a neoficiálnych (blogy a diskusné skupiny) umožní: predikovať vývoj nálad spoločnosti stanoviť miery pre určenie slobody prejavu v tlačených médiách Systémy využívajúce analýzu sentimentu určujú pocity a názory vyjadrené v texte formou prirodzeného jazyka. Analýzu textu je potrebné robiť s ohľadom na spracovávanú doménu.

Analýza sentimentu Podľa Osgooda rozoznávame tri emočné rozmery písaného textu (definícia sémantického priestoru): hodnotenie (pozitívne alebo negatívne) účinok, potencia (závisia od nasledovných faktorov): vzdialenosť (vzťah autora k téme) špecifickosť (jasná, vágna formulácia) určitosť (istota, pochybnosti autora) intenzita (sila emócie) Metódy analýzy sentimentu pracujú so slovami, ktoré nevyjadrujú priamo pocity iba hodnotia tému. Sentiment je možné vyjadriť aj pomocou irónie, sarkazmu. Špeciálnym prostriedkom je používanie emotikov.

Analýza sentimentu Základom analýzy sentimentu je vytvorenie preddefinovaných slovníkov, v ktorých sú slová zoskupené podľa psycho-sociálnych kritérií merania intenzity textu. Analýza sentimentu využíva podľa autorov Budinská – Balogh – Gatial (UI SAV Bratislava) dva základné prístupy k spracovaniu prirodzeného jazyka: symbolické metódy –slovníkový prístup (spracovávajú text ako súbor slov bez zohľadnenia vzťahu medzi nimi, sentiment dokumentu – agregácia sentimentu slov, WordNet) metódy strojového učenia (dolovanie textov, rýchle objavovanie a počítanie informácií, štatistické strojové prekladanie pomocou kompresovaných polí prípon, stromov prípon)

Analýza sentimentu