Download presentation
Presentation is loading. Please wait.
1
doc. Ing. Kristína Machová, PhD.
Analýza názorov doc. Ing. Kristína Machová, PhD.
2
Osnova: Diskusné skupiny Klasifikácia názorov Analýza sentimentu
3
Diskusné skupiny Diskusné fóra predstavujú jeden z prostriedkov prispievania k obsahu webu. Umožňujú používateľom webu pretvárať jeho obsah. Vytvárajú konverzačný obsah (blog, mikroblog, chat, IRC...) formou „point-to-point“, „multicast“. Diskusné fóra sú taktiež zdrojom poznatkov o názoroch, pocitoch a postojoch používateľov. Nárastom množstva dát na diskusných fórach sa stávajú pre človeka ťažko spracovateľné – automatická klasifikácia názorov.
4
Diskusné skupiny Diskusné fóra – rozsiahle databázy názorov, pocitov, postojov a nálad ľudí, ktorí používajú Internet ako spôsob komunikácie. Na rozdiel od databáz neobsahujú štruktúrované dáta, preto vyžadujú špeciálne postupy (klasifikácia názorov). diskusný príspevok Diskusné fórum Klasifikácia názorov Použiteľné informácie: - S výrobkom sú ľudia spokojní Obyvatelia vnímajú reformu negatívne
5
Klasifikácia názorov Klasifikácia dokumentov je zatrieďovanie dokumentov do preddefinovaných tried na základe analýzy obsahu textu pomocou metód SU. Dala podnet ku vzniku nového smeru – klasifikácii názorov, resp. dolovaniu názorov. Ang. ekvivalenty: sentiment classification, sentiment analysis, opinion mining, opinion extraction,... Klasifikácia názorov sa zameriava na subjektívne stránky textu (na rozdiel od klasifikácie dokumentov): postoje , názory, pocity autora. Tieto subjektívne informácie sa musia na niečo vzťahovať – na osobu, udalosť, film, tovar,..
6
Klasifikácia názorov Nositeľmi subjektívnych postojov sú slová: prídavné mená, podstatné mená, príslovky, slovesá... Niektoré slová nevyjadrujú názor, iba popisujú udalosti, fakty, preto nie je žiadúce ich použiť v klasifikácii názorov. Základné problémy, ktoré klasifikácia názorov rieši sú: určenie subjektivity určenie polarity (orientácie) určenie sily orientácie
7
Klasifikácia názorov Určenie subjektivity
Príklad 1: „Klasifikácia názorov ma zaujíma.“ osobný postoj autora k danej veci veta prospešná pre klasifikáciu názorov Príklad 2: „Klasifikácia názorov je v tejto prezentácii.“ informácia o fakte bez postojov pre extrahovanie postojov bezvýznamná
8
Klasifikácia názorov Určenie orientácie, resp. polarity
Autori príspevkov na niečo reagujú. Príspevky sú vzťahované k podstate veci: výrobok, film, politik, spoločenský problém. Príspevky sa delia do troch kategórií: pozitívne, neutrálne a negatívne názory. Vyhodnotenie pozitívnosti, negatívnosti, resp. neutrálnosti názoru je určenie orientácie, resp. polarity.
9
Klasifikácia názorov Určenie sily orientácie
Každý príspevok vyjadruje spravidla názor s inou vervou, intenzitou – silou orientácie. Sila orientácie sa vyjadruje na škále od veľmi slabej po veľmi silnú. Negatívna orientácia môže byť: slabo negatívna, mierne negatívna a silno negatívna. Príklady: „Tá kniha je otrasná.“ (silná orientácia) „Tá kniha nebola až taká dobrá.“ (slabá orientácia)
10
Klasifikácia názorov v praxi
Uplatnenie v oblastiach, kde je potrebné agregovať veľké množstvo rôznych názorov. Potreba získania jednej výslednej ucelenej informácie. Výroba, vývoj a predaj produktov. Tieto oblasti sa skúmajú z dvoch pohľadov: z pohľadu spotrebiteľa (kúpa) z pohľadu výrobcu (vývoj a predaj)
11
Klasifikácia názorov v praxi
Pohľad spotrebiteľa Internet môže byť zdrojom informácie pre rozhodnutie o kúpe produktu: Zdroj 1 – webové stránky produktu. Zdroj 2 – diskusia na portáloch o vlastnostiach produktu zo strany jeho vlastníkov. Problém 1 – obrovský počet diskusných príspevkov. Problém 2 – nehomogénnosť príspevkov, ktoré vyjadrujú rôzne názory na komentovaný produkt. Riešenie – automatická klasifikácia názorov a následná extrakcia sumarizovaného názoru.
12
Klasifikácia názorov v praxi
Pohľad výrobcu Podnikanie v súčasnosti kladie na podnikateľov mimoriadne informačné nároky: Zdroj 1 – informácie o dodávateľoch a konkurencii. Zdroj 2 – informácie o potrebách zákazníkov. Potreby zákazníkov – marketingový výskum prostredníctvom dotazníka alebo telefónu. Nevýhoda marketingového výskumu – náklady na výskum (dotazníky – veľa ľudí, telefón – telefónne účty) a čas. Rýchlosť získavania informácií o zákazníkovi je zásadná.
13
Klasifikácia názorov v praxi
Pohľad výrobcu Diskusné fóra – výborný zdroj informácií pre marketingový výskum. Čas získavania informácií z diskusných skupín je veľmi krátky. Odpadá čas potrebný na zber údajov – prístupné na Internete okamžite. Dotazníky nie sú potrebné, telefónne účty sú oveľa nižšie.
14
Klasifikácia názorov Orientácia diskusnej skupiny je súčet orientácií jej príspevkov. Orientácia príspevku je súčet orientácií jeho častí (slovo, fráza, veta). Hlavnými nositeľmi subjektívneho názoru sú prídavné mená a príslovky. Zápor mení orientáciu časti textu. Synonyma majú rovnakú orientáciu. Antonyma majú opačnú orientáciu.
15
Klasifikácia názorov Kroky postupného získavania orientácie:
Part-of-speech analýza (priradenie slovného druhu) Vytvorenie seedlistu (zoznam pozitívnych a negatívnych prídavných mien a prísloviek) Nájdenie synoným a antoným v seedliste Porovnanie počtu kladne a záporne orientovaných slov (častí) príspevku Otočenie orientácie záporom Antonyma majú opačnú orientáciu.
16
Klasifikácia názorov Problémy znižujúce úspešnosť klasifikácie názorov
Prídavné meno s kladnou (zápornou) orientáciou nesie opačný postoj: „Rád si prečítam dobrú knihu. Táto taká nebola.“ Prídavné mená a príslovky majú opačnú orientáciu ako sa predpokladalo: „Tento výrobok je dobrá hlúposť.“ Názor je vyjadrený nepriamo (bez prídavných mien a prísloviek): „Na ten film by som už nešiel.“ „Inú značku by som si nekúpil.“
17
Klasifikácia názorov Riešenia zvyšujúce úspešnosť klasifikácie názorov
Uvažovanie kontextu Zahrnutie ďalších slovných druhov Identifikácia typických znakov hodnotenej veci: film, kniha – zápletka, dej, efekty digitálny fotoaparát – ostrosť, obraz, farby Tvorba špecializovaných seedlistov pre rôzne domény
18
Klasifikácia názorov Vyhodnotenie úspešnosti bez prahu
count(positive) > count(negative) Positive count(positive) < count(negative) Negative count(positive) = count(negative) Unknown Vyhodnotenie úspešnosti s použitím prahu count(positive)-count(negative)>2 Positive count(positive)-count(negative)<-2 Negative |count(positive)-count(negative)|<3 Unknown
19
Analýza sentimentu Dnes komerčné firmy ponúkajú mediálny monitoring
na sledovanie ohlasov v mediách pre: veľké firmy a organizácie politické strany subjekty verejnej a štátnej správy rôzne odvetvia hospodárstva Monitorovanie mediálnych ohlasov je len prvým krokom. Dôležitejším je určovanie charakterov príspevkov a analýza sentimentu. Prvýkrát použili túto metódu Bo Pang a Lillian Lee v 2004 na analýzu recenzií filmov.
20
Analýza sentimentu Analýza sentimentu z oficiálnych a neoficiálnych (blogy a diskusné skupiny) umožní: predikovať vývoj nálad spoločnosti stanoviť miery pre určenie slobody prejavu v tlačených médiách Systémy využívajúce analýzu sentimentu určujú pocity a názory vyjadrené v texte formou prirodzeného jazyka. Analýzu textu je potrebné robiť s ohľadom na spracovávanú doménu.
21
Analýza sentimentu Podľa Osgooda rozoznávame tri emočné rozmery
písaného textu (definícia sémantického priestoru): hodnotenie (pozitívne alebo negatívne) účinok, potencia (závisia od nasledovných faktorov): vzdialenosť (vzťah autora k téme) špecifickosť (jasná, vágna formulácia) určitosť (istota, pochybnosti autora) intenzita (sila emócie) Metódy analýzy sentimentu pracujú so slovami, ktoré nevyjadrujú priamo pocity iba hodnotia tému. Sentiment je možné vyjadriť aj pomocou irónie, sarkazmu. Špeciálnym prostriedkom je používanie emotikov.
22
Analýza sentimentu Základom analýzy sentimentu je vytvorenie
preddefinovaných slovníkov, v ktorých sú slová zoskupené podľa psycho-sociálnych kritérií merania intenzity textu. Analýza sentimentu využíva podľa autorov Budinská – Balogh – Gatial (UI SAV Bratislava) dva základné prístupy k spracovaniu prirodzeného jazyka: symbolické metódy –slovníkový prístup (spracovávajú text ako súbor slov bez zohľadnenia vzťahu medzi nimi, sentiment dokumentu – agregácia sentimentu slov, WordNet) metódy strojového učenia (dolovanie textov, rýchle objavovanie a počítanie informácií, štatistické strojové prekladanie pomocou kompresovaných polí prípon, stromov prípon)
23
Analýza sentimentu
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.