Download presentation
Presentation is loading. Please wait.
1
ارائه دهنده: فاطمه پورغلامعلی
نظرکاوی و داده های عظیم ارائه دهنده: فاطمه پورغلامعلی
2
سرفصل مروری بر نظر کاوی داده های عظیم بستری برای نظرکاوی ابزارها تعریف
سطوح مختلف تحلیل دسته بندی حسی واژگان حسی انواع واژگان حسی داده های عظیم بستری برای نظرکاوی مروری بر کارهای انجام شده ابزارها ابزارهای متن کاوی توسعه ابزارهای متن کاوی برای داده های عظیم و نظرکاوی
3
مقدمه تعریف نظرکاوی به رشته مطالعاتی اطلاق میگردد که در آن به تجزیه و تحلیل احساسات، ارزیابی ها، گرایشها و به طور کلی نظرات افراد در مورد موجودیت هایی مثل محصولات، سرویسها، سازمانها، اشخاص، اتفاقات و خصیصه های آنها پرداخته میشود
4
تعریف رسمی(Liu,2012) تعریف نظر: یک نظر یک چهارگانه (g,s,h,t) است که در آن g هدف (آنچه که "نظر" در مورد آن بیان شده است)، s حس بیان شده، h صاحب نظر و t زمان بیان نظر میباشد تعریف موجودیت: یک موجودیت e یک محصول، سرویس، شخص، رخداد، سازمان یا عنوانی است که با یک جفت تعریف میشود:e:(T,W) که T یک سلسله مراتب جزء و زیرجزء و امثال آن است و W مجموعه خصیصه های آن موجودیت. هر زیرجزء هم خودش خصیصه های خود را داراست.
5
لایه های مختلف تحلیل سطح سند: در این سطح با داشتن یک سند نظری به دنبال آن هستیم که بدانیم کل این سند نظر مثبت یا منفی دارد به عنوان مثال با داشتن یک مقاله (review) از یک محصول سیستم مشخص مینماید که مقاله نظر کلی مثبت یا منفی در مورد مساله دارد. سطح جمله: جملات به دسته های مثبت، منفی، و خنثی دسته بندی میشوند. سطح موجودیت و ویژگی: به جای پرداختن به ساختارهای زبان مثل جمله، پارگراف، عبارت و ... در این سطح مستقیما سراغ خود نظر میرویم. اغلب موجودیت و حس مربوط به آن (دو جزء اصلی نظر) همراه با هم میآیند. در این سطح به دنبال کشف حس روی موجودیت ها و جنبه ها (ویژگی ها)ی مختلف آنها هستیم. سطح مفهوم
6
Sentiment Classification
دسته بندی با یادگیری نظارتی ایجاد مجموعه نظرات برچسب خورده ایجاد واژگان حسی انتخاب ویژگیهای مناسب: کلمات مرتبط با موضوع، نرخ رخداد عبارت ، برچسب گذار اجزای کلام ، عبارات حسی، تغییر دهنده معنا ، وابستگی نحوی استفاده از الگوریتم های دسته بندی: ماشین پشتیبان بردار (SVM) بیزین ساده (Naïve Bayes) ، Maximum Entropyو Decision Tree محاسبه مجموع امتیاز سند
7
Sentiment Classification (در سطح سند)
دسته بندی با روشهای غیر نظارتی الگوهای متداول نحوی که معمولا برای بیان احساس بکار میروند ارائه شده اند این الگوها معمولا از روی برچسب های POS ساخته میشوند[turney2002]
8
دسته بندی با روشهای غیرنظارتی
عبارات دو واژه ای که با این الگوها تطابق داشته باشند استخراج میگردند گرایش حسی عبارت محاسبه میگردد محاسبه میانگین SO تمام عبارات
9
خلاصه سازی نظرات بصری سازی خلاصه سازی مبتنی بر ویژگی
10
دسته بندی جدیدابعاد نظرکاوی(FEL2014)
Subjectivity Polarity یا قطبیت مثبت یا منفی شدت رنجی از اعداد برای بیان درجه مثبت و منفی بودن احساس خوشحالی ناراحتی هیجان امید ترس
11
منابع لغوی نظرکاوی واژه های حسی واژه هایی هستند که اغلب برای بیان نظرات و احساسات مثبت و منفی به کار برده میشود اغلب صفت گاها قید و فعل خوب، عالی، شگفت انگیز بد، ضعیف، وحشتناک یک لیست از واژه ها و عبارات حسی واژگان حسی (Sentiment lexicon) نام دارد
12
تولید واژگان حسی روش دستی روش مبتنی بر پیکره روش مبتنی بر لغت نامه
13
منابع لغوی نظرکاوی Opinion Finder lexicon (Wilson2005)
لیستی از کلمات انگلیسی در دسته بندی مثبت و منفی ANEW (Bradley2009) لغت نامه ای با قواعد موثر(affective norms ) برای کلمات انگلیسی AFINN (Nielsen2013) کاربرد ANEW برای Twitter SentiWordnet (Baccianella2010, Esuli2006) توسعه لغت نامه معروف WordNet با انتساب درجه حسی به تعدادی synset
14
منابع لغوی نظرکاوی SentiStrength (Thelwall,2013) NRC (Mohammad2013)
توسعه منابع لغوی برای تخمین شدت NRC (Mohammad2013) برای تخمین احساسات emotion تعدادی کلمه انگلیسی با توجه به emotional wheel taxonomy (Plutchik2001) نشانه گذاری شده اند SenticNet (Cambria2012) منبع مبتنی بر مفهوم برای استخراج اطلاعات حسی از مفاهیم common sense
15
Big Data
17
نظرکاوی و داده های عظيم
18
تحلیل بزرگ مقیاس اخبار و وبلاگها 7 دامنه حسی مشخص شده
N. Godbole, M. Srinivasaiah, and S. Skiena. “Large-scale sentiment analysis for news and blogs”. In ICWSM, Boulder, 2007 تحلیل بزرگ مقیاس اخبار و وبلاگها 7 دامنه حسی مشخص شده عمومی سلامت تجارت جرم ورزش سیاست پزشکی توسعه دانه های حسی اولیه تابع عمق مبتنی بر شبکه واژگان دادن امتیاز حسی و subjectivity
19
V. Khuc, C. Shivade, R. Ramnath, and J. Ramanathan
V. Khuc, C. Shivade, R. Ramnath, and J. Ramanathan. “ Towards building large scale distributed systems for twitter sentiment analysis.” 2012 استفاده از twitter محدودیت 140 کاراکتری کار تحلیل حس روی توییتر را مشکل میکند ابزارهای عادی پردازش متن کارا نیستند اسمایلی ها veeerrryyyyyyy goooodddd ایجاد گراف هم رخدادی با استفاده از عبارات bi-gram در چهارچوب Map-Reduce محاسبه فاصله کسینوسی بین کلمات (مشابهت کلمات) انتشار میزان حس از کلمات اولیه به سایر کلمات بر اساس میزان مشابهت
23
Big sentiment data tracking
یکی از مسایل مهم که با حجیم شدن داده ها قابل تامل است پیگردی حسی است احساسات چگونه در طول زمان با وقایع مختلف تغییر می کنند باید به نحوی اجزاء مرتبط با نظرات سازماندهی شوند تا اطلاعات موثر با توجه به کاربر، موضوع، حس و زمان قابل پیگیری باشد.
24
زمان برگزاری بازی های جام جهانی 2014
Yang Yu, Xiao Wang “World Cup 2014 in the Twitter World: A big data analysis of sentiments in U.S. sports fans’ tweets” 2015 استفاده از twitter زمان برگزاری بازی های جام جهانی 2014 واکنش های حسی طرفداران یک تیم خاص با برد یا باخت تیمشان تغییر میکند نتیجه تئوری وضعیت (disposition)(Zillman1989) اگر تماشاچیان ورزشی بی طرف باشند به احتمال کمتری احساس خوشی یا نا خوشی خواهند داشت
25
Yang Yu, Xiao Wang “World Cup 2014 in the Twitter World: A big data analysis of sentiments in U.S. sports fans’ tweets” 2015 فرضیه 1: توییت ها با برچسب مکانی U.S. وقتی تیم آمریکا گل میخورد احساس منفی خواهند داشت و وقتی تیم آمریکا گل میزند احساس مثبت خواهند داشت فرضیه 2: توییت ها با برچسب مکانی U.S. در برابر پیروزی یا شکست دیگر تیم ها بی تفاوت خواهند بود.
26
استفاده از واژه نامه NRC
Yang Yu, Xiao Wang “World Cup 2014 in the Twitter World: A big data analysis of sentiments in U.S. sports fans’ tweets” 2015 استفاده از واژه نامه NRC استخراج ويژگي هاي مرتبط با دسته هاي 8 گانه واژه نامه از توييت ها با استفاده از R هر کلمه مرتبط یک واحد به امتیاز دسته مربوطه اضافه میکند.
30
یک روش مقیاس پذیر برای تلفیق چندین پارامتر موثر در real time
E. Cambria, N. Howard, J. Hsu, and A. Hussain. “Sentic blending: Scalable multimodal fusion for the continuous interpretation of semantics and sentics”. 2013 یک روش مقیاس پذیر برای تلفیق چندین پارامتر موثر در real time Multidimensional Vector Space بهره گیری از قدرت ریاضیات برای کار با مسایل زمانی
31
Ensemble sentiment streams obtained when fusing natural language data and facial expressions, without (a) and with (b) Kalman filtering
32
ابزارها ابزارهای متن کاوی و یادگیری ماشین RapidMiner R KNIME Gate,Weka
ابزارهای متن کاوی و یادگیری ماشین RapidMiner Radoop عملگر sentiWordNet R RHadoop KNIME Gate,Weka …
37
A Mihanović, H Gabelica, Ž Krstić P inteligencija, Zag, Croatia ”Big data and sentiment analysis using KNIME_ Online reviews vs. social media” 2014
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.