Presentation is loading. Please wait.

Presentation is loading. Please wait.

خلاصه سازی چکیده ای مبتني بر مشابهت جملات

Similar presentations


Presentation on theme: "خلاصه سازی چکیده ای مبتني بر مشابهت جملات"— Presentation transcript:

1 خلاصه سازی چکیده ای مبتني بر مشابهت جملات
ارائه دهنده فاطمه پورغلامعلی استاد راهنما دکتر محسن کاهانی

2 نگاهی کوتاه مقدمه روش پیشنهادی

3 مقدمه خلاصه‌سازی متن انواع خلاصه سازی خلاصه‌سازی چکیده ای
فشرده سازی جملات آمیختن جملات

4 خلاصه‌سازی متن خلاصه‌سازی متن
فرایند تولید خودکار نسخه ای کوتاه شده از یک متن که اطلاعات مفید را برای کاربر فراهم می آورد

5 خلاصه‌سازی متن انواع خلاصه‌سازی از دیدگاه تغییر در جمله‌ها:
گزینشی چکیده ای از دیدگاه تعداد سند ورودی: تک‌سندی چندسندی از دیدگاه انعطاف‌پذیری در نوع سندهای ورودی: عمومی محدود به حوزه از دیدگاه تعامل با کاربر: مبتنی بر پرس‌وجو غیرمبتنی بر پرس‌وجو

6 خلاصه‌سازی چکیده‌ای فشرده سازی جملات آمیختن اطلاعات

7 فشرده‌سازی جملات فشرده‌سازی جملات Knight و Marcu (2002)
استفاده از پیکره Ziff-Davis و تولید 1067 جفت جملات فشرده شده و غیر فشرده شده استفاده از درخت تجزیه استفاده از دو روش برای یادگیری فشرده سازی Noisy channel Decision tree

8 فشرده‌سازی جملات Filippova[2008] روشی غیر نظارتی مبتنی بر درخت تجزیه
مدل کردن مساله در قالب مساله بهینه سازی استفاده از برنامه ریزی خطی صحیح اعمال قید برای بررسی گرامر تبدیل درخت به جمله (خطی سازی) h l w

9 آمیختن جملات آمیختن اطلاعات Barzilay] و همکارانش، 2005[
استفاده از چندین سند خوشه بندی جملات اسناد با استفاده از مولفه SimFinder (Hatzivassiloglou و همکارانش ، 1999) در هر خوشه یک جمله به عنوان جمله مرکزی انتخاب میشود درخت جمله مذکور با زیردرخت­هایی از جملات دیگر موجود در دسته تجهیز شده و یک گراف پدید می­آید.

10 آمیختن اطلاعات تبدیل گراف به درخت تبدیل درخت به جمله (خطی سازی)
الزاما هر درختی مناسب نخواهد بود تبدیل درخت به جمله (خطی سازی) بررسی گرامر جمله با استفاده از یک مدل زبانی

11 روش پیشنهادی

12 روش پیشنهادی

13 پیش پردازش استفاده از ابزار برچسب زنی دانشگاه ایلینویز
سطوح مختلف معنایی چهار سطح معنایی نقش های مختلف معنایی فاعل مفعول مستقیم مفعول غیر مستقیم سایر مفعول ها نقش های فرعی

14 شباهت معنایی شباهت کلمات شباهت معنایی مبتنی بر WordNet
[Lin98] با داشتن دو کلمه w1 و w2 c1 و c2 مرتبط ترین مفاهیم در سلسله مراتب شبکه واژگان که در مجموعه sence های w1 و w2 باشند lso(c1,c2) خاص ترین (پایین ترین) والد مشترک c1 و c2 p(c) احتمال برخورد با مفهوم c

15 تشابه کلمات The European single currency euro will start.

16 تشابه نقشهای معنایی میانگین شباهت کلمات
برای هر کلمه در نقش A0 مرتبط ترین کلمه را در نقش A0 مقابل در نظر میگیریم

17 تشابه سطوح معنایی میانگین شباهت نقش ها

18 ادغام جملات تشکیل ماتریس مشابهت برای 30 جمله اول
اعمال الگوریتم خوشه بندی طیفی اعمال الگوریتم ادغام برای خوشه های چند عضوی تا زمانیکه خوشه تک عضوی نشده دو جمله اول خوشه را بردار شبیه ترین جفت سطح معنایی آن دو را بررسی کن در صورتیکه تمام شناسه های اصلی فعل به جز یکی به هم شبیه بودند جمله اول را همراه با شناسه های اصلی سطح انتخاب شده به همراه شناسه متفاوت از جمله اول در قالب یک جمله بیان کن و جمله حاصل را به جای این دو جمله جایگزین کن در غیر این صورت شناسه های اصلی سطح انتخاب شده از جمله اول را در قالب یک جمله بیان کن و به جای دو جمله اول جایگزین نما

19 فشرده سازی برای هر جمله (الف)
به ازای هر جمله (ب) که در مجموعه جملات قرار دارد سطحی از الف را انتخاب کن بیشترین میزان شباهت را با سایر سطوح ب داشته باشد خلاصه سازی چند سندی: فعل اصلی سطح انتخاب شده نباید نقلی باشد. نقش های اصلی سطح انتخاب شده الف را در قالب یک جمله بیان کن و جایگزین جمله الف کن

20 نمونه جملات فشرده شده Despite skepticism about the actual realization of a single European currency as scheduled on January 1, 1999, preparations for the design of the Euro note have already begun. sentence 1 preparations for the design of the Euro note begun. Sentence1 compressed Thailand is considering using the European single currency, the euro, in the country's foreign reserves, the Nation reported Tuesday. Sentence 2 Thailand considering using the euro. Sentence2

21 Italy and France and A number of countries adopted the euro
نمونه جملات ادغام شده Italy and France have adopted the euro, as the European Union`s new single currency is known. sentence 1 A number of countries are already planning to hold the euro as part of their foreign currency reserves, the magazine quoted European Central Bank chief Wim Duisenberg as saying. Sentence2 compressed Italy and France and A number of countries adopted the euro Merged sentence

22 نمونه جملات ادغام شده More than 200 state, local and federal agents continued the search in the mountains of western North Carolina for Eric Robert Rudolph Sunday, but the 31-year-old suspect in the fatal Jan. 29 bombing of a Birmingham abortion clinic continued to elude his trackers. sentence 1 Nine days after Eric Robert Rudolph walked out of the Western North Carolina mountains in search of food and batteries, law enforcement officials equipped with the latest in gadgetry still have not been able to track the Birmingham bombing suspect to his rugged hideout. Sentence2 compressed the 31 year old suspect in the fatal Jan. 29 bombing of a Birmingham abortion clinic and the Birmingham bombing suspect to his rugged hideout continued Merged sentence

23 ارزیابی برای ارزیابی از مجموعه داده­های DUC2007 )مخصوص خلاصه سازی چند سندی ( 45 # of Topics 25 # of Documents per Topics 531174 # of Terms 20057 # of Terms without Stopwords & Stemmings 32 # of Summarizer Systems ROUGE 2 & ROUGE SU4 Evaluation methods

24 ارزیابی فشرده سازی Base Line 1.Original sentence is used (no compression). Base Line 2.Shortest sentence with lower bound to 35 words is selected. Base Line 3.Shortest sentence with lower bound to 50 words is selected. Base Line 4.Shortest sentence with lower bound to 80 words is selected. Base Line 5.Longest sentence is selected.

25 ارزیابی مشابهت جملات

26 ارزیابی فشرده سازی ROUGE-2

27 ارزیابی فشرده سازی ROUGE-SU4

28 ارزیابی فشرده سازی در مقایسه با روش Fillipova مقایسه معیار F
مقایسه نرخ فشرده سازی

29 انتخاب تعداد دسته مناسب
ROUGE-2

30 انتخاب تعداد دسته مناسب
ROUGE-SU4

31 ارزیابی نهایی ROUGE-2

32 ارزیابی نهايي ROUGE-SU4

33 ارزیابی کلی مزایا روش غیرنظارتی فشرده سازی
تکیه بر سطوح معنایی و تولید جملات فشرده با گرامر قابل قبول و عدم نیاز به استفاده از قانون یا مدل زبانی استفاده از قسمت های غیرمشترک جملات علاوه بر قسمت های مشترک عدم درگیری با مسائل پیچیده درخت و گراف و خطی سازی آنها معایب در مورد ادغام جملات پیچیده امکان ایجاد جملات نامفهوم وجود دارد

34


Download ppt "خلاصه سازی چکیده ای مبتني بر مشابهت جملات"

Similar presentations


Ads by Google