Download presentation
Presentation is loading. Please wait.
1
خلاصه سازی چکیده ای مبتني بر مشابهت جملات
ارائه دهنده فاطمه پورغلامعلی استاد راهنما دکتر محسن کاهانی
2
نگاهی کوتاه مقدمه روش پیشنهادی
3
مقدمه خلاصهسازی متن انواع خلاصه سازی خلاصهسازی چکیده ای
فشرده سازی جملات آمیختن جملات
4
خلاصهسازی متن خلاصهسازی متن
فرایند تولید خودکار نسخه ای کوتاه شده از یک متن که اطلاعات مفید را برای کاربر فراهم می آورد
5
خلاصهسازی متن انواع خلاصهسازی از دیدگاه تغییر در جملهها:
گزینشی چکیده ای از دیدگاه تعداد سند ورودی: تکسندی چندسندی از دیدگاه انعطافپذیری در نوع سندهای ورودی: عمومی محدود به حوزه از دیدگاه تعامل با کاربر: مبتنی بر پرسوجو غیرمبتنی بر پرسوجو
6
خلاصهسازی چکیدهای فشرده سازی جملات آمیختن اطلاعات
7
فشردهسازی جملات فشردهسازی جملات Knight و Marcu (2002)
استفاده از پیکره Ziff-Davis و تولید 1067 جفت جملات فشرده شده و غیر فشرده شده استفاده از درخت تجزیه استفاده از دو روش برای یادگیری فشرده سازی Noisy channel Decision tree
8
فشردهسازی جملات Filippova[2008] روشی غیر نظارتی مبتنی بر درخت تجزیه
مدل کردن مساله در قالب مساله بهینه سازی استفاده از برنامه ریزی خطی صحیح اعمال قید برای بررسی گرامر تبدیل درخت به جمله (خطی سازی) h l w
9
آمیختن جملات آمیختن اطلاعات Barzilay] و همکارانش، 2005[
استفاده از چندین سند خوشه بندی جملات اسناد با استفاده از مولفه SimFinder (Hatzivassiloglou و همکارانش ، 1999) در هر خوشه یک جمله به عنوان جمله مرکزی انتخاب میشود درخت جمله مذکور با زیردرختهایی از جملات دیگر موجود در دسته تجهیز شده و یک گراف پدید میآید.
10
آمیختن اطلاعات تبدیل گراف به درخت تبدیل درخت به جمله (خطی سازی)
الزاما هر درختی مناسب نخواهد بود تبدیل درخت به جمله (خطی سازی) بررسی گرامر جمله با استفاده از یک مدل زبانی
11
روش پیشنهادی
12
روش پیشنهادی
13
پیش پردازش استفاده از ابزار برچسب زنی دانشگاه ایلینویز
سطوح مختلف معنایی چهار سطح معنایی نقش های مختلف معنایی فاعل مفعول مستقیم مفعول غیر مستقیم سایر مفعول ها نقش های فرعی
14
شباهت معنایی شباهت کلمات شباهت معنایی مبتنی بر WordNet
[Lin98] با داشتن دو کلمه w1 و w2 c1 و c2 مرتبط ترین مفاهیم در سلسله مراتب شبکه واژگان که در مجموعه sence های w1 و w2 باشند lso(c1,c2) خاص ترین (پایین ترین) والد مشترک c1 و c2 p(c) احتمال برخورد با مفهوم c
15
تشابه کلمات The European single currency euro will start.
16
تشابه نقشهای معنایی میانگین شباهت کلمات
برای هر کلمه در نقش A0 مرتبط ترین کلمه را در نقش A0 مقابل در نظر میگیریم
17
تشابه سطوح معنایی میانگین شباهت نقش ها
18
ادغام جملات تشکیل ماتریس مشابهت برای 30 جمله اول
اعمال الگوریتم خوشه بندی طیفی اعمال الگوریتم ادغام برای خوشه های چند عضوی تا زمانیکه خوشه تک عضوی نشده دو جمله اول خوشه را بردار شبیه ترین جفت سطح معنایی آن دو را بررسی کن در صورتیکه تمام شناسه های اصلی فعل به جز یکی به هم شبیه بودند جمله اول را همراه با شناسه های اصلی سطح انتخاب شده به همراه شناسه متفاوت از جمله اول در قالب یک جمله بیان کن و جمله حاصل را به جای این دو جمله جایگزین کن در غیر این صورت شناسه های اصلی سطح انتخاب شده از جمله اول را در قالب یک جمله بیان کن و به جای دو جمله اول جایگزین نما
19
فشرده سازی برای هر جمله (الف)
به ازای هر جمله (ب) که در مجموعه جملات قرار دارد سطحی از الف را انتخاب کن بیشترین میزان شباهت را با سایر سطوح ب داشته باشد خلاصه سازی چند سندی: فعل اصلی سطح انتخاب شده نباید نقلی باشد. نقش های اصلی سطح انتخاب شده الف را در قالب یک جمله بیان کن و جایگزین جمله الف کن
20
نمونه جملات فشرده شده Despite skepticism about the actual realization of a single European currency as scheduled on January 1, 1999, preparations for the design of the Euro note have already begun. sentence 1 preparations for the design of the Euro note begun. Sentence1 compressed Thailand is considering using the European single currency, the euro, in the country's foreign reserves, the Nation reported Tuesday. Sentence 2 Thailand considering using the euro. Sentence2
21
Italy and France and A number of countries adopted the euro
نمونه جملات ادغام شده Italy and France have adopted the euro, as the European Union`s new single currency is known. sentence 1 A number of countries are already planning to hold the euro as part of their foreign currency reserves, the magazine quoted European Central Bank chief Wim Duisenberg as saying. Sentence2 compressed Italy and France and A number of countries adopted the euro Merged sentence
22
نمونه جملات ادغام شده More than 200 state, local and federal agents continued the search in the mountains of western North Carolina for Eric Robert Rudolph Sunday, but the 31-year-old suspect in the fatal Jan. 29 bombing of a Birmingham abortion clinic continued to elude his trackers. sentence 1 Nine days after Eric Robert Rudolph walked out of the Western North Carolina mountains in search of food and batteries, law enforcement officials equipped with the latest in gadgetry still have not been able to track the Birmingham bombing suspect to his rugged hideout. Sentence2 compressed the 31 year old suspect in the fatal Jan. 29 bombing of a Birmingham abortion clinic and the Birmingham bombing suspect to his rugged hideout continued Merged sentence
23
ارزیابی برای ارزیابی از مجموعه دادههای DUC2007 )مخصوص خلاصه سازی چند سندی ( 45 # of Topics 25 # of Documents per Topics 531174 # of Terms 20057 # of Terms without Stopwords & Stemmings 32 # of Summarizer Systems ROUGE 2 & ROUGE SU4 Evaluation methods
24
ارزیابی فشرده سازی Base Line 1.Original sentence is used (no compression). Base Line 2.Shortest sentence with lower bound to 35 words is selected. Base Line 3.Shortest sentence with lower bound to 50 words is selected. Base Line 4.Shortest sentence with lower bound to 80 words is selected. Base Line 5.Longest sentence is selected.
25
ارزیابی مشابهت جملات
26
ارزیابی فشرده سازی ROUGE-2
27
ارزیابی فشرده سازی ROUGE-SU4
28
ارزیابی فشرده سازی در مقایسه با روش Fillipova مقایسه معیار F
مقایسه نرخ فشرده سازی
29
انتخاب تعداد دسته مناسب
ROUGE-2
30
انتخاب تعداد دسته مناسب
ROUGE-SU4
31
ارزیابی نهایی ROUGE-2
32
ارزیابی نهايي ROUGE-SU4
33
ارزیابی کلی مزایا روش غیرنظارتی فشرده سازی
تکیه بر سطوح معنایی و تولید جملات فشرده با گرامر قابل قبول و عدم نیاز به استفاده از قانون یا مدل زبانی استفاده از قسمت های غیرمشترک جملات علاوه بر قسمت های مشترک عدم درگیری با مسائل پیچیده درخت و گراف و خطی سازی آنها معایب در مورد ادغام جملات پیچیده امکان ایجاد جملات نامفهوم وجود دارد
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.