Presentation is loading. Please wait.

Presentation is loading. Please wait.

سیستم‌های مبتنی بر دانش

Similar presentations


Presentation on theme: "سیستم‌های مبتنی بر دانش"— Presentation transcript:

1 سیستم‌های مبتنی بر دانش
ارائه دهنده: مجید یاقوتی استاد: دکتر کاهانی درس: سیستم‌های مبتنی بر دانش اردیبهشت 92 دانشکده مهندسی گروه مهندسی کامپیوتر Parsing (2)

2 فهرست یادآوری تجزیه‌ی آماری تجزیه‌ی وابستگی تجزیه در زبان فارسی
Parsing (2) 1 فهرست یادآوری تجزیه‌ی آماری تجزیه‌ی وابستگی تجزیه در زبان فارسی

3 یادآوری Parsing (2) Parsing یا تجزیه‌ی یک جمله
3 یادآوری Parsing یا تجزیه‌ی یک جمله ساختن یک درخت یا اشتقاق صحیح با داشتن گرامر «صحیح»: صرفا به معنی سازگار بودن درخت با ورودی و گرامر یک درخت با وجود صحیح بودن ممکن است درخت واقعی عبارت ورودی و گرامر داده شده نباشد. برگ‌های درخت: اجزای جمله‌ی ورودی

4 یادآوری دو ویژگی همه‌ی پارسرها
Parsing (2) 4 یادآوری پارسر: الگوریتمی برای محاسبه‌ی یک ساختاری برای رشته‌ی ورودی با توجه به گرامر دو ویژگی همه‌ی پارسرها جهت: روند یا مراحل تولید ساختار بالا به پایین یا پایین به بالا استراتژی جستجو: روش پیمایش فضای جستجوی انواع مختلف تجزیه‌ها اول سطح یا اول عمق

5 یادآوری فرض‌های اولیه قبل از تجزیه Parsing (2)
5 یادآوری فرض‌های اولیه قبل از تجزیه همه‌ی کلمات را در یک بافر در اختیار داریم. همه‌ی کلمات شناخته شده هستند.

6 یادآوری تجزیه‌ی بالا به پایین تجزیه‌ی پایین به بالا
Parsing (2) 6 یادآوری تجزیه‌ی بالا به پایین تجزیه‌ی پایین به بالا تجزیه مبتنی بر چارت برنامه نویسی پویا الگوریتم CKY الگوریتم Earley

7 تجزیه‌ی آماری ایراد تجزیه نحوی نمایش احتمالاتی گرامر مستقل از متن
Parsing (2) 7 تجزیه‌ی آماری ایراد تجزیه نحوی تولید بیش از یک درخت پیچیدگی زمانی بررسی درخت‌ها نمایش احتمالاتی گرامر مستقل از متن هر قانون یک احتمال استفاده دارد. قوانین مستقل هستند.

8 تجزیه‌ی آماری بدست آوردن مقادیر احتمال قوانین Parsing (2)
8 تجزیه‌ی آماری بدست آوردن مقادیر احتمال قوانین برنامه نویسی پویا الگوریتم درون-بیرون: بیشینه‌سازی امید ریاضی

9 تجزیه‌ی آماری یک گرامر احتمالاتی
Parsing (2) 9 تجزیه‌ی آماری یک گرامر احتمالاتی احتمال هر درخت = حاصل‌ضرب احتمال قوانین استفاده شده

10 Parsing (2) 10 تجزیه‌ی آماری تجزیه‌ی عبارت «the dog laughs» و احتمال محاسبه شده برای آن

11 تجزیه‌ی آماری – نقاط ضعف
Parsing (2) 11 تجزیه‌ی آماری – نقاط ضعف عدم حساسیت به اطلاعات واژگانی صرفا بر اساس احتمال قوانین و کاملا مستقل از واژه‌ها تصمیم گیری می‌کنند. ابهام در افزودن (PP) و ابهام در ربط

12 تجزیه‌ی آماری – نقاط ضعف
Parsing (2) 12 تجزیه‌ی آماری – نقاط ضعف ابهام در افزودن (PP) اگر P(VP  VP PP | VP) > P(NP  NP PP | NP)، در این صورت درخت b و در غیر این صورت درخت a محتمل تر است. تصمیم‌گیری در مورد افزودن یک قانون به درخت، مستقل از واژه‌هاست.

13 تجزیه‌ی آماری – نقاط ضعف
Parsing (2) 13 تجزیه‌ی آماری – نقاط ضعف ابهام در ربط قوانین یکسان در هر دو درخت احتمال برابر برای هر دو درخت ابهام در تصمیم‌گیری

14 تجزیه‌ی وابستگی راهی برای تجزیه‌ی نحوی زبان طبیعی
Parsing (2) 14 تجزیه‌ی وابستگی راهی برای تجزیه‌ی نحوی زبان طبیعی برای هر جمله‌ی ورودی، یک گراف وابستگی ایجاد می‌کند. ساختارهای بیان قواعد زبان «ساختار عبارت» یا «مبتنی بر سازه» ساختار وابستگی

15 تجزیه‌ی وابستگی محدودیت‌های ساختار عبارت یا مبتنی بر سازه Parsing (2)
15 تجزیه‌ی وابستگی محدودیت‌های ساختار عبارت یا مبتنی بر سازه عدم انعطاف نسبت به ترتیب واژه ها در برخی زبان ها، ترتیب واژه‌ها آزاد است. وابسته به زبان نیاز به مجموعه قوانین جدید برای هر زبان مبتنی بر نحو شامل اطلاعات مفهومی مانند نفش‌های مفهومی نیست.

16 تجزیه‌ی وابستگی Parsing (2) ساختار وابستگی
16 تجزیه‌ی وابستگی ساختار وابستگی هر گره نشان‌دهنده‌ی واژه‌های جمله است. روابط نحوی و مفهومی گره‌ها را بازنمایی می‌کند. روابط، به ترتیب واژه‌ها وابسته نیستند.

17 تجزیه‌ی وابستگی Parsing (2)
17 تجزیه‌ی وابستگی اولین پیکره‌ی درختی برای تجزیه‌ی وابستگی در زبان فارسی نیز در حال طراحی است. جملات این پیکره در سبک‌های مختلف (خبری، ادبی، علمی، فرهنگی، تحلیلی و...) هستند.

18 تجزیه‌ی وابستگی Parsing (2) در ساختار وابستگی
18 تجزیه‌ی وابستگی در ساختار وابستگی هر واژه حداکثر وابسته به یک واژه‌ی دیگر امکان بازنمایی ساختار، با گراف جهت‌دار گره‌ها معادل واژه‌ها و یال‌ها معادل روابط وابستگی انواع گراف وابستگی افکنشی: دارای یال متقاطع غیر افکنشی خوش‌ساخت: ریشه و برچسب‌های یکتا، بدون دور، همبند و افکنشی

19 Parsing (2) 19 تجزیه‌ی وابستگی انواع روش‌های تجزیه‌ی وابستگی

20 تجزیه‌ی وابستگی – انواع روش‌ها
Parsing (2) 20 تجزیه‌ی وابستگی – انواع روش‌ها انواع روش‌های تجزیه‌ی وابستگی مبتنی بر داده استفاده از روش‌های یادگیری ماشین فرض: داده‌های ورودی دارای ساختار نحوی درست. راهکار مبتنی بر گذار: تعریف یک ماشین حالت و پیش‌بینی گذار بعدی بر اساس تاریخچه‌ی گذارها راهکار مبتنی بر گراف: تعریف فضایی از گراف‌های وابستگی و امتیازدهی به آنها

21 تجزیه‌ی وابستگی – انواع روش‌ها
Parsing (2) 21 تجزیه‌ی وابستگی – انواع روش‌ها مبتنی بر دستور تعریف دستور زبان‌های رسمی: ساختارهای خارج از قالب، از نظر دستوری نادرست فرض می‌شوند. راهکارهای مستقل از متن: تبدیل ساختار وابستگی به ساختار عبارت مستقل از متن و استفاده از الگوریتم‌های آن حوزه راهکارهای مبتنی بر محدودیت: تبدیل صورت مسئله به مسئله‌ی ارضای محدودیت تعریف دستور بصورت مجموعه ای از محدودیت‌های ساخت گراف وابستگی یافتن گراف وابستگی که تمام محدودیت‌های دستور را ارضا کند.

22 تجزیه‌ی وابستگی – انواع روش‌ها
Parsing (2) 22 تجزیه‌ی وابستگی – انواع روش‌ها تفاوت رویکردهای مبتنی بر داده و رویکردهای مبتنی بر دستور رویکردهای مبتنی بر داده برای جملات غیر معیار و نادرست در فرایند تجزیه، خروجی تولید می‌شود. رویکردهای مبتنی بر دستور اگر جمله ای عضو زبان نباشد، درخت تجزیه ای برای آن تولید نمی‌شود.

23 تجزیه‌ی وابستگی – الگوریتم‌ها
Parsing (2) 23 تجزیه‌ی وابستگی – الگوریتم‌ها الگوریتم کاوینگتون استراتژی اول: جستجوی کامل از چپ به راست بررسی امکان اتصال هر جفت واژه استراتژی دوم: اعمال شرط تک سَری هر واژه تنها یک سَر می‌تواند داشته باشد. استراتژی سوم: اعمال شرط افکنشی بودن پیچیدگی زمانی: O(n3)

24 تجزیه‌ی وابستگی – الگوریتم‌ها
Parsing (2) 24 تجزیه‌ی وابستگی – الگوریتم‌ها الگوریتم یامادا و ماتسوموتو مبتنی بر گذار تولید درخت وابستگی افکنشی استفاده از تجزیه‌ی پایین به بالا استفاده از الگوریتم یادگیری ماشین بردار پشتیبان

25 تجزیه‌ی وابستگی – الگوریتم‌ها
Parsing (2) 25 تجزیه‌ی وابستگی – الگوریتم‌ها الگوریتم یامادا و ماتسوموتو عمل جابجایی انتقال اشاره گر به راست عمل راست: ایجاد وابستگی بین دو واژه‌ی همسایه گره سمت چپ، فرزند گره سمت راست عمل چپ: ایجاد وابستگی بین دو واژه‌ی همسایه گره سمت راست، فرزند گره سمت چپ

26 تجزیه‌ی وابستگی – الگوریتم‌ها
Parsing (2) 26 تجزیه‌ی وابستگی – الگوریتم‌ها الگوریتم یامادا و ماتسوموتو پیچیدگی زمانی: O(n2) طبق یک قاعده‌ی زبان‌شناسی، بدترین حالت رخ نخواهد داد.

27 تجزیه‌کننده برای زبان فارسی
Parsing (2) 27 تجزیه‌کننده برای زبان فارسی دشواری(!)های پردازش متون زبان فارسی غیر ساخت یافته پیش‌فرض خاصی در مورد قالب آن نداریم. مجموعه‌ای مرتب از جملات عدم وجود منابع زبانی مناسب و کافی مشکل تشخیص مرز کلمات (شیوه‌های نگارش متفاوت) مشکل تشخیص مرز گروه‌های اسمی (کسره‌ی اضافه‌ی نامرئی)

28 تجزیه‌کننده برای زبان فارسی
Parsing (2) 28 تجزیه‌کننده برای زبان فارسی دشواری(!)های پردازش متون زبان فارسی از دست دادن اطلاعات گویشی مساله‌ی ابهام افعال مرکب و اصطلاحات مساله‌ی هم نگاره‌ها حذف مصوت‌های کوتاه (اعراب) از نوشتار معناشناسی و مشکلات تحلیل معنایی

29 تجزیه‌کننده برای زبان فارسی
Parsing (2) 29 تجزیه‌کننده برای زبان فارسی طراحی پارسر در زبان فارسی در حوزه‌ی ساخت‌واژه و نحو انواع تکواژها آرایش و چگونگی شرکت تکواژها در ساخت واحدهای بزرگتر (واژه‌ها)

30 پارسر دانشگاه فردوسی فاز اول: تعیین برچسب‌های مورد نیاز Parsing (2)
30 پارسر دانشگاه فردوسی فاز اول: تعیین برچسب‌های مورد نیاز مجموعه‌ای از برچسب‌ها با نشانه‌های دقیق دارای نظم سلسله مراتبی حساب شده بدون تداخل یا همپوشانی

31 Parsing (2) 31 پارسر دانشگاه فردوسی فاز اول: تعیین برچسب‌های مورد نیاز

32 پارسر دانشگاه فردوسی فاز دوم: پیش‌پردازش و شناسایی جملات و لغات
Parsing (2) 32 پارسر دانشگاه فردوسی فاز دوم: پیش‌پردازش و شناسایی جملات و لغات جایگزینی همه‌ی نویسه‌ها (کاراکترها) با معادل استاندارد رفع مشکلات حروفی مثل «ک»، «ی»، همزه و... اصلاح و یکسان‌سازی نیم‌فاصله و فاصله حذف نویسه‌ی « ـ » که در کشش نویسه‌های چسبان استفاده شده است.

33 پارسر دانشگاه فردوسی فاز دوم: پیش‌پردازش و شناسایی جملات و لغات
Parsing (2) 33 پارسر دانشگاه فردوسی فاز دوم: پیش‌پردازش و شناسایی جملات و لغات تشخیص جملات از طریق علامت‌های «.»، «؛»، «!»، «؟» و... دستورات گرامری زبان فارسی لغات آغازکننده‌ی جملات تشخیص لغات فضای خالی، «،»، «-» و...

34 پارسر دانشگاه فردوسی فاز سوم: شناسایی برچسب‌های مختص و اولیه
Parsing (2) 34 پارسر دانشگاه فردوسی فاز سوم: شناسایی برچسب‌های مختص و اولیه برخی لغات همواره برچسب مختص به خود دارند. تهیه‌ی چندین فرهنگ لغت مجزا برای این لغات فرهنگ فعل‌ها، اسم‌ها، حروف، قیدها و... لغات در حین پردازش در فرهنگ‌های تهیه شده جستجو شده و برچسب می‌گیرند. تشخیص لغاتی که می‌توانند چندین نقش بپذیرند از روی قواعد زبان

35 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگی‌های فعل Parsing (2)
35 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگی‌های فعل شناسایی فعل از روی احتمال ظهور فعل در موقعیت‌های خاص قبل از جداکننده‌های جملات مثل «.»، «؛»، «!»، «؟» و... آغازکننده‌ی جملات مثل «که»، «اساسا»، «اصولا»، «البته» و... بررسی احتمال فعل بودن از طریق مطابقت با عبارات منظم در صورت تطبیق، گروه فعلی تشکیل می‌شود. هسته: بن فعل

36 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگی‌های فعل Parsing (2)
36 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگی‌های فعل افزودن شناسه‌ها به بن فعل برای صرف فعل

37 (ن)*(می)(فاصله|نیم فاصله)*(w)*(م|ی|ɸ|یم|ید|ند)
Parsing (2) 37 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگی‌های فعل مثال: عبارت منظم برای تطبیق ساختار زمان گذشته استمراری (ن)*(می)(فاصله|نیم فاصله)*(w)*(م|ی|ɸ|یم|ید|ند) تشخیص افعال اسنادی تشخیص افعال دوبخشی تشخیص افعال امری استفاده از فرهنگ لغات

38 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگی‌های فعل Parsing (2)
38 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگی‌های فعل پس از تطبیق گروه فعلی با ساختارهای مذکور زمان فعل شخص فعل وجه اخباری، التزامی، امری معلوم یا مجهول

39 پارسر دانشگاه فردوسی فاز پنجم: شناسایی ویژگی‌های اسم Parsing (2)
39 پارسر دانشگاه فردوسی فاز پنجم: شناسایی ویژگی‌های اسم شناسایی تعدادی از اسامی در روند پردازش متن لغات بدون برچسب، «اسم» در نظر گرفته می‌شوند. ترکیب برچسب‌های متوالی و تشکیل گروه‌های اسمی، فعلی، قیدی و... ریشه‌یابی اسامی شناسایی شده حذف پسوندها وجود ریشه در فرهنگ لغت

40 پارسر دانشگاه فردوسی فاز پنجم: شناسایی ویژگی‌های اسم Parsing (2)
40 پارسر دانشگاه فردوسی فاز پنجم: شناسایی ویژگی‌های اسم پس از تطبیق اسم عام یا خاص معرفه یا نکره مفرد یا جمع جامد یا مشتق

41 پارسر دانشگاه فردوسی فاز ششم: ترکیب برچسب‌ها و تشکیل گروه‌ها
Parsing (2) 41 پارسر دانشگاه فردوسی فاز ششم: ترکیب برچسب‌ها و تشکیل گروه‌ها تخصیص یک برچسب کلی به چندین لغت متوالی یا برچسب یکسان در نهایت با اختصاص برچسب به تمامی گروه‌ها و لغات، درخت تجزیه‌ی جملات متن بدست می‌آید.

42 Parsing (2) 42 پارسر دانشگاه فردوسی شمای گرافیکی ابزار طراحی شده

43 Parsing (2) 43 پارسر دانشگاه فردوسی نمونه‌ی خروجی ابزار طراحی شده

44 پارسر دانشگاه فردوسی تنها پارسر طراحی شده برای زبان فارسی تا شهریور 91
Parsing (2) 44 پارسر دانشگاه فردوسی تنها پارسر طراحی شده برای زبان فارسی تا شهریور 91 نقاط ضعف جملات غیر ساختارمند و غیر دستوری

45 Parsing (2) 44 منابع Philipp Koehn, "Advanced Natural Language Processing", school of informatics, september 2012. Hesham Faili, "Introduction to NLP", chapter 13: Parsing with contex-free grammars, University of Tehran. Zubair Buitms, "Natural Language Processing", available at: Laura Kassner, "Left-corner parsing", Lecture for course Computational Linguistics II: Parsing, 2007.

46 Parsing (2) 45 منابع محمد صادق رسولی، بررسی روش های پردازش نحوی زبان طبیعی، سمینار کارشناسی ارشد گرایش هوش مصنوعی و رباتیک، دانشکده ی مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، مهر 1389. مهین ناز میردهقان، آلتای بروسان، پردازش زبان طبیعی پیشرفته، درس مقطع کارشناسی ارشد، پروژه ی مشترک دانشگاه شهید بهشتی و دانشگاه MIT، پاییز 84. مجتبی خلاش، بررسی روش های تجزیه در دستور وابستگی، سمینار کارشناسی ارشد، هوش مصنوعی و رباتیک، دانشگاه علم و صنعت ایران، آبان 1390. محمد صادق رسولی، تجزیه ی نحوی با استفاده از دستور وابستگی، سمینار کارشناسی ارشد، هوش مصنوعی و رباتیک، دانشگاه علم و صنعت ایران، پاییز 1389. احمد استیری، محسن کاهانی، رضا سعیدی و احسان عسگریان، طراحی ابزار پارسر زبان فارسی، نخستین کنفرانس بین المللی پردازش خط و زبان فارسی، شهریور 1391.

47 با تشکر ارائه‌ی بعد ؟ تعریف پروژه در زمینه‌ی پارسر برای زبان فارسی


Download ppt "سیستم‌های مبتنی بر دانش"

Similar presentations


Ads by Google