Download presentation
Presentation is loading. Please wait.
1
سیستمهای مبتنی بر دانش
ارائه دهنده: مجید یاقوتی استاد: دکتر کاهانی درس: سیستمهای مبتنی بر دانش اردیبهشت 92 دانشکده مهندسی گروه مهندسی کامپیوتر Parsing (2)
2
فهرست یادآوری تجزیهی آماری تجزیهی وابستگی تجزیه در زبان فارسی
Parsing (2) 1 فهرست یادآوری تجزیهی آماری تجزیهی وابستگی تجزیه در زبان فارسی
3
یادآوری Parsing (2) Parsing یا تجزیهی یک جمله
3 یادآوری Parsing یا تجزیهی یک جمله ساختن یک درخت یا اشتقاق صحیح با داشتن گرامر «صحیح»: صرفا به معنی سازگار بودن درخت با ورودی و گرامر یک درخت با وجود صحیح بودن ممکن است درخت واقعی عبارت ورودی و گرامر داده شده نباشد. برگهای درخت: اجزای جملهی ورودی
4
یادآوری دو ویژگی همهی پارسرها
Parsing (2) 4 یادآوری پارسر: الگوریتمی برای محاسبهی یک ساختاری برای رشتهی ورودی با توجه به گرامر دو ویژگی همهی پارسرها جهت: روند یا مراحل تولید ساختار بالا به پایین یا پایین به بالا استراتژی جستجو: روش پیمایش فضای جستجوی انواع مختلف تجزیهها اول سطح یا اول عمق
5
یادآوری فرضهای اولیه قبل از تجزیه Parsing (2)
5 یادآوری فرضهای اولیه قبل از تجزیه همهی کلمات را در یک بافر در اختیار داریم. همهی کلمات شناخته شده هستند.
6
یادآوری تجزیهی بالا به پایین تجزیهی پایین به بالا
Parsing (2) 6 یادآوری تجزیهی بالا به پایین تجزیهی پایین به بالا تجزیه مبتنی بر چارت برنامه نویسی پویا الگوریتم CKY الگوریتم Earley
7
تجزیهی آماری ایراد تجزیه نحوی نمایش احتمالاتی گرامر مستقل از متن
Parsing (2) 7 تجزیهی آماری ایراد تجزیه نحوی تولید بیش از یک درخت پیچیدگی زمانی بررسی درختها نمایش احتمالاتی گرامر مستقل از متن هر قانون یک احتمال استفاده دارد. قوانین مستقل هستند.
8
تجزیهی آماری بدست آوردن مقادیر احتمال قوانین Parsing (2)
8 تجزیهی آماری بدست آوردن مقادیر احتمال قوانین برنامه نویسی پویا الگوریتم درون-بیرون: بیشینهسازی امید ریاضی
9
تجزیهی آماری یک گرامر احتمالاتی
Parsing (2) 9 تجزیهی آماری یک گرامر احتمالاتی احتمال هر درخت = حاصلضرب احتمال قوانین استفاده شده
10
Parsing (2) 10 تجزیهی آماری تجزیهی عبارت «the dog laughs» و احتمال محاسبه شده برای آن
11
تجزیهی آماری – نقاط ضعف
Parsing (2) 11 تجزیهی آماری – نقاط ضعف عدم حساسیت به اطلاعات واژگانی صرفا بر اساس احتمال قوانین و کاملا مستقل از واژهها تصمیم گیری میکنند. ابهام در افزودن (PP) و ابهام در ربط
12
تجزیهی آماری – نقاط ضعف
Parsing (2) 12 تجزیهی آماری – نقاط ضعف ابهام در افزودن (PP) اگر P(VP VP PP | VP) > P(NP NP PP | NP)، در این صورت درخت b و در غیر این صورت درخت a محتمل تر است. تصمیمگیری در مورد افزودن یک قانون به درخت، مستقل از واژههاست.
13
تجزیهی آماری – نقاط ضعف
Parsing (2) 13 تجزیهی آماری – نقاط ضعف ابهام در ربط قوانین یکسان در هر دو درخت احتمال برابر برای هر دو درخت ابهام در تصمیمگیری
14
تجزیهی وابستگی راهی برای تجزیهی نحوی زبان طبیعی
Parsing (2) 14 تجزیهی وابستگی راهی برای تجزیهی نحوی زبان طبیعی برای هر جملهی ورودی، یک گراف وابستگی ایجاد میکند. ساختارهای بیان قواعد زبان «ساختار عبارت» یا «مبتنی بر سازه» ساختار وابستگی
15
تجزیهی وابستگی محدودیتهای ساختار عبارت یا مبتنی بر سازه Parsing (2)
15 تجزیهی وابستگی محدودیتهای ساختار عبارت یا مبتنی بر سازه عدم انعطاف نسبت به ترتیب واژه ها در برخی زبان ها، ترتیب واژهها آزاد است. وابسته به زبان نیاز به مجموعه قوانین جدید برای هر زبان مبتنی بر نحو شامل اطلاعات مفهومی مانند نفشهای مفهومی نیست.
16
تجزیهی وابستگی Parsing (2) ساختار وابستگی
16 تجزیهی وابستگی ساختار وابستگی هر گره نشاندهندهی واژههای جمله است. روابط نحوی و مفهومی گرهها را بازنمایی میکند. روابط، به ترتیب واژهها وابسته نیستند.
17
تجزیهی وابستگی Parsing (2)
17 تجزیهی وابستگی اولین پیکرهی درختی برای تجزیهی وابستگی در زبان فارسی نیز در حال طراحی است. جملات این پیکره در سبکهای مختلف (خبری، ادبی، علمی، فرهنگی، تحلیلی و...) هستند.
18
تجزیهی وابستگی Parsing (2) در ساختار وابستگی
18 تجزیهی وابستگی در ساختار وابستگی هر واژه حداکثر وابسته به یک واژهی دیگر امکان بازنمایی ساختار، با گراف جهتدار گرهها معادل واژهها و یالها معادل روابط وابستگی انواع گراف وابستگی افکنشی: دارای یال متقاطع غیر افکنشی خوشساخت: ریشه و برچسبهای یکتا، بدون دور، همبند و افکنشی
19
Parsing (2) 19 تجزیهی وابستگی انواع روشهای تجزیهی وابستگی
20
تجزیهی وابستگی – انواع روشها
Parsing (2) 20 تجزیهی وابستگی – انواع روشها انواع روشهای تجزیهی وابستگی مبتنی بر داده استفاده از روشهای یادگیری ماشین فرض: دادههای ورودی دارای ساختار نحوی درست. راهکار مبتنی بر گذار: تعریف یک ماشین حالت و پیشبینی گذار بعدی بر اساس تاریخچهی گذارها راهکار مبتنی بر گراف: تعریف فضایی از گرافهای وابستگی و امتیازدهی به آنها
21
تجزیهی وابستگی – انواع روشها
Parsing (2) 21 تجزیهی وابستگی – انواع روشها مبتنی بر دستور تعریف دستور زبانهای رسمی: ساختارهای خارج از قالب، از نظر دستوری نادرست فرض میشوند. راهکارهای مستقل از متن: تبدیل ساختار وابستگی به ساختار عبارت مستقل از متن و استفاده از الگوریتمهای آن حوزه راهکارهای مبتنی بر محدودیت: تبدیل صورت مسئله به مسئلهی ارضای محدودیت تعریف دستور بصورت مجموعه ای از محدودیتهای ساخت گراف وابستگی یافتن گراف وابستگی که تمام محدودیتهای دستور را ارضا کند.
22
تجزیهی وابستگی – انواع روشها
Parsing (2) 22 تجزیهی وابستگی – انواع روشها تفاوت رویکردهای مبتنی بر داده و رویکردهای مبتنی بر دستور رویکردهای مبتنی بر داده برای جملات غیر معیار و نادرست در فرایند تجزیه، خروجی تولید میشود. رویکردهای مبتنی بر دستور اگر جمله ای عضو زبان نباشد، درخت تجزیه ای برای آن تولید نمیشود.
23
تجزیهی وابستگی – الگوریتمها
Parsing (2) 23 تجزیهی وابستگی – الگوریتمها الگوریتم کاوینگتون استراتژی اول: جستجوی کامل از چپ به راست بررسی امکان اتصال هر جفت واژه استراتژی دوم: اعمال شرط تک سَری هر واژه تنها یک سَر میتواند داشته باشد. استراتژی سوم: اعمال شرط افکنشی بودن پیچیدگی زمانی: O(n3)
24
تجزیهی وابستگی – الگوریتمها
Parsing (2) 24 تجزیهی وابستگی – الگوریتمها الگوریتم یامادا و ماتسوموتو مبتنی بر گذار تولید درخت وابستگی افکنشی استفاده از تجزیهی پایین به بالا استفاده از الگوریتم یادگیری ماشین بردار پشتیبان
25
تجزیهی وابستگی – الگوریتمها
Parsing (2) 25 تجزیهی وابستگی – الگوریتمها الگوریتم یامادا و ماتسوموتو عمل جابجایی انتقال اشاره گر به راست عمل راست: ایجاد وابستگی بین دو واژهی همسایه گره سمت چپ، فرزند گره سمت راست عمل چپ: ایجاد وابستگی بین دو واژهی همسایه گره سمت راست، فرزند گره سمت چپ
26
تجزیهی وابستگی – الگوریتمها
Parsing (2) 26 تجزیهی وابستگی – الگوریتمها الگوریتم یامادا و ماتسوموتو پیچیدگی زمانی: O(n2) طبق یک قاعدهی زبانشناسی، بدترین حالت رخ نخواهد داد.
27
تجزیهکننده برای زبان فارسی
Parsing (2) 27 تجزیهکننده برای زبان فارسی دشواری(!)های پردازش متون زبان فارسی غیر ساخت یافته پیشفرض خاصی در مورد قالب آن نداریم. مجموعهای مرتب از جملات عدم وجود منابع زبانی مناسب و کافی مشکل تشخیص مرز کلمات (شیوههای نگارش متفاوت) مشکل تشخیص مرز گروههای اسمی (کسرهی اضافهی نامرئی)
28
تجزیهکننده برای زبان فارسی
Parsing (2) 28 تجزیهکننده برای زبان فارسی دشواری(!)های پردازش متون زبان فارسی از دست دادن اطلاعات گویشی مسالهی ابهام افعال مرکب و اصطلاحات مسالهی هم نگارهها حذف مصوتهای کوتاه (اعراب) از نوشتار معناشناسی و مشکلات تحلیل معنایی
29
تجزیهکننده برای زبان فارسی
Parsing (2) 29 تجزیهکننده برای زبان فارسی طراحی پارسر در زبان فارسی در حوزهی ساختواژه و نحو انواع تکواژها آرایش و چگونگی شرکت تکواژها در ساخت واحدهای بزرگتر (واژهها)
30
پارسر دانشگاه فردوسی فاز اول: تعیین برچسبهای مورد نیاز Parsing (2)
30 پارسر دانشگاه فردوسی فاز اول: تعیین برچسبهای مورد نیاز مجموعهای از برچسبها با نشانههای دقیق دارای نظم سلسله مراتبی حساب شده بدون تداخل یا همپوشانی
31
Parsing (2) 31 پارسر دانشگاه فردوسی فاز اول: تعیین برچسبهای مورد نیاز
32
پارسر دانشگاه فردوسی فاز دوم: پیشپردازش و شناسایی جملات و لغات
Parsing (2) 32 پارسر دانشگاه فردوسی فاز دوم: پیشپردازش و شناسایی جملات و لغات جایگزینی همهی نویسهها (کاراکترها) با معادل استاندارد رفع مشکلات حروفی مثل «ک»، «ی»، همزه و... اصلاح و یکسانسازی نیمفاصله و فاصله حذف نویسهی « ـ » که در کشش نویسههای چسبان استفاده شده است.
33
پارسر دانشگاه فردوسی فاز دوم: پیشپردازش و شناسایی جملات و لغات
Parsing (2) 33 پارسر دانشگاه فردوسی فاز دوم: پیشپردازش و شناسایی جملات و لغات تشخیص جملات از طریق علامتهای «.»، «؛»، «!»، «؟» و... دستورات گرامری زبان فارسی لغات آغازکنندهی جملات تشخیص لغات فضای خالی، «،»، «-» و...
34
پارسر دانشگاه فردوسی فاز سوم: شناسایی برچسبهای مختص و اولیه
Parsing (2) 34 پارسر دانشگاه فردوسی فاز سوم: شناسایی برچسبهای مختص و اولیه برخی لغات همواره برچسب مختص به خود دارند. تهیهی چندین فرهنگ لغت مجزا برای این لغات فرهنگ فعلها، اسمها، حروف، قیدها و... لغات در حین پردازش در فرهنگهای تهیه شده جستجو شده و برچسب میگیرند. تشخیص لغاتی که میتوانند چندین نقش بپذیرند از روی قواعد زبان
35
پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگیهای فعل Parsing (2)
35 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگیهای فعل شناسایی فعل از روی احتمال ظهور فعل در موقعیتهای خاص قبل از جداکنندههای جملات مثل «.»، «؛»، «!»، «؟» و... آغازکنندهی جملات مثل «که»، «اساسا»، «اصولا»، «البته» و... بررسی احتمال فعل بودن از طریق مطابقت با عبارات منظم در صورت تطبیق، گروه فعلی تشکیل میشود. هسته: بن فعل
36
پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگیهای فعل Parsing (2)
36 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگیهای فعل افزودن شناسهها به بن فعل برای صرف فعل
37
(ن)*(می)(فاصله|نیم فاصله)*(w)*(م|ی|ɸ|یم|ید|ند)
Parsing (2) 37 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگیهای فعل مثال: عبارت منظم برای تطبیق ساختار زمان گذشته استمراری (ن)*(می)(فاصله|نیم فاصله)*(w)*(م|ی|ɸ|یم|ید|ند) تشخیص افعال اسنادی تشخیص افعال دوبخشی تشخیص افعال امری استفاده از فرهنگ لغات
38
پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگیهای فعل Parsing (2)
38 پارسر دانشگاه فردوسی فاز چهارم: شناسایی ویژگیهای فعل پس از تطبیق گروه فعلی با ساختارهای مذکور زمان فعل شخص فعل وجه اخباری، التزامی، امری معلوم یا مجهول
39
پارسر دانشگاه فردوسی فاز پنجم: شناسایی ویژگیهای اسم Parsing (2)
39 پارسر دانشگاه فردوسی فاز پنجم: شناسایی ویژگیهای اسم شناسایی تعدادی از اسامی در روند پردازش متن لغات بدون برچسب، «اسم» در نظر گرفته میشوند. ترکیب برچسبهای متوالی و تشکیل گروههای اسمی، فعلی، قیدی و... ریشهیابی اسامی شناسایی شده حذف پسوندها وجود ریشه در فرهنگ لغت
40
پارسر دانشگاه فردوسی فاز پنجم: شناسایی ویژگیهای اسم Parsing (2)
40 پارسر دانشگاه فردوسی فاز پنجم: شناسایی ویژگیهای اسم پس از تطبیق اسم عام یا خاص معرفه یا نکره مفرد یا جمع جامد یا مشتق
41
پارسر دانشگاه فردوسی فاز ششم: ترکیب برچسبها و تشکیل گروهها
Parsing (2) 41 پارسر دانشگاه فردوسی فاز ششم: ترکیب برچسبها و تشکیل گروهها تخصیص یک برچسب کلی به چندین لغت متوالی یا برچسب یکسان در نهایت با اختصاص برچسب به تمامی گروهها و لغات، درخت تجزیهی جملات متن بدست میآید.
42
Parsing (2) 42 پارسر دانشگاه فردوسی شمای گرافیکی ابزار طراحی شده
43
Parsing (2) 43 پارسر دانشگاه فردوسی نمونهی خروجی ابزار طراحی شده
44
پارسر دانشگاه فردوسی تنها پارسر طراحی شده برای زبان فارسی تا شهریور 91
Parsing (2) 44 پارسر دانشگاه فردوسی تنها پارسر طراحی شده برای زبان فارسی تا شهریور 91 نقاط ضعف جملات غیر ساختارمند و غیر دستوری
45
Parsing (2) 44 منابع Philipp Koehn, "Advanced Natural Language Processing", school of informatics, september 2012. Hesham Faili, "Introduction to NLP", chapter 13: Parsing with contex-free grammars, University of Tehran. Zubair Buitms, "Natural Language Processing", available at: Laura Kassner, "Left-corner parsing", Lecture for course Computational Linguistics II: Parsing, 2007.
46
Parsing (2) 45 منابع محمد صادق رسولی، بررسی روش های پردازش نحوی زبان طبیعی، سمینار کارشناسی ارشد گرایش هوش مصنوعی و رباتیک، دانشکده ی مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، مهر 1389. مهین ناز میردهقان، آلتای بروسان، پردازش زبان طبیعی پیشرفته، درس مقطع کارشناسی ارشد، پروژه ی مشترک دانشگاه شهید بهشتی و دانشگاه MIT، پاییز 84. مجتبی خلاش، بررسی روش های تجزیه در دستور وابستگی، سمینار کارشناسی ارشد، هوش مصنوعی و رباتیک، دانشگاه علم و صنعت ایران، آبان 1390. محمد صادق رسولی، تجزیه ی نحوی با استفاده از دستور وابستگی، سمینار کارشناسی ارشد، هوش مصنوعی و رباتیک، دانشگاه علم و صنعت ایران، پاییز 1389. احمد استیری، محسن کاهانی، رضا سعیدی و احسان عسگریان، طراحی ابزار پارسر زبان فارسی، نخستین کنفرانس بین المللی پردازش خط و زبان فارسی، شهریور 1391.
47
با تشکر ارائهی بعد ؟ تعریف پروژه در زمینهی پارسر برای زبان فارسی
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.