Presentation is loading. Please wait.

Presentation is loading. Please wait.

محمدصادق رسولی rasooli.ms{#a#t#}gmail.com

Similar presentations


Presentation on theme: "محمدصادق رسولی rasooli.ms{#a#t#}gmail.com"— Presentation transcript:

1 محمدصادق رسولی rasooli.ms{#a#t#}gmail.com
تجزیۀ وابستگی محمدصادق رسولی rasooli.ms{#a#t#}gmail.com پیش‌بینی ساخت‌های زبانی

2 منابع مطالعاتی مفید Sandra Kübler, Ryan McDonald, and Joakim Nivre, “Dependency Parsing,” Synthesis Lectures on Human Language Technologies, 1 (1), Morgan and Claypool Publishers, 2009.

3 منابع مطالعاتی مفید منابع مطالعاتی دیگر:
محمدصادق رسولی، «تجزیۀ نحوی با استفاده از دستور وابستگی»، مرکز تحقیقات کامپیوتری علوم اسلامی، 1389. Joakim Nivre, “Inductive Dependency Parsing,” Springer Verlag, 2006. Jinho D. Choi, “Dependency Parsing,” Tech. Report, University of Colorado at Boulder, 2009. Ryan McDonald and Joakim Nivre, “Introduction to Data-Driven Dependency Parsing,” European Summer School in Logic Language and Information 2007, 2007.

4 در حین ارائۀ مطالب نیز منابع مرتبط معرفی خواهند شد.
منابع مطالعاتی مفید در حین ارائۀ مطالب نیز منابع مرتبط معرفی خواهند شد.

5 دستور وابستگی چیست؟ دستور وابستگی نخستین بار توسط تنی‌یر مطرح شد.
این دستور بر مبنای نظریۀ ظرفیت واژگانی شکل گرفته است.

6 مفهوم ظرفیت واژگانی در زبان
واژه‌ها نیز مانند عناصر دارای ظرفیت هستند. هر واژه‌ای دارای ظرفیت ترکیب نحوی/معنایی خاصی است. 6

7 مفهوم ظرفیت واژگانی در زبان
پرسیدن ظرفیت واژگانی ظرفیت واژگانی از کَسی.. چیزی را...

8 کاربرد زبانی ظرفیت واژگانی
با دانستن ظرفیت واژه‌ها می‌توان تولید زبان انجام داد. ترجمۀ خودکار (Machine Translation) تحلیل نحوی (Syntactic Analysis) تولید زبان (Language Generation) ... امید طبیب‌زاده، «ظرفیت فعل در زبان فارسی»، نشر مرکز، 1385.

9 دستور وابستگی در دستور وابستگی مبنا روابط نحوی/معنایی بین واژه‌های درون جمله است. در این دستور مفهوم گروه معنا ندارد. واژه‌ها بر اساس ظرفیتشان و نوع قرار گرفتن در جمله وابسته‌هایی می‌گیرند.

10 ارتباط واژه‌ها در دستور وابستگی
وابستۀ پیشین مفعول فعل مرکزی وابستۀ پسین حرف اضافۀ اسم فعل‌یار صحبت دارم دوست را او با Richard Hudson, “An introduction to word grammar,” Cambridge University Press, 2010.

11 مقایسۀ اجمالی با دستور زایشی
در دستور زایشی (Generative)، با گروه‌ها سر و کار داریم. دستور مستقل از متن (CFG) دستور مبتنی بر عبارات امکان وجود بی‌ترتیبی در جملات وجود ندارد در دستور وابستگی با واژه‌ها سر و کار داریم. امکان بی‌ترتیبی در جملات وجود دارد.

12 مقایسۀ دستور زایشی و وابستگی

13 درخت‌های وابستگی فرض‌های زبانی متفاوتی در مورد درخت‌های وابستگی می‌شود. فرض‌های ما (ر.ک. فصل 2 کتاب مرجع) درخت وابستگی بدون دور است. هر جمله دارای یک واژۀ فرضی به عنوان ریشۀ جمله است. هر واژه (غیر از ریشۀ جمله) تنها یک هسته دارد.

14 درخت‌های وابستگی درخت‌های وابستگی دو نوع هستند افکنشی (Projective)
هیچ کمانی دیگری را در صورت رسم کمان‌ها از یک سمت بر روی کاغذ قطع نمی‌کند. غیرافکنشی (Non-projective) ممکن است کمانی باشد که برخی دیگر از کمان‌ها را قطع کرده باشد. در جملات بی‌ترتیب زبانی دیده می‌شود.

15 درخت‌های وابستگی افکنشی غیرافکنشی هستم آمدنت از آگاه ریشه می‌آیی که

16 تجزیۀ وابستگی روش‌های تجزیۀ وابستگی مبتنی بر داده مبتنی بر دستور زبان
باناظر (Supervised) مبتنی بر گراف (Graph based) مبتنی بر گذار (Transition based) بی‌ناظر (Unsupervised) نیمه‌ناظر (Semi-supervised) مبتنی بر دستور زبان

17 تجزیۀ وابستگی در این درس تنها به روش‌های تجزیۀ باناظر مبتنی بر داده پرداخته می‌شود.

18 مطالعۀ بیشتر تجزیۀ بی‌ناظر مقالۀ اصلی: پایان‌نامه‌های مرتبط و...
D. Klein and C. D. Manning, "Corpus-based induction of syntactic structure: Models of dependency and constituency," ACL 2004. پایان‌نامه‌های مرتبط Dan Klein, "The Unsupervised Learning of Natural Language Structure," Phd Thesis, Stanford University, 2005. Noah Smith, "Novel estimation methods for unsupervised discovery of latent structure in natural language text," PhD Thesis, Johns Hopkins University, 2006. Shay B. Cohen, "Computational Learning of Probabilistic Grammars in the Unsupervised Setting.," PhD Thesis, Carnegie Mellon University, 2011. و... Mohammad Sadegh Rasooli and Heshaam Faili, "Fast Unsupervised Dependency Parsing with Arc-Standard Transitions," in EACL Workshop on ROBUS-UNSUP, 2012.

19 مطالعۀ بیشتر تجزیۀ نیمه‌ناظر تجزیۀ مبتنی بر دستور فصل چهارم کتاب مرجع
T. Koo, X. Carrecas and M. Collins, "Simple Semi-supervised Dependency Parsing," in ACL-HLT 2008. G. Druck, G. Mann and A. McCallum, "Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria," in ACL 2009. تجزیۀ مبتنی بر دستور فصل چهارم کتاب مرجع

20 روش‌های باناظر در مجموع در نوع روش مطرح در تجزیۀ وابستگی وجود دارد:
مبتنی بر گراف مبتنی بر گذار

21 تجزیۀ مبتنی بر گراف هدف پیدا کردن بهترین درخت وابستگی با استفاده از الگوریتم‌های گرافی است. این روش به طور کلی به دو نوع روش تقسیم می‌شود: تجزیۀ افکنشی تجزیۀ غیرافکنشی مطالعۀ بیشتر R. McDonald, "Discriminative Training and Spanning Tree Algorithms for Dependency Parsing," PhD Thesis, University of Pennsylvania, 2006.

22 تجزیۀ مبتنی بر گراف الگوی تجزیه 𝑀=(ℾ,λ,h)
ℾمجموعه‌ای از محدودیت‌ها روی ساختارهای قابل قبول λ مجموعه‌ای از مؤلفه‌ها h الگوریتم ثابت تجزیه در نتیجه امتیاز یک گراف G به صورت زیر می‌شود Score G =Score V, A ∈ℝ

23 تجزیۀ مبتنی بر گراف برای زیرگراف‌های 𝜓 و مجموعۀ زیرگراف‌های 𝛹 𝐺 مربوط به گراف 𝐺 تابع 𝑓 تعریف می‌شود 𝑆𝑐𝑜𝑟𝑒 𝐺 =𝑓 𝜓 1 , 𝜓 2 ,…, 𝜓 𝑞 ; 𝜓 𝑖 ∈ 𝛹 𝐺 معمولاً فرض می‌شود که این تابع برابر با جمع مؤلفه‌‌های زیرگراف‌هاست:𝑆𝑐𝑜𝑟𝑒 𝑔 = 𝜓∈𝛹 𝐺 𝜆 𝜓

24 تجزیۀ مبتنی بر گراف تعریف چهار مسأله الزامی به نظر می‌رسد:
1- Ψ G برای گراف 𝐺. 2- λ={ 𝜆 𝜓 |𝑓𝑜𝑟 𝑎𝑙𝑙 𝜓∈ Ψ G ,𝑓𝑜𝑟 𝑎𝑙𝑙 𝐺∈ 𝒢 𝑠 , 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑆}. 3- تابع برای یادگیری λ از روی داده‌های برچسب‌دار. 4- الگوریتم تجزیۀ ℎ ℾ,λ,h = argmax G∈ 𝒢 𝑠 Score (G) .

25 یک الگوریتم نمونه این الگوریتم با عامل در نظر گرفتن وزن یال‌ها سعی در پیدا کردن بهترین درخت را دارد (Arc-factored). بر این اساس الگوریتم‌های تجزیۀ افکنشی و غیرافکنشی نیز تعریف می‌شود. 𝑆𝑐𝑜𝑟𝑒 𝑔 = ( 𝑤 𝑖 ,𝑟, 𝑤 𝑗 )∈𝐴 𝜆 ( 𝑤 𝑖 ,𝑟, 𝑤 𝑗 ) (ℾ,𝜆,ℎ)= 𝑎𝑟𝑔𝑚𝑎𝑥 𝐺∈ 𝒢 𝑠 𝑆𝑐𝑜𝑟𝑒 𝐺 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝐺∈ 𝒢 𝑠 𝑤 𝑖 ,𝑟, 𝑤 𝑗 ∈𝐴 𝜆 𝑤 𝑖 ,𝑟, 𝑤 𝑗

26 تجزیۀ غیرافکنشی هدف پیدا کردن درخت جهت‌دار پوشای بهینه است
Chu-Liu-Edmonds در این الگوریتم به صورت حریصانه بهترین یال‌های واردشده به هر گره انتخاب می‌شود. در صورت وجود دور، یکی از دورها را با پیدا کردن بهترین یال واردشده به یکی از یال‌های آن دور رفع می‌کند. الگوریتم به صورت بازگشتی اجرا می‌شود. در بدترین حالت با O( n 3 ) حل می‌شود.

27 Chu-Liu-Edmonds

28 Chu-Liu-Edmonds

29 Chu-Liu-Edmonds

30 Chu-Liu-Edmonds

31 Chu-Liu-Edmonds

32 تجزیۀ افکنشی الگوریتم CKY برای تجزیۀ بهینه با استفاده از برنامه‌نویسی پویا مناسب است. 𝐶 𝑠 𝑡 𝑖 = 𝑚𝑎𝑥 𝑠≤𝑞<𝑡,𝑠≤𝑗≤𝑡 𝐶 𝑠 𝑞 𝑖 +𝐶 𝑞+1 𝑡 𝑗 + 𝜆 ( 𝑤 𝑖 , 𝑤 𝑗 ) 𝑖𝑓 𝑗>𝑖 𝐶 𝑠 𝑞 𝑗 +𝐶 𝑞+1 𝑡 𝑖 + 𝜆 𝑤 𝑖 , 𝑤 𝑗 𝑖𝑓 𝑖>𝑗 پیچیدگی محاسباتی الگوریتم 𝑂( 𝑛 5 ) است.

33 تجزیۀ افکنشی نحوۀ ترکیب و تجزیۀ زیردرخت‌ها با برنامه‌نویسی پویا

34 تجزیۀ افکنشی نحوۀ کار الگوریتم CYK

35 تجزیۀ افکنشی الگوریتم آیزنر
Jason M. Eisner, "Three new probabilistic models for dependency parsing: An exploration," in COLING 1996.

36 تجزیۀ افکنشی

37 تجزیۀ افکنشی در این الگوریتم با در نظر داشتن وابسته‌ها چپ و راست به صورت جداگانه و مستقل از هم سرعت الگوریتم بالا می‌رود (𝑂( 𝑛 3 )). این الگوریتم در عمدۀ روش‌های بی‌ناظر تجزیۀ وابستگی به کار رفته است. D. Klein and C. D. Manning, "Corpus-based induction of syntactic structure: Models of dependency and constituency," ACL 2004.

38 روش یادگیری f نشان‌دهندۀ تابع ویژگی است:
𝝀 ( 𝑤 𝑖 ,𝑟, 𝑤 𝑗 ) =𝒘.𝒇( 𝑤 𝑖 ,𝑟, 𝑤 𝑗 ) f نشان‌دهندۀ تابع ویژگی است: برچسب اجزای سخن (POS) واژه ... w وزن مورد نظر برای هر نوع ویژگی است این وزن‌ها با الگوریتم‌هایی مانند شبکۀ عصبی پرسپترون یاد گرفته می‌شود.

39 روش یادگیری ℎ 𝑆,ℾ,𝝀 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝐺= 𝑉,𝐴 ∈ 𝒢 𝑠 𝑤 𝑖 ,𝑟, 𝑤 𝑗 ∈𝐴 𝜆 𝑤 𝑖 ,𝑟, 𝑤 𝑗 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝐺= 𝑉,𝐴 ∈ 𝒢 𝑠 𝑤 𝑖 ,𝑟, 𝑤 𝑗 ∈𝐴 𝒘.𝒇 𝑤 𝑖 ,𝑟, 𝑤 𝑗

40 تجزیۀ با مراتب بالاتر چیزی که تاکنون گفته شد، مربوط به وابستگی مرتبۀ 1 بوده است. یال‌ها از هم مستقل تشکیل می‌شوند. وابسته بودن یال‌ها باعث پیچیدگی الگوریتم می‌شود. تجزیۀ مرتبۀ دوم تجزیۀ مرتبۀ سوم T. Koo and M. Collins, "Efficient third-order dependency parsers," in ACL 2010.

41 تجزیۀ با مراتب بالاتر

42 نرم‌افزارهای موجود مرتبۀ 1 و 2 مرتبۀ 3
مرتبۀ 3

43 تجزیۀ مبتنی بر گذار سامانۀ گذار یک دستگاه انتزاعی ، شامل تعدادی پیکربندی (حالت ) و گذار (انتقال) بین این پیکربندی‌هاست. یکی از راه‌های مرسوم برای نمایش پیکربندی استفاده از پشته و حافظۀ ورودی است.

44 تجزیۀ یال‌-معیار روش‌های مختلفی برای تجزیۀ مبتنی بر گذار وجود دارد.
تجزیۀ یال‌-معیار (arc-standard) برای درخت‌های افکنشی است. در این الگوریتم تضمینی بر درست شدن درخت وجود ندارد و جنگلی از درخت‌ها ممکن است تشکیل شود. Joakim Nivre Incrementality in deterministic dependency parsing. In Workshop on Incremental Parsing: Bringing Engineering and Cognition Together, pages 50–57.

45 تجزیۀ یال‌-معیار S: Stack of processed words
I: Buffer of unprocessed words A: Set of arcs created until now : : An empty arcset

46 تجزیۀ یال‌-معیار You are very good Stack Buffer Arc-sets You are very
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

47 تجزیۀ یال‌-معیار You are very good Shift Stack Buffer Arc-sets Action
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

48 تجزیۀ یال‌-معیار You are very good Shift Stack Buffer Arc-sets Action
Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

49 تجزیۀ یال‌-معیار You are very good Left-Reduce Stack Buffer Arc-sets
Action Left-Reduce Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

50 تجزیۀ یال‌-معیار You are very good Shift Stack Buffer Arc-sets Action
Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

51 تجزیۀ یال‌-معیار You are very good Shift Stack Buffer Arc-sets Action
Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

52 تجزیۀ یال‌-معیار You are very good Left-Reduce Stack Buffer Arc-sets
Action Left-Reduce Rel(are, You) Rel(good, very) ` You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

53 تجزیۀ یال‌-معیار You are very good Right-Reduce Stack Buffer Arc-sets
Action Right-Reduce Rel(are, You) Rel(good, very) ` ` Rel(are, good) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

54 تجزیۀ یال‌-معیار You are very good Right-Reduce Stack Buffer Arc-sets
Action Right-Reduce Rel(are, You) Rel(good, very) ` ` Rel(are, good) You are very good Rel(root, are) Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

55 تجزیۀ مبتنی بر گذار مطالعۀ بیشتر در استفاده از برنامه‌نویسی پویا
Joakim Nivre, “Algorithms for deterministic incremental dependency parsing,” Computational Linguistics, 34(4), PP. 513—553, 2008. استفاده از برنامه‌نویسی پویا L. Huang and K. Sagae, "Dynamic programming for linear-time incremental parsing," in ACL, 2010. S.B. Cohen, C. Gomez-Rodrigez and G. Satta, "Exact inference for generative probabilistic non-projective dependency parsing," in EMNLP, PP. 1234—1245, 2011.

56 روش‌های یادگیری دادۀ آموزشی تبدیل به گذارها می‌شود.
با استفاده از یادگیرنده‌ها (مانند SVM) الگوی تجزیه یاد گرفته می‌شود. نرم‌افزار متن‌باز موجود:

57 تلفیق روش‌ها R. McDonald and J. Nivre, "Analyzing and integrating dependency parsers," Computational Linguistics, 37(1), PP , 2011. B. Bohnet and J. Kuhn, "The Best of Both Worlds – A Graph-based Completion Model for Transition-based Parsers," in EACL 2012.

58 تمرین دادۀ آموزشی جملۀ «آگاه هستم که می‌آیی» را با روش مقالۀ زیر بسازید: J. Nivre, "Non-projective dependency parsing in expected linear time," in ACL 2009. دادۀ آموزشی جملۀ «صحبت با تو را دوست دارم» را با روش مشتاق به یال (arc-eager) بسازید (ر.ک. فصل 3 کتاب مرجع).

59 با تشکر از توجه شما


Download ppt "محمدصادق رسولی rasooli.ms{#a#t#}gmail.com"

Similar presentations


Ads by Google