استخراج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی

Slides:



Advertisements
Similar presentations
Tracking L2 Lexical and Syntactic Development Xiaofei Lu CALPER 2010 Summer Workshop July 14, 2010.
Advertisements

Statistical NLP: Lecture 3
Statistical Methods and Linguistics - Steven Abney Thur. POSTECH Computer Science NLP Lab Shim Jun-Hyuk.
Toward Linguistically Grounded Ontologies by Paul Buitelaar, Philipp Cimiano, Peter Haase, and Michael Sintek (Ireland, Netherlands, Germany) presented.
January 12, Statistical NLP: Lecture 2 Introduction to Statistical NLP.
NLP and Speech Course Review. Morphological Analyzer Lexicon Part-of-Speech (POS) Tagging Grammar Rules Parser thethe – determiner Det NP → Det.
Introduction to Computational Linguistics Lecture 2.
1/7 INFO60021 Natural Language Processing Harold Somers Professor of Language Engineering.
Are Linguists Dinosaurs? 1.Statistical language processors seem to be doing away with the need for linguists. –Why do we need linguists when a machine.
Resources Primary resources – Lexicons, structured vocabularies – Grammars (in widest sense) – Corpora – Treebanks Secondary resources – Designed for a.
تمرين شماره 1 درس NLP سيلابس درس NLP در دانشگاه هاي ديگر ___________________________ راحله مکي استاد درس: دکتر عبدالله زاده پاييز 85.
April 26, 2007Workshop on Treebanking, NAACL-HTL 2007 Rochester1 Treebanks and Parsing Jan Hajič Institute of Formal and Applied Linguistics School of.
Introduction & Overview CS4533 from Cooper & Torczon.
 Copyright 2009 Digital Enterprise Research Institute. All rights reserved Digital Enterprise Research Institute Ontologies & Natural Language.
Natural Language Processing Ellen Back, LIS489, Spring 2015.
English-Persian SMT Reza Saeedi 1 WTLAB Wednesday, May 25, 2011.
Empirical Methods in Information Extraction Claire Cardie Appeared in AI Magazine, 18:4, Summarized by Seong-Bae Park.
Lecture 12: 22/6/1435 Natural language processing Lecturer/ Kawther Abas 363CS – Artificial Intelligence.
Chapter 10: Compilers and Language Translation Invitation to Computer Science, Java Version, Third Edition.
A Cognitive Substrate for Natural Language Understanding Nick Cassimatis Arthi Murugesan Magdalena Bugajska.
Adaptor Grammars Ehsan Khoddammohammadi Recent Advances in Parsing Technology WS 2012/13 Saarland University 1.
Natural Language Processing Guangyan Song. What is NLP  Natural Language processing (NLP) is a field of computer science and linguistics concerned with.
Abstract Question answering is an important task of natural language processing. Unification-based grammars have emerged as formalisms for reasoning about.
Natural Language Processing Artificial Intelligence CMSC February 28, 2002.
인공지능 연구실 황명진 FSNLP Introduction. 2 The beginning Linguistic science 의 4 부분 –Cognitive side of how human acquire, produce, and understand.
1 CSI 5180: Topics in AI: Natural Language Processing, A Statistical Approach Instructor: Nathalie Japkowicz Objectives of.
October 2005CSA3180 NLP1 CSA3180 Natural Language Processing Introduction and Course Overview.
Computational Linguistics. The Subject Computational Linguistics is a branch of linguistics that concerns with the statistical and rule-based natural.
What you have learned and how you can use it : Grammars and Lexicons Parts I-III.
30 March – 8 April 2005 Dipartimento di Informatica, Universita di Pisa ML for NLP With Special Focus on Tagging and Parsing Kiril Ribarov.
CPSC 422, Lecture 27Slide 1 Intelligent Systems (AI-2) Computer Science cpsc422, Lecture 27 Nov, 16, 2015.
The Unreasonable Effectiveness of Data
Natural Language Processing Lecture 14—10/13/2015 Jim Martin.
Leonid Iomdin Institute for Information Transmission Problems, Russian Academy of Sciences
1 An Introduction to Computational Linguistics Mohammad Bahrani.
1 Chair of Language Technology. 2 Outline General information Staff Teaching –Courses –Supervision Research –Fields –Main results –Participation in conferences.
Overview of Statistical NLP IR Group Meeting March 7, 2006.
ICS312 Introduction to Compilers Set 23. What is a Compiler? A compiler is software (a program) that translates a high-level programming language to machine.
By Kyle McCardle.  Issues with Natural Language  Basic Components  Syntax  The Earley Parser  Transition Network Parsers  Augmented Transition Networks.
The University of Illinois System in the CoNLL-2013 Shared Task Alla RozovskayaKai-Wei ChangMark SammonsDan Roth Cognitive Computation Group University.
Accelerated B.S./M.S An approved Accelerated BS/MS program allows an undergraduate student to take up to 6 graduate level credits as an undergraduate.
Leonardo Zilio Supervisors: Prof. Dr. Maria José Bocorny Finatto
Natural Language Processing [05 hours/week, 09 Credits] [Theory]
Approaches to Machine Translation
PRESENTED BY: PEAR A BHUIYAN
Lexical and Syntax Analysis
A tool for automated extraction of multi-word expressions
Statistical NLP: Lecture 3
Natural Language Processing (NLP)
Intelligent Systems (AI-2) Computer Science cpsc422, Lecture 27
--Mengxue Zhang, Qingyang Li
CPSC 388 – Compiler Design and Construction
Tagging and Statistically Translating Latin Sentences
LING/C SC 581: Advanced Computational Linguistics
محمدصادق رسولی rasooli.ms{#a#t#}gmail.com
An ICALL writing support system tunable to varying levels
INTRODUCTION TO SYNTAX
Intelligent Systems (AI-2) Computer Science cpsc422, Lecture 27
Activities in Mainland of China
Compilers B V Sai Aravind (11CS10008).
CMPE 152: Compiler Design August 21/23 Lab
Intelligent Systems (AI-2) Computer Science cpsc422, Lecture 26
Approaches to Machine Translation
Natural Language Processing
Linguistic Essentials
Natural Language Processing (NLP)
Chapter 10: Compilers and Language Translation
Lec00-outline May 18, 2019 Compiler Design CS416 Compiler Design.
Artificial Intelligence 2004 Speech & Natural Language Processing
Natural Language Processing (NLP)
Presentation transcript:

استخراج بی‌ناظر ظرفیت فعل در زبان فارسی بر مبنای دستور وابستگی محمدصادق رسولی استاد راهنما: دکتر بهروز مینایی بیدگلی استاد مشاور: دکتر هشام فیلی rasooli@comp.iust.ac.ir,rasooli.ms.@gmail.com

فهرست مفهوم ظرفیت واژگانی در زبان ابهام‌های مسأله شناخت فعل شناخت فعل مرکب تفکیک افزوده‌ها از ظرفیت کارهای انجام‌شده در این پایان‌نامه استخراج فعل مرکب در فارسی تهیۀ دادگان زبانی استخراج بی‌ناظر ظرفیت فعل پیشنهادها مراجع اصلی

مفهوم ظرفیت واژگانی در زبان واژه‌ها نیز مانند عناصر دارای ظرفیت هستند. هر واژه‌ای دارای ظرفیت ترکیب نحوی/معنایی خاصی است.

مفهوم ظرفیت واژگانی در زبان پرسیدن ظرفیت واژگانی ظرفیت واژگانی از کَسی.. چیزی را...

کاربرد زبانی ظرفیت واژگانی با دانستن ظرفیت واژه‌ها می‌توان تولید زبان انجام داد. ترجمۀ خودکار (Machine Translation) تحلیل نحوی (Syntactic Analysis) تولید زبان (Language Generation) ...

مفهوم ظرفیت واژگانی در زبان مثال کاربردی در ترجمۀ خودکار I asked him a question. فاعل از کسی پرسیدن چیزی را از او سؤالی را پرسیدم.

ظرفیت در دستور وابستگی نخستین بار تنی‌یر ظرفیت را ذیلِ دستور وابستگی تعریف دارد (Tesnière, 1953). در دستور وابستگی به رابطۀ بین واژه‌های درون جمله پرداخته می‌شود. مرکزیت جمله با فعل مرکزی جمله است. ظرفیت مربوط به تعداد و نوع وابسته‌های فعل، اسم و صفت در دستور وابستگی است. ظرفیت یک مفهوم انتزاعی و قابل تعمیم است (طبیب‌زاده، 1385)

ارتباط واژه‌ها در دستور وابستگی وابستۀ پیشین مفعول فعل مرکزی فعل‌یار وابستۀ پسین حرف اضافۀ اسم صحبت دارم دوست را او با

ظرفیت و ساخت بنیادین ساخت بنیادین مصداق یکی از حالات انتزاعی ظرفیت در جمله است. مثال: فعل «صحبت کردن» ساخت ظرفیتی: <فا،(مفح)[با]،(مفح)[از|درباره|در مورد|در خصوص|در]> جمله: من با تو دربارۀ علی صحبت کردم ساخت بنیادین: ||فا، مفح[با]، مفح[درباره]||

اهمیت ظرفیت فعل فعل مرکزیت جمله در دستور وابستگی است. با دانستن ظرفیت فعل می‌توان به ساخت بنیادین جمله پی برد. با دانستن ظرفیت می‌توان نقش معنایی اجزای جمله را برچسب‌زنی کرد. استخراج ظرفیت فعل و شناخت آن به صورت بی‌ناظر سرفصل اصلی این پایان‌نامه است.

شناخت بی‌ناظر زبان در روش‌های بی‌ناظر هدف شناخت ساختار زبان بدون داشتن یک مجموعه دادۀ آموزشی برچسب‌دار است (Smith, 2011). کاربرد روش‌های بی‌ناظر رفع نیاز به داده در زبان‌های با دادۀ کم مطالعات شناختی

فهرست مفهوم ظرفیت واژگانی در زبان ابهام‌های مسأله شناخت فعل شناخت فعل مرکب تفکیک افزوده‌ها از ظرفیت کارهای انجام‌شده در این پایان‌نامه استخراج فعل مرکب در فارسی تهیۀ دادگان زبانی استخراج بی‌ناظر ظرفیت فعل پیشنهادها مراجع اصلی

ابهام‌های مسأله: شناخت فعل شناخت فعل ساده و پیشوندی: تصریف‌های مختلف فعل دارای ساخت صوری متفاوتی هستند برخواهد انگیخت برانگیخته خواهد شد برانگیزیم برانگیختن این ابزار با استفاده از یک ابزار مبتنی بر قاعده نوشته شد.

ابهام‌های مسأله: شناخت فعل مرکب فعل مرکب از یک یا چند عنصر غیرفعلی (فعل‌یار) و یک عنصر فعلی (همکرد) تشکیل می‌شود. صحبت کردن: «صحبت» فعل‌یار و «کرد» همکرد است. فعل مرکب در زبان فارسی از ابهام‌برانگیزترین مسائل زبانی است (Karimi-Doostan, 2011). نخستین گام در این مسأله، شناخت معیارهای صوری فعل مرکب است. معیارهایی مانند: نیامدن «را» پس از فعل‌یار نیامدن صفت اشاره پیش از فعل‌یار

طبق آزمایش‌ها این روش برای زبان فارسی پاسخ مناسبی نداده است. روش شناخت فعل مرکب عمدۀ روش‌ها مبتنی برا آزمون‌های آماری هم‌آیندها هستند. مانند اطلاعات متقابل نقطه‌ای (PMI) به فعلی مرکب اطلاق می‌شود که دارای طلاقی بازۀ اطمینان با دیگر گزینه‌های فعل مرکب دارای همکرد یا فعل‌یار مشترک نباشد (Lin, 1999). طبق آزمایش‌ها این روش برای زبان فارسی پاسخ مناسبی نداده است.

ابهام‌های مسأله: تفکیک افزوده‌ها از ظرفیت افزوده‌ها با هر فعلی می‌توانند بیایند (طبیب‌زاده، 1385). در یک روز بارانی، با تو صحبت کردم. متمم ظرفیتی افزوده از نظر ظاهری (بدون در نظر گرفتن معنا) تفاوتی بین متمم‌های ظرفیتی و افزوده‌ها نیست.

روش‌های استخراج ظرفیت سه روش به طور معمول وجود دارد: آزمون‌های فرض آماری (Krohonen, 2002) مناسب برای داده‌های با فراوانی کم روش بیشینۀ درست‌نمایی (Krohonen, 2002) مناسب برای داده‌های با فراوانی زیاد الگوریتم امیدیابی-بیشینه‌سازی (EM) (Carrol and Rooth, 1998) مناسب برای زبانی که تجزیه‌گر مناسبی موجود نباشد.

فهرست مفهوم ظرفیت واژگانی در زبان ابهام‌های مسأله شناخت فعل شناخت فعل مرکب تفکیک افزوده‌ها از ظرفیت کارهای انجام‌شده در این پایان‌نامه استخراج فعل مرکب در فارسی تهیۀ دادگان زبانی استخراج بی‌ناظر ظرفیت فعل پیشنهادها مراجع اصلی

کارهای انجام‌شده در این پایان‌نامه استخراج بهینۀ فعل مرکب در زبان فارسی تهیۀ اولین دادگان ظرفیت فعل در زبان فارسی استخراج ظرفیت فعل فارسی به صورت بی‌ناظر

استخراج فعل مرکب در فارسی روش‌های مبتنی بر اطلاعات متقابل نقطه‌ای و آزمون فرض آماری در فارسی پاسخ مناسبی نداده است. دو روش پیشنهادی جایگزین استفاده از الگوریتم خودراه‌اندازی (Bootstrapping) استفاده از الگوریتم کی‌مینز (K-Means)

شناخت فعل مرکب: الگوریتم خودراه‌اندازی تا زمانی که PMIها از مقدار آستانه بزرگ‌تر باشند انتخاب گزینه‌های با PMI>threshold اضافه کردن به فهرست فعل‌های مرکب پیش‌پردازش فعل‌ها پیش‌پردازش پیکره و استخراج گزینه‌های فعل مرکب محاسبۀ PMI

شناخت فعل مرکب: الگوریتم خودراه‌اندازی در این روش به صورت خودفزاینده نخست تعدادی زوج اسم-فعل (با مقدار اطلاعات متقابل بالا) برداشته شده، با فرض فعل بودن دوباره پیکره فعل‌یابی می‌شود: مثال: فرض: («صحبت کردن» فعل است) جملۀ «من با شما صحبت از کتاب و داستان کردم». دادۀ پیش‌پردازش شده داستان صحبت‌کردن 1 در این‌جا با فرض فعل بودن «صحبت کردن» دیگر امکان این که «داستان» و «کردن» به عنوان رخداد شمرده شود وجود ندارد.

شناخت فعل مرکب: الگوریتم کی‌مینز در این الگوریتم از سه ویژگی متفاوت استفاده شده است: اطلاعات متقابل نقطه‌ای (PMI) میانگین فاصلۀ بین فعل‌یار و همکرد میانگین تعداد اسم‌ها بین فعل‌یار و همکرد عمدۀ فعل‌های مرکب با اسم ساخته می‌شوند و در این جا تنها فعل‌های مرکب با اسم در نظر گرفته شده است. معیار فاصلۀ اقلیدسی برای فاصله‌سنجی خوشه‌ها انتخاب شده است. تعداد خوشه‌ها را به اندازۀ 2 خوشه (مرکب و غیرمرکب) در نظر گرفتیم.

آزمایش: استخراج فعل مرکب بستر آزمون فعل‌های مرکب با همکرد «کردن» در پیکرۀ بیجن‌خان بوده است. مانند بسیاری از روش‌های آماریِ استخراج اصطلاحات چندواژه‌ای از گزینه‌های با حداقل فراوانی 5 استفاده شده است. دقت و فراخوانی از روی مقایسۀ فهرست فعل‌های مرکب واقعی با همکرد «کردن» با فهرست پیشنهادی روش استخراج به دست آمده است.

نتایج استخراج فعل مرکب روش دقت فراخوانی سنجۀ F اطلاعات متقابل نقطه‌ای با آزمون فرض t 45/16 29/06 35/36 اطلاعات متقابل نقطه‌ای با بهترین مقدار آستانه 47/36 32/09 38/26 خودراه‌اندازی 90/17 90/68 78/11 کی‌مینز 1 (هر سه ویژگی) 60/81 16/62 70/57 کی‌مینز 2 (ویژگی 1و 3) 51/82 50/50 62/31 کی‌مینز 3 (ویژگی 1و 2) 52/79 70/66 72/17 Rasooli, M., H. Faili, and B. Minaei-Bidgoli, Unsupervised Identification of Persian Compound Verbs. Advances in Artificial Intelligence, 2011: p. 394-406.

تهیۀ دادگان زبانی با کمک 6 زبان‌شناس در گروه پژوهشی دادگان اولین فرهنگ ظرفیت فعل در زبان فارسی تولید و به صورت رایگان عرضه شده است. http://dadegan.ir نسخۀ اول این فرهنگ شامل 4282 فعل و 5429 زوج ساخت ظرفیتی و فعل منحصر به فرد بوده است. تاکنون اصلاحاتی بر نسخۀ اول انجام شده است. آخرین نسخه تا اسفند 1390: نسخۀ 2.2.2 Rasooli, M.S., Moloodi, A., Kouhestani, M. and Minaei-Bidgoli, B., A Syntactic Valency Lexicon for Persian Verbs: The First Steps towards Persian Dependency Treebank, in 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics. 2011: Poznań, Poland. p. 227-231.

استخراج بی‌ناظر ظرفیت فعل روش‌های مورد آزمون آزمون فرض دوجمله‌ای الگوریتم امیدیابی-بیشینه‌سازی (EM)

استخراج ظرفیت: آزمون دوجمله‌ای این آزمون فرض از پرکاربردترین روش‌های موجود برای استخراج ظرفیت فعل بوده است (Krohonen, 2002). m: فراوانی ظرفیت فعل و p یک مقدار احتمالاتی بین صفر و یک است که به صورت دستی تنظیم می‌شود. n: فراوانی فعل

استخراج ظرفیت: الگوریتم امیدیابی-بیشینه‌سازی در این الگوریتم بین دو مرحله گردش تکرار انجام می‌شود در یک مرحله توزیع پسینی متغیرهای پنهان برای داده‌های مشاهده‌شده محاسبه می‌شود در مرحلۀ بعد وزن احتمالاتی مؤلفه‌های الگوی احتمالاتی به‌روزرسانی می‌شود. تعمیم بر روی الگوریتم امیدیابی بیشینه‌سازی: بازتعریف تصادفی

نحوۀ تبدیل داده به مؤلفه‌های احتمالاتی الگوریتم جمله مقادیر مؤلفه‌های احتمالاتی به صورت تکرار گردش الگوریتم به‌روز می‌شوند. آیا تا آن روز، در آن روز بارانی کسی با حسین صحبت کرده است؟ F1=فا، مفح[با] ساخت‌های بنیادین ممکن F2=فا، مفح[در] F3=فا، مفح[تا] F4=فا، مفح[با]، مفح[در] F5=فا، مفح[با]، مفح[تا]

الگوریتم امیدیابی-بیشینه‌سازی (Smith, 2011)

جزئیات آزمایش ارزیابی بر روی دقت استخراج ساخت‌های بنیادین صورت گرفته است. در تجزیه‌گر نحوی همۀ حالات ممکن ظرفیتی مورد محاسبۀ احتمالاتی قرار می‌گیرد. همۀ ساخت‌های بنیادین هر ساخت ظرفیتی از فرهنگ ظرفیت استخراج شده است. آزمون بر روی جملات پیکرۀ بیجن‌خان انجام شده است.

نتایج آزمایش دقت فراخوانی سنجۀ F آزمون فرض دوجمله‌ای 13/02 82/24 22/47 امیدیابی-بیشینه‌سازی 61/11 38/93 47/56 بازتعریف تصادفی 60/87 38/18 46/97

تحلیل نتایج برای شناخت ساخت‌های ظرفیتی فعل در زبان فارسی نیاز به واکاوی بیشتر ساخت‌های نحوی زبان است. دقت کم در شناخت ساخت‌های نحوی ریشه در ابهام بالا در تمایز بین متمم‌ها و افزوده‌ها دارد. گزینه‌هایی دیگری مانند تجزیۀ بی‌ناظر وابستگی برای استخراج ظرفیت ممکن است برای این مسأله مناسب باشد.

فهرست مفهوم ظرفیت واژگانی در زبان ابهام‌های مسأله شناخت فعل شناخت فعل مرکب تفکیک افزوده‌ها از ظرفیت کارهای انجام‌شده در این پایان‌نامه استخراج فعل مرکب در فارسی تهیۀ دادگان زبانی استخراج بی‌ناظر ظرفیت فعل پیشنهادها مراجع اصلی

پیشنهادها استخراج بی‌ناظر ظرفیت اسم و صفت در زبان فارسی استفاده از اطلاعات ظرفیتی برای بهبود تجزیۀ وابستگی (Zeman, 2002) خوشه‌بندی معنایی فعل این مسأله بر اساس نظریۀ رده‌های معنای لوین (Levin, 1993) قابل انجام است. استفاده از روش‌های استنتاج بیزی در شناخت ساخت‌های کم‌بسامد خطایابی نحوی جملات زبان فارسی بر مبنای ظرفیت واژگانی (Ehsan and Faili, 2012)

مراجع اصلی Bijankhan, M., The role of the corpus in writing a grammar: An introduction to a software. Iranian Journal of Linguistics, 2004. 19(2). Carroll, G. and M. Rooth, Valence Induction with a Head-Lexicalized PCFG, in Workshop of Empirical Methods in NLP. 1998: Granada Ehsan, N. and H. Faili, Grammatical and context‐sensitive error correction using a statistical machine translation framework. Software: Practice and Experience, 2012. Karimi Doostan, G., Separability of light verb constructions in Persian. Studia Linguistica, 2011. 65(1): p. 70-95. Korhonen, A., Subcategorization acquisition. 2002, Ph. D. thesis, University of Cambridge. Lin, D., Automatic identification of non-compositional phrases, in 37th annual meeting of Association for Computational Linguistics. 1999, Association for Computational Linguistics: College Park, MA. p. 317- 324.

مراجع اصلی Pecina, P., Lexical association measures and collocation extraction. Language Resources and Evaluation, 2010. 44(1): p. 137-158. Smith, N.A., Linguistic Structure Prediction. Synthesis Lectures on Human Language Technologies, 2011. 4(2): p. 1-274. Tesnière, L., Esquisse d'une Syntaxe structurale. 1953, Paris: Klincksieck. Zeman, D., Can subcategorization help a statistical dependency parser?, in COLING '02. 2002, Association for Computational Linguistics. p. 1- 7. طبیب‌زاده، ا.، ظرفیت فعل و ساخت‌های بنیادین جمله در فارسی امروز. 1385: نشر مرکز.

با سپاس از توجه شما