Download presentation
Presentation is loading. Please wait.
1
PART OF SPEECH TAGGING (POS)
ارائه دهنده: سید محمد اصغری استاد درس: دکترمحسن کاهانی فروردین 1392
2
فهرست مطالب NLP تعریف NLP ابزارها ی مورد استفاده
Pos برچسب گذاری اجزای کلام تعریف نمونه ها کاربردها مشکلات انواع روشها مبتنی بر قاعده اماری مدل مخفی مارکوف Tagger n-gram ویتربی مبتنی بر حافظه ارزیابی برچسب گذاری در سیستم های متنی فارسی پیدایش تلاشهای انجام شده مشکلات ویژه زبان فارسی مدلهای موجود ایده های جدید نمونه ابزارها
3
artificial intelligence
تعریف NLP پردازش زبانهای طبیعی علوم زبان شناسی هوش مصنوعی آمار artificial intelligence natural intelligence interrogator A B
4
کاربردهای NLP شناسايي گفتار ترکيب گفتار مقوله بندي متن خلاصه سازی متن
سيستمهاي ديکته، سيستم هاي کنترل روبات ترکيب گفتار سيستم هاي متن به گفتار مقوله بندي متن خلاصه سازی متن
5
کاربردهای NLP (ادامه) نمایه سازی متن بازيابي متن استخراج اطلاعات
ترکيب داده ها و استخراج داده هاي متن
6
کاربردهای NLP (ادامه) پاسخ به پرسش ايجاد گزارش ترجمه ماشینی
7
ابزارهای پردازش زبان طبیعی
نرمال ساز یا یکسان ساز تشخیص دهنده جملات تشخیص دهنده لغات حذف کننده کلمات ایست ریشه یاب برچسب زن اجزای کلام (POS) پارسر (parser) برچسب زن معنایی کلام (SRL) شبکه واژگان ...
8
نمونه های ابزار انگلیسی
instance NLP tools OpenNLP ، Stanford NLP ، NLTK Freeling تشخیص دهنده جملات Flex، JLex ، JFLex , ANTLR ، Ragel , Quex تشخیص دهنده لغات Porter, Krovetz ریشه یاب Illinois POS Tagger , Stanford POS Tagger برچسب زن اجزای کلام (POS) OpenNlP ، Illinois SRL , Swirl , LTHSRL برچسب زن معنایی کلام (SLR) Princeton Wordnet , Euro Wordnet شبکه واژگان
9
Pos برچسب گذاری اجزای کلام
تا اینجا NLP تعریف NLP ابزارها ی مورد استفاده Pos برچسب گذاری اجزای کلام تعریف نمونه ها کاربردها مشکلات انواع روشها مبتنی بر قاعده آماری مدل مخفی مارکوف Tagger n-gram ویتربی برچسب گذاری در سیستم های متنی فارسی پیدایش تلاشهای انجام شده مشکلات ویژه زبان فارسی مدلهای موجود ایده های جدید نمونه ابزارها
10
تعریف pos Part-of-Speech (POS) یا جزء کلام: مقوله نحوی که هر کلمه به آن تعلق دارد. نامهای دیگر: word classes، lexical tags، tags POS tagging (tagging): فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی POSهای اصلی در انگلیسی: Nouns Verbs Adjectives Adverbs Prepositions (on, to, by, from, with, …) Determiners (a, an, the) Pronouns (she, who, my, others, …) Conjunctions (and, but, if, …) Auxiliaries (can, should, are, …) Particles (up, down, off, in, out, …) Numerals (one, two, three, first, second, …)
11
تعریف pos (ادامه) بسته به کاربرد، ممکن است POS های جزئی تری در پیکره های متنی به کار روند: Singular nouns Plural nouns Comparative adjectives Superlative adjectives Modal verbs Personal pronouns Possessive pronouns … برای علائم نقطه گذاری هم tag های متفاوتی ممکن است به کار رود. tag setهای مختلف در انگلیسی: Penn Treebank tag set: شامل 45 tag Brown Corpus tag set: شامل 87 tag C5 tag set: شامل 61 tag C7 tag set: شامل 146 tag در پیکره متنی زبان فارسی (دکتر بیجن خان) حدود 660 tag به کار رفته است.
12
مثال ورودی: خروجی
14
نکات مورد توجه مجموعه تگ (tagset) طبقه بندی گرامری واژگان عبارات
انتخاب مجموعه تگ مناسب طبقه بندی گرامری واژگان عبارات واژگان چند نقش کلمات ناشناخته
15
کاربردها مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند. مثال: انگلیسی: ضمایر ملکی+ اسم فارسی: حرف اضافه (اسم یا ضمیر) سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد. مثال: تلفظ OBject (noun) و obJECT (verb) تلفظ”مَرد“ (اسم)، ”مُرد“ (فعل) بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند. رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند. مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی تجزیه نحوی (parsing): برای parsing پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.
16
روش ها روش های کلی POS tagging:
روش های مبتنی بر قاعده (rule based POS tagging) روش های آماری (probabilistic/stochastic POS tagging) روش های ترکیبی (transformation-based POS tagging)
17
برچسب گذار مبتنی بر قاعده
با استفاده از یک سری rule مقوله نحوی کلمات دارای ابهام را با توجه به کلمات مجاور تعیین می کند. Ruleها به وسیله زبان شناسان نوشته می شوند. دو مرحله کلی از POS tagging مبتنی بر قاعده دیکشنری > tags قواعد +مجاور ----> tag
18
برچسب گذار مبتنی بر قاعده (ادامه)
مثال: I think that you are clever I: PRON think: V that: PRON, DET, COMP, ADV you: PRON are: AUX clever: ADJ مثالی از یک rule (از ENGTWOL tagger) 56,000 Adverbial-that rule: Given input: “that” If (+1 ADJ/ADV) (+2 SENT-LIM) (NOT -1 V-SVO) then eliminate non-ADV tags else eliminate ADV tag
19
مدل مارکوف افق محدود مستقل از زمان بودن
برچسب يك كلمه تنها وابسته به برچسب كلمه قبلي است (افق محدود ) اين وابستگي در طول زمان تغيير نمي كند (مستقل از زمان بودن ) براي مثال، اگر يك صفت در اوايل جمله با احتمال 0.2 بعد از يك اسم ظاهر مي شود، اين احتمال در حين برچسب گذاري بقيه جمله يا يك جلمه ديگر تغيير نمي كند و ثابت فرض مي شود. نکته: اشتباه بودن این فرض
20
مدل مارکوف (ادامه) هدف : با فرض داشتن دنباله کلمات W=w1…wn، دنباله tag های T=t1…tn را طوری پیدا کنید که P(T|W) ماکزیمم شود: با استفاده از قانون بیز: باتوجه به ویژگیهای مارکوف میتوانیم مسئله را ساده کنیم: باتوجه به رابطه قبلی و جایگزاری
21
آموزش مدل مارکوف مجموعه یادگیری
1 Pierre/NNP Vinken/NNP ,/, 61/CD years/NNS old/JJ ,/, will/MD join/VB the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN Nov./NNP 29/CD ./. 2 Mr./NNP Vinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP N.V./NNP ,/, the/DT Dutch/NNP publishing/VBG group/NN ./. 3 Rudolph/NNP Agnew/NNP ,/, 55/CD years/NNS old/JJ and/CC chairman/NN of/IN Consolidated/NNP Gold/NNP Fields/NNP PLC/NNP ,/, was/VBD named/VBN a/DT nonexecutive/JJ director/NN of/IN this/DT British/JJ industrial/JJ conglomerate/NN ./. ... 38,219 It/PRP is/VBZ also/RB pulling/VBG 20/CD people/NNS out/IN of/IN Puerto/NNP Rico/NNP ,/, who/WP were/VBD helping/VBG Huricane/NNP Hugo/NNP victims/NNS ,/, and/CC sending/VBG them/PRP to/TO San/NNP Francisco/NNP instead/RB ./.
22
محاسبه احتمالات مدل مارکوف
براي آموزش مدل فوق بايد احتمالات انتقال و احتمالات خروجي از روي پيكره برچسب خورده به دست آيد. احتمالات انتقال به سادگي به صورت زير به دست مي آيد: و همچنين احتملات خروجي به صورت زير محاسبه مي شود:
23
مدلهای n-gram Bigram Trigram
برچسب گذاری که فقط به کلمه قبل وابسته باشد Trigram به دو کلمه قبل از خود وابسته است
24
مثال از مدل trigram S =the boy laughed T =DT NN VBD
P(T,S)= P(END|NN, VBD)× P(DT|START, START)× P(NN|START, DT)× P(VBD|DT, NN)× P(the|DT)× P(boy|NN)× P(laughed|VBD)
25
زنجيره ماركوف: مثال فرض كنيد كه در يك corpus، 4 برچسب ART، N، V و P با شمارش هاي زير داريم: احتمال وقوع برچسب هاي مختلف پس از يكديگر را مي توان با زنجيره ماركوف زير نشان داد:
26
مدل مخفي ماركوف: مثال محاسبه احتمال P(W|T) با استفاده از مدل مخفي ماركوف: فرض كنيد كه احتمالات lexical-generation در corpus فرضي به صورت زير است:
27
مدل مخفي ماركوف: مثال
28
مدلهای مبتنی بر حافظه استفاده از یادگیری ماشین
عدم نیاز به پیکره بزرگ برای یادگیری تلفیقی از دو روش قبل: نمونه ذخیره شده = قانون ، استدلال مبتنی بر تشابه = انتخاب قانون دارای سه بخش واژگان = کلمات و نشانه ها پایگاه کلمات شناخته شده = کلمات و نشانه ها و مجاورتها پایگاه کلمات ناشناخته
29
ارزيابي انواع متون در پیکره: پيكره متني به دو بخش تقسيم مي شود:
80-90% از پيكره براي آموزش (train) 10-20% از پيكره براي آزمون (test) با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس POS tagging برروي داده آزمون تست مي شود. انواع متون در پیکره: رسمی غیر رسمی محاوره ای تكنيك اعتبارسنجي متقابل 5 قسمتي: پيكره متني به K قسمت مساوي تقسيم مي شود. در هر مرحله از ارزيابي، يك بخش براي آزمون و K-1 بخش ديگر براي آموزش به كار مي رود. اين روند K بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته مي شود. دقت POS tagging:
30
با سپاس از توجه شما
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.