Presentation is loading. Please wait.

Presentation is loading. Please wait.

Part-of-Speech tagging

Similar presentations


Presentation on theme: "Part-of-Speech tagging"— Presentation transcript:

1 Part-of-Speech tagging
In the name of God Part-of-Speech tagging Mohammad Bahrani March 2011

2 Part-of-Speech (POS) tagging
نامهای دیگر: word classes، lexical tags، tags POS tagging (tagging): فرایند انتساب مقوله نحوی به هر کلمه در پیکره متنی POSهای اصلی در انگلیسی: Nouns Verbs Adjectives Adverbs Prepositions (on, to, by, from, with, …) Determiners (a, an, the) Pronouns (she, who, my, others, …) Conjunctions (and, but, if, …) Auxiliaries (can, should, are, …) Particles (up, down, off, in, out, …) Numerals (one, two, three, first, second, …)

3 Part-of-Speech (POS) tagging
Singular nouns Plural nouns Comparative adjectives Superlative adjectives Modal verbs Personal pronouns Possessive pronouns برای علائم نقطه گذاری هم tag های متفاوتی ممکن است به کار رود. tag setهای مختلف در انگلیسی: Penn Treebank tag set: شامل 45 tag Brown Corpus tag set: شامل 87 tag C5 tag set: شامل 61 tag C7 tag set: شامل 146 tag در پیکره متنی زبان فارسی (دکتر بیجن خان) حدود 660 tag به کار رفته است.

4 POS-tagging: کاربردها
دانستن مقوله نحوی یک کلمه می تواند اطلاعات بیشتری در مورد خود کلمه و کلمات مجاور آن به ما بدهد. کاربردها: مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند. مثال: در انگلیسی بعد از ضمایر ملکی، اسم و بعد از ضمایر شخصی، فعل می آید. در فارسی معمولاً بعد از حرف اضافه اسم یا ضمیر می آید. سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد. مثال: تلفظ کلمه object در انگلیسی به صورت OBject (noun) و obJECT (verb) تلفظ کلمه ”مرد“ در فارسی به صورت ”مَرد“ (اسم)، ”مُرد“ (فعل) بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند. رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند. مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی تجزیه نحوی (parsing): برای parsing پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.

5 POS tagging: روش ها مشکل اصلی در POS tagging: بعضی از کلمات به چند مقوله نحوی تعلق دارند. حدود 11.5% از انواع کلمات به کار رفته در پیکره brown دارای بیش از یک tag هستند. این کلمات حدود 40% پیکره را شامل می شوند. روش های کلی POS tagging: روش های مبتنی بر قاعده (rule based POS tagging) روش های آماری (probabilistic/stochastic POS tagging) روش های ترکیبی (transformation-based POS tagging)

6 Rule based POS tagging با استفاده از یک سری rule مقوله نحوی کلمات دارای ابهام را با توجه به کلمات مجاور تعیین می کند. Ruleها به وسیله زبان شناسان نوشته می شوند. دو مرحله کلی از POS tagging مبتنی بر قاعده ابتدا با استفاده از یک دیکشنری تمام tag های ممکن برای کلمات تعیین می شوند. سپس برای هر کلمه در متن، با استفاده از قواعد و با توجه به کلمات مجاور، یکی از tag ها به عنوان tag اصلی تعیین می شود.

7 Rule based POS tagging مثال: I think that you are clever I: PRON
think: V that: PRON, DET, COMP, ADV you: PRON are: AUX clever: ADJ مثالی از یک rule (از ENGTWOL tagger) Adverbial-that rule: Given input: “that” If (+1 ADJ/ADV/QUANT) (+2 SENT-LIM) (NOT -1 V-SVO) then eliminate non-ADV tags else eliminate ADV tag

8 Probabilistic POS tagging
با استفاده از یک پیکره tagخورده، دنباله tagهای ممکن برای دنباله کلمات مختلف را یاد می گیرد و با استفاده از آن محتمل ترین tag برای هر کلمه را پیدا می کند. مسئله POS tagging به صورت آماری: با فرض داشتن دنباله کلمات W=w1…wn، دنباله tag های T=t1…tn را طوری پیدا کنید که P(T|W) ماکزیمم شود: با استفاده از قانون بيز:

9 Probabilistic POS tagging
محاسبه احتمال هاي فوق در عمل بسيار مشكل است. بنابراين چند فرض ساده كننده براي محاسبه احتمال ها به كار مي رود: (حاصلضرب احتمالات n-gram) (حاصلضرب احتمالات lexical-generation) بنابراين بايد دنباله tag ها را طوري پيدا كنيم كه عبارت زير ماكزيمم شود:

10 Probabilistic POS tagging
محاسبه احتمالات با استفاده از پیکره برچسب خورده احتمالات bigram احتمالات lexical-generation محاسبه محتمل ترین دنباله از tagها ساده ترین روش: درنظر گرفتن تمام دنباله های محتمل و محاسبه احتمال هر یک به روش فوق (Brute Force Search) با فرض داشتن N برچسب و T كلمه، حداكثر NT دنباله از برچسب ها توليد مي شود.

11 زنجيره ماركوف (Markov Chain)
محاسبه احتمال P(T) با استفاده از زنجيره ماركوف زنجيره ماركوف: نوع خاصي از Finite State Machine كه در آن به پرش هاي بين state ها يك احتمال نسبت داده مي شود. فرض ماركوف مرتبه اول: احتمال بودن در هر state فقط به state قبلي وابسته است.

12 زنجيره ماركوف: مثال فرض كنيد كه در يك corpus، 4 برچسب ART، N، V و P با شمارش هاي زير داريم:

13 زنجيره ماركوف: مثال احتمال رفتن وقوع برچسب هاي مختلف پس از يكديگر را مي توان با زنجيره ماركوف زير نشان داد: P(N V ART N) = 0.29*0.43*0.65*1=0.081

14 مدل مخفي ماركوف (Hidden Markov Model)
اگر در هر گره از زنجيره ماركوف يك سري خروجي (با يك توزيع احتمال مشخص) داشته باشيم، زنجيره ماركوف تبديل به مدل مخفي ماركوف (HMM) مي شود. خروجي ها در هر گره مي توانند كلمات مختلف باشند. احتمال خروجي هر كلمه بدين معني است كه با چه احتمالي آن كلمه به وسيله آن گره توليد مي شود (احتمالات lexical-generation) واژه ”مخفي“ به اين دليل به اين مدل اطلاق مي شود كه با فرض داشتن يك دنباله از كلمات خروجي، دنباله stateهاي توليد كننده آن از نظر ما مخفي است.

15 مدل مخفي ماركوف: مثال محاسبه احتمال P(W|T) با استفاده از مدل مخفي ماركوف: فرض كنيد كه احتمالات lexical-generation در corpus فرضي به صورت زير است:

16 مدل مخفي ماركوف: مثال

17 مدل مخفي ماركوف: مثال به شرط گذر از مسير ”N V ART N“ در زنجيره ماركوف مثال فوق، احتمال اينكه خروجي برابر با دنباله كلمات ”flies like a flower“ باشد: P(flies like a flower|N V ART N) = P(flies | N) * P(like | V) * P(a | ART) * P(flower | N) = * 0.1 * 0.36 * = 5.4 * 10-5

18 الگوريتم ويتربي تعيين محتمل ترين دنباله از stateهاي HMM به شرط مشاهده دنباله اي از خروجي ها در POS tagging: تعيين محتمل ترين دنباله از tagها به شرط مشاهده دنباله اي از كلمات در الگوريتم ويتربي نيز از احتمال هاي bigram و lexical-generation براي محاسبه محتمل ترين دنباله از tagها استفاده مي شود. در الگوريتم ويتربي با مشاهده هر خروجي محتمل ترين دنباله از stateها به صورت جزئي (partial) محاسبه مي شود.

19 الگوريتم ويتربي

20 Supervised & Unsupervised POS tagging
POS tagging به صورت ”با نظارت“ (Supervised) داده آموزش داراي برچسب POS مي باشد و آموزش براساس رويه فوق انجام مي گيرد. POS tagging به صورت ”بدون نظارت“ (Unsupervised) داده آموزش بدون برچسب مي باشد و آموزش بر اساس يك رويه تكراري انجام مي گيرد.

21 POS tagging: ارزيابي پيكره متني به دو بخش تقسيم مي شود:
80-90% از پيكره براي آموزش (train) 10-20% از پيكره براي آزمون (test) با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس POS tagging برروي داده آزمون تست مي شود. دقت POS tagging: روش Cross Validation: پيكره متني به K قسمت مساوي تقسيم مي شود. در هر مرحله از ارزيابي، يك بخش براي آزمون و K-1 بخش ديگر براي آموزش به كار مي رود. اين روند K بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته مي شود.


Download ppt "Part-of-Speech tagging"

Similar presentations


Ads by Google