Download presentation
Presentation is loading. Please wait.
Published byIna Løkken Modified over 6 years ago
1
In the name of God Language Modeling Mohammad Bahrani Feb 2011
2
مدل سازي زباني (Language Modeling)
مدل زباني نحوۀ رخداد توالي كلمات در زبان را مدلسازي مي كند. مدل زباني: آماري ساختاري مدل زباني آماري به يك دنباله از كلمات زبان مانند W=w1w2…wm يك احتمال P(W) نسبت مي دهد. It must be recognized that the notion “probability of a sentence” is an entirely useless one, under any known interpretation of this term. (Noam Chomsky) مدل زباني ساختاري با استفاده از يك سري قواعد زباني نحوه توالي لغات را مشخص مي كند.
3
مدل سازي زباني سطوح مختلف مدل سازي زباني كاربردهاي مدل زباني
واژگاني محلي نحوي معنايي كاربردهاي مدل زباني پيش بيني كلمات بازشناسي گفتار درك زبان طبيعي ترجمة ماشيني بازشناسي نويسههاي نوري ...
4
شمارش كلمات معمولاً اولين قدم در مدل سازي آماري زبان، شمارش انواع كلمات در يك پيكره متني مي باشد. پيكره متني: مجموعه اي بزرگ از متون مختلف كه از منابع گوناگون گردآوري شده اند. تعداد كل كلمات (word tokens) در پيكره هاي متني در حد چند صد ميليون تعداد انواع كلمات (word types) در حد چند صد هزار يا چند ميليون (بسته به نوع متون) قبل از شمارش كلمات معمولاً پيكره متني بايد قطعه بندي و نرمال سازي شود.
5
شمارش كلمات شمارش كلمات: تعيين انواع word typeها در پيكره متني و تعداد رخداد هر يك از آنها با يك بار پيمايش پيكره متني مي توان تعداد انواع كلمات (word typeها) را در پيكره متني شمارش كرد. در يك پيكرۀ متني بزرگ از متون واقعي معمولاً تعداد كمي از كلمات با فراواني بالا و تعداد زيادي از كلمات با فراواني پايين رخ مي دهند. معمولاً stop wordها بيشترين فراواني را در پيكره متني دارند.
6
شمارش كلمات: قانون Zipf
قانون Zipf (Zipf’s law): كلمات موجود در پيكره متني را برحسب فراواني (از بيشتر به كمتر) مرتب مي كنيم و به ترتيب به آنها رتبه (rank) 1 تا N مي دهيم. Zipf مشاهده كرد كه بين فراواني كلمات و رتبۀ آنها يك تناسب معكوس وجود دارد. f(w): فراواني كلمه w z(w): رتبه كلمه w C و a: مقادير ثابت (پارامترهاي مدل(
7
شمارش كلمات: قانون Zipf
بين لگاريتم فراواني و لگاريتم رتبه رابطۀ خطي وجود دارد. پارامترهاي C و a را مي توان براي هر پيكرۀ متني محاسبه كرد.
8
شمارش كلمات در بسياري از كاربردها كلمات پرتكرارتر پيكره متني به عنوان مجموعه لغات (lexicon) انتخاب مي شوند. دو راه براي انتخاب كلمات پرتكرار: گذاشتن حد آستانه برروي تعداد كلمات انتخابي (مثلاً كلمۀ پركاربردتر) گذاشتن حد آستانه برروي فراواني كلمات (مثلاً انتخاب كلمات با فراواني بالاتر از 10( در بعضي از كاربردها مانند كاربردهاي بازيابي اطلاعات stop wordها معمولاً از ليست كلمات حذف مي شوند. بسته به كاربرد ممكن است فقط ريشۀ كلمات انتخابي را در lexicon قرار دهيم. علاوه بر كلمات پركاربرد، كلمات ديگري نيز بسته به نياز ممكن است در lexicon وارد شود.
9
مدل n-gram مدل n-gram: ساده ترين و پركاربردترين مدل زباني آماري
احتمال دنباله لغات W=w1w2…wm در حالت كلي: وقتي m بزرگ باشد، محاسبۀ احتمال فوق بسيار مشكل و در عمل غيرممكن است.
10
مدل n-gram در عمل تعداد كلمات قبلي به n-1 كلمه محدود مي شود و مدل حاصل n-gram ناميده مي شود. مقادير معمول n: بين 1 تا 5 n=1: monogram (unigram) n=2: bigram n=3: trigram n=4: quadrigram (4-gram) n=5: 5-gram
11
مدل n-gram براي n=1 (مدل monogram) براي n=3 (مدل trigram)
12
استخراج مدل n-gram مدل هاي n-gram با استفاده از شمارش دنبالۀ كلمات در يك پيكره متني بزرگ به دست مي آيند: ابتدا تمام انواع كلمات پيكره شمارش مي شود و يك lexicon شامل V كلمه از كلمات پركاربرد (و ساير كلمات موردنظر) تعيين مي گردد. ساير كلمات همگي با يك نماد مشخص به عنوان كلمه خارج از واژگان (OOV) جايگزين مي شوند. سپس پيكره از ابتدا تا انتها پيمايش شده و تمام تركيبات دوتايي، سه تايي، ... و nتايي از كلمات واژگان (و همچنين نماد OOV) شمارش مي شود.
13
استخراج مدل n-gram پس از شمارش تركيب هاي دوتايي، سه تايي و ... احتمالات n-gram محاسبه مي شوند. مدل monogram مدل bigram مدل trigram
14
استخراج مدل n-gram ماتريس شمارش هاي bigram ماتريس احتمالات bigram
15
استخراج مدل n-gram تعداد پارامترهاي مدل n-gram با افزايش n به طور نمايي رشد مي كند. تعداد پارامترهاي مدل bigram: V2 تعداد پارامترهاي مدل trigram: V3 تعداد پارامترهاي مدل n-gram: Vn معمولاً V از مرتبۀ چندهزار است بنابراين تعداد پارامترهاي مدل n-gram بسيار زياد است. در عمل بسياري از اين پارامترها صفر هستند، يعني دنباله كلمات مربوط به آنها در پيكره متني رخ نداده است. به دليل كم بودن حجم پيكره متني به دليل مجاز نبودن بعضي از دنباله هاي كلمات در زبان بنابراين نحوۀ ذخيرۀ مدل هاي n-gram در حافظۀ كامپيوتر به صورت ماتريس sparse مي باشد.
16
هموارسازي (Smoothing)
وجود احتمال هاي صفر در مدل n-gram محاسبات را در عمل با مشكل مواجه مي كند زيرا باعث مي شود احتمال بسياري از جمله هاي جديد برابر با صفر گردد. راه حل: استفاده از روش هاي هموارسازي يا smoothing روش هاي هموارسازي سعي مي كنند احتمال رخدادهاي ديده نشده را به نحوي تخمين بزنند.
17
هموارسازي ساده ترين روش هموارسازي: اضافه كردن عدد 1 به تمام شمارش ها (روش Add-One) روش Add-One روش مؤثري نيست چون تغيير زيادي در احتمالات غيرصفر مي دهد. روش هاي ديگر هموارسازي: استفاده از روش هاي تخفيف (discounting)
18
هموارسازي تخفيف (discounting)
به منظور هموارسازي، از شمارش هاي غيرصفر كاسته شده و برروي شمارش هاي صفر توزيع مي گردد. كاستن از شمارش هاي غيرصفر با استفاده از روش هاي تخفيف صورت مي گيرد. : شمارش اوليه r* : شمارش تخفيف داده شده dr : ضريب تخفيف
19
هموارسازي روش هاي تخفيف (discounting) Good-Turing خطي (linear)
مطلق (absolute)
20
هموارسازي توزيع شمارش هاي كسرشده برروي شمارش هاي صفر:
توزيع بايد طوري صورت گيرد كه مجموع احتمالات n-gram در هر سطر از ماتريس برابر با 1 گردد. توزيع شمارش هاي كسرشده از bigramها برروي شمارش هاي صفر با فرض اينكه P(wi|wi-1)=0 تخمين جديد P(wi|wi-1) به روش زير به دست مي آيد: β(w): مجموع احتمالات كاسته شده
21
هموارسازي عقب گرد (back off)
زماني كه يك n-gram وجود نداشته باشد سراغ n-gramهاي با درجة پايين تر مي رويم. روش عقب گرد Katz:
22
ارزيابي مدل هاي زباني سرگشتگي (perplexity):
ميانگين فاكتور انشعاب: تعداد كلمات ممكن بعد از هر كلمه به طور ميانگين مدل زباني قوي تر، سرگشتگي كمتري را نتيجه مي دهد. پيكره متني به دو بخش آموزش و آزمون تقسيم مي شود و سرگشتگي برروي مجموعه آزمون محاسبه مي گردد. سرگشتگي يك رشته از M كلمه: احتمال رشته كلمات از مدل n-gram به دست مي آيد.
23
ارزيابي مدل هاي زباني سرگشتگي يك رشته از M كلمه:
احتمال رشته كلمات از مدل n-gram به دست مي آيد. آنتروپي (entropy): معيار ديگر ارزيابي مدل هاي زباني روش ديگر ارزيابي مدل زباني: به كارگيري در سيستم بازشناسي گفتار پيوسته و ارزيابي ميزان خطاي بازشناسي
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.