In the name of God Language Modeling Mohammad Bahrani Feb 2011.

Slides:



Advertisements
Similar presentations
Chapter 6: Statistical Inference: n-gram Models over Sparse Data
Advertisements

Language Modeling: Ngrams
1 CS 388: Natural Language Processing: N-Gram Language Models Raymond J. Mooney University of Texas at Austin.
Language Modeling.
N-Grams and Corpus Linguistics 6 July Linguistics vs. Engineering “But it must be recognized that the notion of “probability of a sentence” is an.
N-gram model limitations Important question was asked in class: what do we do about N-grams which were not in our training corpus? Answer given: we distribute.
Albert Gatt Corpora and Statistical Methods – Lecture 7.
SI485i : NLP Set 4 Smoothing Language Models Fall 2012 : Chambers.
Smoothing Techniques – A Primer
Smoothing N-gram Language Models Shallow Processing Techniques for NLP Ling570 October 24, 2011.
CS 4705 N-Grams and Corpus Linguistics Julia Hirschberg CS 4705.
N-Grams and Corpus Linguistics.  Regular expressions for asking questions about the stock market from stock reports  Due midnight, Sept. 29 th  Use.
Advanced AI - Part II Luc De Raedt University of Freiburg WS 2004/2005 Many slides taken from Helmut Schmid.
N-Grams and Corpus Linguistics
N-Gram Language Models CMSC 723: Computational Linguistics I ― Session #9 Jimmy Lin The iSchool University of Maryland Wednesday, October 28, 2009.
Smoothing Bonnie Dorr Christof Monz CMSC 723: Introduction to Computational Linguistics Lecture 5 October 6, 2004.
N-gram model limitations Q: What do we do about N-grams which were not in our training corpus? A: We distribute some probability mass from seen N-grams.
LING 438/538 Computational Linguistics Sandiway Fong Lecture 20: 11/8.
1 Language Model (LM) LING 570 Fei Xia Week 4: 10/21/2009 TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AAAAAA A A.
1 Smoothing LING 570 Fei Xia Week 5: 10/24/07 TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AAA A A AA A A A.
Part 5 Language Model CSE717, SPRING 2008 CUBS, Univ at Buffalo.
Language Model. Major role: Language Models help a speech recognizer figure out how likely a word sequence is, independent of the acoustics. A lot of.
CS 4705 N-Grams and Corpus Linguistics. Homework Use Perl or Java reg-ex package HW focus is on writing the “grammar” or FSA for dates and times The date.
LING 438/538 Computational Linguistics Sandiway Fong Lecture 19: 10/31.
LING 438/538 Computational Linguistics Sandiway Fong Lecture 18: 10/26.
CS 4705 N-Grams and Corpus Linguistics. Spelling Correction, revisited M$ suggests: –ngram: NorAm –unigrams: anagrams, enigmas –bigrams: begrimes –trigrams:
Language Models Data-Intensive Information Processing Applications ― Session #9 Nitin Madnani University of Maryland Tuesday, April 6, 2010 This work is.
SI485i : NLP Set 3 Language Models Fall 2012 : Chambers.
1 Advanced Smoothing, Evaluation of Language Models.
Multi-Style Language Model for Web Scale Information Retrieval Kuansan Wang, Xiaolong Li and Jianfeng Gao SIGIR 2010 Min-Hsuan Lai Department of Computer.
Lecture 1, 7/21/2005Natural Language Processing1 CS60057 Speech &Natural Language Processing Autumn 2007 Lecture 7 8 August 2007.
Heshaam Faili University of Tehran
1 CS 552/652 Speech Recognition with Hidden Markov Models Winter 2011 Oregon Health & Science University Center for Spoken Language Understanding John-Paul.
Chapter 6: Statistical Inference: n-gram Models over Sparse Data
Chapter 6: N-GRAMS Heshaam Faili University of Tehran.
Chapter6. Statistical Inference : n-gram Model over Sparse Data 이 동 훈 Foundations of Statistic Natural Language Processing.
Statistical NLP Winter 2009 Lecture 2: Language Models Roger Levy 多謝 to Dan Klein, Jason Eisner, Joshua Goodman, Stan Chen.
Language Modeling 1. Roadmap (for next two classes)  Review LMs  What are they?  How (and where) are they used?  How are they trained?  Evaluation.
LING 388: Language and Computers Sandiway Fong Lecture 27: 12/6.
Lecture 4 Ngrams Smoothing
Chapter 23: Probabilistic Language Models April 13, 2004.
LING/C SC/PSYC 438/538 Lecture 22 Sandiway Fong. Last Time Gentle introduction to probability Important notions: –sample space –events –rule of counting.
Statistical NLP Winter 2009
Introduction to N-grams Language Modeling. Dan Jurafsky Probabilistic Language Models Today’s goal: assign a probability to a sentence Machine Translation:
Natural Language Processing Statistical Inference: n-grams
Maximum Entropy techniques for exploiting syntactic, semantic and collocational dependencies in Language Modeling Sanjeev Khudanpur, Jun Wu Center for.
Statistical NLP Spring 2011 Lecture 3: Language Models II Dan Klein – UC Berkeley TexPoint fonts used in EMF. Read the TexPoint manual before you delete.
N-Gram Model Formulas Word sequences Chain rule of probability Bigram approximation N-gram approximation.
Language Modeling Part II: Smoothing Techniques Niranjan Balasubramanian Slide Credits: Chris Manning, Dan Jurafsky, Mausam.
Language Model for Machine Translation Jang, HaYoung.
Statistical Methods for NLP
N-Grams Chapter 4 Part 2.
CSC 594 Topics in AI – Natural Language Processing
Speaker : chia hua Authors : Long Qin, Ming Sun, Alexander Rudnicky
Chapter 11 Language Modeling
CSCI 5832 Natural Language Processing
N-Grams and Corpus Linguistics
Neural Language Model CS246 Junghoo “John” Cho.
N-Grams and Corpus Linguistics
Language-Model Based Text-Compression
Lecture 7 HMMs – the 3 Problems Forward Algorithm
CSCE 771 Natural Language Processing
Presented by Wen-Hung Tsai Speech Lab, CSIE, NTNU 2005/07/13
Chapter 6: Statistical Inference: n-gram Models over Sparse Data
CSCE 771 Natural Language Processing
Introduction to Text Analysis
Language model using HTK
Introduction to N-grams
Statistical NLP Winter 2009
Presentation transcript:

In the name of God Language Modeling Mohammad Bahrani Feb 2011

مدل سازي زباني (Language Modeling) مدل زباني نحوۀ رخداد توالي كلمات در زبان را مدل‌سازي مي كند. مدل زباني: آماري ساختاري مدل زباني آماري به يك دنباله از كلمات زبان مانند W=w1w2…wm يك احتمال P(W) نسبت مي دهد. It must be recognized that the notion “probability of a sentence” is an entirely useless one, under any known interpretation of this term. (Noam Chomsky) مدل زباني ساختاري با استفاده از يك سري قواعد زباني نحوه توالي لغات را مشخص مي كند.

مدل سازي زباني سطوح مختلف مدل سازي زباني كاربردهاي مدل زباني واژگاني محلي نحوي معنايي كاربردهاي مدل زباني پيش بيني كلمات بازشناسي گفتار درك زبان طبيعي ترجمة ماشيني بازشناسي نويسه‌هاي نوري ...

شمارش كلمات معمولاً اولين قدم در مدل سازي آماري زبان، شمارش انواع كلمات در يك پيكره متني مي باشد. پيكره متني: مجموعه اي بزرگ از متون مختلف كه از منابع گوناگون گردآوري شده اند. تعداد كل كلمات (word tokens) در پيكره هاي متني در حد چند صد ميليون تعداد انواع كلمات (word types) در حد چند صد هزار يا چند ميليون (بسته به نوع متون) قبل از شمارش كلمات معمولاً پيكره متني بايد قطعه بندي و نرمال سازي شود.

شمارش كلمات شمارش كلمات: تعيين انواع word typeها در پيكره متني و تعداد رخداد هر يك از آنها با يك بار پيمايش پيكره متني مي توان تعداد انواع كلمات (word typeها) را در پيكره متني شمارش كرد. در يك پيكرۀ متني بزرگ از متون واقعي معمولاً تعداد كمي از كلمات با فراواني بالا و تعداد زيادي از كلمات با فراواني پايين رخ مي دهند. معمولاً stop wordها بيشترين فراواني را در پيكره متني دارند.

شمارش كلمات: قانون Zipf قانون Zipf (Zipf’s law): كلمات موجود در پيكره متني را برحسب فراواني (از بيشتر به كمتر) مرتب مي كنيم و به ترتيب به آنها رتبه (rank) 1 تا N مي دهيم. Zipf مشاهده كرد كه بين فراواني كلمات و رتبۀ آنها يك تناسب معكوس وجود دارد. f(w): فراواني كلمه w z(w): رتبه كلمه w ‍C و a: مقادير ثابت (پارامترهاي مدل(

شمارش كلمات: قانون Zipf بين لگاريتم فراواني و لگاريتم رتبه رابطۀ خطي وجود دارد. پارامترهاي C و a را مي توان براي هر پيكرۀ متني محاسبه كرد.

شمارش كلمات در بسياري از كاربردها كلمات پرتكرارتر پيكره متني به عنوان مجموعه لغات (lexicon) انتخاب مي شوند. دو راه براي انتخاب كلمات پرتكرار: گذاشتن حد آستانه برروي تعداد كلمات انتخابي (مثلاً 10000 كلمۀ پركاربردتر) گذاشتن حد آستانه برروي فراواني كلمات (مثلاً انتخاب كلمات با فراواني بالاتر از 10( در بعضي از كاربردها مانند كاربردهاي بازيابي اطلاعات stop wordها معمولاً از ليست كلمات حذف مي شوند. بسته به كاربرد ممكن است فقط ريشۀ كلمات انتخابي را در lexicon قرار دهيم. علاوه بر كلمات پركاربرد، كلمات ديگري نيز بسته به نياز ممكن است در lexicon وارد شود.

مدل n-gram مدل n-gram: ساده ترين و پركاربردترين مدل زباني آماري احتمال دنباله لغات W=w1w2…wm در حالت كلي: وقتي m بزرگ باشد، محاسبۀ احتمال فوق بسيار مشكل و در عمل غيرممكن است.

مدل n-gram در عمل تعداد كلمات قبلي به n-1 كلمه محدود مي شود و مدل حاصل n-gram ناميده مي شود. مقادير معمول n: بين 1 تا 5 n=1: monogram (unigram) n=2: bigram n=3: trigram n=4: quadrigram (4-gram) n=5: 5-gram

مدل n-gram براي n=1 (مدل monogram) براي n=3 (مدل trigram)

استخراج مدل n-gram مدل هاي n-gram با استفاده از شمارش دنبالۀ كلمات در يك پيكره متني بزرگ به دست مي آيند: ابتدا تمام انواع كلمات پيكره شمارش مي شود و يك lexicon شامل V كلمه از كلمات پركاربرد (و ساير كلمات موردنظر) تعيين مي گردد. ساير كلمات همگي با يك نماد مشخص به عنوان كلمه خارج از واژگان (OOV) جايگزين مي شوند. سپس پيكره از ابتدا تا انتها پيمايش شده و تمام تركيبات دوتايي، سه تايي، ... و nتايي از كلمات واژگان (و همچنين نماد OOV) شمارش مي شود.

استخراج مدل n-gram پس از شمارش تركيب هاي دوتايي، سه تايي و ... احتمالات n-gram محاسبه مي شوند. مدل monogram مدل bigram مدل trigram

استخراج مدل n-gram ماتريس شمارش هاي bigram ماتريس احتمالات bigram

استخراج مدل n-gram تعداد پارامترهاي مدل n-gram با افزايش n به طور نمايي رشد مي كند. تعداد پارامترهاي مدل bigram: V2 تعداد پارامترهاي مدل trigram: V3 تعداد پارامترهاي مدل n-gram: Vn معمولاً V از مرتبۀ چندهزار است بنابراين تعداد پارامترهاي مدل n-gram بسيار زياد است. در عمل بسياري از اين پارامترها صفر هستند، يعني دنباله كلمات مربوط به آنها در پيكره متني رخ نداده است. به دليل كم بودن حجم پيكره متني به دليل مجاز نبودن بعضي از دنباله هاي كلمات در زبان بنابراين نحوۀ ذخيرۀ مدل هاي n-gram در حافظۀ كامپيوتر به صورت ماتريس sparse مي باشد.

هموارسازي (Smoothing) وجود احتمال هاي صفر در مدل n-gram محاسبات را در عمل با مشكل مواجه مي كند زيرا باعث مي شود احتمال بسياري از جمله هاي جديد برابر با صفر گردد. راه حل: استفاده از روش هاي هموارسازي يا smoothing روش هاي هموارسازي سعي مي كنند احتمال رخدادهاي ديده نشده را به نحوي تخمين بزنند.

هموارسازي ساده ترين روش هموارسازي: اضافه كردن عدد 1 به تمام شمارش ها (روش Add-One) روش Add-One روش مؤثري نيست چون تغيير زيادي در احتمالات غيرصفر مي دهد. روش هاي ديگر هموارسازي: استفاده از روش هاي تخفيف (discounting)

هموارسازي تخفيف (discounting) به منظور هموارسازي، از شمارش هاي غيرصفر كاسته شده و برروي شمارش هاي صفر توزيع مي گردد. كاستن از شمارش هاي غيرصفر با استفاده از روش هاي تخفيف صورت مي گيرد. : شمارش اوليه r* : شمارش تخفيف داده شده dr : ضريب تخفيف

هموارسازي روش هاي تخفيف (discounting) Good-Turing خطي (linear) مطلق (absolute)

هموارسازي توزيع شمارش هاي كسرشده برروي شمارش هاي صفر: توزيع بايد طوري صورت گيرد كه مجموع احتمالات n-gram در هر سطر از ماتريس برابر با 1 گردد. توزيع شمارش هاي كسرشده از bigramها برروي شمارش هاي صفر با فرض اينكه P(wi|wi-1)=0 تخمين جديد P(wi|wi-1) به روش زير به دست مي آيد: β(w): مجموع احتمالات كاسته شده

هموارسازي عقب گرد (back off) زماني كه يك n-gram وجود نداشته باشد سراغ n-gramهاي با درجة پايين تر مي رويم. روش عقب گرد Katz:

ارزيابي مدل هاي زباني سرگشتگي (perplexity): ميانگين فاكتور انشعاب: تعداد كلمات ممكن بعد از هر كلمه به طور ميانگين مدل زباني قوي تر، سرگشتگي كمتري را نتيجه مي دهد. پيكره متني به دو بخش آموزش و آزمون تقسيم مي شود و سرگشتگي برروي مجموعه آزمون محاسبه مي گردد. سرگشتگي يك رشته از M كلمه: احتمال رشته كلمات از مدل n-gram به دست مي آيد.

ارزيابي مدل هاي زباني سرگشتگي يك رشته از M كلمه: احتمال رشته كلمات از مدل n-gram به دست مي آيد. آنتروپي (entropy): معيار ديگر ارزيابي مدل هاي زباني روش ديگر ارزيابي مدل زباني: به كارگيري در سيستم بازشناسي گفتار پيوسته و ارزيابي ميزان خطاي بازشناسي