Presentation is loading. Please wait.

Presentation is loading. Please wait.

עיבוד שפות טבעיות - שעור שלישי n-grams יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון.

Similar presentations


Presentation on theme: "עיבוד שפות טבעיות - שעור שלישי n-grams יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון."— Presentation transcript:

1 עיבוד שפות טבעיות - שעור שלישי n-grams יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון

2 מה תהיה המילה הבאה ? I ’ d like to make a collect …. ניחוש של המילה הבאה הוא לא ' מופלא ' כל כך ובמידה מסויימת ניתן לצפייה.

3 למה זה נחוץ ? Word prediction in AAC ( תקשורת תומכת וחליפית ) זיהוי קול זיהוי כתב יד זיהוי טעויות כתיב

4 הקושי הקלט הוא ' רועש ' Noisy ורב משמעי צפייה במילה הקודמת נותן לנו מידע חשוב על הדבר הבא שבו נצפה.

5 Word prediction in AAC למשל, סטיבן הוקינג – משתמשים במערכות תקשורת אלטרנטיביות כל פעולה ' הקשה ' במחשב היא פעולה ' יקרה ' ואפילו קשה מבחינה פיסית

6 זיהוי טעויות כתיב They are leaving in about fifteen minuets to go to her house. He is trying to fine out. יש מספר אלגוריתמים ללמידה אוטומטית לזיהוי טעויות כתיב על פי סביבתן ותכונות נוספות – Context sensitive spelling error correction.

7 זיהוי וחישוב של רצף מילים ההסתברות שמקבל רצף של מילים למשל The man ate his apple and was very satisfied ההסתברות שונה מאפס ואילו עבור רצף המילים Man his ate the was very apple satisfied ההסתברות מאוד נמוכה

8 N-grams המודל שמשותף לכל הבעיות הנ " ל נקרא N-gram והוא המודל המשתמש ב -N-1 מילים הקודמות כדי לצפות את המילה הבאה. בזיהוי קול משתמשים במושג Language Model נשתמש בהקשר הזה לחילופין במושגים LM או דקדוק grammar.

9 ספירת מילים בקורפוס הסתברות מבוססת על מנייה של דברים. מה הם הדברים שסופרים בהקשר שלנו ? עיבוד שפות טבעיות מבוסס הרבה על קורפוס – מאגרים זמינים של טקסטים ודיבור. קורפוס לדוגמא – Brown corpus מכיל מיליון מילים מתוך 500 מאמרים, מז ' אנרים שונים. נבנה ב -4-1963 מאז נבנו קורפוסים גדולים יותר ומגוונים ( ונדבר עליהם בהמשך )

10 מה סופרים בקורפוס He stepped into the hall, was delighted to encounter a water bother. 13 מילים, לא כולל סימני פיסוק יש משימות בהן יש חשיבות לסימני הפיסוק ( למשל – בדיקת תחביר, זיהוי הכותב )

11 ומה כן נחשב מילה They – they אותה מילה ? ברוב המקרים כן Cats – cat אותה מילה ? תלוי באפליקציה בד " כ משתמשים במושג wordform – שהוא המילה כפי שהיא מופיעה בטקסט ( עם הטיותיה ). לעיתים רוצים להחשיב שתיהן כמילה אחת ואז מתייחסים ל -lemma הלמה היא אוסף הצורות הלקסיקליות עבורן אותו stem, אותו חלק דיבר ואותה משמעות word-sense

12 Types vs. Tokens Types מתייחס למספר המילים השונות זו מזו בקורפוס כלומר מספר ה -types הוא בעצם גודל ה - vocabulary אוצר המילים Tokens – מתייחס למספר המילים בסך הכל, המופעים שלהם בטקסט. They picnicked by the pool, then lay back on the grass and looked at the stars. 16 tokens ו -14 types.

13 ב -Brown corpus יש 61,805 wordform types ו - 37,851 lemma types מילונים הם דרך טובה ללמוד על מספר המילים – ה types למרות שמילונים לא מכילים הטיות של המילה. במילון יש בערך 200,000 מילים, שזה מספר שהוא גדול ממספר הלמות, גם בגלל שהוא מכיל צירופי מילים.

14 חישוב תפוצת מילים בטקסט – תוכנית פשוטה ביוניקס http://www.cs.bgu.ac.il/~yaeln/nlp02/ unixtools.html


Download ppt "עיבוד שפות טבעיות - שעור שלישי n-grams יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון."

Similar presentations


Ads by Google