Presentation is loading. Please wait.

Presentation is loading. Please wait.

עיבוד שפות טבעיות – שיעור שמיני מתייגים יעל נצר מדעי המחשב אוניברסיטת בן גוריון.

Similar presentations


Presentation on theme: "עיבוד שפות טבעיות – שיעור שמיני מתייגים יעל נצר מדעי המחשב אוניברסיטת בן גוריון."— Presentation transcript:

1

2 עיבוד שפות טבעיות – שיעור שמיני מתייגים יעל נצר מדעי המחשב אוניברסיטת בן גוריון

3 מתייגים Rule based Tagging- מבוססי חוקים קידוד ידני Transformation-based tagging Stochastic Tagging - הסתברותיים HMM Bayesian networks Maximum entropy

4 מתייגים מבוססי חוקים ארכיטקטורה בסיסית – two-stage – כבר מ -62 (Harris). בשלב הראשון, מתחוך הלקסיקון כל אחת מהמילים מתויגת ברשימת תגים אפשריים. בשלב השני התג הסופי מוכרע על פי חוקים לפתירת רב משמעות, כך שהתוצר הסופי הוא תג בודד. Voutilainen, 1995 במערכת ENGTWOL השתמש במערכת חוקים מורכבת יותר, ומשתמש גם ב -two level morphology ובמילון המכיל 56,000 כניסות, לכל כניסה pos אחד. בכל כניסה יש נתונים על התכונות המורפולוגיות והתחביריות.

5 Brill tagging – 1995 שילוב של rule-based ושיטות הסתברותיות. לכל מילה, ניתנת הסתברות לתגים האפשריים. המתייג הוא אוסף חוקים, שנלמדו בצורה אוטומטית מתוך אוסף של נתונים. הלימוד הוא supervised, ומניח קיום קורפוס מתויג. Transformation based tagging

6 איך זה עובד ? P(NN|race) = 0.98 P(VB|race)=0.02 בצעד הראשון, יתוייג המשפט לפי התג הסביר יותר : is/VBZ expected/VBN to/TO race/NN tomorrow the/DT race/NN for/IN outer/JJ space/NN אחרי הבחירה הראשונית של התג, המתייג מבצעה את הטרנפורמציות שלמד מהקורפוס – לדוגמא : Change NN to VN when the previous tag is TO החוק הזה יחליף את race/NN ב -race/VB

7 אלגוריתם הלימוד תיוג עם התג הכי סביר חזור עד תנאי העצירה : בדיקת כל טרנספורמציה אפשרית בחירת הטרנספורמציה שנותנת את התוצאות הטובות ביותר ( על ידי מדידת המרחק מהאמת ) תיוג מחדש על פי החוק הנבחר דורש ידיעת ה " תג הנכון " כלומר – למידה מכוונת - מומחה תוצאת הלמידה היא רשימה מסודרת של טרנספורמציות המהוות " פרוצדורת תיוג "

8 צמצום הטרנספורמציות האפשריות חוק אפשרי : " שנה NN ל -VB אם המילה הקודמת היא IBM או אם המילה the מופיעה בין 17 ל -158 מילים קודם." נעשה על ידי עיצוב קבוצת templates מצומצמת יותר. שתי הפרוצדורות העיקריות : Get_Best_Transformation בחירת התבנית המועדפת Get_Best_Instance בחירת התגים המתאימים לתבנית מתוך קבוצת התגים

9 1995 Brill רשימת התבניות The preceding (following) word is tagged z The word two before (after) is tagged z One of the two [three] preceding (following) words is tagged z The preceding word is tagged z and the following word is tagged w The preceding (following) word is tagged z and the word two before (after) is tagged w

10 לימוד unsupervised של בריל תנאי התחלה : לכל מילה, מהם חלקי הדיבר המתאימים לה. שלב ראשון : השמת תג אפשרי לכל מילה. מילה שלה יותר מתג אפשרי אחד – תקבל קב ' של תגים. איך אפשר ללמוד ? בעזרת מילים שלהם תג אחד יחיד. האלגוריתם שונה מחברו המפוקח בצורת המדידה של השיפור בטרנספורמציה.

11 קריטריון הניקוד בכל איטרציה, הניקוד לטרנספורמציה מבוסס על התיוג בסיבוב הנוכחי. כדי לנקד טרנספורמציה מסוג : Change the tag of a word from  to Y in context C, where Y   לכל תג   Z, Z  Y freq (Y)/freq(Z)*incotext(Z,C) כאשר freq(Y) הוא מספר ההופעות של מילה בתיוג חד משמעי עם תג Y בקורפוס, כנ " ל לגבי Z, ו - incotext(Z,C) היא מספר הפעמים שמילה בתיוג חד משמעי בתג Z הופיעה בהקשר C בקורפוס.

12 המשך - ניקוד יהי R = argmax z freq(Y)/freq(Z)*incotext(Z,C) הניקוד עבור החוק Change the tag of a word from  to Y in context C, where Y   הוא incotext(Y,C) – freq(Y)/freq(R)*incotext(R,C) כלומר : הפונקציה מודדת את ההפרש בין מספר ההופעות של התג Y באופן חד משמעי בהקשר C ובין מספר ההופעות של התג הכי סביר R, R  Y. הלימוד נפסק כאשר אין ניקוד חיובי לטרנספורמציות נוספות.

13 תוצאות – unsupervised TBL על PennTreebank – 120,000 מילים לאימון, 200,000 מילים לבדיקה : תוצאות התחלתיות : 90.7% תוצאות לאחר השמת טרנספורמציות : 95.1% 1,151 טרנספורמציות אפשר לשלב בין השניים : פאזה ראשונה בלימוד ללא מומחה, למידת רשימה של טרנספורמציות, ואז לימוד שלהן על טקסט מתויג להשגת תוצאות טובות יותר. היתרון : אפשר לעבוד על טקסט אימון גדול יותר מכיוון שחלקו מתויג וחלקו לא.

14 נושאים נוספים בתיוג מילים לא ידועות : שמות פרטיים, ראשי תיבות, מילים חדשות או זרות שאינן נמצאות במילון או שלא נצפו בקורפוס. אפשרויות : לתת לכל מילה לא ידועה את התגים כולם בהסתברות שווה. תפוצת התגים במילים לא ידועות שווה לתפוצת התגים בטקסט כללי. שיטת witten-bell – התפוצה בין המילים שנצפו פעם ראשונה בטקסט התסכלות בתכונות של המילים : מילה שמסתיימת ב —s היא NNS ואילו מילה שמסתיימת ב -ed יש לה הסתברות גבוהה להיות VBN. מילים שמתחילות באות גדולה הן כנראה NNP. בריל השתמש בחוקים דמויי הטרנספורמציות ללימוד תכונות אורטוגרפיות של המילים.


Download ppt "עיבוד שפות טבעיות – שיעור שמיני מתייגים יעל נצר מדעי המחשב אוניברסיטת בן גוריון."

Similar presentations


Ads by Google