(C) סיון טל 1 גילוי מידע וזיהוי תבניות תרגול מס. 7 מודל הערבוב אלגוריתם EM בעיית תדירות - 0 בשערוך ML שיטות לפתרון בעיית תדירות - 0
2 מודל ערבוב Mixture model מניחים כי המודל בנוי מתערובת של מודלים שונים, שלכל אחד מהם פרמטרים חבויים. אנחנו רואים רק את הנתונים, ולא רואים את הערבוב ( כלומר, לא מבחינים בין המקורות השונים של הנתונים ). מדובר בלמידה לא מונחית (unsupervised learning) שבה הדוגמאות לא מתויגות, ואנחנו מוצאים לבד את התיוג.
3 אלגוריתם EM רוצים לשערך קבוצת פרמטרים המתארים את המודל, בהינתן קבוצת נתונים נצפים. הבעיה : יש נתונים חבויים. נסמן : - קבוצת הנתונים הנצפים - קבוצת הנתונים החבויים - קבוצת הנתונים המלאה. הנתונים החבויים ( כמו גם הנצפים ) תלויים ב -. מטרת האלגוריתם : מציאת משערך נראות מירבית ל - :
4 נסתמך על השוויון : שממנו נובע : ניקח תוחלת לפי עבור כלשהו : ( אגף שמאל לא משתנה.) המטרה היא למקסם את הביטוי (maximum likelihood).
5 האלגוריתם : בהרצאה הוכח כי אנו מקבלים פונקציה מונוטונית עולה :
6 דוגמה לשימוש ב -EM נניח כי מקבלים תצפיות שבאות משתי התפלגויות נורמליות (k=2) אשר רק הממוצעים שלהן לא ידועים. ידועות גם ההתפלגויות הא - פריוריות המטרה : לחשב את אשר מתאר את הממוצעים בהתאמה מקסימלית לנתונים (ML). הנתונים הנראים : הנתונים החבויים :
7 הנתונים המלאים : תזכורת : כעת נחשב את שלב ה -E באלגוריתם :
8 ועבור כל אוסף הנתונים המלא : מחושב לפי המשערך הנוכחי והתצפיות הנתונות, כפי שנראה להלן.
9 נשים לב שבחישוב נעבוד עם בעוד ש - שייך ל -.
10 כעת נבצע את שלב ה -M: כזכור : כאשר נלקח ביחס ל -. כדי למצוא את המינימום, נגזור את הביטוי לפי, נשווה לאפס ונקבל : הוא התוחלת של המדגם, ממושקלת לפי ההסתברות ש - בא ממודל.
11 בעיית תדירות - 0 בשערוך ML בתרגיל הבית נתקלנו בבעיה : מה עושים אם נתקלים בתו שלא הופיע בקובץ האימון ? כאשר הא ” ב מכיל כמה עשרות תווים וקבוצת האימון מכילה עשרות אלפי תווים, הבעיה קלה יחסית. מה יקרה אם נרצה לשערך הסתברויות של n- יות ? של מלים ?? של n- יות של מלים ??? כאשר הא ” ב גדל באופן דרסטי כמו בשפות טבעיות, אין לנו משאבים שיוכלו לנטרל את בעיית תדירות - 0.
12 לצורך הדיון נתרכז מכאן והלאה בסיווג טקסט ע ” י שערוך נראות מירבית של n- יות של מלים. בעיבוד שפות טבעיות ( למשל ) יש מגמה להגדיל את n כדי לשמר הקשר. לדוגמה : נסתכל על המשפט “ ___ Sue swallowed the large green” המלים pill ו -frog הן המשכים סבירים, אך tree ו -car אינן, אם - כי הן סבירות אם נתחשב רק בשלשות של מלים. מצד שני, עם אוצר מלים של M מלים, שימוש ב n- יות יוצר מרחב מדגם בגודל - כלומר, מרחב המדגם גדל אקספוננציאלית ב -n. מרחב מדגם גדול יוצר בעיה של תדירות -0.
13 דוגמה : אחרי מעבר על 1.5 מליון מלים מתוך IBM Laser Patent Text, 23% מהשלשות של מלים בהמשך הטקסט הופיעו בפעם הראשונה. (Bahl 1983) המסקנה : לא ניתן להניח כי בעיית תדירות -0 ניתנת לפתרון מעשי ע ” י הגדלה של קובץ האימון עד לגודל הנדרש. נראה שיטות שונות לפתרון הבעיה. השיטות נותנות נראות > 0 לאירועים שלא נצפו בקבוצת האימון, על חשבון הנראות של אירועים נצפים. נזכור כי סה ” כ הנראות של כל האירועים במרחב המדגם צריך להסתכם ל -1.
14 משערך ML מוגדר באופן הבא : הגדרות :
15 כלל ההמשכיות של לפלס Laplace law of succession לפי חוק לפלס, גם לאירועים שטרם נצפו יש נראות > 0 למעשה, חוק לפלס (1775) הוא בדיוק המשערך הבייסיאני, תחת הנחת הסתברות א - פריורית שווה לכל האירועים. בדוגמת “ ההסתברות שהשמש תזרח מחר ” מההרצאה :
16 החסרון של שיטת לפלס השיטה תלויה בגודל מרחב המדגם (k). כאשר מרחב המדגם גדול ביחס לגודל המדגם, הנוסחה נותנת יותר מידי נראות לאירועים שלא נצפו. דוגמה : בעבודה של Church & Gale מ נלקח סט של 44 מליון מלים מתוך Associated Press newswire שהכיל 400,653 מלים שונות. הם עבדו עם זוגות של מלים, ולכן היה להם מרחב מדגם בגודל מלים. חצי מהטקסט שימש כקבוצת האימון. בחישוב לפי נוסחת לפלס, 46.5% (!) ממרחב הנראות ניתן לאירועים שלא נצפו בקבוצת האימון. הטבלה הבאה ממחישה את התוצאות...
17 כדי לקבל את ההסתברות - צריך לחלק את ב -
18 כל אירוע שלא נצפה קיבל הסתברות קטנה מאוד, אבל מכיוון שהיו כל - כך הרבה כאלה - הם תפסו 46.5 % מסה ” כ הנראות ! חישוב מהיר מראה שההסתברות שהנוסחה נותנת לאירוע שלא נצפה היא קטנה באופן “ אסטרונומי ” … אז למה אירועים בלתי נצפים תופסים 46.5% מהנראות הכוללת ?