עיבוד שפות טבעיות – שיעור שמיני מתייגים יעל נצר מדעי המחשב אוניברסיטת בן גוריון.

Slides:



Advertisements
Similar presentations
Completeness and Expressiveness. תזכורת למערכת ההוכחה של לוגיקה מסדר ראשון : אקסיומות 1. ) ) (( 2. )) ) (( )) ( ) ((( 3. ))) F( F( ( 4. ) v) ( ) v ((
Advertisements

כריית מידע -- Clustering
מבוא למדעי המחשב לתעשייה וניהול
צורה נורמלית של גרייבך הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 11.
הדרכה בשימוש בקטלוג הספרייה מפגש מס ' 2 תשס " ח. מטרת ההדרכה  איתור חומר מתוך הסילבוס  איתור חומר בנושא מבוקש.
כתיבת עבודת גמר מבנה העבודה  מבחינה צורנית - יש להקפיד על אחידות בכתיבה  כותרות אחידות  רווחים זהים, פונט בגודל אחיד (12, רווח וחצי)  הצגת.
מתמטיקה בדידה תרגול 3.
דקדוקים חסרי הקשר Word categories (part of speech): NNountable, dogs, justice, oil VVerbrun, climb, love, ignore ADJAdjective green, fast, angry ADVAdverbsquickly,
A. Frank File Organization קובץ ישיר מתקדם Advanced Direct File.
חורף - תשס " ג DBMS, Design1 שימור תלויות אינטואיציה : כל תלות פונקציונלית שהתקיימה בסכמה המקורית מתקיימת גם בסכמה המפורקת. מטרה : כאשר מעדכנים.
Na+ P-. הפוטנציאל האלקטרוכימי אנרגיה חופשית ל - 1 mole חומר. מרכיב חשמלי מרכיב כימי מרכיבי הפוטנציאל האלקטרוכימי של חומר X: המרכיב הכימי : RTlnC x R –
Bar Ilan Library System מערך הספריות והמידע של אוניברסיטת בר אילן הספרייה המרכזית ע”ש וורצוויילר. מדור ההדרכה חיפוש מתקדם.
עבודה סמינריונית Prelude to Ukkonen algorithm ON-LINE CONSTRUCTION OF SUFFIX TREES מגישים : עיד מוחמד טיבי פיראס.
אוטומט מחסנית הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 11.
חורף - תשס " ג DBMS, צורות נורמליות 1 צורה נורמלית שלישית - 3NF הגדרה : תהי R סכמה רלציונית ותהי F קבוצת תלויות פונקציונליות מעל R. R היא ב -3NF.
בהסתברות לפחות למצא בעיה במודל PAC עבור בהסתברות ε הפונקציה f טועה מודל ONLINE 1. אחרי כל טעות הפונקציה משתפרת 2. מספר הטעיות קטן.
מסדי נתונים תשס " ג 1 תכנון סכמות – אלגוריתם פירוק לתבניות בצורת BCNF מסדי נתונים.
עיבוד תמונות ואותות במחשב אלכסנדר ברנגולץ דואר אלקטרוני : שיטות קידוד שיטות קידוד אורך מלת קוד ואנטרופיה אורך מלת קוד ואנטרופיה קידוד.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
Copyright © 2008 Insight into Israel’s Economy האם הצמיחה התחדשה ברבעון 2/09? אולי התפתחויות עיקריות – אוגוסט 2009 התמ"ג גדל בשיעור שנתי.
תורת הקבוצות חלק ב'. קבוצה בת מניה הגדרה: קבוצה אינסופית X היא ניתנת למניה אם יש התאמה חד-חד ערכית בין X לבין .
צורות נורמליות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 10.
תכנות תרגול 6 שבוע : תרגיל שורש של מספר מחושב לפי הסדרה הבאה : root 0 = 1 root n = root n-1 + a / root n-1 2 כאשר האיבר ה n של הסדרה הוא קירוב.
1 חישוב ואופטימיזציה של שאילתות חלק 2 Query Evaluation and Optimization Part 2.
1 Formal Specifications for Complex Systems (236368) Tutorial #1 Course site : T.A. :Emilia Katz.
מנפה שגיאות - DEBUGGER מבוא למדעי המחשב (234114) רועי מלמד
Backpatching 1. תזכורת מתרגול קודם קוד ביניים - שפת הרביעיות שיטות לייצור קוד ביניים –שימוש בתכונת code –כתיבה ישירה ל-buffer של פקודות שיטות לתרגום מבני.
מודל ONLINE לומדמורה 1. כל ניתן לחישוב בזמן פולינומיאלי 2. אחרי מספר פולינומיאלי של טעיות ( ) הלומד לא טועה ז"א שווה ל- Littlestone 1988.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
עיבוד שפות טבעיות - שיעור רביעי Part of Speech Tagging עידו דגן המחלקה למדעי המחשב אוניברסיטת בר אילן.
ערכים עצמיים בשיטות נומריות. משוואה אופינית X מציין וקטור עצמי מציינת ערך עצמי תואם לוקטור.
תיוג באינטרנט: הכוח עובר למשתמש ד"ר ג'ני ברונשטיין כנס Multi ידע בפברואר 2008.
מבני בקרה לולאות. שאלה #1 שאלה ב' – תכתוב תוכנה הכותבת את תפריט הבאה Type 1 to find the area of a circle Type 2 to find the circumference of a circle.
טיב פני שטח (טפ"ש) טיב פני שטח- רמת החלקות של המשטח.
Data Structures, CS, TAU, Perfect Hashing 1 Perfect Hashing בעיה : נתונה קבוצה S של n מפתחות מתחום U השוואה ל - Hash : * טבלה קבועה (Hash רגיל - דינאמי.
Yehud Comprehensive High-School is a very large school. About 1,650 students learn there. It is an old school – it was founded in At this high-school.
אלכסנדר ברנגולץ דואר אלקטרוני: אלכסנדר ברנגולץ דואר אלקטרוני: פעולות מורפולוגיות.
1 Data Structures, CS, TAU, Perfect Hashing בעיה: נתונה קבוצה S של n מפתחות מתחום U השוואה ל- Hash : * טבלה קבועה (Hash רגיל - דינאמי) * רוצים זמן קבוע.
משטר דינמי – © Dima Elenbogen :14. הגדרת cd ו -pd cd - הזמן שעובר בין הרגע שראשון אותות הכניסה יוצא מתחום לוגי עד אשר אות המוצא יוצא מתחום.
מערכים עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר int grade1, grade2, …, grade20; int grade1, grade2, …, grade20;
עיבוד שפות טבעיות - שעור שלישי n-grams יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון.
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א מודל הלמידה מדוגמאות Learning.
עקרון ההכלה וההדחה.
יחס סדר חלקי.
תכנות מונחה עצמים Object Oriented Programming (OOP) אתגר מחזור ב' Templates תבניות.
שיעור 16 –ניתוח סמנטי יעל נצר מדעי המחשב.
תחשיב היחסים (הפרדיקטים)
מבוא למדעי המחשב, סמסטר א ', תשע " א תרגול מס ' 1 נושאים  הכרת הקורס  פסאודו - קוד / אלגוריתם 1.
Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה.
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א.
עיבוד שפות טבעיות – שיעור שישי Part of Speech taggers מדעי המחשב יעל נצר אוניברסיטת בן גוריון.
שיעור 17 –Lexical Semantics יעל נצר מדעי המחשב. Lexical Semantics – התחום העוסק במערכת מבוססת המשמעות של המילים. Lexeme – " כניסה בלקסיקון " שהוא אוסף.
Safari On-line books. מה זה ספארי ספארי זו ספריה וירטואלית בנושא מחשבים היא כוללת יותר מ כותרים כל הספרים הם בטקסט מלא ניתן לחפש ספר בנושא מסוים.
1 מבוא למדעי המחשב backtracking. 2 מוטיבציה בעיית n המלכות: נתון: לוח שחמט בגודל. המטרה: לסדר על הלוח n מלכות כך שאף אחת לא תאיים על השנייה. דוגמא: עבור.
Text to speech In Mobile Phones איתי לוי. הקדמה שימוש בהודעות טקסט על המכשירים הסלולארים היא דרך תקשורת מאוד פופולארית בימינו אשר משתמשים בה למטרות רבות,
11 Introduction to Programming in C - Fall 2010 – Erez Sharvit, Amir Menczel 1 Introduction to Programming in C תרגול
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
1 רשימות טיפוס נתונים מסוג רשימה (enumeration) הוא אוסף של שמות שהם הערכים האפשריים עבור טיפוס זה. enum היא מילה שמורה המגדירה טיפוס שכזה. הערכים מוגדרים.
1 ניתוח שונות: Post-hoc analysis ניתוח שונות חד-כיווני עם אפקטים קבועים: Post-hoc analysis ד"ר מרינה בוגומולוב מבוסס חלקית על ההרצאות של פרופ' יואב בנימיני.
או: למה ואיך לשווק ולמתג את הקורס שלכם
מספרים אקראיים ניתן לייצר מספרים אקראיים ע"י הפונקציה int rand(void);
מגישה: אפרת אלישע מרקו מרצה: לימור אלהרר
תירגול 14: מבני נתונים דינאמיים
פרוקטוז, C6H12O6 , חד-סוכר מיוחד
תיאוריית תכנון סכמות למסדי נתונים יחסיים חלק 4
Marina Kogan Sadetsky –
Present Simple הווה פשוט
תזכורת על מה דיברנו שיעור שעבר? בנינו אתר אינטרנט עם כותרות
Presentation transcript:

עיבוד שפות טבעיות – שיעור שמיני מתייגים יעל נצר מדעי המחשב אוניברסיטת בן גוריון

מתייגים Rule based Tagging- מבוססי חוקים קידוד ידני Transformation-based tagging Stochastic Tagging - הסתברותיים HMM Bayesian networks Maximum entropy

מתייגים מבוססי חוקים ארכיטקטורה בסיסית – two-stage – כבר מ -62 (Harris). בשלב הראשון, מתחוך הלקסיקון כל אחת מהמילים מתויגת ברשימת תגים אפשריים. בשלב השני התג הסופי מוכרע על פי חוקים לפתירת רב משמעות, כך שהתוצר הסופי הוא תג בודד. Voutilainen, 1995 במערכת ENGTWOL השתמש במערכת חוקים מורכבת יותר, ומשתמש גם ב -two level morphology ובמילון המכיל 56,000 כניסות, לכל כניסה pos אחד. בכל כניסה יש נתונים על התכונות המורפולוגיות והתחביריות.

Brill tagging – 1995 שילוב של rule-based ושיטות הסתברותיות. לכל מילה, ניתנת הסתברות לתגים האפשריים. המתייג הוא אוסף חוקים, שנלמדו בצורה אוטומטית מתוך אוסף של נתונים. הלימוד הוא supervised, ומניח קיום קורפוס מתויג. Transformation based tagging

איך זה עובד ? P(NN|race) = 0.98 P(VB|race)=0.02 בצעד הראשון, יתוייג המשפט לפי התג הסביר יותר : is/VBZ expected/VBN to/TO race/NN tomorrow the/DT race/NN for/IN outer/JJ space/NN אחרי הבחירה הראשונית של התג, המתייג מבצעה את הטרנפורמציות שלמד מהקורפוס – לדוגמא : Change NN to VN when the previous tag is TO החוק הזה יחליף את race/NN ב -race/VB

אלגוריתם הלימוד תיוג עם התג הכי סביר חזור עד תנאי העצירה : בדיקת כל טרנספורמציה אפשרית בחירת הטרנספורמציה שנותנת את התוצאות הטובות ביותר ( על ידי מדידת המרחק מהאמת ) תיוג מחדש על פי החוק הנבחר דורש ידיעת ה " תג הנכון " כלומר – למידה מכוונת - מומחה תוצאת הלמידה היא רשימה מסודרת של טרנספורמציות המהוות " פרוצדורת תיוג "

צמצום הטרנספורמציות האפשריות חוק אפשרי : " שנה NN ל -VB אם המילה הקודמת היא IBM או אם המילה the מופיעה בין 17 ל -158 מילים קודם." נעשה על ידי עיצוב קבוצת templates מצומצמת יותר. שתי הפרוצדורות העיקריות : Get_Best_Transformation בחירת התבנית המועדפת Get_Best_Instance בחירת התגים המתאימים לתבנית מתוך קבוצת התגים

1995 Brill רשימת התבניות The preceding (following) word is tagged z The word two before (after) is tagged z One of the two [three] preceding (following) words is tagged z The preceding word is tagged z and the following word is tagged w The preceding (following) word is tagged z and the word two before (after) is tagged w

לימוד unsupervised של בריל תנאי התחלה : לכל מילה, מהם חלקי הדיבר המתאימים לה. שלב ראשון : השמת תג אפשרי לכל מילה. מילה שלה יותר מתג אפשרי אחד – תקבל קב ' של תגים. איך אפשר ללמוד ? בעזרת מילים שלהם תג אחד יחיד. האלגוריתם שונה מחברו המפוקח בצורת המדידה של השיפור בטרנספורמציה.

קריטריון הניקוד בכל איטרציה, הניקוד לטרנספורמציה מבוסס על התיוג בסיבוב הנוכחי. כדי לנקד טרנספורמציה מסוג : Change the tag of a word from  to Y in context C, where Y   לכל תג   Z, Z  Y freq (Y)/freq(Z)*incotext(Z,C) כאשר freq(Y) הוא מספר ההופעות של מילה בתיוג חד משמעי עם תג Y בקורפוס, כנ " ל לגבי Z, ו - incotext(Z,C) היא מספר הפעמים שמילה בתיוג חד משמעי בתג Z הופיעה בהקשר C בקורפוס.

המשך - ניקוד יהי R = argmax z freq(Y)/freq(Z)*incotext(Z,C) הניקוד עבור החוק Change the tag of a word from  to Y in context C, where Y   הוא incotext(Y,C) – freq(Y)/freq(R)*incotext(R,C) כלומר : הפונקציה מודדת את ההפרש בין מספר ההופעות של התג Y באופן חד משמעי בהקשר C ובין מספר ההופעות של התג הכי סביר R, R  Y. הלימוד נפסק כאשר אין ניקוד חיובי לטרנספורמציות נוספות.

תוצאות – unsupervised TBL על PennTreebank – 120,000 מילים לאימון, 200,000 מילים לבדיקה : תוצאות התחלתיות : 90.7% תוצאות לאחר השמת טרנספורמציות : 95.1% 1,151 טרנספורמציות אפשר לשלב בין השניים : פאזה ראשונה בלימוד ללא מומחה, למידת רשימה של טרנספורמציות, ואז לימוד שלהן על טקסט מתויג להשגת תוצאות טובות יותר. היתרון : אפשר לעבוד על טקסט אימון גדול יותר מכיוון שחלקו מתויג וחלקו לא.

נושאים נוספים בתיוג מילים לא ידועות : שמות פרטיים, ראשי תיבות, מילים חדשות או זרות שאינן נמצאות במילון או שלא נצפו בקורפוס. אפשרויות : לתת לכל מילה לא ידועה את התגים כולם בהסתברות שווה. תפוצת התגים במילים לא ידועות שווה לתפוצת התגים בטקסט כללי. שיטת witten-bell – התפוצה בין המילים שנצפו פעם ראשונה בטקסט התסכלות בתכונות של המילים : מילה שמסתיימת ב —s היא NNS ואילו מילה שמסתיימת ב -ed יש לה הסתברות גבוהה להיות VBN. מילים שמתחילות באות גדולה הן כנראה NNP. בריל השתמש בחוקים דמויי הטרנספורמציות ללימוד תכונות אורטוגרפיות של המילים.