עיבוד שפות טבעיות - שעור שלישי n-grams יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון.

Slides:



Advertisements
Similar presentations
ממיבחניםC שאלות ++.
Advertisements

מבוא למדעי המחשב לתעשייה וניהול
בתרגול הקודם הורשה: –ניתן להרחיב רק מחלקה אחת –כל מה שלא private – עובר בהורשה –המילה השמורה super –יצירת היררכיה –Object היא שורש ההיררכיה –דריסה אופרטור.
1 Formal Specifications for Complex Systems (236368) Tutorial #4 Refinement in Z: data refinement; operations refinement; their combinations.
חיפוש בינה מלאכותית אבי רוזנפלד. סוגי חיפוש כלליים UNINFORMED SEARCH -- חיפושים לא מיודעים במרחי מצבים – BFS – DFS INFORMED SEARCH – חיפושים מיודעים –
עיבוד שפות טבעיות – שיעור שמיני מתייגים יעל נצר מדעי המחשב אוניברסיטת בן גוריון.
אלכסנדר ברנגולץ מסננים דו-ממדים מסננים דו-ממדים קונוולוציה גרפית קונוולוציה גרפית קונוולוציה בשני ממדים ( כולל גרפית ) קונוולוציה בשני ממדים ( כולל גרפית.
הדרכה בשימוש בקטלוג הספרייה מפגש מס ' 2 תשס " ח. מטרת ההדרכה  איתור חומר מתוך הסילבוס  איתור חומר בנושא מבוקש.
היכרות עם אקסל 1. 2 נושאי המפגש היכרות עם אקסל – אלכסוני הקסם שימושים בהוראה: מחשבון סודי ופעילות לחנוכה שימושים נוספים: ממוצע.
המצגת על אלישע נוצרה בזכות נער צעיר מכתה ד ’. שלאחר קריאת הספר, בקש לעלות על קברו של אלישע. בהתרגשות רבה ספר לנו על הביקור. בזכותו חפשנו באתר הנופלים,
דקדוקים חסרי הקשר Word categories (part of speech): NNountable, dogs, justice, oil VVerbrun, climb, love, ignore ADJAdjective green, fast, angry ADVAdverbsquickly,
חורף - תשס " ג DBMS, Design1 שימור תלויות אינטואיציה : כל תלות פונקציונלית שהתקיימה בסכמה המקורית מתקיימת גם בסכמה המפורקת. מטרה : כאשר מעדכנים.
תרגול 5 רקורסיות. רקורסיה קריאה של פונקציה לעצמה –באופן ישיר או באופן עקיף היתרון : תכנות של דברים מסובכים נעשה ברור ונוח יותר, מכיוון שזו למעשה צורת.
מה החומר למבחן ? כל החומר שנלמד בהרצאות ובתרגולים. לגבי backtracking: לא תידרשו לממש אלגוריתם, אך כן להבין או להשלים מימוש נתון. אחת משאלות המבחן מבוססת.
אוטומט מחסנית הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 11.
הכנת המצגת: מוטי בן ארי ומיכל סמואל המחלקה להוראת המדעים, מכון ויצמן למדע ©
חורף - תשס " ג DBMS, צורות נורמליות 1 צורה נורמלית שלישית - 3NF הגדרה : תהי R סכמה רלציונית ותהי F קבוצת תלויות פונקציונליות מעל R. R היא ב -3NF.
1 Formal Specifications for Complex Systems (236368) Tutorial #5 Refinement in Z: data refinement; operations refinement; their combinations.
בהסתברות לפחות למצא בעיה במודל PAC עבור בהסתברות ε הפונקציה f טועה מודל ONLINE 1. אחרי כל טעות הפונקציה משתפרת 2. מספר הטעיות קטן.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
עיבוד שפות טבעיות - שיעור ראשון
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
מבוא כללי למדעי המחשב תרגול 3. לולאות while לולאות while while (condition) { loop body } במקרה של קיום התנאי מתבצע גוף הלולאה ברגע שהתנאי לא מתקיים נצא.
עיבוד שפות טבעיות – שיעור חמישי N-grams with smoothings יעל נצר מדעי המחשב אוניברסיטת בן גוריון.
טיב פני שטח (טפ"ש) טיב פני שטח- רמת החלקות של המשטח.
אלכסנדר ברנגולץ דואר אלקטרוני: אלכסנדר ברנגולץ דואר אלקטרוני: פעולות מורפולוגיות.
מערכים עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר int grade1, grade2, …, grade20; int grade1, grade2, …, grade20;
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א מודל הלמידה מדוגמאות Learning.
עקרון ההכלה וההדחה.
מבוא למדעי המחשב תרגול 3 שעת קבלה : יום שני 11:00-12:00 דוא " ל :
תחשיב היחסים (הפרדיקטים)
מבוא למדעי המחשב, סמסטר א ', תשע " א תרגול מס ' 1 נושאים  הכרת הקורס  פסאודו - קוד / אלגוריתם 1.
Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה.
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א.
עיבוד שפות טבעיות – שיעור שישי Part of Speech taggers מדעי המחשב יעל נצר אוניברסיטת בן גוריון.
תורת הקומפילציה הרצאה 2 ניתוח לקסיקלי Wilhelm, and Maurer – Chapter 7 Aho, Sethi, and Ullman – Chapter 3 Cooper and Torczon – Chapter 2.
שיעור 17 –Lexical Semantics יעל נצר מדעי המחשב. Lexical Semantics – התחום העוסק במערכת מבוססת המשמעות של המילים. Lexeme – " כניסה בלקסיקון " שהוא אוסף.
מתמטיקה בדידה תרגול 2.
1 מבוא למדעי המחשב סיבוכיות. 2 סיבוכיות - מוטיבציה סידרת פיבונאצ'י: long fibonacci (int n) { if (n == 1 || n == 2) return 1; else return (fibonacci(n-1)
Safari On-line books. מה זה ספארי ספארי זו ספריה וירטואלית בנושא מחשבים היא כוללת יותר מ כותרים כל הספרים הם בטקסט מלא ניתן לחפש ספר בנושא מסוים.
1 Formal Specifications for Complex Systems (236368) Tutorial #3 Z introduction and notation (contd.); Birthday book example (Chapter 1 in the book)
Text to speech In Mobile Phones איתי לוי. הקדמה שימוש בהודעות טקסט על המכשירים הסלולארים היא דרך תקשורת מאוד פופולארית בימינו אשר משתמשים בה למטרות רבות,
6. N-GRAMs 부산대학교 인공지능연구실 최성자. 2 Word prediction “I’d like to make a collect …” Call, telephone, or person-to-person -Spelling error detection -Augmentative.
Kashrut is a mitzvah in the Torah and has been passed on through generations. Kashrut is a chok. this means that we don’t know why we do it but we.
The Simple Past What?When?How? ©MJH_teacher. MJH_teacher Read the following texts. Pay special attention to the form of the verbs.
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
תכנות אסינכרוני, תקשורת ופיתוח אפליקציות ל- Windows 8.1 ואפליקציות ל- Windows Phone 8 Control (Part II)
מבוא למדעי המחשב לתעשייה וניהול הרצאה 7. סברוטינות subroutines.
 Client, Supplier ומה שביניהם ( ADT!).  שאלה 1: יצירת ADT עבור מעגל במישור נניח שלקוח מעוניין בפעולות הבאות : הזזת מעגל וחישוב שטח מעגל. הספק יספק ללקוח.
Costs and Filters Dr. Avi Rosenfeld Department of Industrial Engineering Jerusalem College of Technology
The Simple Past What?When?How? ©MJH_teacher. MJH_teacher Read the following texts. Pay special attention to the form of the verbs.
2003B Q5 Suppliers(sid, sname, city) Select sid from suppliers where city=‘jerusalem’ or sname like ‘%Smith’ Select sid from suppliers where city=‘jerusalem’
Syllabus Text Books Classes Reading Material Assignments Grades Links Forum Text Books עיבוד שפות טבעיות - שיעור שישי Language Modeling אורן גליקמן.
1 Formal Specifications for Complex Systems (236368) Tutorial #1 Course site:
קשר לוגי : סיבה ותוצאה. במשפט – דוגמות קלות בגלל הגשם החלטנו לא לנסוע לטיול לחיפה. הרצון שלי להצליח הניע אותי להשקיע בלימודים. ציפורים נודדות בין יבשות.
Human Wayfinding in Information Networks
Formal Specifications for Complex Systems (236368) Tutorial #1
מבוא למדעי המחשב סיבוכיות.
תקשורת ומחשוב תרגול 1 IP, Classes and Masks.
SQL בסיסי – הגדרה אינדוקטיבית
תירגול 14: מבני נתונים דינאמיים
הפקולטה למדעי המחשב אוטומטים ושפות פורמליות (236353)
פרוקטוז, C6H12O6 , חד-סוכר מיוחד
משימת חקר מכוון ללמידה משמעותית
Marina Kogan Sadetsky –
בחירת חומר גלם כתב: עמרי שרון.
תוכנה 1 תרגול 13 – סיכום.
Explanations taken from “Help Yourself to English Grammar”
Presentation transcript:

עיבוד שפות טבעיות - שעור שלישי n-grams יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון

מה תהיה המילה הבאה ? I ’ d like to make a collect …. ניחוש של המילה הבאה הוא לא ' מופלא ' כל כך ובמידה מסויימת ניתן לצפייה.

למה זה נחוץ ? Word prediction in AAC ( תקשורת תומכת וחליפית ) זיהוי קול זיהוי כתב יד זיהוי טעויות כתיב

הקושי הקלט הוא ' רועש ' Noisy ורב משמעי צפייה במילה הקודמת נותן לנו מידע חשוב על הדבר הבא שבו נצפה.

Word prediction in AAC למשל, סטיבן הוקינג – משתמשים במערכות תקשורת אלטרנטיביות כל פעולה ' הקשה ' במחשב היא פעולה ' יקרה ' ואפילו קשה מבחינה פיסית

זיהוי טעויות כתיב They are leaving in about fifteen minuets to go to her house. He is trying to fine out. יש מספר אלגוריתמים ללמידה אוטומטית לזיהוי טעויות כתיב על פי סביבתן ותכונות נוספות – Context sensitive spelling error correction.

זיהוי וחישוב של רצף מילים ההסתברות שמקבל רצף של מילים למשל The man ate his apple and was very satisfied ההסתברות שונה מאפס ואילו עבור רצף המילים Man his ate the was very apple satisfied ההסתברות מאוד נמוכה

N-grams המודל שמשותף לכל הבעיות הנ " ל נקרא N-gram והוא המודל המשתמש ב -N-1 מילים הקודמות כדי לצפות את המילה הבאה. בזיהוי קול משתמשים במושג Language Model נשתמש בהקשר הזה לחילופין במושגים LM או דקדוק grammar.

ספירת מילים בקורפוס הסתברות מבוססת על מנייה של דברים. מה הם הדברים שסופרים בהקשר שלנו ? עיבוד שפות טבעיות מבוסס הרבה על קורפוס – מאגרים זמינים של טקסטים ודיבור. קורפוס לדוגמא – Brown corpus מכיל מיליון מילים מתוך 500 מאמרים, מז ' אנרים שונים. נבנה ב מאז נבנו קורפוסים גדולים יותר ומגוונים ( ונדבר עליהם בהמשך )

מה סופרים בקורפוס He stepped into the hall, was delighted to encounter a water bother. 13 מילים, לא כולל סימני פיסוק יש משימות בהן יש חשיבות לסימני הפיסוק ( למשל – בדיקת תחביר, זיהוי הכותב )

ומה כן נחשב מילה They – they אותה מילה ? ברוב המקרים כן Cats – cat אותה מילה ? תלוי באפליקציה בד " כ משתמשים במושג wordform – שהוא המילה כפי שהיא מופיעה בטקסט ( עם הטיותיה ). לעיתים רוצים להחשיב שתיהן כמילה אחת ואז מתייחסים ל -lemma הלמה היא אוסף הצורות הלקסיקליות עבורן אותו stem, אותו חלק דיבר ואותה משמעות word-sense

Types vs. Tokens Types מתייחס למספר המילים השונות זו מזו בקורפוס כלומר מספר ה -types הוא בעצם גודל ה - vocabulary אוצר המילים Tokens – מתייחס למספר המילים בסך הכל, המופעים שלהם בטקסט. They picnicked by the pool, then lay back on the grass and looked at the stars. 16 tokens ו -14 types.

ב -Brown corpus יש 61,805 wordform types ו - 37,851 lemma types מילונים הם דרך טובה ללמוד על מספר המילים – ה types למרות שמילונים לא מכילים הטיות של המילה. במילון יש בערך 200,000 מילים, שזה מספר שהוא גדול ממספר הלמות, גם בגלל שהוא מכיל צירופי מילים.

חישוב תפוצת מילים בטקסט – תוכנית פשוטה ביוניקס unixtools.html