עיבוד שפות טבעיות מבוא פרופ' עידו דגן המחלקה למדעי המחשב עיבוד שפות טבעיות מבוא פרופ' עידו דגן (קרדיט לחלק מהשקפים: אורן גליקמן) המחלקה למדעי המחשב אוניברסיטת בר אילן שינויים מאת אבי רוזנפלד
מה זה בכלל עיבוד שפות טבעיות נקרא גם "בלשנות חישובית“ Natural Language Processing/ Computational Linguistics כל מה שקשור בהבנה, ניתוח, יצירה ועיבוד של שפות טבעיות (להבדיל משפות מחשב, למשל) שפה מהווה ייצוג של משמעות – איננו מתיימרים להגיע להבנה "אמיתית" של משמעות, אלא לבצע פעולות מועילות למרות החוסר בהבנה, או להגיע למודלים מקורבים
דוגמאות לאפליקציות/יישומים תרגום ממוחשב חיפוש ואחזור מידע מענה לשאלות – Question Answering שליפת מידע – Information Extraction טיפול במונחים: שליפה, דמיון, סיווג שמות תמצות אוטומטי אפליקציות בתחום הדיבור: מערכות דיאלוג תיקון שגיאות כתיב ותחביר (eg. Microsoft Word) ממשקים חדשים (קול, צ'ט)
Only matches original keywords (throw stop words) Ignores relationships
Towards text understanding: Question Answering
Expansion: made, built Explain errors: Hyundai as object; wrong sense for expansion
Search may benefit understanding Query: AIDS treatment Irrelevant document: Hemophiliacs lack a protein, called factor VIII, that is essential for making blood clots. As a result, they frequently suffer internal bleeding and must receive infusions of clotting protein derived from human blood. During the early 1980s, these treatments were often tainted with the AIDS virus. In 1984, after that was discovered, manufacturers began heating factor VIII to kill the virus. The strategy greatly reduced the problem but was not foolproof. However, many experts believe that adding detergents and other refinements to the purification process has made natural factor VIII virtually free of AIDS. (AP890118-0146, TIPSTER Vol. 1) Many irrelevant documents mention AIDS and treatments for other diseases
Relevant Document Query: AIDS treatment Federal health officials are recommending aggressive use of a newly approved drug that protects people infected with the AIDS virus against a form of pneumonia that is the No.1 killer of AIDS victims. The Food and Drug Administration approved the drug, aerosol pentamidine, on Thursday. The announcement came as the Centers for Disease Control issued greatly expanded treatment guidelines recommending wider use of the drug in people infected with the AIDS virus but who may show no symptoms. (AP890616-0048, TIPSTER VOL. 1) Relevant documents may mention specific types of treatments for AIDS
מדעים קשורים בלשנות למידת מכונה והסקה סטטיסטית פסיכולינגויסטיקה מדעי המחשב (AI) אלגוריתמים (חיפוש למשל) מדעי המוח ((Cognitive Science
שפה טבעית לעומת שפת מחשב שפות מחשב (באופן כללי) הנן חד-משמעיות ומוגדרות היטב. קומפילר יכול (ע"י Parser) לתרגם קוד לפקודות שפת מכונה. לדוגמא: יש הבחנה בין שווה במשמעות של assignment (=) לעומת equality (==). יש סדר מוגדר על פרדיקטים – a גדול מ b ולא c או d a > b && !c || d a > b && (!c || d) a > b && !(c || d)
ו ו או או (or) היינו דו משמעי בעברית (ואנגלית): אתה יכול לקבל קפה או תה. (Exclusive) אתה רוצה קפה או עוגה? (Inclusive) עוד דוגמא: (טווח כמתים – quantifier scope) "כמעט ניצחתי את כל שאר המתחרים בתחרות") "באמת?" "כן: כמעט ניצחתי את ירון, כמעט ניצחתי את איריס, כמעט ניצחתי את אלון,..."
עברית קשה שפה לא רק עברית ! השפה הטבעית מלאת רב משמעויות, ברמות שונות: כותרת תמונה בעיתון השבוע: "גופות הרוגים בפיגוע ליד בית חולים בבאלי היום." האם הפיגוע היה ליד בית חולים ? מתי ארע הפיגוע?
242 "Withdrawal of Israel armed forces from territories occupied in the recent conflict" עד היום מתווכים על הפרוש.
רב משמעות תחבירית במשפט הבא 15 מילים ולפחות 455(!) ניתוחים תחביריים אפשריים: List the sales of the products produced in 1973 with the products produced in 1972.
Variability of Semantic Expression All major stock markets surged Dow gains 255 points Dow ends up Stock market hits a record high Dow climbs 255 The Dow Jones Industrial Average closed up 255 First step towards a broad semantic model of language variation
AI & Turing Test NLP נחשב כ-’AI complete’ Turing Test: is a computer program intelligent? (1954) Would a human find out that he speaks with a computer?
רמות ידע לשוני פונטיקה ופונולוגיה מורפולוגיה תחביר (Syntax) סמנטיקה פרגמטיקה, שיח (Discourse) ידע כללי (World Knowledge)
הפרדה למילים ומשפטים Tokenization & Sentence splitting
Tokenization הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. במילים הכוונה גם למספרים וכד' הגישה הנאיבית: משפט מסתיים ב-'.','?','!‘ מילה מופרדת ב- whitespace אך המציאות:...
Tokenization Issues East Asian Languages Some punctuation marks are part of words: .-” etc.
Sentence breaks vs. words ~ 90% of periods are sentence breaks State of the art: 99% accuracy (learning methods) English capitalization can help The Problem: period . can denote a decimal point (5.6), an abbreviation (Mr.), the end of a sentence, thousand segment separator: 3.200 (three-thousand-two-hundred, in Europe), initials: A. B. Smith, ellipsis …
מה זה "מילה"? ערך מילוני (למה): יחידת המידע העצמאית הקטנה ביותר בשפה למשל: ספר, שולחן אבל לא: ה(ספר), (walk)-ed מילה? She'd בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא למה - למשל: ואכלתיהו - ואני אכלתי אותו מקובל להתייחס ליחידה הלקסיקאלית המינימאלית בטקסט כ-token
מורפולוגיה מילים מורכבות ממורפמות - morphemes שהן "יחידות המידע הקטנות ביותר הנושאות משמעות" יש מילים הבנויות ממורפמה אחת: car, fish מילה יכולה להיות מורכבת מכמה מורפימות: סוסיהם - סוס + י(ם) + הם מעוניינים במודל למורפולוגיה של השפה ניתוח יצירה חשיבות: איות, אחזור מידע, תנאי מקדים לניתוח תחבירי (ליישומים דקדוקיים וסמנטיים)
מורפולוגיה – רב משמעות הרכבת שם עצם נסמך שם עצם והא הידיעה פועל ר.כ.ב הא השאלה פועל ר.כ.ב בניין פעל עבר זכר יחיד שם עצם והא הידיעה פועל ר.כ.ב בניין הפעיל עבר נקבה יחיד פועל ר.כ.ב בניין הפעיל עבר זכר יחיד
מנגנונים מורפולוגיים - מוספיות(affixes) : תחילית, תוכית, וסופית מילים מחולקות ל-stem (אינו בהכרח מילה) ול-affixes תחיליות - prefixes - הן המוספות בתחילת המילה Un-believable, re-direction סופיות - suffixes - מוספות בסוף המילה למשל: ing : having, eating תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית התפעל - התרחץ, השתעל Circumfix – שילוב של תחילית וסופית (למשל בגרמנית) מבחינים בין מנגנון שרשורי (concatenative) למנגנון מבוסס תבניות (כגון שורש-בנין בשפות שמיות)
הטיה inflection שינוי שיכול לחול תמיד בצורת המילה מתוך צרכים תחביריים, שאינו משנה את הלמה (ואת חלק הדיבר). למשל : מספר (יחיד/רבים) - number נערה - נערות מין gender נער - נערה גוף person אני רצתי - אנחנו רצנו זמן tense מערכת ההטיה תלויה בחלק הדיבר (ש"ע, פועל, שם תואר, ...) בעברית מערכת ההטיות מורכבת
הטיות באנגלית באנגלית מערכת ההטיות פשוטה יחסית. מבוססת על מורפולוגיה משורשרת - concatenative morphology עבור שמות עצם: ריבוי יש חוקי כתיב orthographic rules למשל מלים שמסתיימות ב-x סימון לרבים יהיה -es ולא -s. עבור פעלים: ההטיות מגוונות יותר: stem, 3rd person, -ing participle, past, past participle בטורקית למשל – מערכת שרשורים ענפה (דוגמא עם 11 מרכיבים)
Regulary Inflected verbs (by rules) Morphologi-cal Form Classes map try merge walk Stem "שורש" maps tries merges walks -s form mapping trying merging walking -ing Regulary Inflected verbs (by rules)
מידול חישובי למורפולוגיה (הטיות) ניתוח ויצירה Morphological analysis ניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו. ניתוח מורפולוגי יקבל כקלט מילה כ-going ויחזיר כפלט את הניתוח הלמה והמאפיינים המורפולוגיים של המילה VERB-GO + PARTICIPLE-ing
דוגמאות דוגמא פשוטה: ניתוח נטיות שמות עצם ופעלים המטרה: קלט: cats פלט: cat + N + PL קלט: geese פלט: goose + N+ PL קלט: merging פלט: merge + V + PRES-PART קלט: caught פלט: catch + V + PAST-PART
מטרות מודל מורפולוגי ניתוח: Recognizer: האם מילה היא תקנית או לא Stemmer: מזהה את צורת הבסיס (stem) של מילה Analyzer: נותן ניתוח מורפולוגי למלים Generator: מייצר מילים מניתוח מורפולוגי מסוים
Porter Stemmer Example Rules: Step 1a Step 1b (m – counts “syllables”) SSES -> SS (passes pass) IES -> I (ponies poni, ties ti) SS -> SS (caress caress) S (cats cat) Step 1b (m – counts “syllables”) (m>0) EED EE (feed feed, agreed agree) (*v*) ED (plastered plaster, bled bled) (*v*) ING (motoring motor, sing sing)
Porter Algorithm Step 2 Etc… (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different Etc…
חלקי-הדיבר ניתן למנות קבוצות מילים המכונות "חלקי- דיבור": שם עצם (noun),שם תואר (adjective), כינוי (pronoun),שם מספר (numeral),פועל (verb), תואר הפועל (adverb),מלת יחס (preposition), מלת חיבור (conjunction), ... זו רק חלוקה אחת (הקטגוריות העיקריות סטנדרטיות)
דוגמא The yinkish dripner blorked quastofically into the nindin with the pidibs. yinkish -adj quastofically -adverb dripner -noun pidibs -noun blorked -verb nindin -noun We determine the P.O.S of a word by the affixes that are attached to it and by the syntactic context (where in the sentence) it appears in.
שמות עצם Nouns Affixes: -s, 's, -ness, -ment, -er, … Occur with determiners (a,the,this,some…) can be a subject of a sentence. Semantically: can be concrete – chair, train, or abstract – relationship. גם שמות פעולה, למשל: אכילה, לאכול, eating
Types of Nouns Important to distinguish noun types – have different morphological and syntactic properties Proper Nouns: David, Israel, Microsoft Aren’t preceded by articles Capitalized (In English) Common Nouns: Count Nouns: allow grammatical enumeration (book, books) can be counted (one apple, 50 thoughts) Mass Nouns: snow, salt, communism, … (no plural)
Verbs מילים המתייחסות לפעולות או תהליכים Main verbs – draw, provide, differ Auxiliaries (closed-class) – have (also main), been, … מערכת הטיה מורפולוגית של פעלים: זמן, גוף, מין (לא באנגלית), מספר eat, eats, eating, eaten
Adjectives מתאר משהו בשם עצם שפות רבות כוללות: צבעים (yellow, green) גילאים (young, old) וערכים. (good, bad)
Adverbs מתאר משהו על פועל Directional: sideways, downhill Unfortunately, John walked home extremely slowly yesterday Directional: sideways, downhill Locative: home, here Degree: extremely, somewhat Manner: slowly, delicately Temporal: yesterday, Monday
Part-Of-Speech Tagging תיוג הוא התהליך של השמת חלקי דיבר (או סימון לקסיקלי אחר) לכל מופע מילה (token) בקורפוס. תיוג מתבצע בדרך כלל גם על סימני פיסוק הקלט הוא רצף מילים ו-tagset. הפלט הוא התיוג הטוב ביותר עבור כל אחת מן המילים. והבעייה המרכזית, היא – ambiguity: Time flies like an arrow/ Fruit flies like an apple I can can my can/אישה נעלה נעלה נעלה ונעלה את הדלת... תואר פועל ש"ע פועל
State of the Art A dumb English tagger that simply assigns the most common tag to each word achieves ~90% Best approaches give ~96/97% This still means that there will be on average one tagging error per sentence Tagging is much more difficult if we do not have a lexicon and/or training corpus or if we use a tagger across domains and genres.
מתייגים - מבוססי חוקים Stochastic Tagging - הסתברותיים קידוד ידני של חוקים מערכת לבדיקת התאמת חוקים - בדר"כ מבוסס ביטויים רגולריים, והפעלה שלהם Transformation-based tagging (learning) Stochastic Tagging - הסתברותיים HMM Maximum entropy Classifier based (e.g. SVM)
Supervised Learning Scheme “Labeled” Examples Training Algorithm Classification Model New Examples Classification Algorithm Classifications