עיבוד שפות טבעיות מבוא פרופ' עידו דגן המחלקה למדעי המחשב

Slides:



Advertisements
Similar presentations
School of something FACULTY OF OTHER School of Computing FACULTY OF ENGINEERING PoS-Tagging theory and terminology COMP3310 Natural Language Processing.
Advertisements

Morphology: The analysis of word structure
CS Morphological Parsing CS Parsing Taking a surface input and analyzing its components and underlying structure Morphological parsing:
Almen sproglig viden og metode (General Linguistics)
Morphology.
Parts of speech & Lexical Categories
Morphology Nuha Alwadaani.
Morphology Chapter 7 Prepared by Alaa Al Mohammadi.
Brief introduction to morphology
Spring 2002NLE1 CC 384: Natural Language Engineering Week 2, Lecture 2 - Lemmatization and Stemming; the Porter Stemmer.
Lecture -3 Week 3 Introduction to Linguistics – Level-5 MORPHOLOGY
Morphology: The analysis of word structure
 Christel Kemke 2007/08 COMP 4060 Natural Language Processing Word Classes and English Grammar.
Announcements  Revised Final Exam date:  THURSDAY 03/15/ :30-10:20 BAG 131.
Morphology I. Basic concepts and terms Derivational processes
Session 6 Morphology 1 Matakuliah : G0922/Introduction to Linguistics
Learning Bit by Bit Class 3 – Stemming and Tokenization.
NLP and Speech 2004 English Grammar
Morphology.
Parts of Speech (Lexical Categories). Parts of Speech Nouns, Verbs, Adjectives, Prepositions, Adverbs (etc.) The building blocks of sentences The [ N.
Lemmatization Tagging LELA /20 Lemmatization Basic form of annotation involving identification of underlying lemmas (lexemes) of the words in.
Some Advances in Transformation-Based Part of Speech Tagging
Morphology The Structure of Words.
Phonemes A phoneme is the smallest phonetic unit in a language that is capable of conveying a distinction in meaning. These units are identified within.
Quiz 1 Answers What is a morpheme? It is the smallest unit of meaning that can be free or must be bound. What is the difference between a free and bound.
+ Morphology & Syntax Dr. Monira Al-Mohizea. + Introduction to syntax What is SYNTAX? Grammar: Words (and Phrases) Introducing word class Problems in.
1 University of Palestine Topics In CIS ITBS 3202 Ms. Eman Alajrami 2 nd Semester
Morphology A Closer Look at Words By: Shaswar Kamal Mahmud.
Morphological Analysis Lim Kay Yie Kong Moon Moon Rosaida bt ibrahim Nor hayati bt jamaludin.
Parts of Speech (Lexical Categories). Parts of Speech n Nouns, Verbs, Adjectives, Prepositions, Adverbs (etc.) n The building blocks of sentences n The.
Chapter III morphology by WJQ. Morphology Morphology refers to the study of the internal structure of words, and the rules by which words are formed.
Linguistics The ninth week. Chapter 3 Morphology  3.1 Introduction  3.2 Morphemes.
M ORPHOLOGY Lecturer/ Najla AlQahtani. W HAT IS MORPHOLOGY ? It is the study of the basic forms in a language. A morpheme is “a minimal unit of meaning.
Natural Language Processing Chapter 2 : Morphology.
MORPHOLOGY definition; variability among languages.
Unit 6 Unit 6 Morphology 1. 2 It is a branch of linguistics which is concerned with  the relation between meaning and form, within words and between.
VOCABULARY BUILDING ONE. WORDS ARE A GROUP OF LETTERS WHICH FORM A MEANING.
MORPHOLOGY. PART 1: INTRODUCTION Parts of speech 1. What is a part of speech?part of speech 1. Traditional grammar classifies words based on eight parts.
MORPHOLOGY : THE STRUCTURE OF WORDS. MORPHOLOGY Morphology deals with the syntax of complex words and parts of words, also called morphemes, as well as.
King Faisal University جامعة الملك فيصل Deanship of E-Learning and Distance Education عمادة التعلم الإلكتروني والتعليم عن بعد [ ] 1 جامعة الملك فيصل عمادة.
Morphology 1 : the Morpheme
Morphology: The analysis of word structure Deny A. Kwary
Review and preview Phonology– production and analysis of the sounds of language Semantics – words and their meanings Today – Morphology and Syntax Huennekens.
Basic Text Processing: Morphology Word Stemming
You can’t touch this. Vocabulary/Grammar Connection
Today’s goals Begin development of English grammar and editing skills
عمادة التعلم الإلكتروني والتعليم عن بعد
Morphology Morphology Morphology Dr. Amal AlSaikhan Morphology.
Lecture -3 Week 3 Introduction to Linguistics – Level-5 MORPHOLOGY
Introduction to Linguistics
Unit One: Parts of Speech
عمادة التعلم الإلكتروني والتعليم عن بعد
LIN1300 What is language? Dr Marie-Claude Tremblay 1.
Chapter 3 Morphology Without grammar, little can be conveyed. Without vocabulary, nothing can be conveyed. (David Wilkins ,1972) Morphology refers to.
Lecturer Ms. Abrar Mujaddidi LANE 321
Макет заголовкаМакет заголовка Підзаголовок. The noun is the central lexical unit of language. It is the main nominative unit of speech. As any other.
Chapter 6 Morphology.
Word Classes and Affixes
Morphology.
Token generation - stemming
By Mugdha Bapat Under the guidance of Prof. Pushpak Bhattacharyya
Língua Inglesa - Aspectos Morfossintáticos
Word Formation Ι 영어영문학과 이선화.
Basic Text Processing Word tokenization.
Meni Adler and Michael Elhadad Ben Gurion University COLING-ACL 2006
Artificial Intelligence 2004 Speech & Natural Language Processing
Chhatrapati Shivaji College, Satara
Introduction to English morphology
Introduction to Linguistics
Basic Text Processing: Morphology Word Stemming
Presentation transcript:

עיבוד שפות טבעיות מבוא פרופ' עידו דגן המחלקה למדעי המחשב עיבוד שפות טבעיות מבוא פרופ' עידו דגן (קרדיט לחלק מהשקפים: אורן גליקמן) המחלקה למדעי המחשב אוניברסיטת בר אילן שינויים מאת אבי רוזנפלד

מה זה בכלל עיבוד שפות טבעיות נקרא גם "בלשנות חישובית“ Natural Language Processing/ Computational Linguistics כל מה שקשור בהבנה, ניתוח, יצירה ועיבוד של שפות טבעיות (להבדיל משפות מחשב, למשל) שפה מהווה ייצוג של משמעות – איננו מתיימרים להגיע להבנה "אמיתית" של משמעות, אלא לבצע פעולות מועילות למרות החוסר בהבנה, או להגיע למודלים מקורבים

דוגמאות לאפליקציות/יישומים תרגום ממוחשב חיפוש ואחזור מידע מענה לשאלות – Question Answering שליפת מידע – Information Extraction טיפול במונחים: שליפה, דמיון, סיווג שמות תמצות אוטומטי אפליקציות בתחום הדיבור: מערכות דיאלוג תיקון שגיאות כתיב ותחביר (eg. Microsoft Word) ממשקים חדשים (קול, צ'ט)

Only matches original keywords (throw stop words) Ignores relationships

Towards text understanding: Question Answering

Expansion: made, built Explain errors: Hyundai as object; wrong sense for expansion

Search may benefit understanding Query: AIDS treatment Irrelevant document: Hemophiliacs lack a protein, called factor VIII, that is essential for making blood clots. As a result, they frequently suffer internal bleeding and must receive infusions of clotting protein derived from human blood. During the early 1980s, these treatments were often tainted with the AIDS virus. In 1984, after that was discovered, manufacturers began heating factor VIII to kill the virus. The strategy greatly reduced the problem but was not foolproof. However, many experts believe that adding detergents and other refinements to the purification process has made natural factor VIII virtually free of AIDS. (AP890118-0146, TIPSTER Vol. 1) Many irrelevant documents mention AIDS and treatments for other diseases

Relevant Document Query: AIDS treatment Federal health officials are recommending aggressive use of a newly approved drug that protects people infected with the AIDS virus against a form of pneumonia that is the No.1 killer of AIDS victims. The Food and Drug Administration approved the drug, aerosol pentamidine, on Thursday. The announcement came as the Centers for Disease Control issued greatly expanded treatment guidelines recommending wider use of the drug in people infected with the AIDS virus but who may show no symptoms. (AP890616-0048, TIPSTER VOL. 1) Relevant documents may mention specific types of treatments for AIDS

מדעים קשורים בלשנות למידת מכונה והסקה סטטיסטית פסיכולינגויסטיקה מדעי המחשב (AI) אלגוריתמים (חיפוש למשל) מדעי המוח ((Cognitive Science

שפה טבעית לעומת שפת מחשב שפות מחשב (באופן כללי) הנן חד-משמעיות ומוגדרות היטב. קומפילר יכול (ע"י Parser) לתרגם קוד לפקודות שפת מכונה. לדוגמא: יש הבחנה בין שווה במשמעות של assignment (=) לעומת equality (==). יש סדר מוגדר על פרדיקטים – a גדול מ b ולא c או d a > b && !c || d a > b && (!c || d) a > b && !(c || d)

ו ו או או (or) היינו דו משמעי בעברית (ואנגלית): אתה יכול לקבל קפה או תה. (Exclusive) אתה רוצה קפה או עוגה? (Inclusive) עוד דוגמא: (טווח כמתים – quantifier scope) "כמעט ניצחתי את כל שאר המתחרים בתחרות") "באמת?" "כן: כמעט ניצחתי את ירון, כמעט ניצחתי את איריס, כמעט ניצחתי את אלון,..."

עברית קשה שפה לא רק עברית ! השפה הטבעית מלאת רב משמעויות, ברמות שונות: כותרת תמונה בעיתון השבוע: "גופות הרוגים בפיגוע ליד בית חולים בבאלי היום." האם הפיגוע היה ליד בית חולים ? מתי ארע הפיגוע?

242 "Withdrawal of Israel armed forces from territories occupied in the recent conflict" עד היום מתווכים על הפרוש.

רב משמעות תחבירית במשפט הבא 15 מילים ולפחות 455(!) ניתוחים תחביריים אפשריים: List the sales of the products produced in 1973 with the products produced in 1972.

Variability of Semantic Expression All major stock markets surged Dow gains 255 points Dow ends up Stock market hits a record high Dow climbs 255 The Dow Jones Industrial Average closed up 255 First step towards a broad semantic model of language variation

AI & Turing Test NLP נחשב כ-’AI complete’ Turing Test: is a computer program intelligent? (1954) Would a human find out that he speaks with a computer?

רמות ידע לשוני פונטיקה ופונולוגיה מורפולוגיה תחביר (Syntax) סמנטיקה פרגמטיקה, שיח (Discourse) ידע כללי (World Knowledge)

הפרדה למילים ומשפטים Tokenization & Sentence splitting

Tokenization הבעיה הראשונית היא 'שבירת' הקלט למשפטים ולמילים. במילים הכוונה גם למספרים וכד' הגישה הנאיבית: משפט מסתיים ב-'.','?','!‘ מילה מופרדת ב- whitespace אך המציאות:...

Tokenization Issues East Asian Languages Some punctuation marks are part of words: .-” etc.

Sentence breaks vs. words ~ 90% of periods are sentence breaks State of the art: 99% accuracy (learning methods) English capitalization can help The Problem: period . can denote a decimal point (5.6), an abbreviation (Mr.), the end of a sentence, thousand segment separator: 3.200 (three-thousand-two-hundred, in Europe), initials: A. B. Smith, ellipsis …

מה זה "מילה"? ערך מילוני (למה): יחידת המידע העצמאית הקטנה ביותר בשפה למשל: ספר, שולחן אבל לא: ה(ספר), (walk)-ed מילה? She'd בשפה כתובה, לא כל "מחרוזת" או "יחידה" המוקפת ברווחים היא למה - למשל: ואכלתיהו - ואני אכלתי אותו מקובל להתייחס ליחידה הלקסיקאלית המינימאלית בטקסט כ-token

מורפולוגיה מילים מורכבות ממורפמות - morphemes שהן "יחידות המידע הקטנות ביותר הנושאות משמעות" יש מילים הבנויות ממורפמה אחת: car, fish מילה יכולה להיות מורכבת מכמה מורפימות: סוסיהם - סוס + י(ם) + הם מעוניינים במודל למורפולוגיה של השפה ניתוח יצירה חשיבות: איות, אחזור מידע, תנאי מקדים לניתוח תחבירי (ליישומים דקדוקיים וסמנטיים)

מורפולוגיה – רב משמעות הרכבת שם עצם נסמך שם עצם והא הידיעה פועל ר.כ.ב הא השאלה פועל ר.כ.ב בניין פעל עבר זכר יחיד שם עצם והא הידיעה פועל ר.כ.ב בניין הפעיל עבר נקבה יחיד פועל ר.כ.ב בניין הפעיל עבר זכר יחיד

מנגנונים מורפולוגיים - מוספיות(affixes) : תחילית, תוכית, וסופית מילים מחולקות ל-stem (אינו בהכרח מילה) ול-affixes תחיליות - prefixes - הן המוספות בתחילת המילה Un-believable, re-direction סופיות - suffixes - מוספות בסוף המילה למשל: ing : having, eating תוכיות infixes - - מורפמה המוכנסת לגזע או שורש - למשל אותיות הקובעות בניין בעברית התפעל - התרחץ, השתעל Circumfix – שילוב של תחילית וסופית (למשל בגרמנית) מבחינים בין מנגנון שרשורי (concatenative) למנגנון מבוסס תבניות (כגון שורש-בנין בשפות שמיות)

הטיה inflection שינוי שיכול לחול תמיד בצורת המילה מתוך צרכים תחביריים, שאינו משנה את הלמה (ואת חלק הדיבר). למשל : מספר (יחיד/רבים) - number נערה - נערות מין gender נער - נערה גוף person אני רצתי - אנחנו רצנו זמן tense מערכת ההטיה תלויה בחלק הדיבר (ש"ע, פועל, שם תואר, ...) בעברית מערכת ההטיות מורכבת

הטיות באנגלית באנגלית מערכת ההטיות פשוטה יחסית. מבוססת על מורפולוגיה משורשרת - concatenative morphology עבור שמות עצם: ריבוי יש חוקי כתיב orthographic rules למשל מלים שמסתיימות ב-x סימון לרבים יהיה -es ולא -s. עבור פעלים: ההטיות מגוונות יותר: stem, 3rd person, -ing participle, past, past participle בטורקית למשל – מערכת שרשורים ענפה (דוגמא עם 11 מרכיבים)

Regulary Inflected verbs (by rules) Morphologi-cal Form Classes map try merge walk Stem "שורש" maps tries merges walks -s form mapping trying merging walking -ing Regulary Inflected verbs (by rules)

מידול חישובי למורפולוגיה (הטיות) ניתוח ויצירה Morphological analysis ניתוח: קבלת קלט כלשהו ויצירת מבנה ממנו. ניתוח מורפולוגי יקבל כקלט מילה כ-going ויחזיר כפלט את הניתוח הלמה והמאפיינים המורפולוגיים של המילה VERB-GO + PARTICIPLE-ing

דוגמאות דוגמא פשוטה: ניתוח נטיות שמות עצם ופעלים המטרה: קלט: cats פלט: cat + N + PL קלט: geese פלט: goose + N+ PL קלט: merging פלט: merge + V + PRES-PART קלט: caught פלט: catch + V + PAST-PART

מטרות מודל מורפולוגי ניתוח: Recognizer: האם מילה היא תקנית או לא Stemmer: מזהה את צורת הבסיס (stem) של מילה Analyzer: נותן ניתוח מורפולוגי למלים Generator: מייצר מילים מניתוח מורפולוגי מסוים

Porter Stemmer Example Rules: Step 1a Step 1b (m – counts “syllables”) SSES -> SS (passes  pass) IES -> I (ponies  poni, ties  ti) SS -> SS (caress  caress) S   (cats  cat) Step 1b (m – counts “syllables”) (m>0) EED  EE (feed  feed, agreed  agree) (*v*) ED   (plastered  plaster, bled  bled) (*v*) ING   (motoring  motor, sing  sing)

Porter Algorithm Step 2 Etc… (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different Etc…

חלקי-הדיבר ניתן למנות קבוצות מילים המכונות "חלקי- דיבור": שם עצם (noun),שם תואר (adjective), כינוי (pronoun),שם מספר (numeral),פועל (verb), תואר הפועל (adverb),מלת יחס (preposition), מלת חיבור (conjunction), ... זו רק חלוקה אחת (הקטגוריות העיקריות סטנדרטיות)

דוגמא The yinkish dripner blorked quastofically into the nindin with the pidibs. yinkish -adj quastofically -adverb dripner -noun pidibs -noun blorked -verb nindin -noun We determine the P.O.S of a word by the affixes that are attached to it and by the syntactic context (where in the sentence) it appears in.

שמות עצם Nouns Affixes: -s, 's, -ness, -ment, -er, … Occur with determiners (a,the,this,some…) can be a subject of a sentence. Semantically: can be concrete – chair, train, or abstract – relationship. גם שמות פעולה, למשל: אכילה, לאכול, eating

Types of Nouns Important to distinguish noun types – have different morphological and syntactic properties Proper Nouns: David, Israel, Microsoft Aren’t preceded by articles Capitalized (In English) Common Nouns: Count Nouns: allow grammatical enumeration (book, books) can be counted (one apple, 50 thoughts) Mass Nouns: snow, salt, communism, … (no plural)

Verbs מילים המתייחסות לפעולות או תהליכים Main verbs – draw, provide, differ Auxiliaries (closed-class) – have (also main), been, … מערכת הטיה מורפולוגית של פעלים: זמן, גוף, מין (לא באנגלית), מספר eat, eats, eating, eaten

Adjectives מתאר משהו בשם עצם שפות רבות כוללות: צבעים (yellow, green) גילאים (young, old) וערכים. (good, bad)

Adverbs מתאר משהו על פועל Directional: sideways, downhill Unfortunately, John walked home extremely slowly yesterday Directional: sideways, downhill Locative: home, here Degree: extremely, somewhat Manner: slowly, delicately Temporal: yesterday, Monday

Part-Of-Speech Tagging תיוג הוא התהליך של השמת חלקי דיבר (או סימון לקסיקלי אחר) לכל מופע מילה (token) בקורפוס. תיוג מתבצע בדרך כלל גם על סימני פיסוק הקלט הוא רצף מילים ו-tagset. הפלט הוא התיוג הטוב ביותר עבור כל אחת מן המילים. והבעייה המרכזית, היא – ambiguity: Time flies like an arrow/ Fruit flies like an apple I can can my can/אישה נעלה נעלה נעלה ונעלה את הדלת... תואר פועל ש"ע פועל

State of the Art A dumb English tagger that simply assigns the most common tag to each word achieves ~90% Best approaches give ~96/97% This still means that there will be on average one tagging error per sentence Tagging is much more difficult if we do not have a lexicon and/or training corpus or if we use a tagger across domains and genres.

מתייגים - מבוססי חוקים Stochastic Tagging - הסתברותיים קידוד ידני של חוקים מערכת לבדיקת התאמת חוקים - בדר"כ מבוסס ביטויים רגולריים, והפעלה שלהם Transformation-based tagging (learning) Stochastic Tagging - הסתברותיים HMM Maximum entropy Classifier based (e.g. SVM)

Supervised Learning Scheme “Labeled” Examples Training Algorithm Classification Model New Examples Classification Algorithm Classifications