עיבוד שפות טבעיות – שיעור שישי Part of Speech taggers מדעי המחשב יעל נצר אוניברסיטת בן גוריון.

Slides:



Advertisements
Similar presentations
Language and Grammar Unit
Advertisements

What you’ll need to know for Freshman DGP
School of something FACULTY OF OTHER School of Computing FACULTY OF ENGINEERING PoS-Tagging theory and terminology COMP3310 Natural Language Processing.
Chapter 8. Word Classes and Part-of-Speech Tagging From: Chapter 8 of An Introduction to Natural Language Processing, Computational Linguistics, and Speech.
BİL711 Natural Language Processing
Part-of-speech tagging. Parts of Speech Perhaps starting with Aristotle in the West (384–322 BCE) the idea of having parts of speech lexical categories,
Parts of speech & Lexical Categories
Fill in the blanks on the following grammar term definitions…
Ana Bertha Camargo Mejía
LING 388 Language and Computers Lecture 22 11/25/03 Sandiway FONG.
The Eight Parts of Speech
Sentence Structure By: Lisa Crawford, Edited by: UWC staff
 Christel Kemke 2007/08 COMP 4060 Natural Language Processing Word Classes and English Grammar.
NLP and Speech 2004 English Grammar
עיבוד שפות טבעיות - שיעור רביעי Part of Speech Tagging עידו דגן המחלקה למדעי המחשב אוניברסיטת בר אילן.
BIOI 7791 Projects in bioinformatics Spring 2005 March 22 © Kevin B. Cohen.
From Textual Information to Numerical Vectors Chapters Presented by Aaron Hagan.
CS224N Interactive Session Competitive Grammar Writing Chris Manning Sida, Rush, Ankur, Frank, Kai Sheng.
Parts of Speech (Lexical Categories). Parts of Speech Nouns, Verbs, Adjectives, Prepositions, Adverbs (etc.) The building blocks of sentences The [ N.
Grammar and Composition Review
TagHelper & SIDE Carolyn Penstein Rosé Language Technologies Institute/ Human-Computer Interaction Institute.
Parts of Speech.
Chapter 4 Basics of English Grammar Business Communication Copyright 2010 South-Western Cengage Learning.
8. Word Classes and Part-of-Speech Tagging 2007 년 5 월 26 일 인공지능 연구실 이경택 Text: Speech and Language Processing Page.287 ~ 303.
NLP LINGUISTICS 101 David Kauchak CS457 – Fall 2011 some slides adapted from Ray Mooney.
Parts of Speech and Functions of Words.
English Review for Final These are the chapters to review. In Textbook: Chapter 1 Nouns Chapter 2 Pronouns Chapter 3 Adjectives Chapter 4 Verbs Chapter.
English Review for Final These are the chapters to review. In Textbook: Chapter 1 Nouns Chapter 2 Pronouns Chapter 3 Adjectives Chapter 4 Verbs Chapter.
Parts of Speech (Lexical Categories). Parts of Speech n Nouns, Verbs, Adjectives, Prepositions, Adverbs (etc.) n The building blocks of sentences n The.
Parts of Speech A Brief Review. Noun Person, Place, Thing, or Idea Common: begins with lower case letter (city) Proper: begins with capital letter (Detroit)
Word classes and part of speech tagging Chapter 5.
CSA2050: Introduction to Computational Linguistics Part of Speech (POS) Tagging I Introduction Tagsets Approaches.
PARTS OF SPEECHPARTS OF SPEECH. NOUNS Definition: A noun names a person, place, or thing. Example: John, computer, honesty, school A singular noun is.
Parts of Speech Major source: Wikipedia. Adjectives An adjective is a word that modifies a noun or a pronoun, usually by describing it or making its meaning.
English Review for Final These are the chapters to review. In Textbook: Chapter 9 Nouns Chapter 10 Pronouns Chapter 11 Adjectives Chapter 12 Verbs Chapter.
Parts of Speech A Brief Review. Noun Person, Place, Thing, or Idea Common: begins with lower case letter (city) Proper: begins with capital letter (Detroit)
MJH_teacher Adjectives noun. MJH_teacher Nouns – שמות עצם Part 1- What are nouns? What are adjectives? How do we use the adjectives?
CS621: Artificial Intelligence
GoBack definitions Level 1 Parts of Speech GoBack is a memorization game; the teacher asks students definitions, and when someone misses one, you go back.
Part-of-speech tagging
PARTS OF SPEECH REVIEW: NOUNS A noun is a word that names a person, place, thing or an idea. There are several different categories of nouns:  Common.
Parts of Speech חלקי הדיבור
English Grammar PARTS OF SPEECH.
An overview of nouns, verbs, adjectives, and adverbs.
Parts of Speech Melinda Norris Start. How to navigate through this tutorial At the bottom of each page, you will see buttons that allow you to move to.
LING/C SC/PSYC 438/538 Lecture 18 Sandiway Fong. Adminstrivia Homework 7 out today – due Saturday by midnight.
Machine Learning in Practice Lecture 13 Carolyn Penstein Rosé Language Technologies Institute/ Human-Computer Interaction Institute.
Word classes and part of speech tagging. Slide 1 Outline Why part of speech tagging? Word classes Tag sets and problem definition Automatic approaches.
Basic Syntactic Structures of English CSCI-GA.2590 – Lecture 2B Ralph Grishman NYU.
PARTS OF SPEECH The 8 “building blocks” of the English language…
Parts of Speech I NTERJECTIONS V ERBS A DJECTIVES N OUNS C ONJUNCTIONS A DVERBS P ROUNOUN P REPOSITIONS We will study these in a different order.
Word classes and part of speech tagging Chapter 5.
Unit 1 Language Parts of Speech. Nouns A noun is a word that names a person, place, thing, or idea Common noun - general name Proper noun – specific name.
Part-of-Speech Tagging CSCI-GA.2590 – Lecture 4 Ralph Grishman NYU.
Part-of-Speech Tagging CSE 628 Niranjan Balasubramanian Many slides and material from: Ray Mooney (UT Austin) Mausam (IIT Delhi) * * Mausam’s excellent.
---DGP Instructions--- MONDAY: Parts of Speech. Steps for Mondays 1. Find and label all nouns. Be aware of gerunds or infinitives acting as nouns. 2.
Syntax Parts of Speech and Parts of the Sentence.
Grammar and Composition Review
Lecture 9: Part of Speech
LANGUAGE How can any language be divided? What are language parts?
Introduction to Machine Learning and Text Mining
Beginnings of language: Words to Sentences
NOUNS person, place, thing, or idea
Chapter 4 Basics of English Grammar
DGP TUESDAY NOTES (Parts of Speech)
English parts of speech
PREPOSITIONAL PHRASES
Chapter 4 Basics of English Grammar
Natural Language Processing
Ms. McDaniel 6th Grade Language Arts
Presentation transcript:

עיבוד שפות טבעיות – שיעור שישי Part of Speech taggers מדעי המחשב יעל נצר אוניברסיטת בן גוריון

First step for understanding … תיוג של טקסט הוא צעד ראשון לקראת הבנה של הטקסט. חלק הדיבר של המילה נותן לנו מידע על המילה ועל שכניה – וזה למשל ל : מודלים של שפה, n-grams, זיהוי קול למשל. יצירת קול – אופן הביטוי של המילה : רכבת בסיס לניתוח parsing שנאמר : identify phrases, identify structure.

זה כבר ראינו : Time flies like an arrow; Fruit flies like a banana. (first flies is a verb, second one is a noun. First like is a comparative conjunction, second like is a verb. )

איך מגדירים חלקי דיבר ? באופן מסורתי, ההגדרה של חלקי הדיבר מבוססת על תכונות מורפולוגיות של המילה או על המילים שמופיעות לידן בסמיכות distributional properties. באופן עקרוני, יש למילים מאותו חלק דיבר דמיון סמנטי, כלומר, הן מתארות איברים מאותן קבוצות למשל שמות עצם –nouns אנשים, מקומות, דברים – thought, table, sister שמות תואר – adjectives תכונות, כמויות big, lazy לואי פעולה – adverbs – מתארים אופן, מקום, זמן, איכות quickly פעלים – אירועים, התרחשויות או מצבי קיום – eat, is, write ויש גם מילות יחס, מילות איחוי ועוד...

חלקי דיבר The yinkish dripner blorked quastofically into the nindin with the pidibs. yinkish -adj nindin -noun dripner -noun pidibs -noun blorked -verb quastofically -adverb We determine the P.O.S of a word by the affixes that are attached to it and by the syntactic context (where in the sentence) it appears in.

Open class vs. Closed class types Closed class – הקבוצה שחבריה קבועים בדרך כלל, כמו מילות יחס. Open class – למשל, שמות עצם ופעלים : מילים חדשות מתווספות לקבוצה to fax, לפקסס בקורפוסים שונים ייצפו מילים שונות מהקבוצה הפתוחה, אבל אם הקורפוס גדול מספיק, סביר להניח שימצאו בהם אותם מילים השייכות לקבוצה הסגורה. מילים מהקבוצה הסגורה הן בדרך כלל function words – מילים השייכות לדקדוק כמו of, את – מילים קצרות בדרך כלל המופיעות בתדירות גבוהה, ולהן תפקיד תחבירי חשוב.

Open-class types שמות עצם – nouns פעלים – verbs שמות תואר – adjectives לואי פעולה – adverbs יש שפות בהן אין שמות תואר, Lakhota :) למשל, ומה שבדרך כלל שם תואר שם הוא פועל.

שמות עצם Nouns take -s, 's, -ness, -ment, -er, affixes Occur with determiners (a the this some..) can be subject of a sentence. Semantically: can be concrete – chair, train, or abstract – relationship. או שמות פעולה, למשל : אכילה, לאכול, pacing

שמות עצם proper, common pronoun שמות פרטיים Proper nouns Robert, Jerusalem, באנגלית, בדרך כלל Capitalized בדרך כלל אין להם determiners (the jerusalem?) ובדרך כלל מיודעים.

Common nouns Count nouns – allow grammatical enumeration – plural and singular (book – books), can be counted (one can of beer, 99 cans of beer). Mass (uncountable) nouns – a conceptualized as a homogeneous group - (milk and honey). Can appear without an article (*two communisms)

Verbs מילים המתייחסות לפעולות או תהליכים Main verbs – draw, provide, differ Auxiliaries (referred to as closed-class) סיומות אפשריות : Non-3rd-person-sg eat 3rd-person-sg eats progressive eating past-participle eaten

Adjectives מבחינה סמנטית, קבוצה הכוללת ביטויים המתארים תכונות או איכויות, משהו כמו פרדיקט חד - מקומי. שפות רבות כוללות צבעים, גילאים, וערכים. יש שפות בלי שמות תואר.

Adverbs קבוצה מעורבת למדי... Unfortunately, John walked home extremely slowly yesterday Directional, loative, degree, manner, temporal ….

Closed class Prepositions – on, under, over, near, by, at, from, to, with Determiners – a, an, the Pronouns – it, she I, others.. (aren ’ t these nouns? I think so.) Conjunctions – and, but, or, as, if, when Auxiliary verbs – can, may, should, are Particles – up, down, on, off, in, at, by Numerals – one, two, second, third

Prepositions and particles. Prepositions מופיעים לפני שם עצם מילים יחסיות – כלומר, לא מופיעות לבד. יחסי זמן / מקום, אבל לא רק. Particles Moral reform is the effort to throw off sleep מופיעים אחרי פועל, ובפעלים טרנזיטיביים, גם אחרי המושא The horse went off its truck/The horse went its track off

Articles a, an, the מופיעים בתחילה צירוף שמני noun phrase נפוצים מאוד : מתוך קופרפוס COBUILD המכיל 16M מילים, The 1,071,676 a 413,887 an 59,359

Conjunctions מאחים שני phrases, צירופים, משפטים, וכו. Or, and, but מאחים צירופים מאותו סטטוס Subordinating conjunctions משמשים לאיחוי צירופים מקוננים I thought that you might like some milk. I thought – main clause That you might … - subordinating clause.

Conjunctions מאחים שני phrases, צירופים, משפטים, וכו. Or, and, but מאחים צירופים מאותו סטטוס Subordinating conjunctions משמשים לאיחוי צירופים מקוננים I thought that you might like some milk. I thought – main clause That you might … - subordinating clause.

Preliminaries Tagset The set of possible tags for parts of speech. (size is changing in applications, languages...) A tagset should include the information that is needed for the next steps in the process, and that people can annotate well Brown corpus – 87 tags Penn Treebank – 45 Large: C7 tagset of used to tag the British National Corpus BNC.

Penn Treebank tagset. Tagset of Nouns: Common nouns: singular NN child, book plural NNS children, books Proper nouns: NNP Pronoun (closed class) Personal pronoun: PRP i him me we Possessive pronoun: PRP$ my his our

Tagset of Verbs Infinitive: untensed verb usually preceded by "to" or a modal.: VB (to go, to help) Tensed: MD modals (closed class): will, can, may.. VBZ (3rd present singular, ends in -s): she goes, runs, walks.. VBP (present non-3rd persong we are, they have, you do, i feel VBD (past tense, ends with -ed or d) we were, they had, wanted,... VGB (present participle ends in "ing") going, being, running notecould be adjectives: interesting or nouns: building. VBN: past participle sent, written, been.

Tagset of adjectives and adverbs Adjectives (modify nouns) JJ - interesting, yellow, difficult JJR - comparative form ending in -er (bigger) JJS - superlatives (most, earliest) Adverbs (modify others: adjectivs, verbs and adverbs) : RB: quickly, fast, perhaps... RBR - comparative - faster, later RBS - superlative - fastest

Tagset of Prepositions and conjunctions : Prepositions TO the word to IN all others that are associated with noun, and subordinating conjunctions (because, like, so...) Particle: RP - associated with verb covered it up. Conjunction: CC - coordinating conjunction and, but, or, not..

More tagsets: Possessive endings: POS 's (John's, students ’ ) Number - CD two, 152 Determiner DT a, every,... PDT -PDT pre-determiner (preceding 'the' ) Wh-words WDT - which, that WP - who, whom, what WP$ - whose WRB - when, why, where, who, how

Miscellaneous tagset Existential "There": there is no way. Expletive or excmlanation UH hey, oh, mmm foreign word - FW perestroika symbols: SYM 2*x=y list LS

HOW to tag? 1.ensure people can reproduce tagging 2.check data 3.We know that tags will be given in context -- needs some context - simple rules.

Part of speech tagging תיוג הוא התהליך של השמת חלקי דיבר או סימון לקסיקלי אחר לכל מילה בקורפוס. תיוג מתבצע בדרך כלל גם על סימני פיסוק הקלט הוא רצף מילים ו -tagset מהסוג שראינו. הפלט הוא התיוג הטוב ביותר עבור כל אחת מן המילים. והבעייה המרכזית, היא – ambiguity

Example VB DT NN Book that flight. VBZ DT NN VBNN Does this flight serve dinner? POS tagger will have to resolve this ambiguity (and hence a kind of a disambiguation task)

אנגלית שפה קלה באנגלית לרוב המילים יש רק תג בודד ( אבל בעברית כלל וכלל לא ) אולם – גם באנגלית – לחלק גדול מהמילים הנפוצות ביותר יותר מקריאה אחת. I can can my can 11.5% מ -Brown Corpus המילים types רב - משמעיות, וכ -40% מה -tokens.

Types in brown corpus Unambiguous (1 tag)35,340 Ambiguous (2-7) 4, , (still)

ובפעם הבאה : אבל – 40% מה -tokens רבי המשמעות, קל לבחור את המשמעות האמיתית, בגלל שהאפשרויות של תווים מסוימים הן הרבה יותר סבירות מאשר אחרים. סוגי מתייגים : Rule-based Stochastic