Download presentation
Presentation is loading. Please wait.
Published byHeather Briggs Modified over 9 years ago
1
Learning Paraphrases in Hebrew Article Overview and Initial work Gabi Stanovsky
2
Definitions Paraphrase – “phrases, sentences, or longer natural language expressions that convey almost the same information” Textual Entailment – “pairs of natural language expressions, such that a human who reads (and trusts) the first element of a pair would most likely infer that the other element is also true” (Androutsopoulos and Malakasiotis, 2010) אזרח ומאבטח השתלטו על אדם שרצה לשדוד סניף דואר בב " ש YNET, 14.11.11) ) אזרח ומאבטח השתלטו על שודד בסניף בנק הדואר המרכזי בב " ש NRG, 14.11.11) ( בשנת 1999 זכתה קבוצת פנאתינייקוס בגביע אירופה בשנת 1999 עבר קטש לקבוצת פנאתינייקוס היוונית, ואף זכה להניף את גביע אירופה איתה ( ויקיפדיה )
3
Tasks Paraphrase Extraction – Extract paraphrases occurring within text. Paraphrase Identification – Determine if two given sentences are paraphrases Paraphrase Generation – Generate paraphrases of a given input sentence.
4
Common Stages in Learning Paraphrases Obtain monolingual corpus. Align paragraphs and sentences. Learn Paraphrases. Apply Learned rules to solve NLP tasks.
5
Research Questions Are there specific properties of the Hebrew language that allow paraphrasing? Which datasets can be used to collect and identify a database of paraphrases in Hebrew? Could approaches taken on other languages (especially English) be applied for Hebrew? How could paraphrases in Hebrew be learned (encoded) in order to help in NLP tasks?
6
Applications Article summarization Textual entailment Thesaurus Enrich automatic generation of text Machine translation
7
Previous Work In Other Languages Alignment - Gale and Church: They hypothesized that when looking at paraphrases, each character in the source sentence will give rise to a certain (language dependant) number of characters in the target language.
8
Previous Work In Other Languages Alignment - Gale and Church: This model combined with empirical results from their test corpus generated a fairly simple alignment algorithm, which only looks at the input sentences length.
10
Previous Work In Other Languages Alignment - Gale and Church: Only allowed for alignments of the types below.
11
Previous Work In Other Languages Paraphrase Identification (Barzilay, McKeown, 2001): –Their dataset consists of multiple English translations of foreign books. –Assumption: different translators will introduce paraphrases when translating the same source text.
12
Previous Work In Other Languages Paraphrase Identification (Barzilay, McKeown, 2001): –Continued by applying an iterative model for extracting paraphrases rules from aligned sentences. –They have created rules of two types: Contextual rules, and morpho-syntactic rules, these two are co-trained on the aligned corpus and lexical paraphrases are extracted.
13
Previous Work In Other Languages Contextual Rules: left1 = (VB0 TO1) right1 = (PRP$2,) “Tried to console her” left2 = (VB0 TO1) right2 = (PRP$2,) “Tried to comfort her” Morpho-Syntactic Rules : VB0 TO1 VB1 PRP1 “used to love her” VB0 TO1 VB2 NN1 IN PRP1 “used to feel affection for her” Lexical Paraphrases: (love, feel affection for)
14
Previous Work In Other Languages Generation – Microsoft :Microsoft –The Microsoft NLP team created a system to produce paraphrases of an input English sentence. –Their system gathered a large automated training set from news sites, upon which they performed sentence alignment –They have used statistical learning tools upon this dataset to learn generation lattices
15
Previous Work In Other Languages Generation –Malakasiotis and Androutsopoulos (Generate and rank): –Have created a method for ranking candidates for paraphrase which gives weight to for grammaticality, meaning preservation, and diversity of the paraphrases. –They have used this ranking component to create a new paraphrase generator. This generator creates many paraphrasing candidates by using other available techniques for paraphrasing. –It then uses the ranking component to rank these candidates and returns the most likely ones –Have published their dataset of paraphrase pairs with hand tagged judgment ranks.
16
Previous Work In Other Languages Extraction - Hashimoto et al (2011): –Their work concentrates on the extraction of Japanese paraphrases from the web. –They scan the web for what they call a "definition sentence" – a sentence which describes a term. –In order to identify such sentences they parse match them against a sentential template – certain order of part of speech tags which their hypothesis claim that a definition sentence should adhere to. –Following this, they have coupled sentences from the mining which contained the same subject, in assumption that this couple is likely to contain paraphrases. Using this method they report achieveing a large collection of 300K paraphrases with estimated precision of ~94%.
17
Previous Work In Hebrew (Ordan, Wintner. 2011): –have developed a medium scale Wordnet for Hebrew, consisting of ~5300 groups of synonymous lexical items (synsets). –The approach they have taken was to form the Wordnet by aligning English and Hebrew expressions, and infer relations from the English available Wordnet onto their created Hebrew Wordnet. –They state that this method (called MultiWordNet) is preferable over building the Wordnet from scratch since the Hebrew language is poor on computational linguistic resources. The lack of monolingual dictionaries in Hebrew is given as an example of such resource.
18
Initial Work Data Mining Leading news sites will, with high probability, report on same event during a day’s time Collect hourly news headlines – our assumption is that finding paraphrases within a day’s mining is a simple task. Full story – richer examples?
19
Initial Work Data Mining – Examples synonym סתיו שפיר נפגעה קל מאוד בהפגנה ליד בית שר האוצר סתיו שפיר נפצעה קל מאוד בהפגנה מול בית שר האוצר The bad הולנד: להטיל סנקציות על הבנק המרכזי באיראן צרפת: להטיל סנקציות בהיקף חסר תקדים על איראן The good השר שלום: מפגן האחדות הפלסטיני מחסל שיחות ישירות עם הרשות השר שלום: מפגן האחדות הפלסטיני סותם הגולל על מומ ישיר
20
Initial Work Headlines Alignment Baseline alignment method was created: –For each two headlines in a day compute probability of alignment as (2 * #common words) / (#total words) -For each news headline in a news source – align with a headline in another source for which the probability is over a certain threshold. Produces fairly good resultsresults
21
Initial Work Full Stories Alignment Testing with dynamic programming approach (which gives weights to identical words) in order to align full stories seems to yield some interesting results
22
Initial Work Full Stories Alignment חכ זהבה גלאון ממרצ תקפה את ראש הממשלה, בנימין נתניהו. במהלך דיון בכנסת בעקבות חתימות של חכים: אם תנסה להרוס את הדמוקרטיה, תקבל התקוממות עממית. הפרת את שבועת האמונים שלך לאזרחי המדינה ולחוקיה כאשר התחלת בקמפיין לחיסול הדמוקרטיה במדינת ישראל. דמוקרטיה לא נבחנת רק בשלטון הרוב. אלא גם בכיבוד זכויות האדם של המיעוט ואתה הפרת את שבועת האמונים שלך. חברת הכנסת זהבה גלאון ממרצ טענה כי ראש הממשלה, בנימין נתניהו, הפר את שבועת האמונים שלו לאזרחי המדינה בכך שהחל בקמפיין לחיסול הדמוקרטיה במדינת ישראל: דמוקרטיה לא נבחנת רק בשלטון הרוב, אלא גם בכיבוד זכויות האדם של המיעוט. אתה הפרת את שבועת האמונים שלך, כשהחלטת לחסל את המיעוט ולפגוע בזכויות היסוד שלו. אם תנסה להרוס את הדמוקרטיה, תקבל התקוממות עממית, הכריזה.
23
Initial Work Full Stories Alignment 1. חכ זהבה גלאון מממרצ תקפה את ראש הממשלה, 2. בנימין נתניהו. 3. במהלך דיון בכנסת בעקבות חתימות של חכים: 4. אם תנסה להרוס את הדמוקרטיה, 5. תקבל התקוממות עממית. 6. הפרת את שבועת האמונים שלך לאזרחי המדינה ולחוקיה כאשר התחלת בקמפיין לחיסול הדמוקרטיה במדינת ישראל. 7.דמוקרטיה לא נבחנת רק בשלטון הרוב. 8.אלא גם בכיבוד זכויות האדם של המיעוט ואתה הפרת את שבועת האמונים שלך. 9. - 10. - 11. - 12. - 1. חברת הכנסת זהבה גלאון ממרצ טענה כי ראש הממשלה, 2. בנימין נתניהו, 3. - 4. - 5. - 6.הפר את שבועת האמונים שלו לאזרחי המדינה בכך שהחל בקמפיין לחיסול הדמוקרטיה במדינת ישראל: 7. דמוקרטיה לא נבחנת רק בשלטון הרוב, 8. אלא גם בכיבוד זכויות האדם של המיעוט. אתה הפרת את שבועת האמונים שלך, 9. כשהחלטת לחסל את המיעוט ולפגוע בזכויות היסוד שלו. 10.אם תנסה להרוס את הדמוקרטיה, 11.תקבל התקוממות עממית, 12.הכריזה.
24
Future Work Plan Align full stories using a baseline method (7.12) Provide a better alignment method: –Using tagger in order to exploit POS knowledge. (14.12) –Giving weight to Proper noun (e.g. names) (21.12) and Named Entities: "The Cassini spacecraft, which is en route to Saturn, is about to make a close pass of the ringed planet's mysterious moon Phoebe“ vs.: "On its way to an extended mission at Saturn, the Cassini probe on Friday makes its closest rendezvous with Saturn's dark moon Phoebe.“ (C. Quirk, C. Brockett and W. Dolan (Microsoft Research), 2004)
25
Future Work Plan: Publish alignments dataset (28.12) and estimate its precision rate. Try to incorporate LDA in the system (7.1) to get better results Try to formulate a method (14.1) for synonyms extraction of this dataset. Explore ways of learning and (21.1) encoding paragraph rules from the aligned dataset.
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.