Presentation is loading. Please wait.

Presentation is loading. Please wait.

LINCOR – Descrierea informaţiilor lingvistice

Similar presentations


Presentation on theme: "LINCOR – Descrierea informaţiilor lingvistice"— Presentation transcript:

1 LINCOR – Descrierea informaţiilor lingvistice
Felicia Codirlaşu* *SOFTWIN

2 Morfologie Lexic Sintaxă Corespondenţe
Secţiuni implicate Morfologie Lexic Sintaxă Corespondenţe Pentru descrierea si reprezentarea expresiilor avem nevoie nu doar de informatii lexicale si morfologice, ci si de precizarea relatiilor ce se stabilesc intre cuvinte, in interiorul expresiilor.

3 Configuratorul morfologic
Descrie structura morfologică a unei limbi Organizat sub forma unui arbore atribut-valoare (AVT) nodurile “atribut”: categorii morfologice nodurile “valoare”: valori ale categoriilor morfologice Alte tipuri de informaţii ataşate fiecărui nod: abrevierea categoria – flexionabilă sau nu forma este lemă sau nu forma este supliment sau nu

4 ...Configuratorul morfologic...
Arbore atribut-valoare (AVT) masculin gen feminin atribut neflexionabil substantiv neutru singular număr flexionabil clasa plural neflexionabil singular verb număr nodurile “atribut”: categorii morfologice nodurile “valoare”: valori ale categoriilor morfologice Alte tipuri de informaţii ataşate fiecărui nod: flexionabil sau nu. plural flexionabil valoare

5 ...Configuratorul Morfologic [RO]…

6 ...Configuratorul Morfologic [EN]

7 Configuratorul Morfologic [RO]…
Statistici Configurator Morfologic pentru limba română: Nume Număr situaţii de flexiune (EC) Total atribute Total valori Atribute neflexionabile Clasa 20179 854 2207 99 Clasa = Substantiv 360 10 30 3 Clasa = Articol 82 13 38 2 Clasa = Adjectiv 420 12 Clasa = Pronume 1.118 112 324 Clasa = Numeral 1.145 154 447 43 Clasa = Verb 16.944 507 1212 23 Clasa = Adverb 68 32 88 7 Clasa = Prepoziţie 1 4 Clasa= Conjuncţie Clasa = Interjecţie 5 Clasa = Semn 6 Clasa = Morfem

8 Configuratorul Morfologic [EN]…
Statistici Configurator Morfologic pentru limba engleză: Nume Număr situaţii de flexiune (EC) Total atribute Total valori Atribute neflexionabile Part of speach 3551 534 1206 106 Part of speach = Noun 155 56 111 42 Part of speach = Article 3 6 1 Part of speach = Adjective 48 14 30 Part of speach = Pronoun 353 74 168 27 Part of speach = Numeral 12 5 2 Part of speach = Verb 2703 325 747 7 Part of speach = Adverb 265 52 116 19 Part of speach = Preposition Part of speach = Conjunction Part of speach = Interjection Part of speach = Sign Part of speach = Particle

9 Sintaxa NTPAR - N (neterminal) - simboluri care nu apar în
enunţuri şi se expandează conform regulilor - T (terminal) - reprezintă un şir de caractere. - P (pseudoterminal) - reprezintă o clasă lexicală - A (acţiuni procedurale) - R (relaţie) – reprezintă relaţiile de coordonare sau regenţă-subordonare descrise în arborele de dependenţe.

10 Sintaxa – reguli sintactice
Membrul drept Membrul stâng Alternant Neterminal Secţiune sintactică AVT Nume NTPA AVT Liste de relaţionare Secţiune de dependenţe Nume + tip (RS/RC) Regulă sintactică Relaţie AVT Secţiunea sintactică a unei limbi conţine reguli generative (ca în gramaticile convenţionale), care au asociate în plus şi o structură de arbore bazată pe relaţii de regenţă-subordonare sau de coordonare între terminalii şi neterminalii aflaţi în partea dreaptă a unei reguli. Prin aplicarea regulilor sintactice, în procesul de analiză se va genera arborele de dependenţe, care va reprezenta enunţul construit cu toate legăturile lui între cuvinte. Liste de relaţionare Secţiune de acord Condiţie de acord Acţiuni

11 Sintaxa - Arbori de dependenţe (conventii grafice)
Simboluri folosite în regulile sintactice, care se vor regăsi în arborele de dependenţe: <...> Neterminal (N) Relaţie de Coordonare (RC) “...” Terminal (T) 1 2 Relaţie de Subordonare (RS) %...% Pseudoterminal (P) #...# Acţiune procedurală (A)

12 @subordonare particula logica@
Sintaxa - Arbori de dependenţe (reprezentare grafică) % verb % @compl - regent @coordonare 1 2 % substantiv % % substantiv % @subordonare particula "şi"

13 Lexiconul Un LEXICON GRAALAN este o structură de date ce conţine trei tipuri de intrări: a) Intrări de tip lexical; b) Intrări de tip morfologic; c) Intrări de tip procedural. În acest proiect ne-am ocupat de un subtip al intrărilor de tip lexical - intrările de tip expresii multicuvânt (MWE - Multi Word Expression).

14 MWE... Intrările de tip multicuvânt (MWE) - similare cu intrările de tip “lemma” + o secţiune morfo-sintactică. Tipuri de intrări MWE: - locuţiuni - expresii - cuvinte compuse (alăturare – cu sau fără cratimă) - alte îmbinări fixe de cuvinte. => cuvântul “expresie” are o accepţiune mai largă decât cea tradiţională. secţiuna morfo-sintactică descrie morfologic fiecare cuvânt în parte şi sintactic - relaţiile dintre cuvintele din expresie. O expresie multicuvânt are asociat un arbore de dependenţe alcătuit din cuvinte (terminali, pseudo-terminali, acţiuni directe) şi relaţii între acestea. Corespondenţele bilingve se realizează doar între TPA.

15 ...MWE... Multiword entry (MWE) Text (normal şi fonetic)
Semantică (sensuri, relaţii semantice, exemple...) Arbore de dependenţe Secţiune sintactică Neterminal + AVT + Listă de relaţionare Am reprezentat schematic structura unei expresii la nivelul descrierii Graalan. Secţiune de dependenţe Relaţie RS/RC + AVT + Listă de relaţionare

16 ...MWE – Text GRAALAN... Entry_001: Entry multiword
Text “a avea pâinea şi cuţitul" Phonetic "ˈˈa ave̯ˈa pˈɨjne̯a ʃˈi kuʦˈitul" Meaning “A avea la îndemână toată puterea, toate mijlocele.” Syntax T1:"a avea" partial variable [clasa = verb] [conjugarea = II] [tranzitivitate = tranzitiv] [diateza = activa] Governor R1 T2:“pâine" invariable [clasa = substantiv] [numar = singular] [caz = acuzativ] [articulare = articol hotarat] Coordinate R2 (1) T3:“şi” invariable [clasa = conjuncţie] Subordinate R3 T4:“cuţit" invariable [numar = singular] [caz = acuzativ] Coordinate R2 (2) Dependency – regent (2) Subordinatte R1, Governor R3 particula Exemplu de descriere in Graalan

17 ...MWE –Editare prin aplicaţia LKT...
Text expresie Cuvânt de sortare Sens expresie LKT = Lexicon Knowledge Tool Text expresie: Este textul unei expresii multicuvânt cu forma de dicţionar. Nu sunt incluse cuvintele care nu sunt neapărat necesare pentru sensul expresiei. Cuvant de sortare: Necesar pentru sortarea expresiei pentru apariţia ei într-o listă sortată sau un dicţionar. Este unul dintre cuvintele expresiei Pentru expresiile în limba română, acesta e de obicei cuvântul unde apare expresia în Dex'98.

18 ... MWE –Editare prin apilcaţia LKT ...
Fereastra de editare a structurii expresiei: doua parti: una rezervata reprezentarii arborelui de dependente, alta cuprinde informatii atasate nodurilor (terminali, relatii).

19 ...MWE - Structură... Proprietăţile terminalilor - infomaţii lexicale, semantice şi morfologice a) Text/lema b) Meaning c) Variability - invariable - un cuvânt la o singură formă de flexiune - partial variable -acelaşi cuvânt, având diverse forme de flexiune. - total variable -orice cuvânt care corespunde clase lexicale din AVT d) AVT Fiecare dintre cuvintele ce alcatuiesc textul expresiei are atasate informatii specifice lui. In acelasi timp, se stabileste si legatura terminalilor cu tokenii identificati in expresie.

20 ... MWE - Arbore de dependenţe (reprezentare grafică)...
Arborele de dependenţe - schema sintactică a expresiei + informaţii suplimentare de natură lexicală şi morfologică. “a avea pâinea şi cuţitul”

21 Corespondenţe bilingve...
Lexicon limba 1 Aplicaţie creare corespondenţe bilingve Expresie ... Text Cuvânt de sortare Arbore de dependenţe Legătura terminalilor cu tokenii Caracterizare morfologică terminali Desen arbore sintactic Lema ... Text Structură Corespondenţe Bilingve Lexicon limba 2 Expresie ... Text Cuvânt de sortare Arbore de dependenţe Legătura terminalilor cu tokenii Caracterizare morfologică terminali Desen arbore sintactic Lema ... Text Structură

22 ...Corespondenţe bilingve
Corespondenţele bilingve se stabilesc între intrările lexicoanelor a două limbi şi pot fi: a) Corespondenţe lexicale; b) Corespondenţe morfologice; c) Corespondenţe între acţiuni procedurale. Aplicaţia utilizată în proiect tratează corespondenţele lexicale. - lexicale: intre intrari in lexicon - morfologice: intre structuri reprezentand forme analitice ale cuvintelor - sintactice: intre un arbore din sintaxa limbii sursa si un arbore din gramatica limbii tinta

23 Corespondenţe lexicale...
Tipuri de corespondenţe lexicale - expresie – expresie: Ex: a duce cu zăhărelul - to hand somebody a lemon - expresie – lemă: Ex: idee fixă - obsession - expresie – traducere: Ex: a ieşi în relief - to be prominent

24 ...Corespondenţe lexicale...
În descrierea unei corespondeţe se pot folosi clauze de: a) mapare b) transfer c) combinare

25 ...Corespondente lexicale - mapare
- TPA sunt relativ echivalenţi în cele două expresii, şi - TPA din expresie din limba ţintă va prelua toate legăturile (cu descendenţele respective) din extensia expresiei corespunzătoare TPA din expresie din limba sursă.

26 Exemplu - Mapare “a înduioşa pe cineva până la lacrimi”  “to move somebody to tears” a înduioşa pe @complement - regent până to move somebody @verb – @verb – to cineva la lacrimi @prep-grup tears @prep phrase –

27 ...Corespondente lexicale - transfer
- TPA nu sunt echivalenţi în cele două expresii, iar.. - Legăturile din extensia expresiei corespunzătoare nodului din expresie din limba sursă, cu toate descendenţele lor, vor fi preluate de nodul din expresie din limba ţintă .

28 Exemplu - Transfer “a da relaţii”  “to give information” a da to give
@complement- regent @verb – A da relatii suplimentare + to give additional information relaţii information

29 ...Corespondente lexicale - combinare
- Prin combinare se indică modul prin care echivalenţii în limba ţintă, ai eventualilor subordonaţi din extensia expresiei sursă se vor coordona cu subordonaţii deja existenţi în expresia ţintă. ! Se poate defini o combinare doar pentru acei terminali din ţintă care au deja definită o clauză de mapare sau transfer.

30 @prep phrase – complement@
Combinare – Exemplu “a face cuiva o figură urâtă”  “to play a dirty trick on somebody” E1: to play E1: a face @compl - regent @compl - regent @verb - @verb - E2: cuiva E3: o figură E2: trick E4: on @atribut - @premodifier – noun @prep phrase – E4: urâtă E3: dirty E5:somebody combination

31 @prep phrase – complement@
Combinare – Exemplu “a face cuiva o neaşteptată figură urâtă” + “to play a dirty trick on somebody” Expresia ţintă Expresia sursă a face to play @compl - regent @compl - regent @verb - @verb - cuiva o figură a trick on @atribut - @atribut - @premodifier – noun @prep phrase – neaşteptată urâtă dirty somebody Extensie expresia sursă

32 @prep phrase – complement@ @logical coordination@
Combinare – Exemplu “to play a dirty and unexpected trick on somebody” Expresia ţintă rezultantă to play @compl - regent @compl - regent a trick on @premodifier – noun @prep phrase – @logical somebody 1 2 dirty unexpected

33 ...Corespondenţe lexicale – Statistici peste 1000 expresii din RO
Tip corespondenţe Număr Număr total corespondenţe 4404 Număr total corespondenţe RO - EN 2202 Expresie RO – expresie EN 1727 Expresie RO – lemă EN 307 Expresie RO – traducere EN 177 Clauze de mapare 764 Clauze de transfer 1225 Statisticile sunt realizate pornind de la o baza de test de 1000 expresii in limba romana. Pentru toate corespondentele RO – EN, au fost definite si corespondentele “pereche” – EN – RO. Corespondentele au fost facute tinand cont de sensurile expresiei, astfel incat au aparut situatii cand o expresie din romana are drept echivalent doua sau mai multe expresii in engleza, conform sensurilor. De asemenea, au fost date si mai multe expresii sinonime pentru aceeasi expresie din limba romana.

34 Q&A


Download ppt "LINCOR – Descrierea informaţiilor lingvistice"

Similar presentations


Ads by Google