Presentation is loading. Please wait.

Presentation is loading. Please wait.

“Traducerea Automatizată vs. Traducerea Automată” Cum funcționează?

Similar presentations


Presentation on theme: "“Traducerea Automatizată vs. Traducerea Automată” Cum funcționează?"— Presentation transcript:

1 “Traducerea Automatizată vs. Traducerea Automată” Cum funcționează?
Dan Tufiș (ICIA) Mulțumiri: slide-uri adaptate după cele create de Josef van Genabith (DFKI)

2 Traducere Automatizată
Sumar: Traducere Automatizată ≠ Traducere Automată Traducerea automată este complexă, dar este doar o aproximare a traducerii umane Cum funcționează traducerea statistică? Totul este despre DATE! Traducere automatizată = Automated translation Traducere automată = Machine Translation

3 Traducerea Automatizată ≠ Traducerea Automată
Traducere Automatizată (TA) este un concept mai pragmatic decât HQMT (Traducere Automată de Înaltă Calitate), dar traducerea automată rămâne esențială (MT) Traducere Automatizată (TA) = Traducere Automată (MT) + corecție umană  Calitate Cu cât traducerea automată (MT) este mai corectă, cu atât mai mic este efortul depus de traducătorilor umani. Traducere Automatizată este diferită de TAC (Traducere asistată de calculator). În TA intervenția umană asupra textului este ulterioară finalizării traducerii de către mașină (MT), in timp ce în TAC procesul este interactiv, mașina oferă sugestii iar expertul aprobă sau respinge sugestiile furnizând propria variantă. TA este soluția adoptată de mai toate firmele ce oferă servicii de traducere (de pildă SDL): De pildă când nicio soluție pentru traducerea unui paragraf/propoziție nu este sugerată de memoriile de traducere automat, se traduce paragraful oferindu-se expertului uman traducerea realizată pentru eventualele corecții.

4 Limba/Traducerea este complexă
Traducerea nu poate fi calculată cu o formulă exactă (oricât de complicată ar fi ea) Un cuvânt/o propoziție poate însemna mai multe lucruri Mai multe moduri de a spune același lucru Înțelesul depinde de context Limbaj literal și figurativ (metafore) Limbă și cultură (moduri diferite de a conceptualiza același lucru) Ambiguitate lexicală, sintactico-semantică, … S-au încercat: traducere automată bazată pe teorii și gramatici formale (conținând câteva reguli în anii ’ până la zeci de mii de reguli în anii ‘80) Cum procedăm? Învățare Automată (după anii ’90) Învață din date  datele sunt esențiale Soluție aproximativă  imperfectă, necesită îmbunătățiri Post-editare de către traducători profesioniști Eleganță, Eficientă, Flexibilă, Complexă

5 Traducerea automată și datele
Traducerea automată statistică = date Învață să traducă din date Date Traduceri (texte paralele în limba sursă  țintă) Date monolingve (în limba țintă) Dicționare, terminologii, ontologii, entități denumite, liste de abreviații, etc. Traducerea automată statistică este performantă pe texte din domeniul din care a învățat

6 Ce putem învăța / Învățăm din Date?
Ce propoziții din limba sursă corespund propozițiilor în limba țintă : aliniere la nivel de propoziție It was a bright cold day in April, and the clocks were striking thirteen. Winston Smith, his chin nuzzled into his breast in an effort to escape the vile wind, slipped quickly through the glass doors of Victory Mansions, though not quickly enough to prevent a swirl of gritty dust from entering along with him… Într-o zi senină și friguroasă de aprilie, pe când ceasurile băteau ora treisprezece, Winston Smith, cu bărbia înfundată în piept pentru a scăpa de vântul care-l lua pe sus, se strecură iute prin ușile de sticlă ale Blocului Victoria, deși nu destul de repede pentru a împiedica un vârtej de praf și nisip să pătrundă o dată cu el….

7 Ce putem învăța / Învățăm din Date?
Ce propoziții din limba sursă corespund propozițiilor în limba țintă : aliniere la nivel de propoziție It was a bright cold day in April, and the clocks were striking thirteen. Winston Smith, his chin nuzzled into his breast in an effort to escape the vile wind, slipped quickly through the glass doors of Victory Mansions, though not quickly enough to prevent a swirl of gritty dust from entering along with him… Într-o zi senină și friguroasă de aprilie, pe când ceasurile băteau ora treisprezece, Winston Smith, cu bărbia înfundată în piept pentru a scăpa de vântul care-l lua pe sus, se strecură iute prin ușile de sticlă ale Blocului Victoria, deși nu destul de repede pentru a împiedica un vârtej de praf și nisip să pătrundă o dată cu el….

8 Ce cuvinte se traduc prin ce cuvinte în limba țintă: aliniere la nivel de cuvânt

9 Cum funcționează Traducerea Automată modernă?
Model Traducere Model de Limbă Algoritm Decodare Fără ecuații matematice astăzi Însă: Povestea traducerii automate în imagini Totul depinde de Date Ce cuvinte din documentul sursă se traduc prin ce cuvinte în documentul în limba țintă: aliniere la nivel de cuvânt + probabilități de traducere  model de traducere succesiunea naturală a cuvintelor într-o limbă + probabilități  model de limbă

10 Aliniere la nivel de cuvânt
Pentru a sugera cum lucrează aliniatorul în documente bilingve și cum se construieste modelul de traducere să ne imaginăm meniul afișat în chineza și engleză. Vrem să aflăm cum se traduce Egg Drop

11 Aliniere la nivel de cuvânt

12 Traducere Automată Statistică
Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè. RO FR # eu J’ ** Je * iubesc aime ** aiment * <null> le *** la ** băiatul garcon * fata fille * mama mère * cainele chiene *** ei ils *** vorbesc parlent ** parle * cu à ** au * Date aliniate Statistici

13 Traducere Automată Statistică
Eu vorbesc cu fata Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè. RO FR # eu J’ ** Je * iubesc aime ** aiment * <null> le *** la ** băiatul garcon * fata fille * mama mère * cainele chiene *** ei ils *** vorbesc parlent ** parle * cu à ** au * J’ parlent à le fille Date aliniate Statistici

14 Traducere Automată Statistică
Modelul de limbă: Ce înseamnă propoziții bune în limba țintă ? Ce cuvinte pot urma altor cuvinte și care nu.. (gramatică) Învățat din date … Je parle e corect … J’ parlent e incorect … la fille e corect … le fille e incorect … Je parle à la fille >> J’ parlent à le fille Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè. Not quite perfect, far from it! Should be “Je parle a la fille.” Date aliniate

15 Traducere Automată Statistică
Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè. Eu vorbesc cu fata J’ parlent au le fille 2/3 2/3 1/3 3/5 1/1 Je parle à la fille 1/3 1/3 1/3 2/5 1/1 Not quite perfect, far from it! Should be “Je parle a la fille.” Modelul de limbă penalizează rezultatele conținând secvențe Incorecte (mai exact, le atribuie scoruri foarte mici)! Date aliniate

16 Traducerea Automată bazată pe secvențe de cuvinte
Eu iubesc băiatul. J’aime le garcon. Eu iubesc câinele. J’aime le chien. Ei iubesc câinele. Ils aiment le chien. Ei vorbesc cu fata. Ils parlent à la fille. Ei vorbesc cu câinele. Ils parlent au chien. Eu vorbesc cu mama. Je parle à la merè.

17 Traducerea Automată bazată pe secvențe de cuvinte
Mult mai bună ca traducerea statistică simplă! Tehnologie standard: Google, Microsoft, Baidu, SDL, Asia-Online etc. Moses Open Source PB-SMT Cel mai răspândit sistem PB-SMT Cercetarea finanțată de Comisia Europeană Folosită de centrul comisiei DGT

18 Dictionare / Terminologii /Ontologii
EUROVOC, IATE, MANTRA (MeSH, SNOMED-CT, MedDRA, etc), Linked Heritage Numeroase tezaure dezvoltate la JRC Ispra (Geo-locations, Person/Organisation names, Dates, etc.)

19 CONCLUZII Refolosirea datelor existente (traduceri umane, memorii de traducere, dicționare și terminologii multilingve, etc.) este cel mai bun mijloc de a îmbunătăți calitatea traducerii automate Nu subestimați valoarea resurselor lingvistice pe care le aveți sau le veți crea în activitatea dumneavoastră Previzionați (dacă nu ați făcut-o deja) un plan de management al resurselor! ELRC are nevoie de implicarea noastră pentru a face, și pentru limba română, din CEF.AT un success Împreună vom reuși să obținem datele potrivite


Download ppt "“Traducerea Automatizată vs. Traducerea Automată” Cum funcționează?"

Similar presentations


Ads by Google