Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Slides:



Advertisements
Similar presentations
Ma.
Advertisements

El Alfabeto Con Vocabulario
Click on each of us to hear our sounds.
Las Vocales En Espanol.
Līguma jēdziens, veidi, noslēgšana. Līgumu brīvība.
Tālmācības centra redzējums un pieredze par biznesu zināšanu sabiedrībā Komercdarbības kursā  Jānis Kapenieks, Atis Kapenieks  Tālmācības studiju centrs,
PHONICS Repeat each sound. Blend the sounds. Read each word.
ma mu mi mo me pe pi pa pu po si sa so.
SAM «Veicināt efektīvu energoresursu izmantošanu, enerģijas patēriņa samazināšanu un pāreju uz AER apstrādes rūpniecības nozarē» , Uzraudzības.
Sílabas con m,p,s tema 2. pe so ma si mu se.
MA. ME MI MO MU MÁ MÉ MÍ MÓ MŮ LA LE LI.
G.Bārzdiņš, D.Goško, P.Paikens 02/12/2016
Education, base for future water companies needs and sustainability
The State Employment Agency
Es esmu Krišjānis Liepiņš no biedrības “Bērnu Vides skola”.
Brokastis ar Amadeus Neatkarīgi un unikāli Līga Kovale gada 17
SECURITY SERVICES STATISTICS IN LATVIA
Bibliotēka 2.0 Teorija „Teorētiskā bāze maģistra darba izstrādei”
Grafiskie informācijas organizatori
Autoceļu problemātika
Kvalitātes vadība universitātē
Tija Zīriņa, Agrita Tauriņa, Anna Vulāne RPIVA BVPC
Programmatūras paštestēšana
Jānis Zuters, Ratnieki Latvijas Universitāte Datorikas fakultāte
Mazliet par datoru....
Attēlu konstruēšana lēcās
Līklīnijas kustība Ķermeņa līklīnijas kustības trajektorija var būt jebkuras formas līkne. Līknei var būt noslēgta vai nenoslēgta forma. Mag.phys. A.Krons.
Modelēšana un rīku būve (specseminārs)
Riebiņu vidusskolas skolotāja
– instruments komunikācijas prasmju uzlabošanai biznesam
Covidien ķirurģiskie diegi
Kopīpašums.
Vispārizglītojošā vizuālā (v-fizika) fizika
Valsts un indivīda atbildība starptautiskajās tiesībās
Izglītības sistēmu attīstība Eiropas valstīs
Darbības - sazarojuma operatori
Formālās specifikācijas
G.Bārzdiņš, D.Goško, P.Paikens 24/11/2017
VPP „SOPHIS” 2.projekta „Uz ontoloģijām balstītas tīmekļa videi pielāgotas zināšanu inženierijas tehnoloģijas” LU Datorikas fakultātes 3.posma uzdevumi.
11/20/2018 5:11 PM Kreditoru prasījumu izvērtēšana maksātnespējas procesā. Problemātika un aktuālā tiesu prakse. Ivanda Avotiņa – sertif. maksātnespējas.
Eiropas Sociālā fonda projekts
Eiropas Savienības fondu 2014.–2020.gada plānošanas perioda ieviešana
PVN numura pārbaude Guntis Strazds Rīga, 2004.gada 23.septembris
Emisijas faktori un smaku mērījumi
1.seminārs “Pētījuma stratēģija un problēmas identificēšana”
Ms Access Tabulas 2. daļa Andris Šteins, 2009.
Datorika Liepājas Universitātē (LiepU)
DMF Informātikas katedra
Dzeramā ūdens kvalitātes stabilitāte pilota mēroga ūdens apgādes sistēmā VPP Projekts Nr.4 – Tehnoloģijas drošai un uzticamai gudrajai pilsētai (GUDPILS)
TIENS CINKA KAPSULAS.
Intelekts un kreativitāte
Projekts “Eiropas pētījums par HIV matemātisko modelēšanu un HIV testēšanas aktivitāšu izmēģinājumiem riska grupās” HERMETIC – HIV European Research.
New approach to the strategic analysis of the municipal sector
Atvērtā koda programmatūra
Eiro- zona Latvija ES ES valstis Perso- nības Kontū- ras
REACH 2018 Sagatavojiet reģistrācijas pieteikumu kā IUCLID dokumentāciju.
Globalizācija un attīstība
Latvijas ģeoīda modeļa precizitātes uzlabošanas iespējas
REACH 2018 Apvienojieties ar saviem līdzreģistrētājiem —
Eiropas nostādnes Open Access jautājumos un OpenAIRE
REACH 2018 Atrodiet savus līdzreģistrētājus un gatavojieties kopīgai reģistrācijai.
Latviešu valodas modelēšana automātiskai runas atpazīšanai
Programmēšanas valodu klasifikācija un lietojumsfēra
Projekts “Pašvaldību aktivitāšu īstenošana, lai nodrošinātu skolēnu pārvadāšanu un ar to saistītos atbalsta pasākumus” Sandra Cakule Valsts reģionālās.
Darbinieku nosūtīšanas tiesiskie un praktiskie aspekti.
Zinātniski metodiskie Analizatora uzbūves pamati:
Erevānas ministru komunikē prioritātes g.
Kompetenču pieeja mācību saturā
Latvijai adaptētas nākotnes klimata projekcijas un klimata projekciju analīzes rīks – Klimata datu menedžeris (Climate Data Manager) Daiga Cepīte-Frišfelde.
DARBA AUTORS: ROBERTS B Ē RZI Ņ Š T Ē MA: PASAKAS PAR ZIEDIEM UN ANNA SAKSE.
Presentation transcript:

Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos Mārcis Pinnis marcis.pinnis@tilde.lv Tilde Latvijas Universitāte

Prezentācijas pārskats Mašīntulkošanas risinājumu iedalījums pēc pielietojuma Statistiskās mašīntulkošanas (SMT) adaptācija (pielāgošana) konkrētai nozarei Ieskats netālā nākotnē (1-2 gadi)

Neliela atkāpe no tēmas Kāpēc vispār nepieciešams attīstīt valodu tehnoloģijas? Lai likvidētu komunikācijas barjeras Lai padarītu informāciju pieejamu ātri un efektīvi Lai paaugstinātu produktivitāti Jo valodu tehnoloģiju un pakalpojumu tirgus ir ļoti liels un augošs! Pēc Eiropas Komisijas* pētījuma Eiropas 2012. gada valodas tehnoloģiju un pakalpojumu tirgus apjoma prognozes ir 12,3 miljardi eiro. Pēc Common Sense Advisory** pētījuma pasaules 2012. gada valodas tehnoloģiju un pakalpojumu tirgus apjoma prognozes ir 33,5 miljardi ASV dolāru. * Study on the size of the language industry in the EU, ISBN: 978-92-79-14181-2, 2009 ** Language Services Market 2012, Nataly Kelly, Donald A. DePalma, Robert G. Stewart, 2012

Kādam mērķim mums nepieciešama mašīntulkošana? Lai uztvertu tekstā ietverto informāciju ziņas, tūrisma informācija, jebkura veida informatīvs saturs Prasības var atšķirties No lasītāju/lietotāju skatupunkta No pakalpojumu sniedzēju skatupunkta

Tīmekļa lapu tulkošana, izmantojot specializētus tīmekļa pakalpojumus

Tīmekļa lapu tulkošana, izmantojot logrīkus Piemērs: Transposh tulkošanas logrīks, kas izmanto Google Translate pakalpojumu.

Tīmekļa lapu tulkošana, izmantojot pārlūkprogrammu spraudņus Piemērs: Google Chrome pārlūkprogrammas Google Translate tulkošanas spraudnis

Kādam mērķim mums nepieciešama mašīntulkošana? Lai palīdzētu tulkot tekstu (rediģējot saturu) Amatieriem Profesionāliem tulkiem Ir tāds teiciens: «TAS, KAS DER VISAM, NEDER NEKAM»

Apšaubāmas kvalitātes satura veidošana, izmantojot brīvi pieejamus mašīntulkošanas risinājumus Teksta rediģēšana

Profesionāla satura veidošana, izmantojot specializētus mašīntulkošanas risinājumus Šī scenārija attīstība ir ļoti vēlama, jo paver iespējas izmaksu samazināšanā, produktivitātes celšanā un peļņas palielināšanā. Loģiski, ka mēs vēlamies attīstīt tieši šo mašīntulkošanas virzienu.

Kādam mērķim mums nepieciešama mašīntulkošana? Lai aizstātu cilvēku (tulku) Nepieciešama perfekta (šobrīd neiespējama) mašīntulkošanas sistēma vai kontrolēta valoda Piemērs 1: Vienkāršota tehniskā angļu valoda (ASD Simplified Technical English) Izstrādāta aviācijas industrijas tekstu standartizācijai Piemērs 2: Medicīnas produktu aprakstu kontrolēta tulkošana Uwe Muegge, "Fully automatic high quality machine translation of restricted text: A case study", Translating and the computer 28. Proceedings of the twenty-eighth international conference on translating and the computer, 2006. gada 16. – 17. novembris, Londona. ASD - AeroSpace and Defence Industries Association of Europe

Kāpēc nepieciešama SMT sistēmu adaptēšana? Sistēmas būvētas citas nozares vai vairāku nozaru tekstu tulkošanai screw The ship’s propeller rammed into the ground. (dzenskrūve) The airplane’s propeller started rotating. (propelleris) There is a loose somewhere. I do not believe it. (kaut kas nav kārtībā) There is a loose in the stand. (vaļīga skrūve) Mašīntulks prot analizēt tikai to kontekstu, ko tam iemāca analizēt Robežas (daži vārdi, teikums, rindkopa, viss teksts, ārpus teksta informācija) Informācija par nozari un tās specifisko terminoloģiju Informācija par dažādiem apzīmējumiem (vietvārdi, netulkojami fragmenti, speciāli apstrādājami fragmenti) lokalizācijas informācija (mērvienību sistēmas, valūtas, utt.) Ja konteksts ir pietiekams, SMT sistēma var atrast pareizo tulkojumu, bet, ja konteksts nav pietiekams (jeb tas ir daudznozīmīgs), tad tulkojums bieži ir nepareizs, jo statistiski ticamāks izrādās nepareizais tulkojums. Par terminiem – mašīntulkam varētu nebūt pieejami dažādi klientu definēti ierobežojumi (prasības konkrētus terminus tulkot specifiski, nelietot kādu konkrētu tulkojumu, utt.) Ārpus teksta informācija – cilvēkiem bieži ir tendence mašīntulkam iedot mazu fragmentu teksta, svarīgo informāciju paturot galvā. Rezultātā pat visperfektākais mašīntulks nespētu atrast pareizo tulkojumu.

Tipiska mūsdienu statistiskās mašīntulkošanas sistēma Ko nedara Neidentificē teksta nozari (domēnu) – tiek izmantota fiksēta sistēma Neidentificē terminus – nenošķir no citiem fragmentiem Neidentificē fragmentus, kas būtu jātulko ar specifiskām metodēm (vietvārdi, personvārdi, datumi, mērvienības, utt.) Ko dara Angļu-latviešu virzienā veic teksta dalīšanu vārdos, pieturzīmēs (atsevišķos gadījumos morfosintaktiski marķē) Analizē teksta kontekstu noteiktās robežās (līdz noteiktam teksta vienību skaitam pa kreisi un pa labi) Neidentificē terminus. Lai gan, ir sistēmas, kur identificē nedalāmus fragmentus/terminu frāzes (piem., Kilgray), lai tulkošanā būtu iespējams tos tulkot, nedalot. Patiesībā – neidentificē arī valodu, kurā ir rakstīts teksts, kas jātulko, ja, piem., kāds teksta fragments ir rakstīts citā valodā. Citām valodām tiek izmantoti arī sintaktiskie marķētāji, izmantojot sistēmas, kas būvētas uz sastatītiem kokiem…

SMT adaptācija ar ierobežotiem resursiem Pieņemsim, ka pie mums ierodas klients, kas vēlas mašīntulkošanas sistēmu kādā šaurā nozarē Klientam līdzi ir paņemti: Neliels apjoms (2-3 tūkstoši teikumu) tulkotu tekstu (dokumenti divās valodās, vai jau sastatīti teikumi no tulkošanas atmiņām) un/vai terminu vārdnīca Mums ir pieejams liels vispārīgs (ne konkrētās nozares) paralēls korpuss Kā veicam, jeb, kā mēs piedāvājam veikt SMT sistēmu adaptāciju. Turpmākajos slaidos apskatīsim procesu, ko pielietojam, lai iegūtu papildus datu nozarēs, kurās dati nav uz sitiena pieejami.

1. Iegūstam terminus salīdzināma korpusa vākšanai Ja klients ieradies ar dokumentiem, tad: sastatām dokumentus teikumu līmenī izveidojam frāžu tabulu (ar Moses SMT sistēmas rīku palīdzību) Marķējam terminus atsevišķo valodu dokumentos Iegūstam terminu (frāžu) vārdnīcu Terminus sakārtojam Atlasam terminu pārus, atkarībā pēc to informatīvā svara (izfiltrējam vispārīgās valodas frāzes) Metodes aprakstītas: M. Pinnis un R. Skadiņš, MT Adaptation for Under-Resourced Domains – What Works and What Not, Proceedings of the Fifth International Conference Human Language Technologies — The Baltic Perspective, Tartu, Igaunija, 2012. gada 4. – 5. oktobris.

2. Vācam salīdzināmu korpusu Ar fokusētiem korpusu vākšanas rīkiem, piemēram ACCURAT FMC (Focussed Monolingual Crawler) Rezultāts: Divu valodu salīdzināms korpuss Korpusu sastatām dokumentu līmenī tā, lai dokumenti būtu viens ar otru salīdzināmi (saturs, ar noteiktu slieksni, pārklātos) Izmantojam salīdzināmības metrikas – rīkus, kas analizē dokumentus un nosaka satura pārklāšanās daudzumu robežās no 0 līdz 1. Piemēram, ACCURAT DictMetric vai ComMetric. Metodes aprakstītas: Inguna Skadiņa et al., Collecting and Using Comparable Corpora for Statistical Machine Translation, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012), 438. – 445. lpp., Stambula, Turcija, 2012.

3. Izvelkam jaunu terminu (frāžu) vārdnīcu Salīdzināmajā korpusā marķējam terminus Tos savstarpēji sastatām ar terminu sastatīšanas rīkiem Metodes aprakstītas: M. Pinnis et al., Term Extraction, Tagging, and Mapping Tools for Under-Resourced Languages. Proceedings of the 10th Conference on Terminology and Knowledge Engineering (TKE 2012), 193. –208. lpp., Madride, Spānija, 2012.

4. Meklējam paralēlu teikumu pārus salīdzināmajā korpusā Sastatām teikumus ar teikumu sastatīšanas rīku ACCURAT LEXACC Ja korpuss ir pietiekami salīdzināms (tajā ir teikumi, kas ir viens otra tulkojumi), rezultātā tiks iegūts saraksts ar sastatītiem teikumiem Metodes aprakstītas: D. Ştefănescu et al., Hybrid parallel sentence mining from comparable corpora. Proceedings of the 16th Conference of the European Association for Machine Translation (EAMT 2012), Trento, Itālija.

5. Trenējam mašīntulkošanas sistēmu Izmantojam mērķa valodas specifiskās nozares korpusu valodas modeļa trenēšanai. Papildinām paralēlo datu korpusu ar iegūtajiem teikumu pāriem un terminu vārdnīcu (!). Modificējam frāžu tabulu, lai nozares terminoloģija tiktu augstāk novērtēta. SMT sistēmas trenēšanai izmantojam Let’sMT! tīmekļa platformu (ietver Moses SMT platformu).

Vairāk informācijas M. Pinnis, R. Ion, D. Ştefănescu, F. Su, I. Skadiņa, A. Vasiļjevs un B. Babych, ACCURAT Toolkit for Multi-Level Alignment and Information Extraction from Comparable Corpora, Proceedings of the ACL 2012 System Demonstrations, 91. – 96. lpp., Association for Computational Linguistics, Jeju, Dienvidkoreja, 2012. M. Pinnis, N. Ljubešić, D. Ştefănescu, I. Skadiņa, M. Tadić un T. Gornostay, Term Extraction, Tagging, and Mapping Tools for Under-Resourced Languages, Proceedings of the 10th Conference on Terminology and Knowledge Engineering (TKE 2012), 193. – 208. lpp., Madride, Spānija, 2012. M. Pinnis un R. Skadiņš, MT Adaptation for Under-Resourced Domains – What Works and What Not, Proceedings of the Fifth International Conference Human Language Technologies — The Baltic Perspective, Tartu, Igaunija, 2012. gada 4. – 5. oktobris. I. Skadiņa, A. Aker, N. Mastropavlos, F. Su, D. Tufiș, M. Verlic, A. Vasiļjevs, B. Babych, P. Clough, R. Gaizauskas, N. Glaros, M.L. Paramita un M. Pinnis, Collecting and Using Comparable Corpora for Statistical Machine Translation, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012), 438. – 445. lpp., Stambula, Turcija, 2012. D. Ştefănescu, R. Ion un S. Hunsicker. 2012. Hybrid parallel sentence mining from comparable corpora. Proceedings of the 16th Conference of the European Association for Machine Translation (EAMT 2012), Trento, Italy.

Ieskats netālā nākotnē Apskatītais piemērs neskāra sekojošus jautājumus: Pieejamo terminu datu bāžu (piem., EuroTermBank) utilizācija tulkošanas procesā (FP7 projekta TaaS darbības sfēra) Terminu izpildlaika integrācija mašīntulkošanas risinājumos Apzīmējumu integrācija mašīntulkošanas risinājumos Projekti, kas skar (var skart) latviešu valodas saistītu mašīntulkošanas risinājumu attīstību: TaaS (Terminology as a Service) MultilingualWeb-LT (paplašināti tīmekļa standarti daudzvalodu atbalsta nodrošināšanai) ITS 2.0 Internationalization Tag Set (internacionalizācijas tagu kopums) W3C – pasaules tīmekļa konsorcijs

Paldies par uzmanību! Šis darbs izstrādāts ar Eiropas Sociālā fonda atbalstu projektā «Atbalsts doktora studijām Latvijas Universitātē»