Latviešu valodas modelēšana automātiskai runas atpazīšanai

Slides:



Advertisements
Similar presentations
Ma.
Advertisements

El Alfabeto Con Vocabulario
Click on each of us to hear our sounds.
Las Vocales En Espanol.
Arthur Kunkle ECE 5525 Fall Introduction and Motivation  A Large Vocabulary Speech Recognition (LVSR) system is a system that is able to convert.
St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences Recurrent Neural Network-based Language Modeling for an Automatic.
Līguma jēdziens, veidi, noslēgšana. Līgumu brīvība.
Tālmācības centra redzējums un pieredze par biznesu zināšanu sabiedrībā Komercdarbības kursā  Jānis Kapenieks, Atis Kapenieks  Tālmācības studiju centrs,
PHONICS Repeat each sound. Blend the sounds. Read each word.
ma mu mi mo me pe pi pa pu po si sa so.
Christoph Prinz / Automatic Speech Recognition Research Progress Hits the Road.
MA. ME MI MO MU MÁ MÉ MÍ MÓ MŮ LA LE LI.
7. lekcija Datortīkli dr. dat. Valdis Vītoliņš gada pavasaris
G.Bārzdiņš, D.Goško, P.Paikens 02/12/2016
Prof. Lin-shan Lee TA. Roy Lu
專題研究 week3 Language Model and Decoding
Deep Exploration and Filtering of Text (DEFT)
Prof. Lin-shan Lee TA. Lang-Chi Yu
Brokastis ar Amadeus Neatkarīgi un unikāli Līga Kovale gada 17
SECURITY SERVICES STATISTICS IN LATVIA
Bibliotēka 2.0 Teorija „Teorētiskā bāze maģistra darba izstrādei”
Autoceļu problemātika
Latvijas teritoriālo vienību attīstības vērtēšana
Jānis Zuters, Ratnieki Latvijas Universitāte Datorikas fakultāte
Modelēšana un rīku būve (specseminārs)
Riebiņu vidusskolas skolotāja
– instruments komunikācijas prasmju uzlabošanai biznesam
Kopīpašums.
Darbības - sazarojuma operatori
Redzes evolūcija un IT revolūcija… Kopsolis vai kļūda attīstībā?
NEKOMPETENCE VAI BEZDARBĪBA Neatkarīgā policistu arodbiedrība
Formālās specifikācijas
Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos
G.Bārzdiņš, D.Goško, P.Paikens 24/11/2017
11/20/2018 5:11 PM Kreditoru prasījumu izvērtēšana maksātnespējas procesā. Problemātika un aktuālā tiesu prakse. Ivanda Avotiņa – sertif. maksātnespējas.
Eiropas Sociālā fonda projekts
Eiropas Savienības fondu 2014.–2020.gada plānošanas perioda ieviešana
Rīgas 25. vsk g. Vita Ozola Ģeogrāfija.
PVN numura pārbaude Guntis Strazds Rīga, 2004.gada 23.septembris
Emisijas faktori un smaku mērījumi
1.seminārs “Pētījuma stratēģija un problēmas identificēšana”
ENERGOEFEKTIVITĀTES PIRMSPROJEKTA PLĀNOŠANA
Ms Access Tabulas 2. daļa Andris Šteins, 2009.
Datorika Liepājas Universitātē (LiepU)
DMF Informātikas katedra
Dzeramā ūdens kvalitātes stabilitāte pilota mēroga ūdens apgādes sistēmā VPP Projekts Nr.4 – Tehnoloģijas drošai un uzticamai gudrajai pilsētai (GUDPILS)
TIENS CINKA KAPSULAS.
Projekts “Eiropas pētījums par HIV matemātisko modelēšanu un HIV testēšanas aktivitāšu izmēģinājumiem riska grupās” HERMETIC – HIV European Research.
New approach to the strategic analysis of the municipal sector
EFEKTĪGAS PREZENTĀCIJAS IZVEIDOŠANA
Atvērtā koda programmatūra
REACH 2018 Sagatavojiet reģistrācijas pieteikumu kā IUCLID dokumentāciju.
REACH 2018 Apvienojieties ar saviem līdzreģistrētājiem —
Eiropas nostādnes Open Access jautājumos un OpenAIRE
Programmēšanas valodu klasifikācija un lietojumsfēra
Attēlojuma līmenis (Presentation Layer)
IEPIRKUMU PLĀNS Kristīne Ruskule Finanšu kontroles institūcija
Lietu klasifikācija.
Projekts “Pašvaldību aktivitāšu īstenošana, lai nodrošinātu skolēnu pārvadāšanu un ar to saistītos atbalsta pasākumus” Sandra Cakule Valsts reģionālās.
Darbinieku nosūtīšanas tiesiskie un praktiskie aspekti.
Zinātniski metodiskie Analizatora uzbūves pamati:
Erevānas ministru komunikē prioritātes g.
Latvijai adaptētas nākotnes klimata projekcijas un klimata projekciju analīzes rīks – Klimata datu menedžeris (Climate Data Manager) Daiga Cepīte-Frišfelde.
Automatic Speech Recognition: Conditional Random Fields for ASR
Research on the Modeling of Chinese Continuous Speech Recognition
Speaker Identification:
Presenter : Jen-Wei Kuo
MODELLING LATVIAN LANGUAGE FOR AUTOMATIC SPEECH RECOGNITION
Prof. Lin-shan Lee TA. Roy Lu
Emre Yılmaz, Henk van den Heuvel and David A. van Leeuwen
Presentation transcript:

Latviešu valodas modelēšana automātiskai runas atpazīšanai Askars Salimbajevs Darba vadītājs: prof. Inguna Skadiņa Labdien! Mani sauc ... Darba vadītāja ... Mana pētījuma tēma ir...  09.11.2016

Ievads Kā strādā runas atpazīšana? Kādi rezultāti ir sasniegti latviešu valodai? Kā pielāgot runas atpazīšanu konkrētam lietojumam? Pielāgošana ar tekstiem Pielāgošana ar audio datiem Šodien es plānoju pastastīt

Ievads 𝑡𝑟𝑎𝑛𝑠𝑐𝑟𝑖𝑝𝑡=𝑎𝑟𝑔 max 𝑇 𝑃(𝑇|𝑎𝑐𝑜𝑢𝑠𝑡𝑖𝑐 𝑠𝑖𝑔𝑛𝑎𝑙) Runas atpazīšana – balss audio ierakstu pārvērš par tekstu

Ievads 𝑡𝑟𝑎𝑛𝑠𝑐𝑟𝑖𝑝𝑡=𝑎𝑟𝑔 max 𝑇 𝑃(𝑇|𝑎𝑐𝑜𝑢𝑠𝑡𝑖𝑐 𝑠𝑖𝑔𝑛𝑎𝑙) Beijesa likumu P(T) – valodas modelis P(acoustic signal | T) – akustiskais modelis

Ievads Kāpēc runas atpazīšanai ir vajadzīgi varbūtiskie modeļi? Sarežģītība Mainīgums, dažādība Ārējie apstākļi, trokšņi Joma Bet kāpēc vispār ir vajadzīgi tie modeļi? Vai nevar izmantot algoritmus, nodefinēt likumus

Akustiska modelēšana P(acoustic signal | word sequence) – akustiskais modelis Lai izrēķināt statistiku un uzbūvēt modeli vajag lielu datu apjomu

Valodas modelēšana P(T) – dota teksta (teikuma) varbūtība Dati: teksti (miljoni teikumu) Modelēšana pieeja N-gramu modeli Neironu tīkli U.c.

List of best hypotheses Runas atpazīšana Speech signal Feature extraction Acoustic model Language model Combining both models First, a small overview about how ASR works. Our input is the raw speech signal. First, we do feature extraction and convert this raw signal into sequence of vectors, so that our statistical models can handle it. Next, we use acoustic model to evaluate this vectors and output most probable hypotheses from acoustic point of view These hypotheses are also evaluated by the language model, which gives better score to word sequences that makes sense from the language point of view By combining these two models the best hypothesis is found List of best hypotheses

Motivācija Ļoti maz pētījumu par runas atpazīšanu latviešu valodai 1 raksts par runas korpusa sagatavošanu 1 raksts par runas atpazīšanu Runas atpazīšanas tehnoloģija nav pieejama Nav audio ierakstu transkribēšanas Nav diktēšanas Mobila aplikācija Ēriks We use Kaldi framework for developing our acoustic model and speech recognizer. Our recipe is based on Switchboard recipe for online recognition. It’s a HMM-DNN model with iVector adaptation and it’s tuned for RT recognition. We train our model on 100hr LSRC and we also use 8 hours from LDSC to adapt our model for dictated speech. This corpus was specially created for development and evaluation of dictation systems for Latvian. It contains recordings of different people dictating different kinds of texts: from formal emails to tweets. It contains spoken punctuation and other commands.

Dati 100st latviešu runas atpazīšanas korpuss 44M teikumi no web ziņām Vārdnīca no 800K vārdformām Darbs, darbu, darba ... Novērtēšanas korpuss 1st – web ziņu teksti, neprofesionāli diktori, ierakstīts ar smartfonu We use Kaldi framework for developing our acoustic model and speech recognizer. Our recipe is based on Switchboard recipe for online recognition. It’s a HMM-DNN model with iVector adaptation and it’s tuned for RT recognition. We train our model on 100hr LSRC and we also use 8 hours from LDSC to adapt our model for dictated speech. This corpus was specially created for development and evaluation of dictation systems for Latvian. It contains recordings of different people dictating different kinds of texts: from formal emails to tweets. It contains spoken punctuation and other commands.

Novērtēšana Word error rate (WER) insertions + substitutions + deletions WER = ------------------------------------------------ word count Piemērs: Vasara ir īsts festivālu laiks Atpazīts kā «Asara īsts festivāla laiks» WER = ( 0 + 2 + 1 ) / 5 = 60% We use Kaldi framework for developing our acoustic model and speech recognizer. Our recipe is based on Switchboard recipe for online recognition. It’s a HMM-DNN model with iVector adaptation and it’s tuned for RT recognition. We train our model on 100hr LSRC and we also use 8 hours from LDSC to adapt our model for dictated speech. This corpus was specially created for development and evaluation of dictation systems for Latvian. It contains recordings of different people dictating different kinds of texts: from formal emails to tweets. It contains spoken punctuation and other commands.

Rezultāti ASR sistēma WER, % Pētījuma sākumā Ap 50% Pirmie publicēti eksperimenti Ap 36% Pirmie rezultāti ar neironu tīkliem 28.43% Pirmā publicēta sistēma 19.63% We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Valodas modeļa pielāgošana Ideja: Savākt jomas tekstu piemērus Atkarība no tekstu daudzuma: Pielāgot vispārīgo modeli   Interpolēt ar vispārīgas jomas modeļi. Uzbūvēt valodas modeļi We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Valodas modeļa pielāgošanas piemērs #1 Joma – saeimas sēžu stenogrammas Jomas teksti valodas modeļa pielāgošanai 1.3M teikumu 21M vārdu Vārdnīca – 200 K vārdformu Novērtēšanai izveidots 1st korpuss We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Valodas modeļa pielāgošanas piemērs #1 ASR sistēma WER, % Vispārīgas jomas sistēma 13.9% Pielāgotā sistēma 8.6% -5.3 (38%) We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Valodas modeļa pielāgošanas piemērs #2 Joma – tekstu diktēšana Diktēšanas komandas Interpunkcija Jauna rinda, jauns paragrāfs Īpaši simboli (&, #, emocijzīmes) Formatēšanas komandas (dzēst, centrēt) We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Valodas modeļa pielāgošanas piemērs #2 Trenēšanas teksta korpusā punktuācija, iekavas, īpaši simboli (#, %, &, ... ) utt. tiek aizstatās ar vārdiem. Diktēšanas komandas, emocijzīmes un citi īpaši simboli (&, %, ... ) tiek pievienotas korpusā, ka atsevišķi teikumi. Komanda «jauna rinda» tiek pievienota katra otrā teikuma beigās Lai adaptētu valodas modeli diktesanas uzdevumam, tas tiek ipasi apstradats

Valodas modeļa pielāgošanas piemērs #2 ASR sistēma WER, % Vispārīgā sistēma 40.69% Pielāgotā sistēma 27.29% -13.4 (33%) We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Akustiska modeļa pielāgošana Ideja: Savākt audio datu piemērus ar transkripcijām Akustiskais modelis tiek pielāgots: Vide, ierakstīšanas ierīce Audio ierakstīšanas un pārraides formāts Izruna Konkrētie runātāji We use Kaldi framework for developing our acoustic model and speech recognizer. Our recipe is based on Switchboard recipe for online recognition. It’s a HMM-DNN model with iVector adaptation and it’s tuned for RT recognition. We train our model on 100hr LSRC and we also use 8 hours from LDSC to adapt our model for dictated speech. This corpus was specially created for development and evaluation of dictation systems for Latvian. It contains recordings of different people dictating different kinds of texts: from formal emails to tweets. It contains spoken punctuation and other commands.

Akustiska modeļa pielāgošanai diktēšanai 8st diktēšanas audio ierakstu ASR sistēma WER, % Parastais akustiskais modelis 27.29% Pielāgotais akustiskais modelis 23.86% -3.43 (12.5%) We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Prasības audio datiem Audio segmentu garums 5-10 sekundes Katram segmentam atbilstoša precīza transkripcija Skaitļi Datumi Utml. Bet parasti: Gari nesegmentēti audio vai video ieraksti Neprecīzas transkripcijas We use Kaldi framework for developing our acoustic model and speech recognizer. Our recipe is based on Switchboard recipe for online recognition. It’s a HMM-DNN model with iVector adaptation and it’s tuned for RT recognition. We train our model on 100hr LSRC and we also use 8 hours from LDSC to adapt our model for dictated speech. This corpus was specially created for development and evaluation of dictation systems for Latvian. It contains recordings of different people dictating different kinds of texts: from formal emails to tweets. It contains spoken punctuation and other commands.

Audio datu vākšana ar ASR Segmentācija Runas atpazinējs Segmentu izvēle Sastatīšana First, a small overview about how ASR works. Our input is the raw speech signal. First, we do feature extraction and convert this raw signal into sequence of vectors, so that our statistical models can handle it. Next, we use acoustic model to evaluate this vectors and output most probable hypotheses from acoustic point of view These hypotheses are also evaluated by the language model, which gives better score to word sequences that makes sense from the language point of view By combining these two models the best hypothesis is found Teksti Pielāgošanas dati

Sastatīšana Sēdes vadītāja. Labrīt, cienījamie kolēģi! Lūdzu, ieņemiet vietas! Sākam Saeimas 17.novembra sēdi. Pirms mēs sākam izskatīt apstiprināto sēdes darba kārtību, mums ir jālemj par iespējamo darba kārtības maiņu. Saeimas Prezidijs ir saņēmis Juridiskās komisijas iesniegumu ar lūgumu grozīt Saeimas 17.novembra sēdes darba kārtību un iekļaut tajā lēmuma projektu „Par Solvitas Pujātes apstiprināšanu par rajona (pilsētas) tiesas tiesnesi”. Vai deputātiem ir iebildumi? Deputātiem iebildumu nav. Darba kārtība ir grozīta. ---- lūdzu ieņemiet vietas sākam septiņpadsmitā novembra saeimas sēdē deputātus pirms mēs sākām izskatīties apstiprināto darba garu tiesību komisija ir jālemj par iespējamo darba kārtības maiņa saeimas prezidijs ir saņēmis juridiskās komisijas iesniegumu ar lūgumu grozīt septiņpadsmitā novembra saeimas sēdes darba kārtību un iekļaut tajā lēmumprojektu par Solvitas Pujāts apstiprināšanu par rajona pilsētas tiesas tiesnesi vai deputātiem ir iebildumi deputātiem iebildumu nav darba kārtību grozīt We use Kaldi framework for developing our acoustic model and speech recognizer. Our recipe is based on Switchboard recipe for online recognition. It’s a HMM-DNN model with iVector adaptation and it’s tuned for RT recognition. We train our model on 100hr LSRC and we also use 8 hours from LDSC to adapt our model for dictated speech. This corpus was specially created for development and evaluation of dictation systems for Latvian. It contains recordings of different people dictating different kinds of texts: from formal emails to tweets. It contains spoken punctuation and other commands.

Piemērs #1 11. Saeimas sēžu ieraksti – 300st. Pēc sastatīšanas – 100st. ASR system WER, % Vispārīga sistēma 13.9% Valodas modeļa pielāgošana 8.6% Akustiska modeļa pielāgošana 7.6% -1 (11%) We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Piemērs #2 Novērtēšana uz vispārīgas jomas ierakstiem: ASR system WER, % Baseline 19.63% Baseline + 11. Saeima 17.44% -2.19 (11%) We evaluate our ASR on 1 hour held set from LDSC With both AM and LM adapted we managed to lower word error rate from 40 to 24 %

Tālākie soļi Konverģence We use Kaldi framework for developing our acoustic model and speech recognizer. Our recipe is based on Switchboard recipe for online recognition. It’s a HMM-DNN model with iVector adaptation and it’s tuned for RT recognition. We train our model on 100hr LSRC and we also use 8 hours from LDSC to adapt our model for dictated speech. This corpus was specially created for development and evaluation of dictation systems for Latvian. It contains recordings of different people dictating different kinds of texts: from formal emails to tweets. It contains spoken punctuation and other commands.

Konverģence Audio Segmentācija Runas atpazinējs Segmentu izvēle Sastatīšana First, a small overview about how ASR works. Our input is the raw speech signal. First, we do feature extraction and convert this raw signal into sequence of vectors, so that our statistical models can handle it. Next, we use acoustic model to evaluate this vectors and output most probable hypotheses from acoustic point of view These hypotheses are also evaluated by the language model, which gives better score to word sequences that makes sense from the language point of view By combining these two models the best hypothesis is found Teksti Pielāgošanas dati

Tālākie soļi Konverģence Vārdnīcas ierobežošana We use Kaldi framework for developing our acoustic model and speech recognizer. Our recipe is based on Switchboard recipe for online recognition. It’s a HMM-DNN model with iVector adaptation and it’s tuned for RT recognition. We train our model on 100hr LSRC and we also use 8 hours from LDSC to adapt our model for dictated speech. This corpus was specially created for development and evaluation of dictation systems for Latvian. It contains recordings of different people dictating different kinds of texts: from formal emails to tweets. It contains spoken punctuation and other commands.

Vārdnīcas ierobežošana Audio Segmentācija Runas atpazinējs Segmentu izvēle Sastatīšana Vārdnīca First, a small overview about how ASR works. Our input is the raw speech signal. First, we do feature extraction and convert this raw signal into sequence of vectors, so that our statistical models can handle it. Next, we use acoustic model to evaluate this vectors and output most probable hypotheses from acoustic point of view These hypotheses are also evaluated by the language model, which gives better score to word sequences that makes sense from the language point of view By combining these two models the best hypothesis is found Teksti Pielāgošanas dati

Secinājumi Izstrādāta vispārīgas jomas runas atpazīšanas sistēma latviešu valodai ar 19.63% WER Izstrādāta metode, kas ļauj neprecīzi anotētus audio datus izmantot akustiska modeļa pielāgošanai Pārbaudīta vispārīgas sistēmas pielāgojamība specifiskiem scenārijiem: Diktēšana, WER 23.86% Specifiskas jomas stenografēšana, WER 7.6% Uzlabota vispārīgas jomas sistēma, WER 17.44% This slide sums up the efforts that we have performed to develop LV dictation system