Řečové technologie – výzkum a využití Honza Černocký a Igor Szöke BUT Fakulta informačních technologií VUT v Brně ZRE #1, 7.2.2012.

Slides:



Advertisements
Similar presentations
Chata Nemečky Narodky Flakina Součástí této prezentace bude pravděpodobně diskuze, jejíž výsledkem budou akce. Pomocí aplikace PowerPoint.
Advertisements

Obsah eseje Opis projektu História spoločnosti SlideShare, Inc. Funkcie a možnosti systému SlideShare.net Obsahová časť Porovnanie s konkurenciou Vlastné.
KIS – FRI ŽU E-LEARN 2002 Matilda Drozdová Žilinská univerzita Katedra informačných sietí
N. Andrejčíková, J. M. Šafránek, J. Šubová Projekt webu českých pamiatok.
N. Andrejčíková, J. M. Šafránek, J. Šubová Projekt webu českých pamiatok o krok ďalej.
ADABOOST Detekce objektu v obraze. Obsah Úvod do problému Řešení Reálné příklady.
Gymnázium Jiřího Ortena KUTNÁ HORA Předmět: Konstruktivní geometrie Cílová skupina: 4. ročník (oktáva) gymnázia Oblast podpory: III/2 Inovace výuky prostřednictvím.
Ch_111_Větrná energie Ch_111_Energie_Větrná energie Autor: Mgr. Jiří Sukaný Škola: Základní škola Velehrad, okres Uherské Hradiště, příspěvková organizace.
Výukový materiál zpracovaný v rámci projektu Vzdělávací oblast:Člověk a příroda Předmět:Fyzika Ročník:8. ročník Klíčová slova:Výkon Autor:Mgr. Lucie Seidlerová.
Molekulárně taxonomický software. Získávání taxonomických programů Základní zdroj - Internet freeware shareware firmware servery – zpracovávání dat na.
MLADŠÍ ŠKOLNÍ VĚK. Školní věk Období oficiálního vstupu do společnosti, kterou představuje škola Školní věk lze rozdělit do tří fází: 1. Ranný školní.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Miluše Nováková. Dostupné z Metodického portálu ; ISSN Provozuje.
2.1 Krychle, koule, válec, kvádr Elektronická učebnice - I. stupeň Základní škola Děčín VI, Na Stráni 879/2 – příspěvková organizace Matematika Autor:
Offline Lock OPTIMISTIC PESSIMISTIC Nikita SilinAleksandr Primak.
Standard Eurobarometer 70 / Autumn 2008 – TNS Opinion & Social Standard Eurobarometer EUROBAROMETR 70 VEŘEJNÉ MÍNĚNÍ V EVROPSKÉ UNII Podzim 2008 ZVEŘEJNĚNÍ.
Anotace: Číslo projektu: CZ.1.07/1.5.00/ Název DUM: Dospívání Číslo DUM: VY_52_INOVACE_70_96 Vzdělávací předmět: Rodinná výchova Tematická oblast:
Ekonomický vývoj ČR od roku 1995 Hospodářská politika - VŠFS Jiří Mihola, Téma 4 Téma 4 - metodika.
Vesmír Autor: Mgr. Libor Sovadina Škola: Základní škola Fryšták, okres Zlín, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.1.38/
Výukový materiál zpracovaný v rámci projektu EU peníze školám Pořadové číslo: CZ.1.07/1.4.00/ Šablona: II/2 Sada: VY_22_INOVACE_AJ.3.03 Ověření.
Základní škola praktická a základní škola speciální Heřmanův Městec  Anotace: žák se seznámí s jednotkami délky a hmotnosti, vztahem a převody mezi nimi.
ZRE 2009 / 10 introductory talk Honza Černocký Brno University of Technology, Czech Republic ZRE
. Čo je Minicool COMPACT Minicool compact je klimatizácia, ktorá pracuje pri vypnutom motore vozidla a je určená na nočnú prevádzku. Použitie Klimatizácia.
INFORMÁCIE kde, aké, a čo ich využitie? Diplomový seminár Ing. Matušovičová Eva UK UPJŠ v Košiciach.
Základní informace o pokroku v realizaci Regionálního operačního programu Střední Morava VÝROČNÍ KONFERENCE REGIONÁLNÍHO OPERAČNÍHO PROGRAMU STŘEDNÍ MORAVA.
Studie proveditelnosti Feasibility Study Ing. René Procházka.
Základní škola a Mateřská škola Bílá Třemešná, okres Trutnov Autor: Mgr. Petr Tomek Datum/období: podzim 2013 Číslo projektu: CZ.1.07/1.4.00/ Téma.
ING. PAVEL BĚHOUNEK DAŇOVÝ PORADCE facebook O daníchO daních KONTROLNÍ HLÁŠENÍ - UKÁZKA.
ŽIVOT ROSTLIN Autorem materiálu a všech jeho č ástí, není-li uvedeno jinak, je Jitka Kratochvílová Havlová. Dostupné z Metodického portálu
GLASIO ® Zvukoabsopční skleněný panel Ing. Michal Šitych AVETON s.r.o.
Ukončování vzdělávání ve středních školách Zvyšování kompetencí vedoucích pracovníků škol a školských zařízení 20. srpna 2012 Ing. Dana Štěpánová Krajský.
MARKETING A MANAGEMENT CESTOVNÍHO RUCHU část 4 RNDr. Aleš Krejčí, CSc.
Vítejte na Dni otevřených dveří Ekonomické fakulty Jihočeské univerzity 21. ledna 2011.
Přímá podpora výzkumu a vývoje. EPSILON program na podporu aplikovaného výzkumu a experimentálního vývoje Cílem programu EPSILON je podpora projektů,
Seminář Evropský dům JUDr. Ladislava Steinichová.
Základní pravidla společenského chování. Co to je? = ETIKETA = slovo původu z Francie a jedná se o pravidla společenského chování je to soubor společenských.
Bezpečnostní technologie I Úvod do kryptografie Josef Kaderka Operační program Vzdělávání pro konkurenceschopnost Projekt: Vzdělávání pro bezpečnostní.
ZDRAVOTNICKÁ ZÁCHRANNÁ SLUŽBA KRÁLOVÉHRADECKÉHO KRAJE MUDr. Libor Seneta Zdravotnická záchranná služba Královéhradeckého kraje.
T ERMODYNAMIKA HRW2 kap HRW kap Základní úloha: tepelné stroje Tepelné čerpadlo ?
Prezentace 1 Optimalizované řešení ICT statutárního města Ostrava Ing. Martin Rubina OVANET a.s. květen 2011.
Knihovnické profese v NSP a NSK a další rozvoj v projektech KZPS Praha, Zlata Houšková.
ABSOLUT-IN inteligentní poradenství. Poradenská společnost ABSOLUT-IN působí na českém finančním trhu od roku Poskytuje služby v oblasti pojištění,
Pozemkové úpravy. Legislativa Zákon 139/2002 Sb., o pozemkových úpravách a pozemkových úřadech, ve znění pozdějších předpisů Vyhláška 545/2002 Sb., o.
Název projektu: „Rekonstrukce zámku v Králově Dvoře na multifunkční kulturní využití a zázemí pro veřejnou knihovnu„ Registrační číslo projektu: CZ.1.15/3.2.00/
Doc. JUDr. Radim Boháč, Ph.D. katedra finančního práva a finanční vědy PF UK 11. listopadu 2015.
Evolution of the INSPIRE Directive transposition in the Czech Republic Page 1.
Aktuální informace z programového období Ministerstvo pro místní rozvoj ČR RSK Pardubického kraje.
Počet obyvatel: 605Počet obyvatel: 605 Rozloha: 688 haRozloha: 688 ha Region: KrálovéhradeckýRegion: Královéhradecký Poloha: Při komunikaci I/35 (Hradec.
Seminář pro žadatele o finanční podporu OP VVV výzva Excelentní výzkum Mgr. Inka Vaverková / Mgr. Lucie Kučerová Praha, 17. února 2016.
23-44-L/01 Mechanik strojů a zařízení Název školního vzdělávacího programu: Mechanik číslicově řízených strojů.
PŘÍKLADY DOBRÉ PRAXE Karlova Studánka. Střední škola technická, Opava, Kolofíkovo nábřeží 51, příspěvková organizace Studijní a učební obory:
Řízení kvality ve VS Jan Hrubeš. Témata přednášek -Pojem veřejná správa, definice pojmu, odlišnosti veřejné správy od komerčního prostoru, problémy hodnocení.
Asset Information Management Solutions – Confidence & Control BlueCielo AIM Mgr. Lukáš Chovanec © ECM System Solutions,
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti METEOROLOGIE, BEZPEČNOST A ITS DOPRAVY SYNOPTICKÝ KÓD Praha 2012.
Název školy: Základní škola a mateřská škola, Svoboda nad Úpou, okres Trutnov Autor: Mgr. Milada Pleskačová Datum: Název: VY_12_INOVACE_1.2.2PRV2,3_5.
VY_32_INOVACE_20_22_KULTURNÍ PAMÁTKY EVROPSKÝCH ZEMÍ ŠABLONA 32.
Nobody’s Unpredictable Ipsos Tambor pro Policejní prezidium ČR Spokojenost občanů s prací Policie ČR Výsledky za ČR a kraje Červen 2007.
* Celkem žáků -8 * Dívky – 6 * Chlapci -2 * Seznam : Jana, Radek, Reneta, Nikola, Květa, Emil, Petra, Kristina * Paní učitelka Anna.
Ing. Marek Šmíd, MBA Institut pro veřejnou správu Praha INTERAKTIVNÍ PERSONÁLNÍ PORTÁL PRO POTŘEBY ZAMĚSTNANCŮ VE VEŘEJNÉ SPRÁVĚ KONFERENČNÍ VZDĚLÁVACÍ.
Zabezpečení ve stáří Důchodové systémy Mirka Wildmannová.
Městská knihovna Frýdek-Místek, příspěvková organizace.
Maturitní písemná práce Přehled slohových útvarů.
DALTON VČERA, DNES A ZÍTRA Alternativní školy  Waldrofská škola  Montessori  Freinetovská škola  Daltonský plán  Školní vzdělávací program.
Programování v jazyce C++ Pokročilý vstup a výstup.
PORADENSTVÍ V ZÁKLADNÍCH ŠKOLÁCH Seznámení s projektem „Rozvoj kariérového poradenství v LK“
Jak psát odborný text. Typy závěrečných prací  Původní dokument - obsahuje z větší části nové informace  Sumarizační dokument - shrnuje, uspořádává.
Přijímací řízení pro školní rok 2016/17 Čtyřleté studium.
Angličtina - britská nebo americká. Každý den se s ní setkáváme. Ať už ve škole, v písničkách nebo při surfování na internetu. Často zapomínáme na to,
Název projektu: Rozvoj technického vzdělávání v Jihočeském kraji Registrační číslo: CZ.1.07/1.1.00/ Bývalá malá vodní elektrárna Červená Klub poznávání.
Události a procesy přímo ovlivňující demografickou reprodukci Potratovost, sňatečnost, rozvodovost.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
Presentation transcript:

Řečové technologie – výzkum a využití Honza Černocký a Igor Szöke BUT Fakulta informačních technologií VUT v Brně ZRE #1,

ZRE#1, Honza Černocký a Igor Szöke /30 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

ZRE#1, Honza Černocký a Igor Szöke /30 Kdo jsme - Skupina založena v 1997 (1 člověk) ~20 lidí v 2012 Fakultní posice Výzkumníci na projektech PhD a mladší studenti Podpora Bosses: Výzkum: Lukáš Burget Management: Honza Černocký Guru: Hynek Heřmanský

ZRE#1, Honza Černocký a Igor Szöke /30 Fakulta (fakultní místa, výzkuný záměr, institucionální financování výzkumu) EU projekty (FP[4567]) Byly: SpeechDat, SpeeCon, M4, AMI, CareTaker, AMIDA. Jsou: MOBIO, weKnowIt, DIRAC. US funding – Air Force EOARD, IARPA, DARPA České agentury – GAČR, MŠMT, MPO. Silová ministerstva – obrana, vnitro Kontrakty s průmyslem Spin-off – Phonexia funding – ca 14 MKč/rok

ZRE#1, Honza Černocký a Igor Szöke /30 Ocel a software Steel IBM Blade centers s ~450 CPUs +Dalších ~400 jader v laboratořích >120 TB diskového prostoru Professionální a přátelská administrace Soft Vývoj na Linuxu Obecný: HTK, Matlab, QuickNet, SGE Vlastní: STK, SNet, phnrec, TNet, KALDI

ZRE#1, Honza Černocký a Igor Szöke /30 Co děláme ? Automatická extrakce informací ze spontánní řeči Rozpoznávání mluvčího Rozpoznávání pohlaví Rozpoznávání jazyka Rozpoznávání řeči Identita Pohlaví Jazyk Přepis Jan Novák Muž nebo žena Angličtina ? Němčina ? Sejdeme se u Pavouka. Detekce klíčových slov Detekce “Pavouk” Řeč

7/30 Evaluace “Úspěšnost 100% ? Jasně!” … pokud si sami definujeme data, podmínky a evaluační metriky. NIST – agentura vlády USA Pravidelné „benchmark campaigns“ – evaluace – řečových technologií Všichni účastníci mají ta samá data a stejný časový rámec na jejich zpracování a zaslání výsledků => objektivní hodnocení Výsledky a detaily systémů jsou diskutovány na NIST workshopech BUT se účastní … Transcription 2005, 2006, 2007, 2009 Language ID 2003, 2005, 2007, 2009, 2011 Speaker Verification 1998, 1999, 2006, 2008, 2010, IARPA 2011 Spoken term detection 2006 Proč to děláme? Porovnání s ostatními, zajištění (občas i definice ) „state of the art“ Nechceme dělat hovadiny, které lidé vyzkoušeli a nefungovaly.

ZRE#1, Honza Černocký a Igor Szöke /30 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

ZRE#1, Honza Černocký a Igor Szöke /30 Trochu detailněji – jak se dělá rozpoznávač ? Podle obecného receptu z jakékoliv knihy o detekci nebo rozpoznávání … Nasbírat dataZvolit parametryZvolit modelNatrénovat model Evaluaovat klasifikátor Apriorní znalost problému nasazení

ZRE#1, Honza Černocký a Igor Szöke /30 A co je výsledkem ? Už jste asi viděli … Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) Modely “Dekódování” vstuprozhodnutí

ZRE#1, Honza Černocký a Igor Szöke /30 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

12/30 Nejjednodušší případ – rozpoznávání pohlaví (GID) Nejjednuší aplikace pro implementaci, trénování a nasazení. … a také nejpřesnější (>96% na reálných kanálech) Omezení vyhledávacího prostoru na 50%

ZRE#1, Honza Černocký a Igor Szöke /30 Jak se dělá ? Vyhodenocení GMM skóre MFCC vstup Gaussian Mixture models – kluci, holky Rozhodnutí kluk, holka

ZRE#1, Honza Černocký a Igor Szöke /30 Parametry – Mel frekvenční cepstrální koeficienty Signál není stacionární => rámce A slyšení není lineární – banka filtrů a log.

ZRE#1, Honza Černocký a Igor Szöke /30 Matice parametrů O – sada čísel každých 10ms

ZRE#1, Honza Černocký a Igor Szöke /30 Vyhodenocení skóre kluků a holek Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami Vyhodnocení modelu nad maticí parametrů O:

ZRE#1, Honza Černocký a Igor Szöke /30 Rozhodnutí - „dekódování“

ZRE#1, Honza Černocký a Igor Szöke /30 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

ZRE#1, Honza Černocký a Igor Szöke /30 Rozpoznávání mluvčího Verifikace Je pan Vopička v nahrávce opravdu pan Vopička ? Enrollment Test Identifikace Mám nahrávku, kdo to je ? Search Najít pana Vopičku v tisících hovorů Identifikace i search se dají převést na N krát verifikaci.

ZRE#1, Honza Černocký a Igor Szöke /30 Základní schéma 2 hypotézy H0: mluvčí v testovací nahrávce není ten, kterého jsme viděli v enrollmentu. H1: mluvčí v testovací nahrávce je ten, kterého jsme viděli v enrollmentu. Log likelihood ratio

ZRE#1, Honza Černocký a Igor Szöke /30 Parametry

ZRE#1, Honza Černocký a Igor Szöke /30 GMM Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami Vyhodnocení modelu nad maticí parametrů O:

ZRE#1, Honza Černocký a Igor Szöke /30 UBM – background model Na co je ? Produkuje likelihood hypotézy H0 „toto není cílový mluvčí“ – nutné pro normalizaci. Adaptuje se z něj model cílového mluvčího, protože pro plné trénování není dost cílových dat. Jak se trénuje ? Ideálně na nahrávkách všech > lidí, každý z několika různých kanálů. Reálně na stovkách mluvčích z dostupných databází (LDC, dotrénování na cílová data).

ZRE#1, Honza Černocký a Igor Szöke /30 Inter-session variability Popsaný systém dokáže postavit průměrně zdatný student s Matlabem za půl dne. Bude uspokojivě fungovat, pokud bude koherence mezi enrollmentem a testováním. ALE ONA NENÍ    - Inter-session variabilita Variabilita mluvčího Jazyk Emoce, stres, Lombard effect Zdravotní stav Obsah promluvy, atd Variabilita mimo mluvčího Šum Přenosový kanál – mikrofon, kodek, záznamové zařízení… Toto vše snižuje přesnost systému. Vyhrává ten, kdo Dokáže lépe popsat DOBROU VARIABILITU (rozdíly mezi mluvčími) Dokáže lépe zničit ŠPATNOU (inter-session) VARIABILITU

ZRE#1, Honza Černocký a Igor Szöke /30 Boj s inter-session variabilitou Front-end processing Front-end processing Target model Background model Background model LR score normalization LR score normalization   Adapt Feature domainModel domainScore domain Noise removal Tone removal Cepstral mean subtraction RASTA filtering Mean & variance normalization Feature warping Speaker Model Synthesis Eigenchannel compensation Joint Factor Analysis Nuisance Attribute Projection Z-norm T-norm ZT-norm Feature Mapping Eigenchannel adaptation in feature domain 2006

ZRE#1, Honza Černocký a Igor Szöke /30 26 Vysoká inter-session variabilita Vysoká variabilita mezi mluvčími UBM Model cílového mluvčího Příklad: jedna Gaussovka s 2D parametry Princip kompensace ŠPATNÉ variability 1.

ZRE#1, Honza Černocký a Igor Szöke /30 27 Vysoká inter-session variabilita Vysoká variabilita mezi mluvčími UBM Target speaker model Test data Rozpoznávání: nech oba modely pohybovat ve směru vysoké inter-session variability a nastav je tak, aby dávaly co nejvíce pro testovací data Princip kompensace ŠPATNÉ variability 2.

ZRE#1, Honza Černocký a Igor Szöke /30 Boj s inter-session variabilitou Front-end processing Front-end processing Target model Background model Background model LR score normalization LR score normalization   Adapt Feature domainModel domainScore domain Noise removal Tone removal Cepstral mean subtraction RASTA filtering Mean & variance normalization Feature warping Speaker Model Synthesis Eigenchannel compensation Joint Factor Analysis Nuisance Attribute Projection Z-norm T-norm ZT-norm Feature Mapping Eigenchannel adaptation in feature domain 2008

ZRE#1, Honza Černocký a Igor Szöke /30 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 y1y2x1y1y2x1 u 13 u 23 u 13 u 23 u 13 u μ μ μ and are fixed. m1m2m1m2m1m2m1m2m1m2m1m2 + Joint Factor Analysis Cíl: Popsat (a kompensovat) ŠPATNOU variabilitu, ale popsat také DOBROU variabilitu malým počtem parametrů (μ i může mít 39 x 2048 = 80 tis. parametrů)

ZRE#1, Honza Černocký a Igor Szöke /30 y1y2x1y1y2x1 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 y2x1y2x1 y1y1 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 y2x1y2x1 y1y1 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 y2x1y2x1 y1y1 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 y2x1y2x1 y1y1 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 y2x1y2x1 y1y1 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 x1 x1 y2y2 y1y1 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 y2y2 y1y1 x1x1 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 x1 x1 y1y1 y2y2 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 x1x1 y1y1 y2y2 μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2μ1μ2 = v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 v 11 v 12 v 21 v 22 u 13 u 23 u 13 u 23 u 13 u 23 m1m2m1m2m1m2m1m2m1m2m1m2 +

ZRE#1, Honza Černocký a Igor Szöke /30 Od složitého k jednoduchému – total variability i-vectors Zjednodušená verze JFA, s jediným podprostorem, který definuje celkovou variabilitu (nerozlišujeme dobrou a špatnou) Podobně jako u speaker/channel faktorů nám jde o representaci nahrávky pomocí malého počtu parametrů. Už při jednoduchém skórování pomocí skalárního součinu i- vektorů dostáváme výsledky lepší než plná JFA iVectors? i-vectors !

ZRE#1, Honza Černocký a Igor Szöke /30 Od jednoduchého zase ke složitému - PLDA Probabilistic LDA i-vectors jsou samy modelovány pomocí zjednodušené verze JFA. Inspirace [Prince ’07] PLDA pro verifikaci obličejů Model, který umožňuje Rychlé skórování Nejprve extrakce i-vectoru – “voice/print” Pak jednoduché srovnání Symetrické skórování – enrollment vs. test => skóre pro pár dvou nahrávek Funguje pro krátké nahrávky Velmi zajímavé pro masivní zpracování dat N nahrávek proti M mluvčím, Speaker clustering Dříve: 10ky – 100ky párů nahrávka/model za 1s na 1 CPU Nyní: desetitisíce Dá se ořezat, dokonce máme demo na mobilu.

ZRE#1, Honza Černocký a Igor Szöke /30 NIST SRE STBU BUT STBU consortium BUT Spescom datavoice TNO

ZRE#1, Honza Černocký a Igor Szöke /30 NIST SRE 2008

ZRE#1, Honza Černocký a Igor Szöke /30 NIST SRE 2010 ABC systém: Agnitio (Jižní Afrika) BUT CRIM (Kanada)

ZRE#1, Honza Černocký a Igor Szöke /30 Jak to ? Umíme teorii klasifikace a rozpoznávání vzorů. Jsme v kontaktu s lidmi, kteří jsou světovými špičkami – Patrick Kenny, Niko Brümmer, další. dokážeme rychle implementovat nové nápady, a testovat Analyzujeme výsledky a přemýšlíme o nich Dokážeme se dívat mimo obor (uvnitř zpracování řeči – rozpoznávání jazyka, přepis, detekce klíčových slov) i jinde (grafika - Prince) a rychle aplikovat nápady. A máme hodně POČÍTAČŮ, které FUNGUJÍ

ZRE#1, Honza Černocký a Igor Szöke /30 Spolupráce v rozpoznávání mluvčího Komunita NIST SRE 2010 workshop na FITu. Odyssey 2010: The Speaker and Language Recognition Workshop také na FITu. BOSARIS – 5ti týdenní výzkumný workshop v červenci (incl. Patrick Kenny a Niko Brümmer) také na FITu. Software pro svět: JFA demo na BOSARIS toolkit Lidi, co se jezdí naučit JFA, i-vectors, a spol.

ZRE#1, Honza Černocký a Igor Szöke /30 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

ZRE#1, Honza Černocký a Igor Szöke /30 Identifikace jazyka - LID Jakým jazykem se mluvilo LID

ZRE#1, Honza Černocký a Igor Szöke /30 Dva hlavní přístupy Akustika – zase Gaussovky … Fonotaktika – fonémový rozpoznávač + fonotaktický model.

ZRE#1, Honza Černocký a Igor Szöke /30 Na čem trénovat LID ? Nahrávky (mnoho) daného jazyka. Možnost automatického získávání detekce telefonních hovorů v internetových archívech vysílání Pomoc LDC pro NIST LRE 2008 Projekt US Air Force EOARD. Dá se i u klienta na ostrých datech. Současná práce JFA, i-vectors a spol. – i v LID je nutné bojovat s inter- session (a tentokrát i s inter-speaker) variabilitou.

ZRE#1, Honza Černocký a Igor Szöke /30 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

ZRE#1, Honza Černocký a Igor Szöke /30 Přepis řeči na text Voice2text V2T Speech2text S2T Large vocabulary continuous speech recognition LVCSR Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) Akustické modely “Dekódování” vstuprozhodnutí Jazykový model Výslovnostní slovník Rozponávací SÍŤ

ZRE#1, Honza Černocký a Igor Szöke /30 Rozpoznávací síť

ZRE#1, Honza Černocký a Igor Szöke /30 Na čem se trénuje V2T ? Závislé na jazyce a na doméně Problémem je fonetická sada a slovník Snaha o přístupy, které budou pracovat automaticky MPO projekt s Lingea s.r.o. Korpus mluvené řeči + textové popisy Fonetická sada, výslovnostní slovník Textový korpus Systém pro rozpoznávání řeči

ZRE#1, Honza Černocký a Igor Szöke /30 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

56/30 Přístupy Akustický KWS Prohledávání výstupu LVCSR Prohledávání výstupu LVCSR s pod-slovními (sub-word) jednotkami Detekce klíčových slov - KWS Co ? Kde ? S jakou konfidencí ? Model klíčového slova vs. anti-model. Volby: Jaký je požadovaný poměr mezi rychlostí a přesností ? Bude se zpracovávat jen jednou (taktické aplikace) nebo prohledávat (intelligence) ? Vadí nám slova mimo slovník - Out of Vocabulary (OOV) words?

ZRE#1, Honza Černocký a Igor Szöke /30 Akustika není problém s OOVs  Indexování není možné  až 0.01xRT  Nemá sílu jazykového modelu, problém s krátkými slovy. Model klíčového slova proti modelu pozadí Bez modelu jazyka

ZRE#1, Honza Černocký a Igor Szöke /30 Prohledávání výstupu LVCSR rychlost vyhledávání přesnější na častých slovech  limitován slovníkem LVCSR vocabulary – OOV problém  LVCSR je složitější a pomalejší než jen akustika. LVCSR, pak vyhledávání V 1-best nebo lattici. Možnost indexování !

ZRE#1, Honza Černocký a Igor Szöke /30 Prohledávání výstupu LVCSR + sub-words Zachována rychlost vyhledávání Zachována přesnost na častých slovech. Dají se vyhledávat OOV – bez nového zpracování dat!  LVCSR a indexoání jsou složitější. LVCSR se slovy a pod- slovními jednotkami Indexování slov i pod- slovních jednotek

ZRE#1, Honza Černocký a Igor Szöke /30 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

ZRE#1, Honza Černocký a Igor Szöke /30 Výzkum, vývoj a produktizace a jejich výstupy Výzkum Vývoj technologií Vývoj produktů Články, reporty, experimentální kód (Matlab, C++, lepidlo ve skriptech), datové soubory Cílem je přesnost Opakovatelnost, stabilita, rychlost, dokumentace  Cílem je stabilita (zpracování chyb, verifikace kódu, testování na různých úrovních) Pravidelné výžvojové cykly a plánování Dobře definovaná rozhraní (APIs) Dokumentace Integrace s dalšími technologiemi Zaměření na funkcionalitu integrovaného řešení Uživatelská rozhraní

ZRE#1, Honza Černocký a Igor Szöke /30 Ze do aplikací Phonexia s.r.o. Existuje od r Vývoja komercializace modulů a systémů pro dolování informací z řeči pro Zákazníky z oblasti bezpečnosti a obrany Call Centra - kontakt: Petr Schwarz, Ph.D. Podporováno reklamní agenturou:

ZRE#1, Honza Černocký a Igor Szöke /30 Ze do aplikací ReplayWell s.r.o Existuje od r Vývoj a komercializace systému pro prohlížení přednášek pro konference a výuku - kontakt: Igor Szöke, Ph.D.

ZRE#1, Honza Černocký a Igor Szöke /30 Kompetitivní evaluace Organisace projektů v USA Uživatel, který má problém Agentura – DARPA, IARPA Vypsání projektu – Broad Agency Announcement (BAA) Řešitelé 1 Řešitelé 2 Řešitelé N Kolektor dat - LDC Evaluátor NIST, SAIC Prověřený integrátor