Podatkovni višemedijski prijenos i računalne mreže Speech Recognition Sveučilište u Zagrebu Fakultet Elektrotehnike i računarstva Zavod za elektroničke sustave i obradbu informacija Podatkovni višemedijski prijenos i računalne mreže Speech Recognition Joško Rogulj Joško Rokov Nino Talian Siječanj 2006.
Sadržaj Uvod Princip rada Opća kategorizacija sustava Primjene Komercijalni sustavi Besplatni sustavi Zaključak Literatura
Uvod Prepoznavanje govora je proces kojim računalo identificira izgovorene riječi Velik broj rješenja s tehnologijom raspoznavanja govora Kompleksnost problema
Princip rada Koraci sustava za raspoznavanje Snimanje govora i detekcija iskaza Predfiltriranje Uokviravanje Filtriranje (opcionalan korak) Usporedba Djelovanje
Opća kategorizacija sustava Podjela s obzirom na tipove iskaza koji se mogu detektirati: Izolirane riječi Povezane riječi Kontinuirani govor Spontani govor Provjeravanje/identifikacija govora
Primjene Diktiranje Naredbe/kontrola Telefonija Prijenosni uređaji Medicinske svrhe Ugrađeni (embedded) sustavi
Komercijalni sustavi Dragon Naturally speaking (Nuance) -- http://www.nuance.com/ IBM ViaVoice -- http://www.scansoft.co.uk/viavoice/ SpeakToText (CoolSoft) -- http://www.coolsoftllc.com VR Commander (Interactive Voice Technologies) -- http://www.vrcommander.com/ Audiomatic (Wise Riddles Software) -- http://www.wiseriddles.com/Audiomatic e-Speaking (e-speaking) -- http://www.e-speaking.com/ Realize Voice Lite (Realize Software) -- http://www.realizesoftware.com Voice Studio (Ultimate Interactive Desktops) -- http://www.voicestudio.us Abbot (Softsound) -- http://www.softsound.com Dictation Buddy (High Criteria) -- http://www.highcriteria.com MacSpeech iListen -- http://www.macspeech.com/ ...
Besplatni (OpenSource) sustavi Xvoice -- http://xvoice.sourceforge.net/ Open Mind Speech -- http://freespeach.sourceforge.net/ CMU Sphinx -- http://cmusphinx.org NICO toolkit -- http://nico.sourceforge.net/ GVoice -- http://www.cse.ogi.edu/~omega/gnome/gvoice/ CVoiceControl -- http://www.kiecza.de/daniel/linux/index.html ...
Zaključak Očekivanja: Veći broj komercijalnih proizvoda Niže cijene postojećih rješenja Razvoj boljih algoritama Veći broj OpenSource rješenja Nove primjene
Literatura http://www.tldp.org/HOWTO/Speech-Recognition-HOWTO/ http://www.nuance.com/naturallyspeaking http://www.scansoft.co.uk/viavoice/ http://sourceforge.net ...