Audio Visual Speech Recognition Dictionary Grammar Acoustic models Features extraction Decoder Projet de recherche sur crédit incitatif GET 2005
Audio processing Features extraction Digits detection Digits recognition: Acoustic parameters : MFCC Context independent HMMs Decoding : Time synchronous algorithm Sound effect Noise : Babble Recognition experiments Projet de recherche sur crédit incitatif GET 2005
Video processing Video extraction Lips localisation Images interpolation (same frequency as speech) Features extraction DCT and DCT2 (DCT+LDA) Projections : PRO et PRO2 (PRO+LDA) Recognition experiments Projet de recherche sur crédit incitatif GET 2005
Fusion techniques Parameters fusion : Concatenation Dimension decrease : Linear Discriminant Analysis (LDA) Modelisation : classical HMM with one stream Scores fusion : Multi-stream HMM Projet de recherche sur crédit incitatif GET 2005
Experimental results : parameters fusion Projet de recherche sur crédit incitatif GET 2005
Experimental results : Scores fusion at -5db Projet de recherche sur crédit incitatif GET 2005
Bibliography G. Potamianos, C. Neti, G. Gravier, A. Garp, A. W. Senior, « Recent Advances in the Automatic Recognition of Audiovisuel Speech ». In proceedings of IEEE Vol. 91, pages 1306-1326. sept 2003. J.N. Gowdy, A. Subramanya, C. Bartels, and J. Bilmes, « DBN-Based Multi-Stream Models for Audio-Visual Speech Recognition ». IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, May 2004. Montreal, Canada F. Brugger, L. Zouari, H. Bredin, A. Ameheaye, G. Chollet, D. Pastor et Y. Ni, « Reconnaissance de la parole audiovisuelle par VMike ». XVIèmes Journées d’Etude sur la Parole JEP. Dinard 2006. Projet de recherche sur crédit incitatif GET 2005