TY  - JOUR
T1  - Comparison Between Different Feature Extraction Techniques for Audio-Visual Speech Recognition
A1  - Chitu, Alin
A1  - Rothkrantz, Leon
A1  - Wiggers, Pascal
A1  - Wojdel, Jacek
JA  - Journal on Multimodal User Interfaces
Y1  - 2007/3
VL  - 1
IS  - 1
SP  - 7
EP  - 20
KW  - audio-visual fusion
KW  - speech recognition
KW  - automatic lipreading
KW  - optical flow
KW  - mouth movement
N2  - The current audio-only speech recognition still lacks the expected robustness when the Signal to Noise Ratio (SNR) decreases. The video information is not affected by noise which makes it an ideal candidate for data fusion for speech recognition benefit. In the paper [1] the authors have shown that most of the techniques used for extraction of static visual features result in equivalent features or at least the most informative features exhibit this property. We argue that one of the main problems of existing methods is that the resulting features contain no information about the motion of the speaker's lips. Therefore, in this paper we will analyze the importance of motion detection for speech recognition. For this we will first present the Lip Geometry Estimation(LGE) method for static feature extraction. This method combines an appearance based approach with a statistical based approach for extracting the shape of the mouth. The method was introduced in [2] and explored in detail in [3]. Further more, we introduce a second method based on a novel approach that captures the relevant motion information with respect to speech recognition by performing optical flow analysis on the contour of the speaker's mouth. For completion, a middle way approach is also analyzed. This third method considers recovering the motion information by computing the first derivatives of the static visual features. All methods were tested and compared on a continuous speech recognizer for Dutch. The evaluation of these methods is done under different noise conditions. We show that the audio-video recognition based on the true motion features, namely obtained by performing optical flow analysis, outperforms the other settings in low SNR conditions.
ER  -