梁亞玲 杜明輝
(華南理工大學(xué)電子與信息學(xué)院,廣東廣州510640)
唇讀是指通過觀察說話者的口型變化,讀出全部或者部分所說的內(nèi)容[1],它是人工智能研究的一個新方向,被廣泛應(yīng)用于噪聲環(huán)境下以提高語音識別率.基于單視覺通道的語義識別系統(tǒng)在近幾年迅速發(fā)展起來[2-5],文中基于單視覺通道小樣本大詞匯唇讀系統(tǒng)進(jìn)行研究.唇讀系統(tǒng)中待處理的數(shù)據(jù)是表示唇部變化的圖像序列.由于語速的不同或者采集系統(tǒng)的幀率不同,對于同一個字或詞在不同時間或用不同器材采集到的樣本長度(幀數(shù))是不同的,即每個樣本的數(shù)據(jù)維數(shù)是不同的.目前解決此類時變信號樣本數(shù)據(jù)維數(shù)不同的方法主要有兩類:
(1)對每幀圖像分別提取特征,利用隱馬爾科夫(HMM)進(jìn)行模型的訓(xùn)練或用動態(tài)時間規(guī)整(DTW)方法進(jìn)行動態(tài)匹配識別.HMM是一種基于統(tǒng)計的方法,它通過對大量的樣本進(jìn)行模型參數(shù)的訓(xùn)練來獲取每類的模型參數(shù).當(dāng)訓(xùn)練樣本數(shù)較大時,模型的識別率較好;當(dāng)訓(xùn)練樣本數(shù)較小時,模型的識別率較低.DTW是一種把時間規(guī)整與距離測度計算結(jié)合起來的非線性規(guī)整技術(shù).該方法通過計算給定的模板序列和測試序列在時間軸上的距離,將與測試序列在時間約束條件下距離最短的模板所對應(yīng)的類判定為該測試樣本的識別結(jié)果.DTW是一種簡單易行的方法,對于訓(xùn)練樣本的個數(shù)要求最低,每類有一個樣本作為模板即可,它實(shí)質(zhì)上是一種模板匹配方法,其識別率與原始模板關(guān)系較大,且總體識別率相對大訓(xùn)練樣本的HMM來說不高.這兩種方法是目前進(jìn)行唇讀的典型方法.
(2)在提取特征時或提取特征前對輸入數(shù)據(jù)進(jìn)行規(guī)整.如文獻(xiàn)[6]中采用動態(tài)時間規(guī)整核(DTAK)方法獲取等長特征,再利用支持向量機(jī)(SVM)進(jìn)行分類.SVM是一種能有效解決小樣本識別問題的方法,一般用于較少類別的分類問題,因?yàn)槠浞诸惼鞯膫€數(shù)與類別數(shù)n的關(guān)系為n(n-1)/2.若類別數(shù)較多,則識別時間較長.在提取特征前對非等長數(shù)據(jù)進(jìn)行規(guī)整的另外一種方法是目前廣泛應(yīng)用于步態(tài)序列圖像識別的能量圖法,該方法通過將二值序列圖像投影到步態(tài)能量圖(GEI)[7]或?qū)⒉綉B(tài)序列的輪廓線投影到時空能量圖[8]上完成數(shù)據(jù)維數(shù)的統(tǒng)一,間接完成數(shù)據(jù)降維.能量圖法具有思路簡單、特征維數(shù)小、識別速度快、識別率高等特點(diǎn),受此啟發(fā),文中提出了基于唇部灰度能量圖(LGEI)的唇讀方法.
步態(tài)能量圖像G(x,y)定義為[7]

式中,Bt(x,y)為步態(tài)側(cè)面二值圖像在像素點(diǎn)(x,y)處的值,N為一個完整的步態(tài)周期的總幀數(shù).與步態(tài)能量圖類似的還有用來判別動作類型的運(yùn)動能量圖(MEI)、運(yùn)動歷史圖像(MHI)等,它們都是將二值化的序列圖像投影到二維的能量圖上,完成數(shù)據(jù)維數(shù)的統(tǒng)一,然后對能量圖進(jìn)行特征提取,最后將測試樣本的特征與模板的特征進(jìn)行匹配,從而得到識別結(jié)果.能量圖法已廣泛應(yīng)用于步態(tài)識別和動作識別中.
步態(tài)能量圖處理的是二值化的步態(tài)序列圖像.唇部圖像的二值化受人種、光照、個體等的影響較大,一般來說很難提取到較為理想的輪廓圖像,且早期關(guān)于唇讀的研究結(jié)果表明,基于輪廓的唇部特征提取方法的識別率低于基于像素的唇部特征提取方法[9].基于像素的唇部特征提取方法就是對唇部灰度圖像直接提取特征,而不是對分割后的二值圖像提取特征.該方法的識別率高于基于輪廓的唇部特征提取方法,主要有兩方面的原因:(1)基于輪廓的方法很難提取到精確的唇部輪廓信息;(2)唇部圖像中牙齒、舌頭等包含了一定的信息量,二值化后的唇部輪廓圖像會丟失該部分相關(guān)信息.基于以上原因,文中提出了唇部灰度能量圖的定義.(x,y)處的唇部灰度能量圖定義為

式中,I(x,y,i)為第i幀圖像中像素點(diǎn)(x,y)的灰度值,N為一個完整的樣本中圖像的幀數(shù).圖1給出了唇部序列圖像及其灰度能量圖的示意圖.唇部能量圖將非等長的唇部序列圖像投影到相同大小的唇部灰度能量圖上,同時間接地完成了數(shù)據(jù)的降維.
基于唇部灰度能量圖法實(shí)質(zhì)上仍然是模板匹配法,模板匹配方法的識別率受模板的影響具有一定的隨機(jī)性且識別率一般不高.當(dāng)有多個訓(xùn)練樣本時,單樣本模板匹配的方法不能充分利用其它訓(xùn)練樣本的優(yōu)點(diǎn).基于此,文中將單訓(xùn)練樣本推廣到多訓(xùn)練樣本.定義多訓(xùn)練樣本唇部灰度能量圖為

圖1 唇部序列圖像及其灰度能量圖Fig.1 Lip image sequence and its LGEI

式中:M為訓(xùn)練樣本數(shù);Nj為第j個訓(xùn)練樣本序列中的幀數(shù);Ij(x,y,ij)表示第j個樣本中第ij幀唇部圖像中像素點(diǎn)(x,y)的灰度值;αj為第j個訓(xùn)練樣本的系數(shù),滿足α1+α2+…+αM=1且0≤αj≤1,αj用來反映各訓(xùn)練樣本對模板的貢獻(xiàn)值,與訓(xùn)練樣本的質(zhì)量有關(guān).對于圖像清晰、幀率較高的樣本,可給予較大的系數(shù);對于質(zhì)量較差的樣本則可給予較小的系數(shù).唇部灰度能量圖實(shí)質(zhì)上是唇部序列圖像的平均,由于視頻序列的采樣頻率一般較低,采用多訓(xùn)練樣本生成模板圖就相當(dāng)于提高了視頻序列的采樣頻率,這樣生成的模板更接近其真實(shí)值,從而能提高系統(tǒng)的識別率.
唇部灰度能量圖擴(kuò)展到多訓(xùn)練樣本,實(shí)際上是指在生成唇部灰度能量圖時用多個樣本的能量圖進(jìn)行加權(quán)平均得到唇部灰度能量圖模板.
假設(shè)原樣本第i幀圖像中像素點(diǎn)(x,y)的噪聲為n(x,y,i),噪聲與信號間相互獨(dú)立且分別獨(dú)立同分布,則受噪聲影響的圖像信號為

LGEI的均值和方差分別為



式中,I(x,y)和n(x,y)分別為像素點(diǎn)(x,y)的灰度值和噪聲,ˉI(x,y)和ˉn(x,y)分別為點(diǎn)(x,y)的平均灰度值和平均噪聲.
從式(5)、(6)可以看出,受噪聲影響后唇部灰度能量圖的均值與單幅圖像相同,方差為單幅圖像的1/N.與傳統(tǒng)的對單幀圖像分別提取特征的方法相比,采用DTW進(jìn)行識別或采用HMM進(jìn)行訓(xùn)練時,在識別過程中會造成噪聲的疊加,導(dǎo)致噪聲的干擾遠(yuǎn)大于單幅圖像噪聲的影響.可見,采用唇部灰度能量圖的方法能夠平滑噪聲,避免了對單幀圖像分別提取特征導(dǎo)致的噪聲疊加效應(yīng),提高了系統(tǒng)的抗噪性.
用唇部灰度能量圖進(jìn)行唇讀識別的步驟如下:
1)將視頻序列分割為表示具體字或詞的圖像序列;
2)采用文獻(xiàn)[10]中的方法對圖像序列中的每幅圖像進(jìn)行唇部檢測和定位,得到大小為48×64的唇部感興趣區(qū)域圖像;
3)運(yùn)用式(2)生成每個序列的唇部灰度能量圖;
4)對唇部灰度能量圖進(jìn)行二維DCT變換,用zigzag方法對DCT系數(shù)進(jìn)行掃描,選取前面部分重要系數(shù)用主成分分析(PCA)進(jìn)行降維得到特征向量;
5)將每類中第一個樣本的特征作為模板,計算測試樣本與模板樣本特征的歐式距離,與樣本距離最短的模板所屬的類即判定為樣本所屬的類.
文中實(shí)驗(yàn)采用HIT BiCAV數(shù)據(jù)庫,數(shù)據(jù)采集速率為25 f/s,分辨率為256×256,由200個句子組成,約合1000個字,每個句子錄制3遍.在漢語中,相同的音標(biāo)會有不同的音調(diào),通過唇部口形不能區(qū)分不同音調(diào),因此文中將相同音標(biāo)、不同音調(diào)的視為同一個類.從該庫中選取96個具有不同音標(biāo)的字共288個樣本進(jìn)行實(shí)驗(yàn).

圖2 唇部垂直精確定位前后的圖像及其投影Fig.2 Images of lips before and after an vertical accurate location and their projections
文中采用的數(shù)據(jù)庫已完成字與字的序列分割,因此可直接進(jìn)行唇部的檢測與定位.由于唇部灰度能量圖是將唇部對應(yīng)位置的灰度值進(jìn)行直接相加的處理,要求唇部圖像精確定位.文獻(xiàn)[10]中通過檢測雙眼的位置,然后根據(jù)眼睛與嘴巴的相對位置分割出唇部圖像.該方法很好地運(yùn)用了基于人的不變特征來確定唇部的左右位置,且通過雙眼之間連線將唇部調(diào)整至水平,但對唇部上下位置的定位效果較差.文中通過對由文獻(xiàn)[10]中方法生成的感興趣區(qū)域圖像進(jìn)行研究,發(fā)現(xiàn)嘴角連線處的灰度統(tǒng)計值最小,如圖2(b)中亮度投影統(tǒng)計圖所示.根據(jù)唇部的這個特性,文中在文獻(xiàn)[10]的基礎(chǔ)上,通過唇部灰度圖像在水平方向的投影來確定嘴角的位置,將嘴角調(diào)整至統(tǒng)一高度.整個數(shù)據(jù)的預(yù)處理過程為:(1)通過OpenCV檢測人臉及瞳孔位置;(2)根據(jù)瞳孔之間連線的角度將唇部調(diào)整至水平,并將瞳孔之間距離縮放至統(tǒng)一大小,根據(jù)瞳孔位置確定出唇部的左右邊界,并根據(jù)人臉與唇部的幾何關(guān)系粗步確定唇部上下邊界;(3)對粗定位唇部圖像進(jìn)行水平方向投影確定嘴角位置,并將嘴角調(diào)整至統(tǒng)一高度,得到精確定位的唇部感興趣區(qū)域圖像.數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)過程如圖3所示.唇部垂直定位前后的圖像及其投影如圖2所示.

圖3 數(shù)據(jù)預(yù)處理過程Fig.3 Data preprocessing
考慮到唇部在張開時下唇高度大于上唇高度,因此將嘴角連線的位置定位在整個唇部感興趣區(qū)域約2/5的位置.文中提取的唇部圖像大小為48×64,將唇部嘴角的連線位置定在20,可保證唇部張開時,下唇不會被分割在唇部區(qū)域之外.
實(shí)驗(yàn)1-5選取前100個DCT系數(shù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)6對DCT系數(shù)的個數(shù)選取進(jìn)行討論.
實(shí)驗(yàn)1采用文中提出的唇讀識別方法進(jìn)行實(shí)驗(yàn).對比方法是傳統(tǒng)的對單幀圖像分別提取特征的方法(對樣本序列中單幅圖像采用DCT和PCA提取特征,然后用DTW進(jìn)行識別).文中沒有采用HMM作為識別方法是因?yàn)镠MM是一種基于統(tǒng)計的建模方法,當(dāng)每類訓(xùn)練樣本數(shù)量足夠大時能得到較好的模型,否則會影響識別率.實(shí)驗(yàn)結(jié)果如圖4所示.
圖4(a)中特征維數(shù)表示單幀圖像提取的特征維數(shù).文中方法先將序列圖像投影,然后對唇部灰度能量圖進(jìn)行特征提取,因此能量圖的特征維數(shù)是單幀圖像時的1/7.8(文中采用的數(shù)據(jù)庫中每個樣本的平均長度為7.8幀).從圖4(a)中可以看出,若對單幀圖像提取相同維數(shù)的特征,文中方法的識別率遠(yuǎn)高于傳統(tǒng)方法.如對單幀圖像提取特征維數(shù)為1時,傳統(tǒng)方法的識別率為35.42%,而文中方法的識別率為63.54%.在單幀圖像提取特征維數(shù)大于10的情況下,文中方法的識別率比傳統(tǒng)方法提高了4%.這是因?yàn)槲闹蟹椒ㄗ畲笙薅鹊乇A袅藞D像序列的特征,且反應(yīng)了其動態(tài)特征.而傳統(tǒng)方法對單幀圖像分別提取特征,不同幀特征之間的相似性很大,存在較大冗余.因此在特征維數(shù)相同情況下,文中方法的識別率更高.

圖4 文中方法和傳統(tǒng)方法的識別率對比Fig.4 Comparison of recognition rates between proposed and traditionalmethods
如果不考慮特征維數(shù)的對應(yīng)關(guān)系,即對傳統(tǒng)的單幀圖像提取的特征維數(shù)與對唇部灰度能量圖提取的特征維數(shù)相同,則兩種方法的實(shí)驗(yàn)結(jié)果如圖4(b)所示.從圖4(b)中可以看出,當(dāng)特征維數(shù)大于30時,文中方法的識別率高于傳統(tǒng)方法.這說明在總特征維數(shù)為傳統(tǒng)方法的1/7.8的情況下,整個序列總特征維數(shù)大于30后,文中方法能夠獲得優(yōu)于傳統(tǒng)方法的識別率.這是因?yàn)閷螏瑘D像分別提取特征,然后用DTW進(jìn)行匹配的方法會造成序列圖像總誤差的疊加效應(yīng),因此傳統(tǒng)方法的識別率低于文中方法.
實(shí)驗(yàn)2采用單訓(xùn)練樣本法與雙訓(xùn)練樣本法進(jìn)行實(shí)驗(yàn).雙訓(xùn)練樣本法指用每類的前兩個樣本作為訓(xùn)練樣本生成唇部灰度能量圖,采用DCT和PCA對唇部灰度能量圖提取特征,并將該特征作為模板,用第3個樣本唇部灰度能量圖的特征做測試.單訓(xùn)練樣本法指用第1個樣本唇部灰度能量圖的特征作為模板,另外兩個樣本唇部灰度能量圖的特征作為測試,單訓(xùn)練樣本法的識別率是指兩次測試識別率的平均值.由于文中采用的實(shí)驗(yàn)樣本是在相同的環(huán)境下采集得到的,因此樣本的質(zhì)量大致相同,雙訓(xùn)練樣本的權(quán)重系數(shù)可均勻分配,每個訓(xùn)練樣本的αj設(shè)為0.5.兩種方法的實(shí)驗(yàn)結(jié)果如圖5所示,圖中的特征維數(shù)是對能量圖提取的特征維數(shù).

圖5 單訓(xùn)練樣本法和雙訓(xùn)練樣本法的識別率對比Fig.5 Comparison of recognition rates between single-training sample and double-training samplemethods
從圖5中可以看出,雙訓(xùn)練樣本法的識別率遠(yuǎn)遠(yuǎn)高于單訓(xùn)練樣本法,平均識別率提高了11.29%.這是因?yàn)椴捎秒p訓(xùn)練樣本生成模板能量圖時,可彌補(bǔ)視頻序列數(shù)據(jù)采樣率低的問題.如采用雙訓(xùn)練樣本進(jìn)行訓(xùn)練獲取模板特征相當(dāng)于將模板的采樣率提高了2倍,這樣生成的能量模板就更能體現(xiàn)信號本身的特性.因此隨著訓(xùn)練樣本的增加,識別率會有所增加.
實(shí)驗(yàn)3采用雙訓(xùn)練樣本生成唇部灰度能量圖模板的方法,在唇部進(jìn)行精確定位前后的數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),考察唇部精確定位前后的識別率,結(jié)果如圖6所示.
從圖6中可以看出,唇部精確定位后,識別率相比定位前有了很大的提高.尤其是當(dāng)特征維數(shù)較小時,其識別率提高幅度較大,達(dá)10%以上.當(dāng)特征維數(shù)較大時識別率仍然有比較明顯的提高,達(dá)2%以上,系統(tǒng)的最高識別率達(dá)90.63%.

圖6 唇部精確定位前后識別率對比Fig.6 Comparison of recognition rates before and after an accurate lip location
實(shí)驗(yàn)4由于不同文獻(xiàn)采用的特征提取方法及識別方法不同,對數(shù)據(jù)庫的要求也不同,因此無法得到直接的仿真結(jié)果來進(jìn)行對比.故直接將文中方法的實(shí)驗(yàn)結(jié)果與文獻(xiàn)[6,11]中的實(shí)驗(yàn)結(jié)果進(jìn)行對比,如表1所示.

表1 不同方法的識別率對比Table 1 Comparison of recognition rates obtained by different methods
從表1中可以看出:相比文獻(xiàn)[11]中方法對英文句子的識別率,文中方法的識別率有明顯優(yōu)勢;相比文獻(xiàn)[6]中方法對10個中文字的識別,雖然文中方法的識別率與該方法的最高識別率相差不多,但文中方法的類別數(shù)大很多,且訓(xùn)練樣本數(shù)遠(yuǎn)遠(yuǎn)小于文獻(xiàn)[6]中方法.因此,對于特定人、大詞匯、小樣本的單視覺唇讀系統(tǒng)來說,文中方法是一種簡單實(shí)用且識別率高的方法.
實(shí)驗(yàn)5文中唇部識別方法將序列圖像轉(zhuǎn)化為能量圖,相對于DTW方法來說,在識別階段不需要進(jìn)行相應(yīng)的最佳匹配路徑的搜索,直接對其能量圖提取的特征進(jìn)行距離的求取即可,因此在識別時間上有了較大的縮減.在不同特征維數(shù)下文中唇部識別方法與DTW方法在識別96個字所需的時間對比如圖7所示.

圖7 文中方法與DTW方法的識別時間對比Fig.7 Comparison of recognition time used in proposed method and DTW method
從圖7中可以看出,文中方法的識別時間比DTW方法短得多.這是因?yàn)樽R別時間主要包括計算距離測度所需時間及統(tǒng)計識別率所需時間,而計算距離測度所需時間占主要部分.文中方法求取樣本間距離時只需要進(jìn)行一次向量間距離的運(yùn)算,而DTW方法需要對樣本中的每幅圖像進(jìn)行距離測度才能得到兩個樣本累計距離的最小值,該過程需要多個距離的計算和比較才能完成.若單獨(dú)考慮求取距離的時間,則文中方法計算距離測度部分所需時間將小于DTW方法所需時間的1/7.8.由于識別時間不只是計算距離測度所需時間,因此實(shí)驗(yàn)統(tǒng)計出的實(shí)際識別時間之比與該比例有一定偏差.從圖7中可以看出:文中方法所需識別時間大約為DTW方法的1/4;隨著特征維數(shù)的增加,識別時間有所增加,但增幅并不明顯.
實(shí)驗(yàn)6文獻(xiàn)[2-3]中采用了DCT和PCA的特征提取方法,降維后在特征維數(shù)為60~80時取得了較好的識別率,因此選取的DCT系數(shù)個數(shù)應(yīng)該大于80.據(jù)此,文中采用精確定位后的數(shù)據(jù)和DCT系數(shù)個數(shù)分別為100、200時進(jìn)行實(shí)驗(yàn),考察DCT系數(shù)個數(shù)對識別率的影響.實(shí)驗(yàn)結(jié)果如表2所示.
從表2中可以看出,DCT系數(shù)個數(shù)為200時的識別率較DCT系數(shù)個數(shù)為100時無明顯提高,而且在單訓(xùn)練樣本下還有所降低.這主要是因?yàn)樽R別率與特征維數(shù)不是呈線性的關(guān)系,在一定范圍內(nèi)識別率隨特征維數(shù)的增加而增加,當(dāng)特征維數(shù)增加到一定程度后,識別率會有所下降.若選取的DCT系數(shù)越多,則PCA降維時將需要更多的運(yùn)算時間,同時也增加了選取主成分的干擾.基于以上考慮,文中選取DCT系數(shù)個數(shù)為100.

表2 DCT系數(shù)個數(shù)對識別率的影響Table 2 Effects of number of DCT coefficients on recognition rate
文中提出了唇部灰度能量圖以及多訓(xùn)練樣本唇部灰度能量圖的概念,并將其用于唇讀中,然后根據(jù)數(shù)據(jù)預(yù)處理的需要提出唇部中心點(diǎn)精確定位方法.實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)的對單幀圖像提取特征的方法相比,文中基于唇部灰度能量圖的方法大大地減少了特征維數(shù),提高了識別速度和識別率;相比DTW方法,基于唇部灰度能量圖的方法可方便地擴(kuò)展到多訓(xùn)練樣本,能夠充分利用多訓(xùn)練樣本的信息,進(jìn)一步提高識別率.唇部灰度能量圖的提出,使得人臉識別的方法可直接用于唇讀識別,但該方法要求唇部精確定位,且文中只對基于人的系統(tǒng)進(jìn)行了研究,因此后續(xù)的研究可著力于提高唇部定位的準(zhǔn)確性,以及將唇部灰度能量圖的思想與其它分類器結(jié)合起來以實(shí)現(xiàn)不基于人的唇讀識別系統(tǒng).
[1]姚鴻勛,高文,王瑞,等.視覺語言——唇讀綜述[J].電子學(xué)報,2001,29(2):239-246.Yao Hong-xun,Gao Wen,Wang Rui,et al.A survey of lipreading:one of visual languages[J].Acta Electronic Sinica,2001,29(2):239-246.
[2]Hong Xiaopeng,Yao Hongxun,Wan Yuqi,et al.A PCA based visual DCT feature extractionmethod for lip-reading[C]∥Proceedings of International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Pasadena:IEEE,2006:321-326.
[3]萬玉奇,姚鴻勛,洪曉鵬.唇讀中基于像素的特征提取方法的研究[J].計算機(jī)工程與應(yīng)用,2007,43(20):197-199.Wan Yu-qi,Yao Hong-xun,Hong Xiao-peng.Research of pixel based feature extraction in lip-reading[J].Computer Engineering and Applications,2007,43(20):197-199.
[4]何俊,張華,劉繼忠.在DCT域進(jìn)行LDA的唇讀特征提取方法[J].計算機(jī)工程與應(yīng)用,2009,45(32):150-152.He Jun,Zhang Hua,Liu Ji-zhong.LDA based feature extraction method in DCT domain in lipreading[J].Computer Engineering and Applications,2009,45(32):150-152.
[5]He Jun,Zhang Hua.Research on visual speech feature extraction[C]∥Proceedings of International Conference on Computer Engineering and Technology.Singapore:IEEE,2009:499-502.
[6]He Jun,Zhang Hua.Lipreading recognition based on SVM and DTAK[C]∥Proceedings of the 4th International Conference on Bioinformatics and Biomedical Engineering.Chengdu:IEEE,2010:1-4.
[7]Han Ju,Bhanu Bir.Individual recognition using gaitenergy image[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(2):316-322.
[8]韋素媛,馬天駿,寧超,等.用時空能量圖和小波變換方法表征和識別步態(tài)[J].電子科技大學(xué)學(xué)報,2009,38(3):431-434.Wei Su-yuan,Ma Tian-jun,Ning Chao,etal.Gait representation and recognition using spatio-temporal energy image and wavelet transformation[J].Journal of University of Electronic Science and Technology of China,2009,38(3):431-434.
[9]Potamianos Gerasimos,Neti Chalapathy,Gravier Guillaume,et al.Recent advances in the automatic recognition of audiovisual speech[J].Proceeding of the IEEE,2003,91(9):1306-1326.
[10]YaoWenjuan,Liang Yaling,Du Minghui.A real-time lip localization and tacking for lip reading[C]∥Proceedings of the 3rd International Conference on Advanced Computer Theory and Engineering.Chengdu:IEEE,2010:363-366.
[11]Zhao Guoying,Barnard Mark,Pietik?inen Matti.Lipreading with local spatiotemporal descriptors[J].IEEE Transactions on Multimedia,2009,11(7):1254-1265.