馬金林,鞏元文,馬自萍,陳德光,朱艷彬,劉宇灝
1.北方民族大學 計算機科學與工程學院,銀川 750021
2.圖像圖形智能處理國家民委重點實驗室,銀川 750021
3.北方民族大學 數學與信息科學學院,銀川 750021
唇語識別是通過分析一系列唇部運動信息來推斷說話者所說內容,涉及模式識別、語音處理、圖像分類和自然語言處理等多個領域[1],具有廣闊的應用前景。早期的唇語識別系統采用人工標注特征作為唇部視覺特征,一系列圖像序列作為模型輸入,此類方法僅保證了下游任務能進行分類識別,而不考慮獲取特征的有效性,因此下游任務識別精度通常較低。近年來,隨著人類需求的增加,僅采用圖像序列作為模型輸入的唇語系統獲取的視覺效果遠不能達到人類的期望值,人們開始尋求有效的視覺特征。
唇語識別系統一般由視覺特征提取和分類識別兩個階段組成,唇部視覺特征提取的有效性是下游任務獲取良好表現的關鍵。理想情況下,視覺特征應包含足夠多對識別有效的信息量,并對視頻中的噪聲表現出一定程度的魯棒性[2]。但頭部姿勢、光照條件、視頻拍攝角度等因素對提取的視覺特征質量具有很大的影響。因此,多年來學者們一直致力于對高效唇部視覺特征的研究。本文將唇部視覺特征提取方法分為傳統提取方法和深度學習提取方法兩類,這兩類視覺特征提取方法的架構如圖1 所示。
如圖1(a),傳統的視覺特征提取方法主要依靠人工標注,存在易受外界環境影響,耗時長、效率與精度低的問題。采用幾何特征[3]、紋理特征[4]和外觀特征[5]作為視覺特征的方法可以有效解決上述問題。幾何特征采用唇部的高度、寬度和面積等作為視覺特征;外觀特征則采用口腔和牙齒的張合度作為特征;紋理特征采用尺度不變特征轉換或者方向梯度直方圖等算法提取圖像視覺特征,是常用的一種特征。上述方法雖然在一定程度上保證提取特征的有效性,但是存在很大的局限性,不能應用于真實自然環境中,且分類識別準確度也比較低。

Fig.1 Visual feature extraction structure圖1 視覺特征提取結構圖
如圖1(b),基于深度學習的唇部視覺特征提取方法是目前的主流方法,這類方法使用深度模型自動提取唇部的視覺特征,最常使用的模型結構是卷積神經網絡(convolutional neural network,CNN)。根據網絡維數的不同,基于深度學習的唇部視覺特征提取方法可分為:基于二維卷積網絡(2D convolutional neural network,2D CNN)、基于三維卷積與二維卷積網絡相結合(3D convolutional neural network and 2D convolutional neural network,3D CNN+2D CNN)的提取方法和基于三維卷積網絡(3D convolutional neural network,3D CNN)。除卷積神經網絡架構以外,還包含其他結構用于提取視覺特征,如自動編碼機制、前饋神經網絡和深度置信網絡。深度學習的特征提取方法是目前效果最好的方法,它解決了傳統方法不能自動提取特征的問題,在提取高效性特征、算法性能、效率和泛化能力等方面得到一致認可。
唇語數據集是推動視覺語音識別和唇語識別發展的關鍵[6]。早期的數據集專注于特定和簡單的識別任務,例如:基于字母或者數字識別、基于句子識別等。優點是這些數據集可以很快地被用于唇語識別領域,但是由于存在受試者數量和記錄數量有限、與真實環境存在差異的問題,而很難廣泛應用于真實環境。后期的數據集更側重處理復雜任務,并同時考慮了各種影響因素(例如:光照、頭部姿勢、分辨率、視角等)。本文根據拍攝視角將這些數據集劃分為正視圖數據集和多視圖數據集兩類。
目前常用的正視圖數據集包括:AVLetters[7]、GRID[8]、OuluVS[9]和LRW[10]。除此之外,還包含數據集IBMIH[11]和MOBIO[12]等。
GRID 數據集是視聽雙模態數據集,常用于端到端句子級水平的研究,該數據集句子結構遵循一定的規律,由六類單詞構成,分別為“命令”“顏色”“介詞”“字母”“數字”和“副詞”,每一類單詞都有固定的數量。
AVLetters 數據集同樣為視聽雙模態數據集,主要用于研究說話者變化對唇語識別任務的影響,由5名受試者分別朗讀26 個字母7 遍錄制完成,缺點是該數據集僅能用于特定任務的研究。
不同于GRID 數據集和AVLetters數據集,OuluVS數據集結構不遵循規律,廣泛用于日常生活用語自動唇語系統的評估,數據來源于10 個日常生活用語,收集過程分為兩部分:第一部分收集10 個人的數據,10 人均來自不同國家,語速和發音存在一定差異;另一部分收集剩余10 個人的數據,但該數據集在構建過程中未考慮到受試者男女比例問題。
為滿足大規模數據集的需求,LRW 數據集于2016 年被提出,共分為500 類,數據來源于BBC 廣播電視節目,該數據集主要用于英文單詞的識別任務,滿足了研究者對數據量的需求。
在自然環境中,唇語識別的研究并不能保證輸入的圖像總是正視圖。實際環境中唇語識別系統需要解決多視圖問題。此外,研究表明,使用非正視圖在一定程度上能提高唇語識別性能[13],這是因為非正視圖能更好地顯示唇部的突起、唇部變化過程和唇部成圓效果等。Kumar 等人[14]在實驗中也表明非正視圖唇語識別的性能優于正視圖。隨著多視圖研究的發展,涌現出許多基于多視圖的數據集,常用多視圖數據集有:CUAVE[15]、LILiR[16]、LTS5[17]、OuluVS2[18]、LRS2-BBC[19]、LRS3-TED[20]和LRW-1000[21]。
CUAVE 數據集是包含36 名受試者的數字數據集,數據集劃分為兩部分:第一部分由受試者說出50個孤立的數字,在說話過程中伴隨著頭部和身體的移動和傾斜,拍攝角度包含-90°、0°和90°;第二部分由受試者說出連續數字序列,但是未考慮頭部角度對識別性能的影響。
基于此,LILiR 數據集和LTS5 數據集分別于2010 年和2011 年被提出,LILiR 數據集錄制角度在CUAVE 數據集的基礎上增加了0°、30°、45°和60°,共包含200 個句子。但LTS5 數據集在視頻錄制過程中未考慮到光照因素,導致視頻唇部區域出現部分陰影,因此數據集的質量不高。
OuluVS2數據集、LRS2-BBC數據集和LRS3-TED 數據集均屬于大規模句子級數據集,拍攝角度變化較大,適用于不同視圖下的研究。
LRW-1000 數據集為解決中文數據集短缺而被提出,該數據集在拍攝過程中考慮了光照、姿態、年齡和性別等因素,貼近于真實環境,是目前研究者廣泛使用的中文數據集,因其具有很大的挑戰性,所以近年在該數據集上的識別率較低。
綜上,這些開源數據集對唇語識別的發展起到了很好的推動作用,然而目前現存數據集仍存在一些不足。首先,不同的數據集收集來源、數據集結構、拍攝時所使用的設備和數據的維度等方面有所差異,因此,很難獲取泛化性能較好的唇語識別模型;其次,不同的數據集考慮到不同的影響因素,與真實環境差異較大,這也是唇語識別領域目前所有數據集存在的普遍性問題。因此構建標準、統一和貼近于真實環境的數據集是推動唇語識別領域進一步發展的一項重要工作。表1 展示了兩類相關數據集的詳細信息。

Table 1 Datasets of lip reading表1 唇語相關數據集
為了貼近真實環境,目前大部分唇語識別研究均要求所提取的唇部視覺特征能夠用來描述說話這個動態過程,而不僅僅是獲取描述單幀靜態圖像的信息。傳統唇部視覺特征提取方法有多種劃分策略。榮傳振等人[22]根據是否采用模型將特征提取方法劃分為三類:像素點提取方法、模型提取方法、混合提取方法。Dupont 等人[23]根據不同的特征提取方法將特征提取方法劃分為四類:基于圖像的方法、基于動作的方法、基于幾何特征和基于模型的方法。本文從不同的視覺特征角度將傳統的唇部視覺特征提取方法進行歸類總結,主要分為三類:基于像素點的方法、基于形狀的方法和基于混合特征的方法。
提取唇部視覺特征首先考慮的是充分利用視頻幀中的所有信息,而基于像素點的方法將圖像中包含唇部區域的所有像素點作為原始特征,采用系列預處理方法對原始特征降維,得到具有一定表現力的特征。目前,基于像素點的方法主要有多級線性變換法、光流法和局部像素特征法。
線性變換是常用的降維方法,這類特征提取方法通過對特征向量進行變換,降低特征向量的維數。由于單個線性變換方法不能提取到最佳特征,大多數基于像素點的方法都是由多級線性變換組成,包含幀內線性變換和幀間的線性變換。層次線性判別分析(hierarchical linear discriminant analysis,HILDA)[24]是典型的算法之一,其將二維可分離DCT 對唇部區域做變換后的24 個能量最高的系數作為唇部靜態特征,由LDA 捕獲幀間動態信息,MLLT 進一步改進數據建模,但是該方法采用單流的融合方法,限制了有效特征的獲取,導致最終的識別精度不高。為進一步提高識別精度,Marcheret 等人[25]引入多流決策融合算法,提出對音頻和視頻流兩個模態的可靠性特征進行選擇,并加入對不同模態特征選擇的動態權值估計,效果明顯優于靜態加權方法。上述提取的唇部視覺特征大部分依賴于說話者,為降低說話者依賴性,Almajai 等人[26]在訓練過程中加入說話者自適應訓練(speaker adaptive training,SAT),利用特定說話者數據對說話者無關的編碼進行改造,針對說話者獨立的識別取得了較高的識別精度,但是,由于數據集的限制,該方法在訓練階段并沒有進行特征學習,導致結果存在一定的不合理性。
光流法是利用圖像序列中像素在時域變化的前后幀之間的相關性,找出前后幀之間的對應關系,計算相鄰幀之間的運動信息。Shaikh等人[27]將光流作為唇語識別任務的視覺特征,試圖獲取幀間唇部運動信息。但光流法對唇部輪廓亮度變化和說話者姿勢變化非常敏感且對光流的提取較為昂貴。
早期為降低光照變化對唇部像素值的影響往往是采用像素的局部特征。典型的方法是局部二值模式(local binary patterns,LBP)[28],但是局部二值模式只能處理單個視頻幀,無法處理連續視頻幀。因此,采用三個原始平面的局部二值模式(local binary patterns from three original planes,LBP-TOP)[29]方法被引入,Zhao等人[9]從原始唇部圖像和界面累積時間模式中計算LBP 特征,使用時空局部紋理特征來描述動態視覺信息,解決了說話者較大變化的特征選擇問題,但在模式上具有相似性,丟失了更多精細的多分辨率特征,而且對輸入視頻長度要求較高。Zhou等人[30]在同樣條件下,在計算LBP 特征前,分為手動和自動兩種方式確定唇部位置,將數據劃分為干凈數據和噪聲數據,分別采用LBP-TOP 方法提取唇部的時空信息,盡管獲取了具有表現力的特征,但忽略了唇部檢測和詞語邊界檢測的精確性問題。方向梯度直方圖(histogram of oriented gradients,HOG)特征結合運動邊界直方圖(motion boundary histograms,MBH)特征提取唇部時空特征也被廣泛應用于唇部視覺特征提取任務中[31]。
上述方法可以有效地表示唇部的特征信息,保留大部分唇部信息,但基于像素點的方法由于使用所有的像素點信息作為特征空間,易出現特征維數冗余問題,而且對外界環境和唇部自身變化非常敏感,特征提取能力受限,使最終識別精度不高。
基于形狀的方法是建立唇部輪廓模型,將構成模型的參數作為視覺特征。主要分為幾何特征和輪廓特征,幾何特征將唇部張開的高度、寬度和面積等作為視覺特征。一般采用自主選擇關鍵點構成參數模型,Li 等人[32]和Alizadeh 等人[33]分別采用上外唇、下外唇、上內唇、下內唇四條輪廓線和唇部的高度距離線、寬度距離線、上外唇曲線和下外唇曲線上具有明顯唇部運動的標志點作為關鍵點,但關鍵點所構成的參數模板復雜度較高,數據計算過程耗費大量時間。與之相似的是對Snake 模型改進,在唇部輪廓上選取6 個關鍵點,加入分割檢測策略和錯誤檢測恢復策略計算出5 個不同的幾何特征,用于表示唇部視覺特征[34],相比Snake 模型,該方法所獲取的視覺特征更為有效和穩定。
輪廓特征是采用唇部邊緣的一些關鍵點坐標構成的特征向量作為視覺特征。采用輪廓特征描述唇部視覺特征常用的兩類方法是Snake 模型[35]和主動形狀模型(active shape model,ASM)[36],但ASM 方法在嘈雜環境下會陷入局部最小值。這兩類方法適用于灰度圖像處理,往往不能滿足彩色圖像的處理需求,在彩色圖像的特征提取方法上,Chen 等人[37]利用Haar 特征定位口腔區域,將唇部區域變換到YCrCb顏色空間,再對唇部進行分割,并根據直方圖熵選擇閾值分割口腔,最后利用主動輪廓模型提取和跟蹤唇部輪廓。雖然該方法有很好的可控性,但由于所選取的關鍵點大部分位于唇部邊緣輪廓上,特征信息量的多少和識別精度的強弱易受其影響。
基于混合特征的方法是通過組合唇部的多種視覺特征來表示整個唇部的視覺特征。通過采用組合特征獲取唇部運動的低級信息和高級信息,從而提取更精確的特征。混合特征方法常用的是主動表現模型(active appearance model,AAM)[38],AAM 在ASM的基礎上將信息區域擴大,覆蓋圖像所有區域,結合形狀和灰度信息來描述圖像中目標的統計模型。Lan等人[13]將AAM 特征應用于唇語識別,結合像素和形狀特點描述視覺特征,他們認為幀間動態信息也應包含在內,在后端加入LDA,用于捕獲幀間動態信息[39]。非理想條件下,該方法所設計的唇語系統具有完備的理論性和簡單的操作性,適用于簡單詞匯的識別,但是該系統需要復雜的訓練模型,且對過長復雜的詞匯識別易出錯。真實環境中,說話者往往不是完全基于正面,因此需要從不同角度研究。在通常情況下采用最多的是三維主動表現模型(3D active appearance model,3D AAM)[40],其由傳統的二維主動表現模型(2D active appearance model,2D AAM)從3個不同視角(正面、左側輪廓、右側輪廓)構建而成,從面部圖像的3 個角度提取唇部視覺特征并進行識別,實驗表明在交叉唇語識別任務中,同等條件下3D AAM 性能優于2D AAM,但3D AAM 對于人工特征點標定的精確度要求較高,且標定過程比較繁瑣,需要多次迭代才能獲取到準確的特征參數,很容易導致局部優化問題。為避免這種繁瑣的標定過程和局部優化問題,Aleksic 等人[41]和Stillittano 等人[42]在唇部視覺特征提取過程中主要采用Snake 模型,采用PCA(principal component analysis)或唇部輪廓特征與Snake 相結合的方式,Snake 模型用來檢測唇部內外輪廓的關鍵點,這些關鍵點用來初始化一個唇部參數模型,然后根據亮度和色度梯度的組合,對初始化模型進行優化并鎖定最終的唇部輪廓,之后對圖像采用基于唇部邊界關鍵點跟蹤方法對唇部分割或者是獲取唇部的輪廓特征和灰度特征作為融合特征。基于混合的特征提取方法,雖然在一定程度上比以往特征提取方法效果好,但是始終不能從根本上解決特征提取有效性的問題。
綜上,三種傳統唇部視覺特征提取方法對比情況如表2 所示。通過對三種方法的描述和對比發現,基于像素點方法應用最多,其所有像素點作為原始特征,包含了較多的唇部視覺信息,但屬于高維特征,且對圖像光照變化、唇部變形和旋轉非常敏感;基于形狀的方法,自主選取關鍵點,屬于低維特征,不易受圖像旋轉和變換的影響,但需要使用復雜的模型;基于混合特征的方法,組合多種特征,更加關注圖像不同層次的不同信息,泛化能力更好,但對于自動提取特征仍是一個難題。

表2 (續)
深度學習因其具有海量數據處理能力、強大的自主學習能力和靈活性等特點[6],被廣泛應用于各個領域,并取得了顯著性的效果。在唇部視覺特征提取任務中,深度學習逐漸成為主流研究方法,基于深度學習的多模態唇語識別更是成為廣大研究者近年來主要的研究方向?;谏疃葘W習的視覺特征提取也有很多劃分策略,Zhou 等人[2]將視覺特征提取分為三類:基于說話者依賴、基于姿勢變換和基于時空信息。本文按照卷積核的維數將基于深度卷積神經網絡的唇部視覺特征提取進一步劃分為四類:基于二維卷積神經網絡的提取方法、基于三維卷積神經網絡的提取方法、基于三維卷積與二維卷積神經網絡結合的提取方法和基于其他神經網絡的提取方法。圖2 顯示了基于深度卷積神經網絡的特征提取方法。

Table 2 Comparison of three traditional extraction methods for lip visual features表2 三類傳統唇部視覺特征提取方法對比

Fig.2 Visual feature extraction structure based on CNN圖2 基于CNN 的視覺特征提取結構圖
基于2D CNN 的特征提取,是對每一幀圖像分別利用2D CNN 來進行特征提取。其唇部視覺特征提取結構如圖2(a)所示。針對傳統視覺特征提取方法不能自動提取的局限性,Noda 等人[54]首次采用CNN作為唇部視覺特征提取機制,在AlexNet 網絡模型的基礎上采用包含6 個卷積層(卷積+非線性激活+最大池化層)和1 個全連接層的7 層CNN。利用唇部區域圖像與音素標簽相結合的方式訓練CNN,并將CNN的輸出作為唇語識別的視覺特征,后端采用隱馬爾可夫模型和高斯混合觀測模型對下游任務建模,該方法打破了傳統視覺特征提取的局限性,但不能處理可變長序列。Garg 等人[55]對唇語模型進一步改進,采用VGGNet對可變長彩色圖像序列處理,彩色圖像序列拼接成一幅圖像作為視覺特征提取模型的輸入,后端采用長短時記憶網絡(long short-term memory,LSTM)用于提取時間信息。但由于LSTM 性能低于門控單元(gated recurrent unit,GRU),作者使用最近鄰插值的級聯圖像模型表現良好,對單詞和短語的驗證精度達到76%。該模型表現良好,但同時也面臨著兩個問題:如何獲取更多視覺特征和降低模型計算量。
Lee 等人[47]認為多視圖圖像能在一定程度上增加視覺特征信息,他們在Noda 的基礎上,采用多個視角圖像作為輸入,利用堆疊的卷積層提取多尺度視覺特征,后接LSTM 作為后續序列時間建模手段。與之不同,Noda 等人[56]考慮到單一模態有限信息的限制,他們在原有基礎上又添加音頻信號作為模型輸入,用于研究視覺語音識別中無標簽情況下音頻特征和視覺特征之間的相關性,分別采用深度自動編碼機制和CNN 提取音頻和視頻特征,后引入多流隱馬爾可夫模型將雙流特征信息融合。整個系統自適應地切換兩個通道的特征輸入,獲取可靠的特征信息,但是沒有實現雙流的權重自動選擇,難以用于實際應用。針對權重自動選擇問題,Zhou 等人[57]采用額外的模態注意力機制整合音視頻信息,對各模態上下文向量更為關注,通過調整注意力權重來自動選擇更為可靠的模態信息,從而減輕了噪聲的影響,實驗表明:相比單一模態識別,該方法相對改善率從2%提高到36%,充分證明了多模態識別任務性能優于單一模態識別任務。Saitoh 等人[58]則采用一種新的級聯幀圖像(cascaded frame image,CFI),將所有幀拼接成一幅圖像作為模型輸入,使用3 個不同的模型提取視覺特征:第一個是Network in Network 模型[59],Network in Network 是在AlexNet 網絡的基礎上加入多層感知機層(multi-layer perceptron,MLP)和全局平均池化層(global average pooling,GAP),通過使用4層MLP 和GAP 提取視覺特征,但使用全局平均池化層易造成信息丟失;第二個是使用包含5 個卷積層和3 個全連接層的AlexNet 網絡;第三個則是使用一個22 層的GoogLeNet 網絡。該方法在原有特征的基礎上又增加了整個圖像序列的時空信息。
為進一步降低2D CNN 和深度學習帶來的高計算量,Mesbah 等人[60]提出了一種基于Hahn 矩的CNN結構,通過小型體系結構提取和保留圖像中的有效信息,減少冗余,降低模型的計算量。
采用基于2D CNN 的唇部視覺特征提取方法,很好地解決了自動提取特征問題,所提取的視覺特征比傳統的維度壓縮方法更具表現力。但此類方法僅可以對單幀圖像處理,對連續幀圖像處理能力較弱,忽視了連續幀之間的時空相關性。
基于3D CNN 的特征提取方法則很好地處理了連續幀的時間維度問題,能同時提取連續幀的時間和空間信息。圖2(b)所示為基于3D CNN 的唇部視覺特征提取結構圖。LipNet[61]是第一個同時學習時空視覺特征和序列模型的端到端句子級唇語識別模型。該模型將T幀RGB 圖像序列作為輸入,送入由3層三維卷積層構成的時空卷積網絡中,每個時空卷積神經網絡后面都接有一個空間最大池化層,由該結構提取輸入幀的時空特征。后端網絡由兩層雙向門控單元(bi-gated recurrent unit,Bi-GRU)將提取的特征進一步聚合,最后連接主義時間分類(connectionist temporal classification,CTC)進行損失分析,但CTC 存在明顯的缺點:要求輸入序列必須大于輸出序列,其次由于條件獨立性假設的約束,導致類別間的遠近程度無法更好地體現。Fung 等人[62]在視覺前端采用了相同的結構,不同的是他們使用8 層3D 卷積作為視覺特征提取器,雖然獲得較好的效果,但是隨著網絡深度加深,梯度信息回流時易受到阻礙。對于CTC 和梯度信息回流的問題,Xu 等人[63]提出了LCANet視頻編碼器網絡,將輸入視頻送至疊加的3D CNN,該網絡通過3D CNN 對視覺短時信息進行編碼,利用在3D CNN 中增加的兩層Highway Network(后期殘差網絡的雛形),解決深層網絡中梯度信息回流問題。為了能從較長的上下文中清晰地捕獲信息,LCANet 將前端輸出的編碼信息輸入級聯注意網絡中,注意力機制在一定程度上弱化了條件獨立性假設對CTC 丟失的約束,提高了唇語模型的建模能力,同時也提高了下游識別任務的準確率。
唇語識別作為一項特殊的視頻理解任務,高效的視頻理解模型同樣可應用于唇語識別中。針對大規模圖像和視頻數據集的訓練,深度的三維卷積能提高分類精度,2019 年,Weng 等人[64]將視頻理解領域的I3D 雙流模型作為視覺前端,將灰度視頻幀和光流作為視覺前端模型的輸入,對兩個分支提取的視覺特征信息進行通道上的拼接,后接LSTM 對融合后的特征進行建模。實驗證明:在處理大規模數據集的條件下,將輸入光流作為輔助手段能獲取更多有效視覺信息,同時I3D 也有效地提高了后端識別任務的精度。為進一步提高識別精度,Wiriyathammabhum[65]采用動作識別的SpotFast 網絡作為視覺特征提取網絡,作者采用時間窗口作為慢路徑,所有的幀作為快速路徑。后端進一步使用結合記憶增強網絡的Transformers 學習序列特征分類,記憶增強網絡在不增加計算量的同時能有效提高神經網絡的容量,處理變長序列輸入。該網絡相比于I3D 網絡性能更優越。
3D CNN 雖然能夠解決連續幀時空相關性問題,但在一定程度上也丟失了二維卷積對細粒度特征信息的提取。而且隨著網絡層數的加深,存在參數計算量大和存儲開銷大的問題,對硬件設備性能要求較高。針對上述問題,基于2D CNN 與3D CNN 相結合的模型則同時解決了時空特征和局部細粒度特征提取的問題。
為了提取到連續幀的時空特征同時能解決3D CNN 所產生的問題,人們提出基于3D CNN 與2D CNN 相結合的方式,其示意圖如圖2(c)所示?;?D CNN 與3D CNN 相結合的方式有兩種:第一種將深層2D CNN 的第一層卷積修改為3D CNN,由3D CNN 捕捉連續幀之間的時空信息,后連接深層2D CNN 提取唇部圖像局部特征;第二種在使用深層2D CNN 之前首先采用淺層的3D CNN 對視頻幀進行預處理。對于第一種方式,Stafylakis 等人[66]和Feng 等人[67]將標準的ResNet 架構第一層卷積由2D CNN 修改為3D CNN,用于處理連續幀圖像序列,將提取到的特征映射接入時空池化層,降低三維特征映射空間大小。后接殘差網絡的剩余層提取局部細粒度特征。對于第二種方式,Afouras 等人[68]在2D CNN 前面添加一層時空3D CNN,然后使用ResNet網絡作為局部特征提取機制,并通過調節說話者的唇部運動或聲音將目標說話者從其他說話者和背景噪聲中分離,實現一種視聽語音增強網絡。但是這種方法還是帶來了大量的參數計算。為進一步降低參數計算量,Xu 等人[69]引入一個基于偽三維殘差卷積(pseudo-3D residual convolution,P3D)的視覺前端來提取視覺特征,將ResNet 網絡中的時間卷積全部由更適合時間任務的時間卷積(temporal convolutional network,TCN)代替,音頻由短時傅里葉變換(short time Fourier transform,STFT)采樣提取聲譜圖,后接語音增強模塊,將增強后的特征信息輸入多模態融合網絡。在保證能提取到有效唇部視覺特征和降低模型參數的同時,又進一步提高了下游分類識別任務的精度。同樣受卷積原理的啟發,Luo 等人[70]提出了一種基于偽卷積策略梯度(pseudo convolutional policy gradient,PCPG)的序列模型用于唇語任務。為在每個時間步考慮到更多上下文信息,作者在激勵和損失維度上進行偽卷積運算,該模型較以往其他唇語模型在準確率上有很大的提高。但是該方法采用單模態方法,因此獲取的信息有限,且對受到破壞的信息無法補充。Xiao 等人[71]認為使用變形流網絡(deformation flow network,DFN)從原始輸入的灰度圖像中獲取變形流同原始視頻幀作為模型輸入,能在一定程度上彌補缺失信息。整個網絡或分為原始視頻分支和變形流兩個分支,由3D CNN+2D CNN 和2D CNN 分別獲取兩個分支的有效唇部視覺信息,變形流網絡直接捕獲邊緣區域內的運動信息,相比于光流法,變形流網絡降低了計算復雜度,之后采用雙向知識提取損失來聯合訓練兩個分支,使得兩個流在訓練過程中相互學習。該方法不僅可以應用于唇語領域,同時還可以廣泛用于其他人臉分析任務。但該方法對相鄰幀之間的相關性未進行更多的關注,并且未對關鍵幀和無效幀之間進行有效區分。
為增強相鄰幀之間相關性同時加強對關鍵幀的識別,Zhao 等人[72]采用相同的視覺前端網絡,在局部特征層和全局序列層分別引入局部互信息最大化約束和全局互信息最大化約束,局部互信息約束每個時間步生成的特征,保持與語音內容之間的強關系,全局互信息約束注重區分和語音內容相關關鍵幀的識別,降低噪聲產生的影響。所提出的方法對于提高了唇語任務的識別準確率具有較好的魯棒性。但性能良好、泛化能力較強的唇語模型仍是研究者努力的方向。
基于2D CNN 與3D CNN 相結合的唇部視覺特征提取方法是近年來唇語研究的主流方法之一,該方法有效地解決了視覺特征提取效率低和下游任務識別準確率低等問題,但由3D CNN 對時空信息提取,后直接接入2D CNN 對局部細粒度信息提取,在一定程度上會影響特征編碼的時間信息。
近年來,端到端的訓練模式成為唇語識別領域研究最常用的訓練方式,而這些端到端結構并不是完全基于卷積神經網絡。自動編碼機制、前饋網絡、深度置信網絡也常被用于唇部視覺特征提取。自動編碼機制類似于傳統的PCA 方法,其通過神經網絡自動地將高維數據轉為低維編碼,后通過解碼機制恢復成原始信息。Petridis 等人[73]在自動編碼機制基礎上建立了基于句子級別的雙流端到端系統。采用原始圖像序列和光譜圖像作為模型輸入,兩個分支模型均使用3 個隱藏層和1 個線性層構成的編碼結構模型,分別提取不同的唇部視覺特征,為獲取更加有效的視覺特征,提高分類識別精度。他們采用相同的網絡結構,將光譜圖替換為圖像差分圖[74],輸入圖像由模型的瓶頸層將高維輸入圖像壓縮為低維表示,瓶頸架構的一階導數特征和二階導數特征附加到瓶頸層,以保證編碼層能夠學到更多有效特征。實驗表明,該方法能有效提高下游任務的分類識別精度。之后,在采用雙分支思想的基礎上,為研究多視圖唇語識別任務,其采用相同的網絡模型,同時將30°、45°、60°和90°的原始圖像分成兩個分支同正視圖圖像一同作為模型輸入[75],每個分支后接一個雙向長短時記憶網絡(bi-long short-term memory,Bi-LSTM)用于對每個流的特征時間動態進行建模。但由于對非正視圖進行唇部檢測時,檢測精度并不是完全準確,導致模型在分類識別精度上并沒有很大的提高。隨后,他們采用相同的網絡結構,將雙流改為單流模型[76],并在有音頻、噪聲音頻和無音頻三種模式下進行實驗,因唇部運動存在差異,在使用普通唇語模型對無音頻下的唇部運動進行訓練時表現較差。隨著海量數據的增加和模型層數的加深,唇語領域對模型性能要求越來越高,但上述使用自動編碼機制作為特征提取器,明顯的缺點是難以獲取深層次、多尺度信息。
前饋神經網絡采用簡單的全連接前饋層堆疊。Wand 等人[51]提出了一種由一個前饋網絡層和兩個LSTM 層構成的自動唇語識別模型。前饋網絡層將輸入的圖像序列傳遞給輸出單元,每層前饋網絡層后面接一個Dropout 層,由梯度下降法進行訓練,通過層間誤差反向傳播和權值調整,對字級水平的數據集分類。但該方法對已知說話人和未知說話人之間的差異未進行有效區分。為解決說話人之間的差異,作者又添加一層前饋網絡層,同時在第二個前饋網絡層前附加一個用于對原說話人和目標說話人進行逐幀分類的網絡,并采用域對抗來訓練,最終相當于兩類任務,一類是對說話人的分類,另一類是對單詞的分類[77]。但僅從單一模態(視頻幀)中挖掘出來的視覺信息是有限的而且還具有不確定性(受其他因素干擾),因此從多模態方向入手,作者又添加音頻作為輔助輸入[78],音頻和視頻分支采用相同結構,每一個分支中堆疊多層全連接前饋網絡層和Dropout層,以確保網絡能提取到更深層次的視覺特征。上述模型在句子級訓練上表現良好,但都沒有涉及到句子級序列預測,同時也未考慮到說話人獨立性問題,因此導致最終結果存在一定的不合理性。
深度置信網絡和前饋神經網絡一樣采用堆疊的方式,主要由多層受限玻爾茲曼機堆疊構成,對每一層逐層訓練,最后反向傳播對模型進行微調。Moon等人[79]提出了一個采用兩個獨立的音頻和視頻分支來分別獲取原始視頻中特征信息的模型。每個分支都由具有相同數量的中間層構成的深度置信網絡組成,通過學習每個神經網絡中間層之間的語義映射,根據傳輸的數據達到對網絡微調的目的。該網絡結構不需要建立額外共享模型,僅需要調整目標網絡的超參數實現目標網絡的修改。
表3 從方法大類、特征提取方法、主要技術描述、數據集、識別任務、識別率和適用模式7 個方面總結近年來基于深度學習的唇部視覺特征提取方法。

表3 (續)

表3 (續)
唇語識別經過數十年的發展,傳統方法和深度學習方法推動其迅猛發展,本文對唇語識別研究領域的視覺特征提取方法進行分析,并分別從數據集、視覺歧義、模型性能、多模態唇語識別和模態之間的相關性五方面介紹所面臨的挑戰與發展趨勢。
(1)唇語識別數據集。唇語數據集是推動唇語領域發展的基礎,如何建立更貼近真實自然環境、更規范且不限于特定任務的數據集是目前存在的主要問題之一。大多數數據集規模較小,且僅限于特定任務的識別,例如:數字、字母、單詞和句子等,并且數據集在構建過程中很少考慮到真實環境下的各種因素影響,缺少泛化能力較強的數據集,尤其針對中文研究的數據集比較短缺。因此,需要選擇來源可靠、正規數據資源,構建高質量且規模較大的唇語數據集來提高唇語模型的準確率。
(2)視覺歧義。在唇部運動過程中如何更好地反映說話人視覺信息的特征至今仍然是一個難題。由于說話過程中存在不同音素具有相似的口型,連續閱讀和弱音現象等導致最終的視位缺少,最終嚴重影響著唇語識別任務的準確率??紤]到這個問題,可以嘗試主要致力于研究不同音位到視位的映射、規范化音素,設計解決視覺歧義的算法,解決視覺歧義問題。
(3)模型性能。在唇語識別領域,模型設計方法由傳統的方法過渡到深度學習方法,其準確率有大幅度的提升,但其計算復雜度也隨之增加?,F階段的深度學習唇語模型大部分屬于大規模模型,不便于研究人員的優化,且需要處理海量唇語數據,過程十分耗時耗力。針對模型上存在的問題,研究人員應致力于設計輕量級唇語模型,以降低設備負擔。輕量級唇語模型也是接下來唇語研究領域的重點方向之一。

Table 3 Comparison of visual features extraction methods based on deep learning表3 基于深度學習的視覺特征提取方法對比
(4)多模態唇語識別。多模態是指采用兩個或以上模式信號作為模型輸入,其打破了單模態獲取信息有限、識別率低和穩定性差等局限。其優勢也是雙重的。首先,由于各模態之間信息通常是互補的,多模態處理的信息結果比單模態處理結果具有信息性;其次,由于單模態信息并不總是可靠的,當一種模式損壞時,有可能從其他模態中提取丟失的信息,從而形成一個更可靠的系統。例如:當音頻信號被噪聲破壞時,這種多模態方式尤為有效,但當音頻干凈時,這種方法也能對最終識別率帶來極大的提高。正是由于上述多模態的優點,該方法近年被廣泛應用于各個領域,但是在唇語領域應用較少。因此多模態唇語識別也是該領域的一個重要研究方向。
(5)模態之間的相關性。利用從一個模態中提取的信息彌補另一模態的缺失信息,以此來提高另一模態的識別能力,其關鍵是在噪聲水平變化的情況下,找到模態間的相關性,并且模型能自動選擇可靠模態?,F存方法中,對模態間相關性關注較少,因此如何找到模態間的相關性,自動選擇可靠模態以提高識別準確率也是該領域未來的一個研究方向。
本文對近年來唇語識別領域唇部視覺特征提取的研究成果進行了總結。首先介紹了唇部識別相關數據集,并對相關數據集進行簡單描述;然后將近年來唇語識別領域唇部視覺特征提取相關技術按照傳統方式和深度學習方式劃分為兩類,并對每一類主要應用技術進行敘述;最后對該領域存在的挑戰和發展趨勢進行了討論。