羅予東 李振坤
1(嘉應學院計算機學院 廣東 梅州 514015) 2(廣東工業大學計算機學院 廣東 廣州 510006)
近紅外光(Near Infrared,NIR)[1]是介于可見光和中紅外光的電磁波,近紅外成像技術能夠在光照條件差的環境下拍攝目標的圖像,在安防監控、無人機以及虛擬現實等領域[2-3]具有廣闊的應用前景。在安防監控以及協助公安部門執法的過程中,可見光視頻數據目前依然處于主要的地位,而利用近紅外光能夠彌補弱光或黑暗環境下有效監控數據缺失的問題,因而跨模態的識別技術在安防監控領域具有極大的應用價值[4]。但由于可見光模態和近紅外模態之間的數據分布存在巨大的差異,近紅外模態的數據量也遠少于可見光模態,導致跨模態訓練過程極易發生過擬合[5]的問題。
許多研究人員對不同模態間數據分布差異大的問題進行了深入的研究,通常先利用SIFT或LBP等技術提取特征,再將不同模態的特征投影到一個公共空間內,由此縮小模態間的分布差異。文獻[6]通過Harris算法對SIFT特征點進行過濾,獲得圖像的興趣點,把選取的區域作為LBP特征提取的輸入圖像,通過兩種特征的混合處理提高系統的總體性能。文獻[7]使用紋理特征融合表示圖像的底層語義特征,使用感興趣區域的形態學描述表示圖像的高層語義信息,設計了新的相似性度量方法計算圖像兩個模態間的相似度,最后利用多核學習方法學習特征融合的權值。文獻[6-7]從不同方面融合了多個模態的特征,雖然性能比單模態特征有所提高,但是受限于特征描述子的表示能力[8],這類方法的性能[9]目前已經陷入了瓶頸。
隨著人工智能技術的發展,研究人員利用神經網絡強大的非線性學習能力提取更加豐富的特征集,再次促進了跨模態融合技術的發展[10-11]。其中運用神經網絡與多模態融合技術處理表情識別問題,獲得了顯著的提升效果。文獻[12]利用多模態深度神經網絡解決建筑固廢對象識別問題,把RGB圖像和深度圖送入神經網絡進行高維特征學習,再通過最小化能量函數來尋找目標識別的全局最優解。文獻[13]深入分析了多模態面部表情識別問題,通過多模態融合方法將手工定制特征和深度學習特征結合起來,結果顯示多模態特征融合的情感識別性能明顯好于單模態特征。雖然結合深度學習和多模態融合技術能夠明顯提升表情識別的準確率,但現有技術[14-15]大多將深度特征、直方圖特征及紋理特征等投影到同一個公共空間中,再實現特征的跨模態融合,這類方法擴大了特征空間,計算復雜度較高。
安防監控應用場景中存在兩個難題:① 可見光視頻數據占據主要部分,而近紅外光視頻數據占據較小的部分,屬于不平衡數據處理問題。采用上文的公共特征空間技術不僅增加了空間維度,而且會提高可見光目標識別的誤檢率[16]。② 基于直方圖的動態表情識別算法對環境變化和空間變形等因素具有較好的魯棒性,但特征的判別性較弱。為了解決第①個難題,設計了跨模態監督的深度神經網絡特征融合方法,將可見光視頻數據送入深度神經網絡進行訓練,利用近紅外光數據對訓練程序進行監督,達到遷移學習的目的。為了解決第②個難題,將判別能力強的卷積神經網絡特征與魯棒的直方圖特征結合,利用CNN提取目標空間特征,再將CNN特征表示為直方圖,同時利用直方圖和卷積神經網絡兩者的優勢,設計了新的表情識別算法。
一個智慧城市系統[16]的組成部分通常包括智能家居、智能交通、智能購物、智能醫療、無線網絡、云服務器等,圖1所示是一個簡化的智慧城市系統框架。物聯網及智能設備將采集的數據傳到邊緣計算模塊進行處理,然后邊緣計算模塊把結果發送至云服務器進行處理和決策,云服務器將決策結果發送至公安機關、企事業單位等機構,這些機構采取相應的措施。假設一個可疑人員進入視頻監控區域,攝像頭經過5G網絡將視頻發送至邊緣計算模塊進行預處理,邊緣計算模塊將數據發送至云服務器端,云服務器的虛擬機提取人臉的生物學特征,檢測該人員的危險程度,最終把結果告知公安機關。

圖1 智慧城市的簡單框架
圖2所示是監控系統微表情自動識別的流程框圖。首先,提取視頻幀的卷積特征,通過卷積特征對人體進行追蹤;然后,通過跨模態融合技術學習人臉特征;最終,通過CNN分類器識別人臉的表情。

圖2 監控系統微表情自動識別的流程框圖
設F為目標的特征向量,設H與W分別為向量高度與寬度,C為通道數量。基于CBoF(Bag of Features)模型[17]建立特征的視覺直方圖,CBoF把圖像特征描述符量化成視覺詞,最終生成視覺詞的直方圖。首先提取M個碼字的集合B,然后把特征集F的特征向量fij與B中的每個碼字bm比較,通過相似性度量生成H×W的隸屬向量G。采用歐氏距離計算相似性:

將所有計算的隸屬度向量聚集成一個直方圖表示q∈RM。直方圖q的數學式定義為:
圖3所示是提取CNN特征直方圖的流程。將原特征集的每個特征向量與碼字的每個特征向量比較,再計算新的隸屬度值,所有的隸屬度經過加權調和計算產生最終的直方圖表示。

圖3 提取CNN特征直方圖的流程
CBoF技術提取特征的性能較好,但其中歐氏距離的計算速度較慢,LBoF[18]模塊采用內積運算能夠提高計算效率,因此本文將CBoF和LBoF兩個模塊結合,提高神經網絡的訓練速度。LBoF的隸屬度計算式為:
式中:“·”表示內積運算,“|·|”表示取絕對值運算。通過式(2)將所有的隸屬度聚合成直方圖表示,再增加一個卷積層實現式(3)的運算,卷積層的激活函數為取絕對值函數,通過神經連接計算所有節點的加權調和值,該網絡結構能夠加快BoF的訓練速度。
在目標識別與跟蹤問題中,空間信息包含了重要的價值,但式(2)所產生的直方圖忽略了空間信息。為此設計了滑動窗口機制來提取多個直方圖表示,通過聚合多個隸屬度值來增加空間信息。設滑動窗口的大小為p×p,一個滑動步長為1,設多維直方圖的表示為Q,Q的每個元素為:
式中:k=1,2,…,Hq,l=1,2,…,Wq。在CNN中加入一個平均池化層實現多維直方圖的計算。
假設目標前景區域為T,采用式(4)計算出目標模型Q,Q的空間維度依賴于目標區域大小及CNN的下采樣率。圖4所示是本文多維直方圖提取的簡單示意圖,首先設置一個大面積的搜索區域S,然后將搜索區域S的每個直方圖與目標區域的直方圖比較。

(a) 目標直方圖
采用巴氏距離[19]比較直方圖:
式中:p和q為兩個直方圖。通過式(5)計算出目標區域的相似性圖S,對多維直方圖取平均值,將結果作為搜索區域的統一直方圖值,選擇其中相似性最高的空間位置作為目標在搜索區域內的定位。
利用近紅外光模態[4]提升可見光模態的微表情識別性能,通過遷移學習技術學習可見光域V和近紅外光域T的特征,再把V和T組合成統一的表示。假設學習映射函數G(V)=Rdv和H(T)=Rdt分別最大化特征集fv和ft的判別力,其中fv和dv分別為可見光域的特征向量和特征維度,ft和dt分別為近紅外光域的特征向量和特征維度。然后學習一個映射函數生成統一的表示fk=K(fv,ft),其中K(·)為映射函數。
上述多模態特征融合模型需要多個模態的數據,但在安防監控問題中,有時僅能獲得一個模態的數據,例如:夜晚僅能拍攝近紅外光的數據,無法拍攝可見光的數據。因此對多模態融合進行了修改,跨模態學習的目標是學習一個新的映射函數K(·),且K(·)依賴于T,函數K(·)的輸入為V,在訓練過程中學習T對K(·)的影響關系。
設計了編碼器-解碼器結構的深度神經網絡學習變換函數K,網絡的輸入是可見光圖像,在可見光域特征fk之后級聯一個解碼器來加入近紅外光域的監督數據T。跨模態監督學習能夠學習兩個模態間的相關性,增加一個神經網絡來識別面部的微表情。
每個微表情分別訓練一個網絡結構,假設第i個面部表情的判別網絡為AUi,那么可得pi=AUi(fk),pi表示第i個面部行為的出現概率。設Dec表示解碼網絡,經過跨模態監督學習獲得重建的近紅外光圖像T′=Dec(fk)。因為fk=K(V),所以面部行為識別的概率為pi=AUi(K(V)),分類損失和近紅外光圖像重建損失兩者在監督學習過程中存在沖突性,且分類損失的監督強度明顯大于跨模態的相關性。為了解決該問題,直接將判別網絡連接到解碼器的輸出,判別網絡預測的概率變為:
pi=AUi(T′)=AUi(D(K(V)))
(6)
式中:D()表示解碼函數。
將第i種微表情的二元交叉熵損失函數記為Li(AUi(
T′)),通過求偏導計算編碼器的梯度:
隨之可獲得以下的編碼器公式:
AUi(T′)=wi·z(T′)
(8)
式中:z(T′)表示T′的正則化特征表示,wi為類向量。直接通過梯度下降法計算類向量wi和特征z(T′)間距離的極值,如果T屬于第i個類,那么T與wi的距離必大于0,z(T′)與wi的距離也必大于0。假設T與T′存在以下關系:
T′=T+δ
(9)

式中:參數θK的更新梯度與近紅外光圖T成比例關系。如果重建的熱圖T′與T的差異較大,那么式(10)不成立,從而導致梯度快速消失。
根據式(10)的結論,網絡的訓練目標是最小化δ,即最小化近紅外光圖像的重建誤差,再結合近紅外光圖分類器對編碼器-解碼器網絡進行微調。模型僅訓練一次熱圖分類器,然后利用該分類器對編碼器-解碼器網絡進行監督訓練。訓練后的編碼器網絡K學習了可見光圖像和近紅外光圖之間的相關性,同時也學習了近紅外光圖的判別特征。
通常通過最小化重建圖T′和原圖T間像素的均方誤差MSE來優化近紅外光圖的重建,MSE的計算式為:

式(11)對所有的像素的重建誤差進行了平均化處理,每個像素對網絡模型參數的貢獻相等。如果重建誤差大的像素數量較少,網絡模型則可能過早發生收斂。因此,如下選出一部分誤差大的像素來引導訓練:
式中:N是用于計算重建損失的像素數量,函數rank(lp,L)計算了元素lp在向量L中的排名。γ()為指示函數,如果條件滿足,那么γ()=1,否則γ()=0。通過指定N個差異最大的像素來引導網絡模型的訓練,從而避免發生過早收斂,提高網絡模型的準確性。
訓練后的編碼器K提取可見光圖像的潛在表示fk,然后采用遷移學習的思想對編碼器的參數進行微調。假設目標數據集N不包含近紅外光圖,增加編碼器K和解碼器Dv,通過反向映射從近紅外光圖重建可見光圖像。圖5所示是編碼器、解碼器微調訓練的流程,根據可見光圖像的重建損失學習目標數據集N的潛在表示。

圖5 基于遷移學習的微調訓練流程
圖6所示是微表情識別的網絡結構,主要分為特征提取和特征增強兩個階段。首先訓練一個CNN分類器,同時采用近紅外光圖的人臉圖像訓練另一個CNN分類器。然后將近紅外光模態的信息遷移到可見光模態,在保持搜索空間的前提下提升可見光模態的特征性能。

圖6 跨模態監督表示學習的訓練流程
圖7所示是多模態特征融合系統的總體結構。

圖7 多模態特征融合系統的總體結構
設每個輸入模態為xi,對應的特征為:
vi=f(xi;θi)
(13)
式中:vi∈Rdi,f表示特征提取,θi為模態xi的相關參數。定義一個函數g(.;ε)將所有模態的特征轉化成公共表示l,l的數學式定義為:
l=g(v1,v2,…,vk;ε)
(14)


式中:j=1,2,…,M,σ表示sigmoid非線性變換。
然后為每個特征向量vi建立變換向量:


在MATLAB R2018b平臺上編程實現本文算法,實驗環境為一臺PC機,硬件配置為Intel(R) Core(TM) i5-8400處理器,2.80 GHz主頻,16 GB內存。操作系統為Windows 10。
實驗包括兩個部分,第1部分測試人臉追蹤的性能,第2部分測試微表情識別的性能。采用公開的目標追蹤數據集TempleColor128完成人臉追蹤的實驗。該數據集包含不同場景下共128組視頻序列,選出9組人臉追蹤數據集完成人臉追蹤實驗,即Trellis、FaceOcc1、David、Face_ce2、Girl、Iceskater、Micheal_ce、Skating_ce2、Sunshade,如圖8所示。該數據集共有光照變化(IV)、平面外旋轉(OPR)、尺度變化(SV)、目標遮擋(OCC)、變形(DEF)、運動模糊(MB)、低分辨率(LR)、離開視野(OOV)八個屬性,能夠全面地測試算法的魯棒性。

(a) Trellis (b) FaceOcc1 (c) David
然后采用公開的多模態微表情數據集(Multi-modal Spontaneous Emotion,MMSE)[20]完成微表情識別的實驗。該數據集由可見光視頻數據和近紅外光視頻數據組成,由140個人物對象在鏡頭前完成10個指定任務,每個視頻幀標注了49個面部標志點。篩選出100 000個可見光視頻和50 000個對應的近紅外光視頻,將可見光數據與近紅外光數據設為2∶1,測試算法在不平衡數據下的性能。數據集選出12個出現頻率最高的面部微表情,即輕松(relaxed)、驚訝(surprised)、悲傷(sad)、高興(happy)、痛苦(pain)、惡心(disgusted)、尷尬(embarrassed)、緊張(nervous)、害怕(scared)、生氣(angry)、沮喪(frustrated)、驚嚇(startled)。圖9(a)、(b)、(c)分別為可見光圖像的尷尬、高興、輕松三個表情的實例,圖9(d)、(e)、(f)分別為近紅外圖像的高興、驚訝、輕松三個表情的實例。

(a) 尷尬表情 (b) 高興表情(c) 輕松表情
4.2.1特征提取網絡的訓練
采用DenseNet-121[21]提取卷積網絡的特征,采用二值交叉熵計算網絡損失:
BCE(s,t)=-log(st)
(20)
式中:如果標記t為正(前景區域),那么st=s;如果標記t為負(背景區域),那么st=1-s。
圖10(a)、(b)和(c)分別是RGB圖、近紅外熱圖以及重建的近紅外熱圖實例。經過跨模態監督學習獲得重建的近紅外光圖像T′=Dec(fk),可看出重建過程存在明顯的損失,但是損失較小。

(a) RGB圖 (b) 近紅外熱圖 (c) 重建的熱圖圖10 近紅外熱圖重建實例
4.2.2跨模態監督網絡的訓練
如圖11所示,微表情識別也采用DenseNet-121的網絡結構,網絡深度為100,隨機初始化權重,DenseNet輸出層為12個神經元,每個單元對應一個微表情。輸入圖像大小統一縮放成150×150個像素,采用mini-batch隨機梯度下降法訓練網絡,學習率為0.01,計算每個微表情的二值交叉熵損失作為代價函數。考慮數據集不平衡的特點,為每個分類的損失值分配一個相應的權值。圖11所示是提取圖像特征的網絡結構,隨之采用2.3節、2.4節的方法微調神經網絡,然后基于2.5節的方法利用近紅外數據對神經網絡進行監督訓練。

圖11 DenseNet-121的網絡結構
4.3.1人臉追蹤實驗
為了綜合評價本文人臉追蹤算法ConHis的性能,選擇基于卷積神經網絡的目標追蹤算法MODCNN[22]、基于直方圖的人臉識別算法HDHOG[23]及基于卷積神經網絡和親和力度量的人臉識別算法CNNMTT[24]。MODCNN是一種采用CNN卷積特征的人臉識別算法,通過該算法觀察ConHis將卷積特征與直方圖特征相結合的思想是否有效。HDHOG是一種基于HOG(Histograms of Oriented Gradients)直方圖的目標追蹤算法,該算法采用有向梯度直方圖提取興趣點的特征,具有較好的魯棒性。CNNMTT是一種結合CNN網絡和分類器的目標追蹤算法,該算法通過二值分類器提取前景區域,再通過CNN提取前景區域的特征,由此提高卷積特征的魯棒性。
采用精度曲線和成功率曲線兩個指標評價目標追蹤的綜合性能,兩個指標需要計算中心位置誤差和總覆蓋率:中心位置誤差定義為目標位置與真實位置間的平均歐氏距離,覆蓋率定義為目標區域和真實區域的交集除以兩者的并集。精度曲線的閾值設為20個像素,成功率曲線的閾值設為0.4。
圖12所示分別為4個目標追蹤算法的精度曲線與成功率曲線,圖12(a)中ConHis的AUC(Area Under roc Curve)得分分別為0.684、0.633、0.542和0.557,圖12(b)中ConHis的AUC得分分別為0.488、0.417、0.387和0.393。本文的ConHis算法的精度和成功率均獲得了最佳的結果,優于另一個基于CNN的追蹤算法CNNMTT,由此證明將卷積神經網絡特征和直方圖特征結合,能夠增強目標追蹤的性能。

(a) 精度曲線
表1所示為4個目標追蹤算法對于8個屬性的平均精度值。ConHis算法在IV、OPR、SV、OCC、DEF、MB六個屬性上均獲得了最佳的精度值,但在低分辨率(LR)屬性上略低于MODCNN和HDHOG兩個方法,在低分辨率情況下卷積特征的判別效果下降,后期經過直方圖處理后導致判別性進一步下降,因此在低分辨率情況下,HonHis和CNNMTT的性能均差于基于單一特征的算法。此外ConHis在離開視野(OOV)屬性上也低于CNNMTT方法,CNNMTT在第一步利用二值分類器識別前景區域,因此能夠有效處理目標離開視野的情況。

表1 目標追蹤算法對于8個屬性的平均精度值
4.3.2微表情識別實驗
為了綜合評價本文微表情識別的性能,選擇基于深度神經網絡的微表情識別模型EAC-Net[25]、基于CNN和雙向長短期記憶網絡的微表情識別模型CNN&BLSTM-RNN[26],另外也采用可見光數據和近紅外光數據單獨訓練DenseNet-121模型,由此觀察本文多模態特征融合算法的效果。EAC-Net[25]通過E-net和C-net分別訓練不同模態的特征,最終將兩個模型的結果通過加權調和的方法進行融合。CNN&BLSTM-RNN[26]采用CNN提取視頻數據的特征,利用表情的連續性特點,通過BLISTM對下一幀的人臉位置進行預測,從而提升人臉識別的準確率。采用F1-score指數評價微表情識別的綜合性能,實驗采用5折交叉檢驗完成實驗并統計實驗結果。
圖13所示是微表情識別算法對12個微表情識別的F1-score值,表2是所有模型識別12種微表情的平均F1-score值。CNN&BLSTM-RNN是一種基于可見光視頻的微表情識別算法,其性能優于可見光DenseNet-121模型,可看出該模型通過BLISTM預測下一幀的人臉位置,有效地提升了微表情的識別性能。但CNN&BLSTM-RNN的性能差于EAC-Net模型,可看出通過融合多模態的特征能夠有效提升微表情的識別性能。本文算法則取得了最佳的識別結果,可看出本文跨模態監督訓練的方法優于多模態直接融合的方法,由此也佐證了本文的思想。

表2 微表情識別算法的F1-score平均值

(a) 第1組
為了滿足智慧城市建設過程中智能安防監控系統的需要,結合深度神經網絡技術提出了新的智能監控系統微表情識別算法。設計了跨模態監督的深度神經網絡特征融合方法,將可見光視頻數據送入深度神經網絡進行訓練,利用近紅外光數據對訓練程序進行監督,提高了對人臉微表情識別的性能。安防監控系統每時每刻拍攝新的視頻數據,因此需要不斷地重新訓練深度神經網絡,而訓練神經網絡需要極大的開銷。未來將關注于神經網絡增量訓練的研究,提高算法的實際應用價值。