重慶師范大學(xué)計算機(jī)與信息科學(xué)學(xué)院 張領(lǐng) 朱原雨潤 王晶儀
針對自閉癥兒童鑒定在醫(yī)療方面沒有具體的診斷標(biāo)準(zhǔn)等問題,提出了一種基于人臉表情識別的自閉癥兒童輔助診斷模型。該模型以神經(jīng)網(wǎng)絡(luò)模型來提取表情特征,最終進(jìn)行表情分類。首先創(chuàng)建圖像采集模塊,通過系統(tǒng)采集兒童面部表情視頻序列,向網(wǎng)絡(luò)模型提供采集數(shù)據(jù)集;利用神經(jīng)網(wǎng)絡(luò)模型的表情分類,對相應(yīng)視頻幀進(jìn)行時間段數(shù)據(jù)檢測,并保存相應(yīng)表情強(qiáng)度數(shù)據(jù);最終,將正常兒童與自閉癥兒童表情強(qiáng)度數(shù)據(jù)細(xì)化對比。
面部表情是人體語言的一部分,是對心理情感的一種表露,是情感傳遞的重要方法。傳播學(xué)家Mehrabian[1]通過實(shí)驗(yàn)提出在情緒的表達(dá)中,面部表情所占比重高達(dá)55%,由此可見,人臉表情識別(Facial Expression Recognition,F(xiàn)ER)是非常具有現(xiàn)實(shí)價值的研究課題。1971年,由心理學(xué)家Ekman[2]和Friesen把基本表情劃分為6種,分別為高興、傷心、驚訝、恐懼、憤怒和厭惡。盡管不同人類之間有所差異,但這些表達(dá)情感的方式是人類共有的。
隨著深度學(xué)習(xí)的崛起,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)憑借自身強(qiáng)大的特征提取能力被廣泛應(yīng)用在計算機(jī)視覺領(lǐng)域,如圖像分類、目標(biāo)檢測等任務(wù)。人臉表情識別也屬于圖像分類任務(wù)的一種,因此許多經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,如LeNet[3]、VGG[4]、ResNet[5]等常被作為基礎(chǔ)網(wǎng)絡(luò)用在人臉表情識別任務(wù)上,并在此基礎(chǔ)上進(jìn)行改進(jìn)優(yōu)化,從而達(dá)到提升模型識別表情準(zhǔn)確率的目的。例如,文獻(xiàn)[6]通過深度學(xué)習(xí)網(wǎng)絡(luò)來提取特征,并用L2正則化和支持向量機(jī)結(jié)合的方式替代Softmax函數(shù),提升了模型在人臉表情識別上的準(zhǔn)確率。文獻(xiàn)[7]提出了一種新的學(xué)習(xí)方法,即類間關(guān)系學(xué)習(xí)(IcRL),通過提取獨(dú)立的表情特征來學(xué)習(xí)不同類別表情之間的相互關(guān)系,并擴(kuò)大類間距離與類內(nèi)距離之比。文獻(xiàn)[8]基于殘差網(wǎng)絡(luò)ResNet18,將過濾器響應(yīng)正則化(FRN)、批量正則化(BN)、實(shí)例正則化(IN)和組正則化(GN)進(jìn)行組合分別嵌入網(wǎng)絡(luò)之中,平衡和改善特征數(shù)據(jù)分布,提升模型性能。文獻(xiàn)[9]提出了一種新的深度位置保持卷積算法神經(jīng)網(wǎng)絡(luò)(DLP-CNN)方法,目的是增強(qiáng)保留局部性來提高深層特征的判別能力,同時最大化類間分散。文獻(xiàn)[10]提出了一種具有注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(ACNN),可以感知人臉的遮擋區(qū)域,并關(guān)注最具鑒別性的未遮擋區(qū)域,為了考慮不同關(guān)注區(qū)域,提出了基于局部的ACNN(PACNN)和基于全局人臉區(qū)域的ACNN(GACNN)。文獻(xiàn)[11]提出了一種新的深度嵌入方法,明確地設(shè)計來代表大量類內(nèi)變化的表情特征,同時學(xué)習(xí)有區(qū)別的表情特征,目的通過最小化樣本與其最近的子類中心之間的距離來形成局部緊致表示空間結(jié)構(gòu),最終提升模型性能。
由此可見,為了在自然場景下讓模型具有良好的魯棒性,必須讓模型具有提取復(fù)雜特征的能力(如表情局部變化細(xì)微的特征以及面部表情遮擋的區(qū)域),以及能夠提取反映表情變化的關(guān)鍵特征,抑制非表情特征。
模仿是社會學(xué)習(xí)的重要方式,理解和模仿他人行為是人類社會認(rèn)知極為重要的組成部分,自閉癥兒童在生命早期就表現(xiàn)出該方面的困難。自閉癥者對他人情感表達(dá)感知能力和反應(yīng)能力的障礙,導(dǎo)致社會交互方面表現(xiàn)出嚴(yán)重困難,說明其在與共情相關(guān)的加工中存在缺陷,如對情緒表達(dá)的快速而自發(fā)的模仿不足等。
自閉癥兒童不能表達(dá)自己的情緒或者不能合理表達(dá)自己的情緒,對其社會交往能力損害較大,情緒障礙主要表現(xiàn)在自閉癥兒童的情緒大多是短暫的應(yīng)激反應(yīng),不能轉(zhuǎn)化為持久的心境和情感;情緒大多由低級的生理功能引起,和心理感受無關(guān);情緒體驗(yàn)簡單,高級情緒出現(xiàn)很晚,而且淺表、短暫等。
自閉癥組兒童在觀看悲傷表情視頻時,前4s內(nèi)與正常組兒童并未表現(xiàn)出明顯差別,但當(dāng)刺激視頻消失后,自閉癥組的悲傷強(qiáng)度值開始顯著低于正常組,從變化趨勢圖來看,這是因?yàn)檎=M兒童仍然表現(xiàn)出對悲傷情緒的模仿,悲傷情緒值持續(xù)上升,而自閉癥組的悲傷情緒強(qiáng)度值則表現(xiàn)出下降趨勢。這提示正常組對于悲傷面部表情的模仿持續(xù)時間要高于自閉癥組,尤其是當(dāng)刺激情緒剛消失時,兩者差異顯著。這可能是因?yàn)樽蚤]癥兒童感受他人情感體驗(yàn)的能力不足,不能表達(dá)自己的情緒或者不能合理表達(dá)自己的情緒。他們主要通過觀察他人的面部表情而獲得即時感受,情緒大多是短暫的應(yīng)激反應(yīng),和心理感受無關(guān),不能轉(zhuǎn)化為持久的心境和情感。另外,自閉癥在表情理解方面存在障礙,在很難真正地去理解他人的悲傷,因而缺乏與別人建立相同情感的能力,無法將內(nèi)心得情感體驗(yàn)與外界世界建立聯(lián)系,所以當(dāng)刺激情緒消失后,自閉癥的相應(yīng)情緒立刻隨著減少,如圖1所示為整個系統(tǒng)流程圖。

圖1 整個流程設(shè)計圖Fig.1 The whole process design diagram
Record界面主要功能: 實(shí)驗(yàn)設(shè)計一個舒適的測試區(qū),既能讓孩子集中精力在屏幕上,又不會無聊到完全失去參與實(shí)驗(yàn)的意愿。為了監(jiān)督實(shí)驗(yàn),實(shí)踐專家和我們團(tuán)隊(duì)的一員在場,以確保篩選過程正確進(jìn)行。兒童面部數(shù)據(jù)主要來自于4~6歲兒童,主要分為正常兒童和自閉癥兒童兩類受訪者。每一類受訪者坐在電腦面前觀看同一段時間長度的實(shí)驗(yàn)視頻,采集該受訪者在觀看此視頻下的面部表情變化視頻數(shù)據(jù)。
如圖2所示,左上角黑色區(qū)域?qū)儆谝曨l播放區(qū),右上角區(qū)域錄制視頻顯示區(qū),下方空白區(qū)域則為檢測人臉是否出現(xiàn)在錄制視頻區(qū),如果沒有人臉出現(xiàn),系統(tǒng)及時打印出相關(guān)檢測數(shù)據(jù)報告,報告主要包含錄制時間,受訪者相關(guān)信息,以及打印出錄制當(dāng)中未檢測到人臉關(guān)鍵時間段,時長多少等關(guān)鍵信息。

圖2 視頻數(shù)據(jù)采集界面Fig.2 Video data collection interface
Datas界面主要功能:加載已被采集的受訪者面部表情視頻數(shù)據(jù),進(jìn)行面部表情識別,保存已被處理的視頻和生成相應(yīng)的每幀表情類別文字性數(shù)據(jù)報告。
如圖3所示,Open Video按鈕加載受訪者視頻,其中Faces,Eyes,Emotion按鈕分別是加載人臉檢測、眼睛視線估計、面部表情檢測三種已被訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型。點(diǎn)擊Run按鈕則是進(jìn)行受訪者面部表情檢測,默認(rèn)對每1幀圖像進(jìn)行表情識別,CheckBox勾選則是每4幀圖像進(jìn)行表情識別。左下角為原受訪者視頻播放區(qū)域,右邊則是已進(jìn)行表情識別后的視頻播放區(qū)域以及關(guān)鍵幀表情類別數(shù)據(jù)呈現(xiàn)。在點(diǎn)擊Run按鈕運(yùn)行之后,會自動保存已被處理過的視頻和文字性數(shù)據(jù)文檔,如圖4所示,例如01-emotion.mp4表示受訪者01號已經(jīng)經(jīng)過面部表情識別處理,01-emotion.docx表示受訪者01號時間序列關(guān)鍵幀表每種表情文檔。

圖3 視頻數(shù)據(jù)處理界面Fig.3 Video data processing interface

圖4 自閉癥兒童視頻處理生成數(shù)據(jù)Fig.4 Data generated by video processing for children with autism
Analyze界面主要功能:加載已被處理過的表情視頻數(shù)據(jù),分別加載正常兒童和自閉癥兒童視頻,處于同一環(huán)境下,對比雙方視頻中同一時間段面部表情反應(yīng)情況,將正常兒童與自閉癥兒童數(shù)據(jù)對比生成相對應(yīng)PDF文檔。
如圖5所示,video one區(qū)域加載正常兒童表情視頻(Data/正常兒童/01-emotion.mp4),并點(diǎn)擊load加載每一幀表情文檔(Data/正常兒童/01-emotion.docx)。video one區(qū)域加載自閉癥兒童表情視頻(Data/自閉癥兒童/01-emotion.mp4),并點(diǎn)擊load加載每一幀表情文檔(Data/自閉癥兒童/01-emotion.docx)。最后點(diǎn)擊Run按鈕,在右側(cè)空白區(qū)域生成相應(yīng)的表情對比文檔。

圖5 視頻數(shù)據(jù)分析界面Fig.5 Video data analysis interface
綜合來看,本研究主要得到如下結(jié)論:
(1)自閉癥兒童能自發(fā)表現(xiàn)出模仿,但在模仿進(jìn)程上表現(xiàn)出缺陷。
(2)自閉癥兒童觀看愉悅情緒視頻,引起的情緒變化與正常兒童無顯著差異,觀看悲傷情緒視頻時,當(dāng)視頻消失后,自閉癥兒童的悲傷情緒立即降低,而正常兒童的悲傷情緒反而表現(xiàn)出升高的趨勢。
(3)自閉癥兒童與正常兒童均未隨著悲傷情緒強(qiáng)度的改變表現(xiàn)出模仿方面的差異;愉悅情緒的強(qiáng)度越大,正常兒童越容易受到感染,而自閉癥兒童在不同強(qiáng)度的愉悅情緒下表現(xiàn)出的模仿差異不顯著。