李小蘭,孫金瑞,冉長雙,肖玲敏,李洪進(jìn)
(遵義醫(yī)科大學(xué) 醫(yī)學(xué)信息工程學(xué)院,貴州 遵義 563000)
人的各種情緒是通過人臉面部肌肉的變化表現(xiàn)出來的。通過識(shí)別人的面部表情蘊(yùn)含著的豐富的情感信息,能夠得到人們溝通交流中所傳遞、表達(dá)的心理狀態(tài)、精神狀態(tài)、意圖等。心理學(xué)家 Ekman 與 Friesen 研究提出了人類的6 種基本情感的概念即為:驚訝、悲傷、恐懼、厭惡、憤怒以及高興。近幾年隨著人工智能的快速發(fā)展,表情識(shí)別已成為感知學(xué)習(xí)情緒最直接和最有效的方式,備受教育技術(shù)領(lǐng)域關(guān)注[1]。
對于教學(xué)質(zhì)量分析來說,學(xué)生的學(xué)習(xí)情緒是內(nèi)隱式學(xué)習(xí)特征,對于分析教學(xué)質(zhì)量來說是具有高度參考性的。一般的課堂教學(xué)分析僅僅是通過教師在課堂上觀察學(xué)生的學(xué)習(xí)行為、動(dòng)機(jī)、興趣來推斷學(xué)生的學(xué)習(xí)情緒,但課堂上的教師由于精力有限,在保證正常上課的情況下并不能很好地關(guān)注到每一位學(xué)生的狀態(tài)。如何在課堂上有效精準(zhǔn)識(shí)別學(xué)生學(xué)習(xí)過程中的情緒狀態(tài),一直是教育領(lǐng)域的研究分析的重點(diǎn)和難點(diǎn)。心理學(xué)家Mehrabian 通過研究發(fā)現(xiàn):情緒表達(dá)=7%的語言+38%的姿勢表情+55%的面部表情,所以面部表情包含豐富直觀情緒信息。通過對人臉表情識(shí)別來推斷學(xué)生的學(xué)習(xí)情緒,進(jìn)而分析教學(xué)質(zhì)量是一個(gè)直觀且有效的方法。
在人臉表情識(shí)別技術(shù)中最重要的三步驟的處理是:人臉正面圖像進(jìn)行圖像預(yù)處理,表情特征提取以及表情分類。通過這三步驟的處理,可以得到人臉圖像反映的表情基本信息。
圖像預(yù)處理就是在對人臉表情特征提取之前,排除掉圖像中與人臉無關(guān)的一切干擾圖像因素,使得在進(jìn)一步進(jìn)行人臉表情特征提取和表情分類時(shí)更高效。但傳統(tǒng)的人臉表情識(shí)別技術(shù)會(huì)將非正面的人臉圖像識(shí)別為干擾因素。比如,圖像中可能有動(dòng)物、植物以及其他物品的存在,直接影響到對人臉表情識(shí)別。因此,在圖像預(yù)處理中就有了人臉檢測、人臉對齊、歸一化等過程來去除干擾因素。通過人臉識(shí)別判斷是否存在異常,向指定郵箱發(fā)送圖片和時(shí)間數(shù)據(jù)[2]。圖像預(yù)處理的主要技術(shù)有:人臉檢測、人臉對齊、數(shù)據(jù)增強(qiáng)、人臉歸一化。
人臉表情特征提取是將預(yù)處理過的圖像從以像素來描述轉(zhuǎn)變?yōu)橐赃\(yùn)動(dòng)狀態(tài)、形狀特點(diǎn)等更高級別的描述?,F(xiàn)在主要應(yīng)用的人臉表情特征提取方法有:基于幾何特征、基于統(tǒng)計(jì)特征、基于頻率特征、基于運(yùn)動(dòng)特征的人臉表情特征提取方法[3]。人臉表情特征提取在人臉表情識(shí)別中極其重要,能否提取出有效的特征信息以及這些信息的正確率影響著整個(gè)人臉表情識(shí)別的準(zhǔn)確程度。
表情分類是將進(jìn)行了圖像預(yù)處理提取到的人臉表情特征,分到該表情所對應(yīng)的正確表情類別中去。這一任務(wù)可以使用相關(guān)算法來實(shí)現(xiàn),目前常用的人臉表情分類算法有:神經(jīng)網(wǎng)絡(luò)分類器、線性分類器、支持向量機(jī)SVM、隱馬爾可夫模型等人臉表情分類方法。但是這些算法都是以人工預(yù)先設(shè)定的特征作為表情分類依據(jù),算法能識(shí)別的特征數(shù)量直接影響表情分類的準(zhǔn)確性。這也說明通過人工設(shè)置表情特征來實(shí)現(xiàn)表情分類還存在許多不足。所以現(xiàn)在更加有效的表情分類的方法主要是機(jī)器深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),這是一種前饋神經(jīng)網(wǎng)絡(luò),其內(nèi)含多層非全鏈接的神經(jīng)網(wǎng)絡(luò),每一層都是由二維平面組成的。
卷積神經(jīng)網(wǎng)絡(luò)有兩種網(wǎng)絡(luò)結(jié)構(gòu):卷積層和池化層,兩者相互配合學(xué)習(xí)圖像特征達(dá)到分類目的。卷積層中核心是卷積算法:該算法指輸出圖像上的像素點(diǎn)是對輸入的圖像對應(yīng)位置小區(qū)域內(nèi)的像素加權(quán)得到的,該區(qū)域又稱局部感受野,得到的權(quán)值稱為卷積核。卷積層的形式如下。

池化層核心操作是將圖像分割成多個(gè)小區(qū)域,對各個(gè)區(qū)域分別計(jì)算出一個(gè)值,根據(jù)計(jì)算出來的值對圖像重新排序輸出,這樣的操作可以增加圖像特征提取的魯棒性。對于表情分類,卷積神經(jīng)網(wǎng)絡(luò)是先對輸入的圖像含有的數(shù)據(jù)作為樣本進(jìn)行自主學(xué)習(xí),這樣可以獲得人臉圖像中更多更細(xì)節(jié)的表情特征,為表情分類打下良好基礎(chǔ)。
以上所述的3 個(gè)人臉表情識(shí)別步驟主要是針對正面人臉表情識(shí)別,對于非正面的人臉表情識(shí)別具有很大的不準(zhǔn)確性,以及無法識(shí)別到人臉的情況。對于課堂上學(xué)生的具體情況來說,非正面的人臉表情會(huì)更多,所以非正面的人臉表情識(shí)別也在想要通過人臉表情識(shí)別來進(jìn)行教學(xué)質(zhì)量分析里更加重要。
非正面人臉表情識(shí)別中,不但要對非正面人臉圖像進(jìn)行檢測,還要對頭部姿態(tài)做檢測。所以相較正面人臉表情識(shí)別來說,非正面人臉表情識(shí)別流程會(huì)更多也更為復(fù)雜。
在非正面人臉表情識(shí)別中對圖像的人臉進(jìn)行檢測方法主要有3 種:局部特征標(biāo)記檢測方法,通過對去識(shí)別在人臉面部局部區(qū)域的標(biāo)記點(diǎn),來實(shí)現(xiàn)非正面人臉面部檢測;整體特征檢測方法,通過對同一個(gè)人不同姿態(tài)時(shí)的人臉表情圖像進(jìn)行檢測識(shí)別訓(xùn)練,構(gòu)建相應(yīng)的人臉檢測算子[4];深度特征檢測方法,該方法不再是對人臉表情圖像的表面特征進(jìn)行識(shí)別,而是使用人臉表情圖像的深層次信息。
在非正面人臉表情識(shí)別中,頭部姿態(tài)是用于確定圖像中人臉的位置,便于對圖像進(jìn)行處理?,F(xiàn)有的頭部姿態(tài)估計(jì)方法有:外觀模板法、非線性回歸法、幾何法、檢測陣列法等。效果最好的是采用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)模型估計(jì)的頭部姿態(tài)估計(jì),從現(xiàn)有實(shí)驗(yàn)結(jié)果來看,該方法無論是效果還是實(shí)時(shí)性都比較好。
非正面的人臉表情識(shí)別中表情特征提取和表情分類都可以使用基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),通過對圖像多層次的信息來自主學(xué)習(xí)提取、識(shí)別人臉表情特征。這種深度學(xué)習(xí)能夠得到圖像中更多細(xì)節(jié)信息,并且可以將學(xué)習(xí)過程中提取的人臉表情特征進(jìn)行融合,得到更為復(fù)雜也更準(zhǔn)確的表情特征,再將提取到的特征送入表情分類器作為分類依據(jù)對之后的人臉表情圖像進(jìn)行分類。針對這樣的深度學(xué)習(xí)過程,有許多非正面人臉圖像數(shù)據(jù)庫可以提供學(xué)習(xí)所用圖像。以下是一些非正面人臉圖像數(shù)據(jù)庫的相關(guān)信息。
從教學(xué)質(zhì)量分析角度來說,學(xué)生的學(xué)習(xí)情緒不再是驚訝(Surprise)、悲傷(Sadness)、恐懼(Fear)、厭惡(Disgust)、憤怒(Anger)以及高興(Happiness),這6 種基本感情。所以為了更好地實(shí)現(xiàn)學(xué)生學(xué)習(xí)情緒的識(shí)別,要將學(xué)生學(xué)習(xí)表情重新分類。
從教學(xué)督導(dǎo)、學(xué)生角度出發(fā),分析不同視角下教學(xué)質(zhì)量評價(jià)結(jié)果的一致性[5]。這些關(guān)于學(xué)生學(xué)習(xí)表情的新分類以及相關(guān)數(shù)據(jù)庫的建立,為針對教學(xué)質(zhì)量分析的學(xué)生人臉表情識(shí)別提供了很好的技術(shù)基礎(chǔ)。但是隨之而來的問題,無論是學(xué)生學(xué)習(xí)表情分類還是學(xué)生學(xué)習(xí)表情數(shù)據(jù)庫的建立都沒有統(tǒng)一標(biāo)準(zhǔn)。在這種情況下,同一個(gè)課堂的學(xué)生的人臉表情圖像,用不同分類方法帶來的教學(xué)質(zhì)量分析會(huì)有很多差異。所以,目前關(guān)于人臉表情識(shí)別的教學(xué)質(zhì)量分析發(fā)展趨勢和重點(diǎn)都應(yīng)該是建立一個(gè)統(tǒng)一的數(shù)據(jù)庫,該數(shù)據(jù)庫內(nèi)表情分類類別就一定是一致的,從而避免不同分類方法導(dǎo)致的結(jié)果差異。
人臉表情識(shí)別只是教學(xué)質(zhì)量分析的一個(gè)參考和評價(jià)方向。要準(zhǔn)確衡量教學(xué)質(zhì)量還應(yīng)該考慮抬頭率、學(xué)生學(xué)習(xí)參與度、學(xué)生學(xué)習(xí)表情、學(xué)生學(xué)習(xí)活躍度等眾多因素。
目前,所應(yīng)用到現(xiàn)實(shí)的教學(xué)質(zhì)量分析系統(tǒng),或多或少都還存在不足和片面之處。但隨著計(jì)算機(jī)網(wǎng)絡(luò)的高速發(fā)展,通過人臉表情識(shí)別、學(xué)習(xí)行為檢測、學(xué)生學(xué)習(xí)狀態(tài)分析等技術(shù)對教學(xué)質(zhì)量提供實(shí)時(shí)的分析、建議,以調(diào)整教學(xué)方案和措施進(jìn)一步提高教學(xué)質(zhì)量是未來教學(xué)領(lǐng)域發(fā)展趨勢。
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展在教育事業(yè)領(lǐng)域帶來了前所未有的新發(fā)展、新格局。人臉表情識(shí)別技術(shù)也是教育事業(yè)領(lǐng)域的新重點(diǎn),通過對人臉表情識(shí)別得到學(xué)生學(xué)習(xí)情緒等實(shí)時(shí)教學(xué)質(zhì)量數(shù)據(jù)。這對于教師和學(xué)校來說,是可以及時(shí)客觀得到的基于學(xué)生的教學(xué)質(zhì)量反饋,幫助其調(diào)整教學(xué)方案,以達(dá)到更好的教學(xué)評價(jià)。但目前相關(guān)技術(shù)在實(shí)際應(yīng)用中還存在一些缺失,在之后發(fā)展里,要更加重視實(shí)際課堂的復(fù)雜情況,更加重視實(shí)際應(yīng)用成效,便于更好地服務(wù)于教學(xué)質(zhì)量分析,更好地服務(wù)教育領(lǐng)域。