999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人臉情緒識別研究綜述

2021-09-06 05:40:34宋佳蔡峰權顧天晴曾清源譚定英陳平平
現代計算機 2021年22期
關鍵詞:深度情緒特征

宋佳,蔡峰權,顧天晴,曾清源,譚定英,陳平平

(廣州中醫藥大學醫學信息工程學院,廣州510000)

0 引言

情緒影響著人類的感知、學習、交流、行為、判斷和決策等各種功能,并通過影響人類的行為舉止和面部表情來表達個體內心想法。情緒識別最主要涉及計算機科學、心理學領域,是典型的交叉學科研究方向,其又包括語音表情、姿勢表情和面部表情識別等。研究證明面部表情平均的識別準確率比語音表情高約15%[1]。關于情緒識別的深度學習網絡包含卷積神經網絡(Convolutional Neural Networks,CNN)、深度信念網絡、生成對抗網絡等。其中CNN模型已被研發者大量使用并將其優化獲得了更精準的識別率。本研究以CNN為基礎,闡述人臉情緒識別技術的階段性進展。

1 研究現狀

近年來,科研人員對CNN模型優化的內容主要有:①降低原始模型的復雜性,減少因大量訓練數據集產生的數據冗余;②基于增強圖像等技術豐富模型學習參數;③擴展模型功能如處理視頻序列、高分辨率圖像、非正臉圖像和預測行為表現等,旨在極大地提升模型效能的同時提高識別準確率。NASUHA A等人提出一種通過分離卷積層來減少數量參數的CNN情感分類模型,其對7種基本情緒進行分類的平均準確率達到了66%,其中對于快樂情緒的識別準確率更高[2]。SAID Y等人基于FS-CNN在高分辨率圖像中檢測人臉并預測人的情緒,其測試準確率約為95%[3]。MA H等人基于SE模塊與CNN相結合的信道注意機制,提出面部表情的識別網絡,通過學習關注面部表情的顯著區域來捕獲有害的固有特征,忽略冗余信息[4]。HAZOURLI A R等人用一種基于面部補丁聚合網絡的人臉情緒識別方法和一種基于兩種數據增強技術的框架來擴展人臉情緒識別標簽訓練數據集,減小了淺卷積神經網絡所需數據集,提高了識別準確率[5]。

關于情緒識別的方法有多種,如面部表情識別、手勢情緒識別、語音情緒識別、生理模式識別和多模態情緒識別等。相對于以往單一模式的識別方法,多模態情緒識別具有較高的準確性,其中如何實現不同模態信息的相互融合是多模態問題的關鍵。YU GP曾提出一種使用深度學習方法的多模態情感識別,以實現人臉、動作和上下文相的融合[6]。MA F等人設計了一個音頻網絡和視覺網絡,分別從視聽數據中提取特征表示,然后使用融合網絡將提取的特征結合起來進行情感預測[7]。

硬件設施的不斷迭代更新,為語音、動作、神經生理等信號的采集提供了良好技術支持的同時也推動了多模態情緒識別研究的研究進程。國內對多模態情緒識別的課題研究已經取得了一定成果。ZHANG X W等人從生理學和行為學的角度同時進行探索,將腦電信號與聲音信號融合,成果顯著[14]。FANGY C等人用一種多層次的融合方法結合視覺信息和生理信號來進行情感識別,實現了視覺和生理信息的特征級和決策級融合,驗證了該算法對多層次多模態特征的有效性[9]。WANG X H等人基于真實圖像,結合多任務學習和注意機制的優點,對人臉進行情緒估計,從任務和特征兩個方面對多任務注意網絡進行了改進[10]。

2 人臉表情數據集

2.1 FER2013數據集

FER2013數據集樣本來源于網絡的35887張48×48灰度圖,每張圖像被分類標記成生氣、厭惡、恐懼、開心、傷心、驚訝、中性等7種情緒圖像,部分表情圖片如圖1所示。FER2013數據集中的源數據圖像被轉換為.csv中的像素矩陣,這使得數據存儲和預處理更為方便,而非在原生圖像進行裁切。

圖1 FER2013數據集部分圖像

FER2013數據集使用頻率較高,諸多人與臉情緒識別相關的研究都使用到了該數據集,并得出了較高的準確率。SAURAV S等人提出使用新型CNN情感網絡模型的一種魯棒有效的自動識別野外面部情緒的方法,使用該方法在本數據集上的準確率達到了75.00%[11];SHI C P等人使用一種基于多分支交叉連通卷積的方法用于面部表情識別的神經網絡(MBCCCNN),其在FER2013數據集上的實驗結果準確率為71.52%[12];MOHAN K等人利用深度神經網絡進行識別的準確度為78.90%[13]。

2.2 CK+數據集

CK+數據集是在Cohn-Kanade-Dataset基礎上擴展形成的。該數據集包括來源于123個對象在實驗室條件下拍攝的593個圖像序列,部分表情圖片如圖2所示。這些圖像序列被分類標記為8個情緒類別。由于該數據集的原圖像樣本是以圖像序列方式存在的,其預處理操作相對于普通圖像數據集會較為繁瑣。但基于Cohn-Kanade-Dataset的流行度和易用性,諸多研究者會選擇使用CK+數據集來進行數據訓練。UMER S等人開發的面部表情識別系統,在使用完整的數據增強技術時,運行準確度最高的結果為97.69%[14];ANJANI SUPUTRI DEVI D等人提出基于深度學習回歸分類器的情緒識別方法,用一種利用新型DR分類器的高效人臉情緒識別系統進行識別,其在該數據集運行精度結果達98.85%[15];JEEN RETAN KUMAR R等人基于子帶選擇性多水平平穩雙正交小波變換統計參數的人臉特征提取,其實驗運行結果準確度也高達99.2%[16]。

圖2 CK+數據集部分圖像

2.3 JAFFE數據集

JAFFE數據集來源于10位女性的213張圖像。在實驗室環境條件下,每個人做出悲傷、快樂、憤怒、厭惡、驚訝、恐懼、中立7種表情如圖3所示。該數據集規模小卻種類相對較全,符合小型數據訓練的需求。

圖3 JAFFE數據集部分圖像

2.4 其他相關數據集

RAF數據集是由北京郵電大學的PRISLab發布和維護的,其發布時間約為2017年。該數據集搜集了來源于網絡的29672張人臉情緒相關圖片。這些圖片從情感分析的角度上來看,被分類成7類Basic表情和11類Compound表情,其表情種類豐富程度是本文舉例中最大的。

SFEW數據集來源于95個影視作品角色對象的1766個人臉靜態圖像樣本。雖然樣本數目少,但是由于來源于影視作品,其表現力可能會更強,相關的情緒特征也會更明顯,從而也更利于模型的訓練和學習。

SAVEE數據集由480段包含7種表情的短視頻組成,每段視頻時長為3-5s。其中,短視頻是由CVSS的3D視覺實驗室對4位薩里大學在校生和研究人員在不同時間段連續數月采集面部信息集合而成的。由于其短視頻的特殊形式,常被用于動態情緒識別研究。DO L N等人以視頻信息作為輸入,建立了將CNN視覺數據與情感識別相融合的模型,該模型在其數據集上運行的精度可以達到84.37%[17]。

2.5 小結

基于不同數據集參數屬性以及各引用文獻使用同模型不同數據集下運行的表現,可繪制出表1和表2。對各項指標對比分析可以初步發現CK+數據集在各研究中的綜合表現較為優異。

表1 各數據集屬性參數

表2 數據集的精度度

3 識別方法

3.1 傳統方法

傳統的人臉情緒識別方法包括原始圖像輸入、數據預處理、“特征工程”和表情分類四個基本流程(圖4),其中“特征工程”是傳統方法中最重要的步驟,它需要結合相應研究問題,人為地進行特征提取,再喂入分類器進行學習。

圖4 傳統方法流程圖

在現階段的研究中,人臉情緒識別輸入的表情原始圖像主要為2D和3D圖片。由于現實生活中圖像采集的困難性,數據輸入大多為實驗室采集的人臉圖像,以降低下一步對數據進行預處理的難度。當表情原始圖像輸入后,首先對其進行數據預處理,即通過人臉檢測、定位算法獲取臉部圖像,并對灰度值進行歸一化。然后通過“特征工程”去除非表情噪聲,提取表情特征后將其喂入分類器。最后分類器將表情原始圖像劃分歸類為某種基本表情。

3.2 深度學習

基于深度學習的識別流程(圖5)類似于傳統方法。但是在深度學習中,有關特征提取的工作不需要人為干預,由網絡模型自動完成。傳統方法與深度學習的區別就在于是否有“特征工程”。“特征工程”是傳統方法最重要的環節,它需要結合實際問題、人為地進行特征提取,再喂入分類器進行學習,其中特征提取的結果的優劣與分類性能的高低有著密切關系,深度學習則略去了這一環節。深度學習對數據量需求大,若參與訓練的數據量過少,則可能出現因過擬合而導致泛化性能差的問題。因此需要用“平移、切割、旋轉、加噪”等方式進行數據增強。

圖5 深度學習流程圖

3.3 深度神經網絡模型

CNN模型結構如圖6所示,其由卷積層、池化層和全連接層組成,損失函數使用交叉熵。輸入的圖像先通過卷積層卷積并產生特定類型的激活特征映射;再通過池化層減小特征映射的空間大小和網絡的計算量;最后通過網絡末端的全連接層使得兩維特征映射能夠轉換為一維特征映射,以便進一步的特征表示和分類。但是由于CNNDE輸入樣本是2D靜態圖片,所以其不能處理視頻對象,而CNN-LSTM模型恰巧可以彌補這一點。ZHANG H P等人將基于2D圖像的雙通道加權混合網絡深度卷積神經網絡,與基于3D圖像序列的雙通道加權混合網絡的深度CNN-LSTM相結合,利用2D圖像特征來獲取序列時間特征[18]。

圖6 CNN模型結構

CNN-LSTM模型能夠對動態表情進行分類。其模型結構如圖7所示,先使用CNN對每一幀2D圖片進行空間特征提取后,再由LSTM進行時間特征提取。ConvLSTM將卷積運算集成到LSTM模塊當中,而實現了一個LSTM(具有卷積運算)即可完成情緒視頻的分類。CNN通常都被理解為2D-CNN,而C3D算法其實就是3D-CNN。將表情視頻看作是一個3D圖片,使用3D卷積層和3D池化層進行分類,其結構如圖8所示。

圖7 CNN-LSTM模型結構

圖8 3D-CNN模型結構

3.4 CNN優化模型

單一的CNN模型自身存在著不能處理視頻對象等缺點,這使得大量的研究人員將各種方法與CNN相互配合使用,以達到研究需求。本研究總結了近期典型的CNN優化模型的實驗結果,做出如表3所示的對比分析。

表3 CNN優化模型試驗數據

續表

4 發展與挑戰

4.1 應用場景

目前,人臉情緒識別技術已被研究應用于現實生活,以期提高居民的生命質量。在課堂教學方面,實時檢測系統可以反映學生的參與程度,評價學生學習效果并幫助教師調整教學方法[20];在自動駕駛領域,OH G等人用一種基于深度學習的駕駛員真實情感識別器(DRER)來識別駕駛員的真實情感[21],增強人機公駕模式的安全性;在移動應用平臺上,各應用軟件借助人臉情緒識別相關技術實現應用功能,如FRANZEN M等人開發的適用于無法正確識別情緒的自閉癥患者的視頻會議識別軟件[22],WANG P等人還設計出了高性能的移動情感識別應用程序開發者的微服務平臺[23];在醫療領域,LIU H等人建立了基于深度神經網絡的WBS診斷自動人臉識別模型,采用5種交叉驗證方法對分類性能進行評價,并與人工專家評價結果進行比較,驗證了在臨床實踐中可以使用進行深度學習神經系統網絡診斷WBS的可能性[24];在人機交互領域,MARTíNEZ A等設計了一種無人駕駛的社交機器人來監控家里的家屬,以檢測家屬狀態并帶來必要的幫助[25]。

多年后,人臉情緒識別技術可能真正應用于家政、接待服務領域[26],例如根據主人的情感自動調整室內顏色和音樂;在公安領域,將人臉情感識別系統加入到監控系統中,提高了監控效率,降低了人力消耗;在醫療領域協助醫生診斷,幫助心理疾病患者和自閉癥患者治療。雖然目前還未發現人類情緒與其主觀行為有直接可靠的關系,但是隨著科研人員的不斷探索,人工智能時代終會來臨。

4.2 識別方法的局限性

(1)根本原理存疑。面部表情和內在情緒之間的關系是不可靠的、不特定的、不能普遍化的。對于在不同文化下成長長期居住生活的人群,其在外界不同因素的刺激下,面部表情變化不近相同,對于在相同文化下不同年齡的人群,亦是如此。而這其中并沒有包括性別、職業和健康狀況等相關因素,相關研究已經證明了以上因素與情緒的關聯[27]。人臉表情與情緒兩者之間的關系錯綜復雜,并非簡單的依靠某種算法就能夠表示驗算。

(2)數據集缺乏。目前公開的經典人臉表情數據集主要有FER2013、CK+和RAF-DB,其數據來源主要集中于網絡人臉數據和實驗室拍攝數據。具有某一特征的人群數據集極其匱乏,例如基于年齡特征的嬰幼兒表情數據集,基于職業特征的醫生表情數據集或基于自閉癥患者的表情數據集等。由于深度學習數據驅動的特性,如何能建立相對全面的數據集,直接影響實驗結果的準確性。對于不同適應性的課題,就需要去針對性地做大量的數據采集工作。

(3)識別準確度難以保證。在自然環境條件下獲取的人臉表情圖像存在著圖像質量低的問題,因此需要依靠人工處理標注圖像。情感本身存在著較強的主觀性,表情也存在著較大的不確定性,在人工處理圖像時又受到標注者的主觀影響,這導致人的主觀性對于圖像預處理過程影響較大的問題難以解決。同時自動面部表情分析也存在識別精度低、魯棒性差的致命問題。傳統的CNN模型在捕捉遠距離像素之間的依賴關系時效率較低,導致識別性能較差。同時也存在過擬合或信息不完整、數據不足的問題。雖然研究人員對此做出了多種嘗試,但僅僅是把不利影響降低而已,對于處理微小運動的視頻,以及較少視頻或圖片的數據集使用的人臉情緒識別方法仍然是一個巨大挑戰。

(4)場景限制。人臉情緒識別方法因使用場景的不同具有一定差異性。對于不同場景的特殊需求,需要設計相應的算法和模型,來排除噪聲對識別準確率的干擾。例如,在人群較多的公共場合,需要排除多余的干擾面部表情;在光照強度不確定遮擋物較多的野外場景,需要自適應調節圖像不同條件下的參數,并排除遮擋物的影響。COVID-19大流行病促進了世界各地面罩的廣泛使用,2020年中期,口罩已經成為許多公民日常生活中的一個普遍特征。口罩會干擾對攜帶者情緒狀態的識別同時使情緒表現更難解釋,面罩也可能會損害面部模仿和行為同步。人臉面部情緒識別技術應迅速適應外部外境變化,做出相應優化與改進,才能不被時代所拋棄。

4.3 倫理挑戰

相對于真正的人工智能而言,雖然人類僅僅是處于研究“機器智能”階段,但是目前已有的微小成果已經開始影響人類的生活并且這種影響力還在逐步擴大。在這個萬物互聯的時代,人類的個人隱私越來越難以保護。從人類固有特性的角度來看,居民的自我情緒在被動條件下是抗拒被發覺、分析甚至窺視的,而這種“被窺視”的判定完全取決于個人。此前,中國藥科大學對一個人臉識別系統進行了前期實景測試。此系統能夠對學生進行精準考勤,并對其聽課全程進行監控并分析,學生的聽課狀態暴露無遺[28]。社會對這一行為究竟是“管理”還是“監控”進行了激烈爭論。

美國紐約大學今日人工智能研究中心指出,在影響人們日常生活和爭取發展機會獲得機遇時,監管者應該禁止使用情緒識別,例如決定誰有機會得到面試機會或者獲得工作機會,保險的價格,病患痛苦的評估以及學生在學校的表現[29]。SMITH M等人描述了生物特征面部識別在公共安全方面的不斷擴大的用途,基于其對個人生命權,法律和秩序的影響,提出了國家政府監管機制的解決辦法[30]。

對于人臉情緒識別技術的應用,國內外都存在著諸多擔憂和爭議。這也在提示研發人員,任何一項技術的研究與應用,不能脫離甚至打破不同文化下的倫理和思維方式。“人工智能”是以“人”為前提,在能確保維護“人”的權利基礎之上研發“工”的機制。

5 結語

本研究從人臉情緒識別技術的研究發展背景、數據集、識別方法、發展與挑戰四個方面做了深刻分析與總結。首先,對人臉情緒識別技術的研發背景做了實時總結更新,發現將人臉表情與其他生理特征相結合的多模態多任務情緒識別方法正在被大量的研究應用,其識別率也更為精準。接著,對比分析了當前流行各人臉表情數據集的不同參數值和在不同識別方法下的表現以及傳統方法與深度學習的異同點,對近期基于CNN優化模型做出評估。初步對準確度這一指標進行縱向分析,發現各模型在CK+數據集上運行的識別準確率較為優異。最后,對人臉情緒識別技術未來深入研究方向以及應用在家政、接待服務、公安和醫療領域的場景做出初步設想,提出現有優化技術的局限性,以及現階段投入研究使用遇到的“人權”倫理問題。

猜你喜歡
深度情緒特征
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
小情緒
小情緒
小情緒
抓住特征巧觀察
主站蜘蛛池模板: 亚洲成人77777| 国产精品林美惠子在线播放| 国产女人18水真多毛片18精品| 国产成熟女人性满足视频| 日本精品视频一区二区| 久久综合色天堂av| AⅤ色综合久久天堂AV色综合| 亚洲欧洲自拍拍偷午夜色| 澳门av无码| 青青青伊人色综合久久| 草逼视频国产| 91在线激情在线观看| 在线精品亚洲一区二区古装| 亚洲无码四虎黄色网站| 国产乱子伦视频三区| 亚洲a免费| 欧美在线精品怡红院| 99这里只有精品6| 又黄又爽视频好爽视频| 精品人妻一区二区三区蜜桃AⅤ| 91久久夜色精品国产网站| 欧美国产在线看| 欧美成人精品在线| 久久久久久高潮白浆| 免费无码在线观看| 思思热精品在线8| 在线综合亚洲欧美网站| 波多野结衣在线一区二区| 色亚洲激情综合精品无码视频 | 日韩乱码免费一区二区三区| 黄色网页在线播放| 国产小视频在线高清播放| 亚洲男人的天堂网| 亚洲91精品视频| 久久综合色天堂av| 成人福利在线免费观看| 国产精品3p视频| 乱色熟女综合一区二区| 99在线观看精品视频| 国产欧美性爱网| 女人18毛片久久| 高清免费毛片| 色香蕉网站| 99久久精品国产精品亚洲| 女同国产精品一区二区| 99久视频| av在线无码浏览| 国产日本一线在线观看免费| 亚洲第一黄片大全| 国产精品视频999| 亚洲人在线| 91综合色区亚洲熟妇p| 亚洲精品在线观看91| 2019年国产精品自拍不卡| 99成人在线观看| 久久精品中文字幕免费| 国产在线观看第二页| 综合色亚洲| 在线日韩一区二区| 欧美日韩国产系列在线观看| 综合色区亚洲熟妇在线| 亚洲综合香蕉| 亚洲男人的天堂久久精品| 国产美女主播一级成人毛片| 免费人成视频在线观看网站| 无码福利日韩神码福利片| 亚洲欧美成人综合| 精品久久综合1区2区3区激情| 亚洲欧洲天堂色AV| 亚洲无码不卡网| 99视频国产精品| 成人在线综合| 色窝窝免费一区二区三区| 欧美色综合网站| 国产SUV精品一区二区| 中文纯内无码H| 国产三区二区| 看国产毛片| 亚洲无码免费黄色网址| 麻豆国产精品视频| 亚洲AV人人澡人人双人| 亚洲品质国产精品无码|