999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

心理學(xué)視角下的自動(dòng)表情識(shí)別

2022-10-10 06:04:46顏文靖蔣柯傅小蘭
智能系統(tǒng)學(xué)報(bào) 2022年5期
關(guān)鍵詞:情緒數(shù)據(jù)庫

顏文靖,蔣柯,傅小蘭

(1.溫州醫(yī)科大學(xué) 精神醫(yī)學(xué)學(xué)院 浙江省阿爾茨海默病研究重點(diǎn)實(shí)驗(yàn)室, 浙江 溫州 325015; 2.中國科學(xué)院心理研究所 腦與認(rèn)知科學(xué)國家重點(diǎn)實(shí)驗(yàn)室, 北京 100101; 3.中國科學(xué)院大學(xué) 心理學(xué)系, 北京 100049)

如果機(jī)器能夠像人類一樣,通過識(shí)別表情來了解他人的情緒狀態(tài),會(huì)是件多么美妙的事情。為實(shí)現(xiàn)這個(gè)美好的愿望,幾十年來心理學(xué)與計(jì)算機(jī)科學(xué)等領(lǐng)域的研究者付出了巨大的努力,構(gòu)建理論、采集數(shù)據(jù)和研發(fā)算法,推動(dòng)自動(dòng)表情識(shí)別研究不斷取得新進(jìn)展。心理學(xué)在為自動(dòng)表情識(shí)別提供思路和啟發(fā)的同時(shí),其情緒心理學(xué)分支也得以蓬勃發(fā)展,并影響著自動(dòng)表情識(shí)別的未來發(fā)展方向。我們前期圍繞情緒的相關(guān)問題(尤其是微表情),在心理學(xué)和計(jì)算機(jī)科學(xué)等學(xué)科交叉領(lǐng)域開展工作,考察了情緒與表情的關(guān)系、微表情的行為特點(diǎn),構(gòu)建了3個(gè)微表情數(shù)據(jù)庫和一個(gè)偽裝表情數(shù)據(jù)庫,研發(fā)微表情和偽裝表情自動(dòng)識(shí)別與檢測(cè)算法等。

雖然自動(dòng)表情識(shí)別已經(jīng)取得了重大進(jìn)展,但是依然存在著一些問題,導(dǎo)致實(shí)際應(yīng)用中存在困難。我們?cè)谘芯窟^程中也產(chǎn)生了有關(guān)情緒的面部表達(dá)及數(shù)據(jù)標(biāo)注等方面的困惑,并進(jìn)行了反思。本文基于心理學(xué)視角,首先系統(tǒng)地梳理自動(dòng)表情識(shí)別的心理學(xué)基礎(chǔ)、情緒的面部表達(dá)方式、表情數(shù)據(jù)的演化、表情樣本的標(biāo)注方法等方面的理論觀點(diǎn)與實(shí)踐進(jìn)展,然后分析指出自動(dòng)表情識(shí)別面臨的主要問題,最后基于心理學(xué)的建構(gòu)論,提出在人際交互過程中進(jìn)行表情“理解”有望進(jìn)一步提高自動(dòng)表情識(shí)別的有效性,并預(yù)期這可能是自動(dòng)表情識(shí)別研究的未來發(fā)展方向。本文是一篇從心理學(xué)視角下思考自動(dòng)表情識(shí)別的理論性文章,而非綜述性或?qū)嵶C性文章。主要梳理表情識(shí)別的心理學(xué)基礎(chǔ)、情緒的面部表達(dá)方式、表情數(shù)據(jù)的演化、表情樣本的標(biāo)注等方面的理論觀點(diǎn)與實(shí)踐進(jìn)展,對(duì)計(jì)算機(jī)識(shí)別出的“情緒”進(jìn)行心理學(xué)視角的思考。

1 表情識(shí)別的心理學(xué)基礎(chǔ)

情緒心理學(xué)中兩大流派——基本情緒理論(basic e-motion theory)和維度論(dimension approach) 幾乎是所有自動(dòng)表情識(shí)別的心理學(xué)基礎(chǔ)。其中基本情緒理論處于主流地位,因?yàn)樗星逦睦碚摽蚣埽Y(jié)構(gòu)化的系統(tǒng),且與人們的常識(shí)體驗(yàn)相吻合。

1.1 基本情緒理論

早在1872年,達(dá)爾文在《人類與動(dòng)物的表情》一書中對(duì)表情進(jìn)行了分類[1]。20世紀(jì)60至70年代,Ekman[2-3]總結(jié)了基本情緒具有的11個(gè)特點(diǎn),包括特定的普遍性信號(hào)(distinctive universal signal)、靈長類動(dòng)物共有 (present in other primates)、特定的生理反應(yīng) (distinctive physiological response)、特定的普遍誘發(fā)事件 (distinctive universals in antecedent events)、一致的情緒性反應(yīng)(coherence among emotional response)、特定的主觀感受(distinctive subjective feeling)等。Ekman等認(rèn)為,人類擁有幾類基本情緒,諸如高興、悲傷、厭惡、憤怒、驚訝、恐懼等;這幾類基本情緒是離散的、相互獨(dú)立的;每類情緒都有其特定的主觀體驗(yàn)、生理反應(yīng)與行為表現(xiàn)[2](見圖1);基本情緒能夠被全人類識(shí)別。以這些觀點(diǎn)為核心的理論被稱為基本情緒理論。自動(dòng)表情識(shí)別領(lǐng)域中的工作大多數(shù)是根據(jù)基本情緒理論進(jìn)行情緒分類的[4]。

圖1 基本情緒對(duì)應(yīng)的原型表情示例(模特為本文第一作者)Fig.1 An example of the prototypical facial expressions corresponding to the basic emotion theory (the model is the first author of this paper)

基本情緒理論認(rèn)為每種情緒都是一個(gè)整體。例如,高興意味著我們內(nèi)心有愉悅的體驗(yàn),身體上有心跳加速等生理活動(dòng),并可能還有對(duì)應(yīng)的外顯動(dòng)作,如手舞足蹈、眉飛色舞等。這是一個(gè)封裝好的系統(tǒng),一旦觸動(dòng)某種情緒則會(huì)引發(fā)一系列完整、特定的反應(yīng)[3,5]。基本情緒理論順應(yīng)了人類認(rèn)識(shí)活動(dòng)的一般趨勢(shì):對(duì)紛繁復(fù)雜的事物進(jìn)行分析,形成清晰的、結(jié)構(gòu)化的知識(shí)體系。使用這些簡潔的類別標(biāo)簽,我們可以把復(fù)雜的情緒過程與性格特征歸屬為簡單的類別,這不僅與多數(shù)人的生活體驗(yàn)相契合,也便于人們理解這些心理現(xiàn)象并進(jìn)行溝通交流,同時(shí)也為機(jī)器自動(dòng)表情識(shí)別提供了一個(gè)結(jié)構(gòu)化的理論框架。

根據(jù)基本情緒理論,不同的情緒類型是離散的,相互獨(dú)立的,有特定的誘發(fā)原因、主觀體驗(yàn)、生理喚醒和行為反應(yīng),那么主觀的情緒體驗(yàn)一定會(huì)反映在生理與行為上,即個(gè)體會(huì)表達(dá)出可觀測(cè)的信號(hào)以區(qū)分內(nèi)在的情緒體驗(yàn),內(nèi)在情緒體驗(yàn)與外在信號(hào)的關(guān)系是有效的(valid)、特異的(specific)和普遍的(generalized)。所以,通過提取面部動(dòng)作[6]、肢體動(dòng)作[7]、語言內(nèi)容[8]、音頻信號(hào)[9]、外周生理變化(如心率、血壓、皮膚電)[10],和中樞神經(jīng)變化(如腦電波、血氧消耗)[11]等特征,研究者就可以推測(cè)個(gè)體內(nèi)在的主觀情緒體驗(yàn)。

1.2 情緒的維度論

情緒的維度論由來已久。一個(gè)經(jīng)典的情緒維度論定義是:可伴隨特定生理活動(dòng)的正性或負(fù)性體驗(yàn)[12]。維度取向曾經(jīng)一度占據(jù)著情緒理論的主流。早在19世紀(jì)末,“心理學(xué)之父”馮特就認(rèn)為情緒是可以通過愉快-不愉快、激動(dòng)-平靜、緊張-松弛3個(gè)維度來描述的。Osgood[13]通過研究發(fā)現(xiàn),個(gè)體在對(duì)各種刺激進(jìn)行判斷時(shí),都會(huì)關(guān)注其在價(jià)值、活力和力量這3個(gè)因素上的語義差別,而這些語義差別因素在本質(zhì)上是情感性的,是對(duì)刺激進(jìn)行分類的基礎(chǔ)。Mehrabian等[14]提出了情緒狀態(tài)的“愉悅度-喚醒度-支配度”三維度模型(pleasantness-arousal-dominance,PAD)。在對(duì) PAD模型的深入研究中,Russell[15]發(fā)現(xiàn),情緒的支配度更多地與其認(rèn)知活動(dòng)有關(guān),愉悅和喚醒兩個(gè)維度就可以解釋絕大部分情緒變異。2008年,國內(nèi)引入了PAD情緒量表,它可以從愉悅度、激活度和優(yōu)勢(shì)度上評(píng)定心境或情緒狀態(tài)[16]。Watson等[17]采取自陳式情緒研究方法,提出積極-消極情感模型(PANA),他們認(rèn)為積極情感(positive affect,PA)和消極情感(negative affect,NA)是兩個(gè)相對(duì)獨(dú)立的、基本的維度。

如果使用情緒維度來標(biāo)注表情樣本,并不需要給出一個(gè)明確的情緒類別標(biāo)簽;情感的維度模型似乎可以在連續(xù)的尺度上對(duì)每種情緒強(qiáng)度的微小變化進(jìn)行編碼。也有很多學(xué)者試圖將維度論和基本情緒理論結(jié)合,將基本表情放在兩三個(gè)維度形成的坐標(biāo)系中的合適位置,如情緒的環(huán)形模型(circumplex model of affect)[15]。不過,每一種情緒都是非常復(fù)雜的,雖然我們可以用幾個(gè)維度來表達(dá)某種情緒的主要特點(diǎn),但卻無法充分地解釋或理解這種情緒。

2 情緒的面部表達(dá)方式

顯然,6種基本情緒似乎不足以涵蓋我們復(fù)雜多樣的情緒與對(duì)應(yīng)的表情表達(dá),而且人類擅長偽裝,表情與情緒有時(shí)并不能很好地對(duì)應(yīng)。此外,表情還受到特定社會(huì)文化條件下的展示規(guī)則(display rule)的影響。因此,除了研究基本表情類別,許多研究者也開始關(guān)注微表情、復(fù)雜表情和結(jié)合其他線索的表情。

2.1 基本表情類型

基本情緒理論把情緒分成幾個(gè)基本類別,諸如:高興、悲傷、驚訝、恐懼、厭惡、憤怒等[2]。這6種基本情緒似乎是涇渭分明的,且適用于所有人。但是,科學(xué)研究和實(shí)踐應(yīng)用都表明,依靠6種基本情緒的分類方式無法涵蓋和解釋復(fù)雜的情緒現(xiàn)象。

最近Daniel Cordaro和Dacher Keltner(兩人都曾是Ekman的學(xué)生)等[18-19]進(jìn)行了一系列跨文化研究,擴(kuò)展了基本情緒的清單。他們使用情緒編碼范式,系統(tǒng)地分析來自5種不同文化背景個(gè)體的22種情緒表現(xiàn),提出了情緒的國際核心模式(international core patterns, ICPs),即,在不同文化中存在著22種普遍的面部情緒表達(dá)規(guī)律,而同時(shí)也會(huì)受到文化的一些影響。除了最初的6種情緒外,這些研究還提供了在面部和聲音表達(dá)中出現(xiàn)的情緒如娛樂、敬畏、滿足、欲望、尷尬、痛苦、解脫和同情等情緒的證據(jù)。表情類型增加到20多個(gè),對(duì)表情數(shù)據(jù)庫的建立以及自動(dòng)表情識(shí)別的準(zhǔn)確率都提出了新的挑戰(zhàn)。

2.2 微表情和偽裝表情

微表情是人們隱藏或抑制自己的真實(shí)情緒時(shí)出現(xiàn)非常迅速泄露的面部動(dòng)作[20-22]。研究者以時(shí)長(根據(jù)微表情快速的特點(diǎn))對(duì)微表情進(jìn)行操作性定義。現(xiàn)在越來越多的研究者將小于500 ms的表情定義為微表情[22]。微表情已成為自動(dòng)表情識(shí)別研究的新熱點(diǎn),因?yàn)槿藗兤毡檎J(rèn)為微表情泄露了個(gè)體的真實(shí)表情,能夠反映其真實(shí)情緒。

早在《人類與動(dòng)物的表情》一書中,達(dá)爾文就開始關(guān)注難以抑制的情緒表達(dá)[1,23]。弗洛伊德也提出人們的情緒都會(huì)以某種形式表達(dá)出來[24]。Haggard等[24]在尋找治療師和病人之間的非言語交流特征、觀察心理治療動(dòng)態(tài)圖片時(shí),發(fā)現(xiàn)了一種“微小瞬間表情(micro-momentary facial expressions)”,并認(rèn)為其與壓抑和自我防御機(jī)制有關(guān)。神經(jīng)心理學(xué)的研究發(fā)現(xiàn),自主表情和非自主表情分別受錐體束(pyramidal tract)和外錐體束(extrapyramidal tract)控制[25]。因此,Ekman 等[21,26]假設(shè)微表情是自主表情和非自主表情之間對(duì)抗的產(chǎn)物。

我們前期在實(shí)驗(yàn)室里,通過誘發(fā)被試(心理學(xué)實(shí)驗(yàn)參與者)的情緒(非自主的),同時(shí)要求其偽裝自己的表情(自主的),探索微表情的誘發(fā)方法和出現(xiàn)條件[22]。我們基于收集的數(shù)據(jù),擬合不同條件下微表情表達(dá)的特點(diǎn),描述了自然誘發(fā)的微表情的時(shí)間和空間特征。結(jié)合前人的研究與假設(shè),我們總結(jié)了微表情的表達(dá)機(jī)制,提出微表情既可能是個(gè)體在自主抑制其情緒表達(dá)時(shí)真實(shí)情緒的泄露,也可能是個(gè)體在正常表達(dá)真實(shí)表情后因主動(dòng)抑制而終止的真實(shí)情緒表達(dá)(見圖2)。至于微表情識(shí)別方面的研究,不是本文的關(guān)注點(diǎn),感興趣的讀者可以查閱已經(jīng)發(fā)表的綜述性文章。

圖2 微表情的產(chǎn)生機(jī)制Fig.2 The production mechanism of micro-expressions

2.3 復(fù)雜表情

一些學(xué)者關(guān)注“復(fù)雜表情”,以期能更好地解釋“不太標(biāo)準(zhǔn)”的表情。一篇發(fā)表在PNAS上的頗有影響力的文章對(duì)復(fù)雜表情的定義是:復(fù)雜表情是由基本表情組合而成的[27]。實(shí)驗(yàn)者要求參與者學(xué)習(xí)原型表情,并且努力擺出原型表情的組合,然后篩選出可以明確識(shí)別表情的圖片。在此基礎(chǔ)上,研究者對(duì)這些復(fù)雜表情的類別進(jìn)行分類,得到了較高的準(zhǔn)確率,認(rèn)為該實(shí)驗(yàn)證明了22種情緒類別的表達(dá)和識(shí)別是一致的。

Li等[28]從社交網(wǎng)絡(luò)中收集了表情圖片,招募315名參與者對(duì)數(shù)以萬計(jì)的圖片進(jìn)行標(biāo)注,篩選出多標(biāo)簽的表情圖片,建立了一個(gè)復(fù)雜表情數(shù)據(jù)庫RAF-ML。該數(shù)據(jù)庫的標(biāo)注采用的是6種基本情緒的標(biāo)簽。如果某個(gè)標(biāo)簽的選擇人數(shù)超過20%,則標(biāo)定為存在該種情緒;如果有2個(gè)以上的標(biāo)簽有20%人選擇,則定義為多標(biāo)簽(復(fù)雜)情緒。這個(gè)研究使用的是復(fù)雜表情的“操作性定義”。

值得一提的是,雖然關(guān)于復(fù)雜情緒與表情的研究工作大多是在基本情緒理論框架下開展的,但是該理論的領(lǐng)袖人物Ekman早期并不認(rèn)同“復(fù)雜情緒”這個(gè)概念。Ekman[2]認(rèn)為在生理反應(yīng)與行為表達(dá)上缺乏存在復(fù)雜表情的證據(jù)。在他看來,所謂復(fù)雜的情緒只是多個(gè)基本表情的序列呈現(xiàn),是混合(mixed)而非融合(blend)。

2.4 表情的多模態(tài)信息

在過去的20年里,對(duì)情緒識(shí)別的研究已經(jīng)超越了對(duì)6種情緒的靜態(tài)描述,開啟了一種多模態(tài)的、動(dòng)態(tài)的行為模式,涉及面部動(dòng)作、發(fā)聲、身體運(yùn)動(dòng)、凝視、手勢(shì)、頭部運(yùn)動(dòng)、觸摸,甚至氣味[29]的描述情緒表達(dá)的方式。例如,凝視模式和頭部動(dòng)作與尷尬[30]、自豪[31]和敬畏[32]的體驗(yàn),以及相應(yīng)的表達(dá)信號(hào)交織在一起。Keltner等[33]認(rèn)為,當(dāng)考慮到不同的模態(tài)時(shí),我們就應(yīng)該認(rèn)可存在24種情緒狀態(tài)的獨(dú)特表達(dá)。

既然情緒表達(dá)是多方面的,那么在表情提供的信息不充分的情況下,就可以加入其他通道的信息,如肢體動(dòng)作、皮膚溫度、語言內(nèi)容、語氣語調(diào)、外周生理信號(hào)和中樞神經(jīng)活動(dòng)等。理論上而言,多模態(tài)信息互相補(bǔ)充可以得到更加完整的、更加確定的信號(hào),因此應(yīng)能獲得更好的情緒識(shí)別結(jié)果,而很多實(shí)證研究也證明了這一點(diǎn)。如果多模態(tài)信息能夠讓我們更準(zhǔn)確地識(shí)別情緒,那么,對(duì)機(jī)器來說,只要能獲得足夠的多模態(tài)數(shù)據(jù),就能夠通過深度學(xué)習(xí),建立良好的情緒預(yù)測(cè)模型。

3 表情數(shù)據(jù)的演化

從最初的6種基本表情到更多類型的表情,從擺拍表情到自然表情,從實(shí)驗(yàn)室場(chǎng)景中的表情到自然場(chǎng)景(in-the-wild)中的表情,從靜態(tài)表情圖片到動(dòng)態(tài)表情視頻,從表情的單一面部動(dòng)作模式到表情的多模態(tài)信息,從小樣本到大樣本,表情數(shù)據(jù)庫的建設(shè)取得了巨大的進(jìn)展,這是情緒心理學(xué)家和情感計(jì)算科學(xué)家共同努力的結(jié)果。

研究者提升機(jī)器識(shí)別人類情緒的準(zhǔn)確性的工作主要集中在基于表情數(shù)據(jù)庫訓(xùn)練出一個(gè)計(jì)算快速的、魯棒性高的模型[34-35],努力使機(jī)器能夠基于表情準(zhǔn)確分類表達(dá)者內(nèi)心情緒的狀態(tài)。顯而易見的是,自動(dòng)表情識(shí)別的準(zhǔn)確性在很大程度上受制于數(shù)據(jù)庫中樣本標(biāo)注的質(zhì)量。

3.1 從擺拍表情到自發(fā)的自然表情

早期的表情數(shù)據(jù)庫里大多是擺拍(posed)的原型表情,如 CK+[36]、JAFFE[37]、MUG[38]、RaFD[39]。近年來的表情數(shù)據(jù)庫更加關(guān)注表情樣本的自發(fā)性(spontaneous)和自然性。有些研究者通過材料刺激或者做某些任務(wù)來實(shí)現(xiàn)情緒的誘發(fā),如DISFA[40]、Belfast Database[41]、MMI[42]、Multi-PIE[43]等。

構(gòu)建微表情數(shù)據(jù)庫也同樣經(jīng)歷了從擺拍表情到自然誘發(fā)表情的過程[44]。我們過去所做的微表情數(shù)據(jù)庫,就是在實(shí)驗(yàn)室里,采用情緒性視頻作為誘發(fā)材料,通過讓參與者觀看視頻來激發(fā)參與者的情緒和表情。為了更好地記錄被試情緒激發(fā)點(diǎn),又不干擾其情緒體驗(yàn),我們要求被試在有情緒反應(yīng)時(shí)進(jìn)行按鍵操作,以便于在編碼時(shí)過濾無情緒意義的面部動(dòng)作。在觀看情緒視頻結(jié)束后,收集被試情緒體驗(yàn)的主觀報(bào)告(見圖3)。整理編碼之后,構(gòu)建了CASME系列數(shù)據(jù)庫[45-47]。使用類似的方法,我們也構(gòu)建了偽裝表情數(shù)據(jù)庫MFED[48]。當(dāng)然我們也明確地意識(shí)到,這些在實(shí)驗(yàn)室里誘發(fā)出的表情樣本依然缺乏生態(tài)效度。

圖3 微表情誘發(fā)范式流程Fig.3 The elicitation approach for micro-expressions

既然實(shí)驗(yàn)室樣本的生態(tài)效度不夠,那么就有必要高度關(guān)注現(xiàn)實(shí)場(chǎng)景(in-the-wild)中的自然表情。與在實(shí)驗(yàn)室里誘發(fā)得到的表情相比,現(xiàn)實(shí)場(chǎng)景中的自然表情在光照、臉部姿勢(shì)、尺寸和面部遮擋等方面都有很大的變化,因此對(duì)其分類更具挑戰(zhàn)性,但在實(shí)際應(yīng)用中也更為重要。當(dāng)前很多數(shù)據(jù)庫從網(wǎng)上(如網(wǎng)頁、社交媒體、視頻等)抓取大量的表情圖片,并假設(shè)它們是相對(duì)自然的(不過這些圖片中仍有不少是擺拍的),如EmotioNet[49]、AffectNet[34]、RAF-DB[50]。自 2013 年以來,F(xiàn)ER2013和 Emotion Recognition in the Wild(EmotiW)[51-52]等情感識(shí)別競賽基于真實(shí)世界場(chǎng)景中收集的相對(duì)充足的訓(xùn)練數(shù)據(jù),這也促進(jìn)了自動(dòng)表情識(shí)別從實(shí)驗(yàn)室場(chǎng)景到自然環(huán)境的過渡。

3.2 從靜態(tài)表情圖片到動(dòng)態(tài)表情視頻

在現(xiàn)實(shí)世界中,人們的表情是一個(gè)動(dòng)態(tài)的過程。一個(gè)完整的表情可區(qū)分為啟動(dòng)階段(onset phase)、高峰階段(apex phase)和恢復(fù)階段(offset phase)。而靜態(tài)表情圖片僅僅展示了高峰階段的一瞬間。

在基于靜態(tài)表情圖片的自動(dòng)表情識(shí)別方法中,特征表示只用當(dāng)前單一圖像的空間信息進(jìn)行編碼,而在基于動(dòng)態(tài)表情視頻的識(shí)別方法中,則會(huì)考慮輸入表情序列中連續(xù)幀之間的時(shí)間關(guān)系。對(duì)序列(視頻)數(shù)據(jù)進(jìn)行識(shí)別已經(jīng)成為一種趨勢(shì)。Li等[6]總結(jié)了不同類型的方法在動(dòng)態(tài)數(shù)據(jù)上的相對(duì)優(yōu)勢(shì),包括代表空間和時(shí)間信息的能力、對(duì)訓(xùn)練數(shù)據(jù)大小和幀數(shù)的要求(可變或固定)、計(jì)算效率和性能。心理學(xué)的研究也證明,動(dòng)態(tài)表情能夠提供更多的有效信息,包括區(qū)分真實(shí)與偽裝的表情[53]。例如,真實(shí)笑容的時(shí)長一般是在500~4 000 ms,而偽裝笑容的時(shí)長則可能過長或過短[54];與非真實(shí)笑容相比,真實(shí)笑容的啟動(dòng)時(shí)長和恢復(fù)時(shí)長都更長[55-56]。

3.3 從表情的單一面部動(dòng)作模式到表情的多模態(tài)信息

人類在現(xiàn)實(shí)應(yīng)用中的情緒表達(dá)涉及到不同的通道,而面部表情只是其中一種。所以,越來越多的多模態(tài)表情數(shù)據(jù)庫被建構(gòu)出來,如EU Emotion Stimulus[57]、BAUM-1[58]、AFEW[51]。其中,最常見的是表情與聲音結(jié)合的多模態(tài)數(shù)據(jù)庫。例如,AFEW數(shù)據(jù)庫包含了從不同電影中收集的視頻片段,這些視頻片段具有自發(fā)的表情、各種頭部姿勢(shì)、遮擋和照明,有時(shí)間和多模態(tài)信息,提供了不同環(huán)境條件下音頻和視頻方面的樣本。多模態(tài)情感分析往往通過處理這些不同的模態(tài)來分析人類對(duì)某一事物的觀點(diǎn)(通常區(qū)分為積極的或消極的)[59]。

3.4 從小樣本到大樣本

在實(shí)驗(yàn)室里誘發(fā)個(gè)體的情緒進(jìn)而采集表情樣本并進(jìn)行標(biāo)注,是一種效率較低的構(gòu)建表情數(shù)據(jù)庫的方法,但具有較高的效度,可以較為明確地區(qū)分情緒類型。這些數(shù)據(jù)庫中模特的數(shù)量往往在幾十到幾百人之間。

為了滿足深度學(xué)習(xí)的大數(shù)據(jù)需求,很多研究者從網(wǎng)上抓取圖片與視頻作為樣本。這些樣本往往無法確定當(dāng)事人自身的主觀體驗(yàn),而只能使用觀察者的他人主觀標(biāo)注。典型的數(shù)據(jù)庫是EmotioNet[49],包含了百萬圖像。值得注意的是,盡管這個(gè)表情數(shù)據(jù)集規(guī)模非常大,但它并非完全由人工標(biāo)注,而是通過半自動(dòng)的方式標(biāo)注的,所以可能存在很多噪聲。另一個(gè)百萬級(jí)別的表情數(shù)據(jù)庫AffectNet[34],是用6種不同語言和1 250個(gè)與情緒相關(guān)的關(guān)鍵詞在3個(gè)網(wǎng)絡(luò)引擎上進(jìn)行收集的,并進(jìn)行了情緒類別和維度(效價(jià)和喚醒度)的標(biāo)注。

4 表情樣本的標(biāo)注方法

目前,監(jiān)督學(xué)習(xí)依然是情緒識(shí)別建模中最常用的方法。這需要為可觀察到的外在行為與生理信號(hào)提供其情緒標(biāo)注(即ground-truth)。研究者基于不同的理論和不同的技術(shù)對(duì)表情樣本進(jìn)行標(biāo)注,有基于基本情緒理論或維度論的,有基于主觀或客觀,也有基于行為或生理的。不同的標(biāo)注取向各有優(yōu)缺點(diǎn),也決定了機(jī)器最后的輸出結(jié)果。主流的標(biāo)注方式來自基本情緒理論對(duì)基本情緒的劃分,諸如高興、驚訝、厭惡、悲傷、憤怒、恐懼等。一些研究者會(huì)使用一些變式或者更多的情緒類型。而另一些研究者會(huì)(往往是同時(shí))使用情感維度來標(biāo)注,如愉悅度、喚醒度和優(yōu)勢(shì)度。研究者們給行為或者生理信號(hào)標(biāo)注情緒的方法既有主觀的也有客觀的。

4.1 體驗(yàn)者主觀標(biāo)注

體驗(yàn)者的自我報(bào)告是目前最具有分辨力的情緒測(cè)量方法[60],因?yàn)榍榫w本質(zhì)上是一種主觀體驗(yàn)。其操作過程一般是先誘發(fā)出當(dāng)事人的某種情緒體驗(yàn),然后要求體驗(yàn)者描述自己的情緒。例如,研究者用一個(gè)刺激物來喚起當(dāng)事人的情緒,如情緒性的圖片、視頻,或者對(duì)某一事件的描述,如“你的表哥剛剛?cè)ナ溃愀械椒浅1瘋盵19]。但對(duì)大多數(shù)人來說,描述自己的主觀情緒體驗(yàn)并非一件容易的事。這需要體驗(yàn)者具有較好的情緒感受能力,愿意且能夠表達(dá)出自己的情緒體驗(yàn)。另外,個(gè)體在關(guān)注自己的情緒時(shí)往往會(huì)影響自己的情緒體驗(yàn)[61]。因此,除了要求參與者描述他們的感受外,更常用的方法是要求參與者從一組情緒形容詞中選擇自己當(dāng)時(shí)體驗(yàn)到的情緒并對(duì)情緒進(jìn)行評(píng)分[22,47];有時(shí)候還使用事后回溯的方式[62]。雖然詞表可能有很多候選詞,但是研究者最終往往會(huì)將候選詞簡化為若干種“基本情緒”。參與者所體驗(yàn)到的情緒,都可以被歸類于基本情緒中的某一個(gè)“家族”,例如,高興包含了興奮、滿足、愉快、舒適等一系列的積極情緒體驗(yàn)。

4.2 觀察者主觀標(biāo)注

許多表情數(shù)據(jù)(如從網(wǎng)上抓取圖片與視頻)并沒有當(dāng)事人主觀體驗(yàn)的任何信息,所以研究者只能使用觀察者的他人主觀標(biāo)注,即要求觀察者在觀看相關(guān)表情材料后,判斷該材料對(duì)應(yīng)的情緒類型。觀察者主觀標(biāo)注的大部分材料是非實(shí)驗(yàn)室場(chǎng)景下拍攝的。由于這些表情往往不那么“標(biāo)準(zhǔn)”,使得基于面部動(dòng)作(AU)組合來判斷表情的方法難以實(shí)現(xiàn)。因此研究者會(huì)通過“眾包”的方法,讓一定數(shù)量的觀察者為每一張圖片進(jìn)行情緒類型的標(biāo)注從而達(dá)到一定程度的“標(biāo)準(zhǔn)化”。這種方法蘊(yùn)涵的假設(shè)是:情緒識(shí)別在人類中是普遍的,具有跨文化的一致性;人的判斷是可靠的、特異的和具有普遍性的;表情的表達(dá)者(編碼者)與接收者(解碼者)之間的信息溝通是通暢的。近期有一些表情數(shù)據(jù)庫就是用這種方法進(jìn)行標(biāo)注的,如RAF-ML[28]、AffectNet[34]。

4.3 基于行為的客觀標(biāo)注

除了主觀標(biāo)注的方式外,有研究者還采用一些客觀標(biāo)準(zhǔn)來標(biāo)注情緒。最常見的做法是事先定義一些情緒的動(dòng)作單元(AU)組合。這種情緒-表情關(guān)系表一般參照FACS(facial action coding system)研究手冊(cè)[47]或者由研究者自己設(shè)定。FACS是一個(gè)基于解剖學(xué)的描述面部動(dòng)作的工具,用于描述所有視覺上可識(shí)別的面部運(yùn)動(dòng)。該系統(tǒng)由Paul Ekman和Wallace V.Friesen于1978年創(chuàng)立,由Ekman, Friesen和Joseph C.Hager于2002年予以更新[63]。他們根據(jù)面部肌肉的解剖學(xué)特點(diǎn)及其外部表現(xiàn)特點(diǎn),將面部動(dòng)作劃分成幾十個(gè)相對(duì)獨(dú)立的動(dòng)作單元(action unit, AU)。AU表現(xiàn)為一個(gè)或多個(gè)面部肌肉的收縮或放松,例如皺眉、抿嘴等。FACS可以對(duì)面部各種動(dòng)作的位置、形態(tài)、強(qiáng)度和時(shí)長進(jìn)行相對(duì)客觀地標(biāo)記,是目前最常用的描述面部動(dòng)作的編碼工具。

進(jìn)行FACS編碼十分耗時(shí),尤其是對(duì)視頻進(jìn)行逐幀編碼的時(shí)候需要耗費(fèi)大量時(shí)間成本。所以,許多研究者努力研發(fā)基于計(jì)算機(jī)的自動(dòng)編碼系統(tǒng)[64-66]。2020年EmotioNet挑戰(zhàn)賽中,有研究者通過100萬張圖像訓(xùn)練了非剛性的面部肌肉運(yùn)動(dòng)(主要是前17個(gè)AU)和剛性的頭部運(yùn)動(dòng)(最后6個(gè)AU)的FACS編碼算法。他們將AU識(shí)別問題作為一個(gè)多任務(wù)學(xué)習(xí)問題,前17個(gè)AU準(zhǔn)確率為94.9%,精確性和召回率的綜合指標(biāo)(稱為F1,范圍從0到1)在驗(yàn)證集中達(dá)到0.746,在挑戰(zhàn)賽的測(cè)試集中也達(dá)到了0.730 6的最終成績[67]。

我們的研究結(jié)果也顯示,基于AU的標(biāo)注方法結(jié)構(gòu)化水平很高,完全以表面形態(tài)(幾何特征、紋理特征)為基礎(chǔ),這種方法非常“適合”計(jì)算機(jī)視覺和模式識(shí)別技術(shù)。所以,許多數(shù)據(jù)庫也選擇基于AU組合來做情緒標(biāo)注,并獲得了令人滿意的效果,如Emotionet[49]。在情緒標(biāo)注過程中,有些數(shù)據(jù)庫的開發(fā)人員基于AU組合的同時(shí),也盡可能地考慮主觀報(bào)告與視頻的內(nèi)容[46-47]。但是,標(biāo)注準(zhǔn)確性依然會(huì)受到情緒體驗(yàn)與表情之間的一致性水平的約束,因?yàn)橹挥刑峁┝艘恢碌谋砻嫘螒B(tài)標(biāo)準(zhǔn),計(jì)算機(jī)才可以對(duì)表情特征做很好的分類。

4.4 情感維度標(biāo)注

非擺拍條件下的表情照片中,符合原型表情的動(dòng)作組合較少,所以基于原型表情模板進(jìn)行情緒類型的標(biāo)注比較困難。而基于FACS提供的“核心AU”分析也很難確認(rèn)某個(gè)表情的情緒類別。而根據(jù)情感維度模型,則沒有必要假設(shè)獨(dú)立的離散的情緒類型。這種觀點(diǎn)認(rèn)為,少量的兩極維度可以作為情感體驗(yàn)和情感識(shí)別的基本構(gòu)件[15]。這也是為什么許多非擺拍的樣本也標(biāo)注了維度,如AFEW-VA[68],AffectNet[34]。

從愉快到不愉快的效價(jià)(Valence)維度在定義情緒體驗(yàn)和表達(dá)方面至關(guān)重要。這一維度能夠被人類自動(dòng)地、快速地識(shí)別出來,而且具有普遍性[69]。畢竟,積極和消極的情感狀態(tài)位于情感空間的相反位置,它們以一種非常不同的方式被傳達(dá)[69]。所以,效價(jià)似乎是非常容易標(biāo)注的,而喚醒度(Arousal)的標(biāo)注比較困難。例如,哭泣是喚醒程度低的情緒嗎?生悶氣的喚醒程度是否比哭泣高呢,高多少呢?而且,在較低的效價(jià)和喚醒度狀態(tài)下,人們哪怕有情緒體驗(yàn),也往往面無表情。

5 自動(dòng)表情識(shí)別面臨的主要問題

在實(shí)踐中,從數(shù)據(jù)的標(biāo)注到計(jì)算機(jī)的識(shí)別,我們常常會(huì)遇到一些困難。在數(shù)據(jù)標(biāo)注過程中,我們很難確定這些表情是否確切地反映了某種情緒。雖然在數(shù)據(jù)采集過程中,我們收集了主觀評(píng)價(jià)、評(píng)估了視頻的情緒特點(diǎn)并進(jìn)行了面部動(dòng)作編碼,但是卻發(fā)現(xiàn)主觀評(píng)估與面部動(dòng)作有時(shí)并不匹配(基于基本情緒理論的觀點(diǎn)應(yīng)該是匹配的)。而且,我們還發(fā)現(xiàn)巨大的個(gè)體差異,例如,有些人看到惡心的內(nèi)容會(huì)表現(xiàn)出大笑,但是這個(gè)大笑并不等于“高興”,然而當(dāng)事人又說不清是什么情緒。于是,雖然基于數(shù)據(jù)庫的自動(dòng)表情識(shí)別準(zhǔn)確率非常高,但是在現(xiàn)實(shí)生活情景中的識(shí)別準(zhǔn)確率往往不是很高,難以應(yīng)用于實(shí)踐。

5.1 問題一:表情與真實(shí)情緒體驗(yàn)的一致性

我們前期在微表情數(shù)據(jù)庫的構(gòu)建以及微表情分析等領(lǐng)域做了一些頗有成效的工作,但也發(fā)現(xiàn)情緒與表情的一致性并沒有理論預(yù)期得那么高。同時(shí),大量研究也表明,人的內(nèi)在情緒體驗(yàn)和外在表情、生理信號(hào)之間的相關(guān)性較低。

Durán等[70]進(jìn)行了一項(xiàng)薈萃分析(元分析),其包含了37篇關(guān)于情緒體驗(yàn)與原型表情之間關(guān)系的研究。研究通過計(jì)算相關(guān)系數(shù),來確定一種情緒與所設(shè)定表達(dá)之間的一致性程度(見表1)。薈萃分析的結(jié)果顯示,高興與典型笑容的總體相關(guān)系數(shù)是0.40(95%的置信區(qū)間為0.31~0.49)。如果我們把高興(Happiness)和好玩(Amusement)看作是兩種相互獨(dú)立的情緒,那么與微笑相關(guān)的總體估計(jì)值是:快樂為0.27[0.16, 0.39],好玩為0.52[0.43, 0.62]。而參與者在高興時(shí)出現(xiàn)典型笑容的概率是0.41[0.08, 0.73]。如果把高興和好玩分開考慮,則高興的概率為0.12[0.06, 0.18],好玩的概率為0.47[0.09, 0.84]。

表1 情緒與原型表情表達(dá)關(guān)系的元分析結(jié)果(Duran,2017)Table 1 The meta-analysis for the relationship between felt emotions and prototypical facial expressions

在所有測(cè)試的情緒類別中,除了恐懼之外,其他情緒與原型表情的相關(guān)系數(shù)均高于隨機(jī)水平。然而,高于隨機(jī)水平并不能說明特定情緒可以對(duì)應(yīng)到特定表情。實(shí)際上,它們之間的相關(guān)性很弱。進(jìn)一步的薈萃分析[71]考察了來自76項(xiàng)研究的131個(gè)效應(yīng)大小,共計(jì)4 487名參與者,也獲得了類似的結(jié)果:原型表情與憤怒、厭惡、恐懼、快樂、悲傷或驚訝情緒的測(cè)量之間的總體相關(guān)系數(shù)為0.31(弱相關(guān)),在情緒事件中觀察到對(duì)應(yīng)的標(biāo)準(zhǔn)面部動(dòng)作的平均概率是0.22。

以上這些研究結(jié)果表明,人們其實(shí)很難根據(jù)他人的面部動(dòng)作有效地預(yù)測(cè)其內(nèi)在情緒狀態(tài)。從生活經(jīng)驗(yàn)的角度看,這個(gè)結(jié)果并不意外。我們以“恐懼”情緒為例,面對(duì)潛在的危險(xiǎn),人和動(dòng)物都可能產(chǎn)生所謂的Freeze(呆若木雞)、Fight(狗急跳墻)、Flight(逃之夭夭)等多種反應(yīng)模式。在主觀體驗(yàn)、生理喚醒和行為表現(xiàn)等方面,個(gè)體的表達(dá)方式千差萬別,而在許多研究中都只用單一的恐懼反應(yīng)來描述它們。然而,有研究表明這些恐懼情緒的行為表達(dá)所對(duì)應(yīng)的神經(jīng)環(huán)路也不同,不應(yīng)該被歸為同一類型[61]。

Barrett等[72]指出了基本情緒理論相關(guān)研究中的3個(gè)關(guān)鍵缺陷:1)可靠性(reliability)有限,即同一情緒類別的實(shí)例既不能通過一套共同的面部動(dòng)作可靠地表達(dá),也不能從一套面部動(dòng)作去推論個(gè)體的情緒;2)缺乏特異性(specificity),即不同的面部動(dòng)作和對(duì)應(yīng)的情緒類別之間沒有獨(dú)特的映射關(guān)系,即被標(biāo)注為微笑的識(shí)別標(biāo)簽,并不一定是高興的表情,皺眉也不一定是憤怒的表情;3)有限的普遍性(generalization),即沒有充分的證據(jù)表明情緒表達(dá)的跨文化一致性。由于先前的跨文化證據(jù)往往存在方法上的缺陷,而這些缺陷導(dǎo)致了一種普遍的誤解,即對(duì)情緒與面部動(dòng)作之間關(guān)聯(lián)性的誤解,這一誤解又進(jìn)一步限制了這一證據(jù)在其他用途中的轉(zhuǎn)化。Barrett等[73]的總體結(jié)論是明確的:“從一個(gè)微笑中推斷出快樂,從一個(gè)皺眉中推斷出憤怒,或從一個(gè)皺眉中推斷出悲傷,這樣的推斷是不可能具有足夠信心的;而目前的許多技術(shù)正在運(yùn)用這些錯(cuò)誤的推斷,并且這些錯(cuò)誤的推斷往往被認(rèn)為是科學(xué)事實(shí)”。

5.2 問題二:人工標(biāo)注的準(zhǔn)確性

表情與真實(shí)情緒體驗(yàn)的一致性不高,會(huì)導(dǎo)致人工標(biāo)注的有效性受到質(zhì)疑。

如前所述,許多表情數(shù)據(jù)庫的編碼是基于行為的客觀標(biāo)注,即基于情緒-表情對(duì)應(yīng)表。雖然FACS提供了一個(gè)情緒-表情對(duì)應(yīng)表,但是后來的研究者在實(shí)際使用中并沒有嚴(yán)格地參照。實(shí)際上,情緒與AU組合的映射關(guān)系哪怕在各個(gè)支持基本情緒理論的研究者眼里也沒有達(dá)成一致[19,63]。而如今,越來越多的研究發(fā)現(xiàn)情緒與表情的相關(guān)性不高,這意味著基于AU確定表情的情緒類型可能是不準(zhǔn)確的。而且,各數(shù)據(jù)庫的標(biāo)注標(biāo)準(zhǔn)差異也非常大。以悲傷為例,有的認(rèn)為是4+15[49],有的則認(rèn)為應(yīng)該是1+4+15或11或6+15[74]。

另一些表情數(shù)據(jù)庫是根據(jù)觀察者的判斷進(jìn)行標(biāo)注的。之所以這樣做,是基于下述(基本情緒理論的)假設(shè):人的判斷是可靠的、特異的和具有普遍性的;表情的表達(dá)者(編碼者)與接收者(解碼者)之間的信息溝通是通暢的。但是,該假設(shè)可能并不成立。例如,越來越多的研究表明,當(dāng)人們推斷面部結(jié)構(gòu)中的情感含義時(shí),背景是一個(gè)重要的、有時(shí)甚至是主導(dǎo)性的信息來源[75-76]。這個(gè)背景信息可以是觀察者的狀態(tài)、事件的前因后果、表達(dá)者所處的場(chǎng)景等[77]。也就是說人們是基于多方面的信息去理解對(duì)方的情緒,而不僅僅是根據(jù)個(gè)體的表情。這時(shí)候的情緒標(biāo)簽,很難保證反映了圖片中個(gè)體的內(nèi)在情緒體驗(yàn)。此外,觀察者主觀標(biāo)注的方法還存在一個(gè)統(tǒng)計(jì)上的悖論。基本情緒理論通過高于隨機(jī)水平的“表情識(shí)別能力”來證明基本情緒的存在,并以此標(biāo)注“正確答案”。但是,人們的識(shí)別能力存在著個(gè)體差異且經(jīng)常會(huì)存在“識(shí)別錯(cuò)誤”,如混淆憤怒與厭惡、驚訝與恐懼等情況,因此單純靠人的主觀判斷似乎是不可靠的。一群普通人進(jìn)行情緒評(píng)估得到的“平均答案”作為“標(biāo)準(zhǔn)答案”來訓(xùn)練計(jì)算機(jī),其結(jié)果也只是計(jì)算機(jī)的情緒識(shí)別水平會(huì)更接近“平均水平”。

主觀報(bào)告似乎是情緒標(biāo)注的一個(gè)可靠方式。一些數(shù)據(jù)庫的開發(fā)人員基于AU組合的同時(shí),也盡可能地考慮主觀報(bào)告與視頻的內(nèi)容,如[46-47]。但是,基于體驗(yàn)者主觀標(biāo)注的方法存在兩個(gè)問題,一是個(gè)體很難準(zhǔn)確地描述自己的情緒體驗(yàn)。情緒的變異性過大導(dǎo)致難以被收斂到簡單的標(biāo)簽;二是參與者被迫用幾個(gè)預(yù)置設(shè)定的情緒詞來表征自己的真實(shí)情緒,這種“迫選”式的設(shè)定可能會(huì)歪曲當(dāng)事人的真實(shí)情緒體驗(yàn)[72,78]。而且,標(biāo)注準(zhǔn)確性依然會(huì)受到情緒體驗(yàn)與表情之間的一致性水平的約束——只有提供了一致的表面形態(tài)標(biāo)準(zhǔn),機(jī)器才可以對(duì)表情特征做很好的分類。

如果采用的是維度標(biāo)注方法,也需要關(guān)注下述兩個(gè)問題:第一,效價(jià)與喚醒度的評(píng)分本身沒有標(biāo)準(zhǔn),主觀性非常強(qiáng)。每個(gè)材料的標(biāo)注可能都只是由一個(gè)人或者兩個(gè)人來完成的[34,68],重測(cè)信度較低[41,79]。另外,標(biāo)注很大程度上基于情緒體驗(yàn)者的外部表現(xiàn),而表情難以反映其內(nèi)心的情緒,或內(nèi)心的情緒常常不會(huì)反映在外部。例如,一般認(rèn)為悲傷情緒可能會(huì)被認(rèn)為處在低效價(jià)和低喚醒度象限里,但是當(dāng)我們能夠看到一個(gè)人明顯的悲傷表情時(shí),往往意味著此時(shí)他(她)的情緒體驗(yàn)激烈,喚醒度可能很高。又如,喚醒水平低且效價(jià)較高時(shí),人往往是處于舒適滿足的狀態(tài),這個(gè)時(shí)候大部分情緒體驗(yàn)者是面無表情的。這也許解釋了為什么在AFEW-VA數(shù)據(jù)庫中低效價(jià)象限中樣本很少。第二,效價(jià)和喚醒兩個(gè)維度構(gòu)成的環(huán)形模型[15]并不能解釋大多數(shù)具體的情緒事件。Russell[78]也認(rèn)為情感維度模型并沒有對(duì)典型的情緒事件提供足夠豐富的解釋。例如,該模型未能充分解釋恐懼、嫉妒、憤怒和羞愧有什么差異,也無法解釋觀察者是如何區(qū)分它們的。近年來,建構(gòu)論的觀點(diǎn)認(rèn)為,效價(jià)與喚醒兩個(gè)核心要素僅僅是情緒的組成部分,還需要對(duì)自身、環(huán)境等信息的整合,才能形成特定的情緒。Russell[78]的比喻是:星座是最后賦予的意義解釋,而其中的星星只是各個(gè)成分。所以,就算機(jī)器能夠計(jì)算出某個(gè)人某時(shí)某刻的效價(jià)與喚醒度,也不能輸出一個(gè)人們能夠理解的“情緒”結(jié)果。此外,還存在一個(gè)更加具有挑戰(zhàn)性的質(zhì)疑:評(píng)分者基于外部反應(yīng)的主觀標(biāo)注(效價(jià)與喚醒度)本身也可能是不準(zhǔn)確的。

5.3 問題三:情緒與表情的變異性

當(dāng)我們嘗試用一個(gè)標(biāo)簽代表一類情緒或表情時(shí),會(huì)遇到一些困難。

例如,在實(shí)驗(yàn)室誘發(fā)笑容(標(biāo)注為happiness)似乎是非常容易的——給參與者看一些喜劇片的搞笑片段就可以了,但這種大笑并不意味著參與者的內(nèi)心是愉悅幸福的。我們中了大獎(jiǎng)、表白成功、獲得學(xué)術(shù)獎(jiǎng)項(xiàng)或者吃一頓美食時(shí)候的愉悅感與幸福感,和觀看視頻產(chǎn)生的“好玩(amusing)”體驗(yàn)相去甚遠(yuǎn)。而且還有不少研究者發(fā)現(xiàn),人們?cè)隗w驗(yàn)到幸福快樂的時(shí)候并不一定會(huì)笑,而是在跟其他人進(jìn)行交互的時(shí)候才會(huì)頻繁地笑[5]。更有甚者,有些被試看到惡心的內(nèi)容會(huì)表現(xiàn)出大笑。

再如,以觀看恐怖片時(shí)誘發(fā)情緒過程為例。雖然我們知道電影中的場(chǎng)景非常可怕,但也知道自己是安全的,所以很多人樂于體驗(yàn)?zāi)欠N刺激的“愉悅感”。當(dāng)出現(xiàn)某些恐怖場(chǎng)景時(shí),我們會(huì)選擇一種回避的狀態(tài),但是這種回避只是瞇著眼睛或者轉(zhuǎn)過頭去。如果在森林里遇到危險(xiǎn)物(如老虎之類的野獸),我們可能會(huì)嚇得僵直,或者睜大眼睛尋找逃跑的路,或者張大嘴巴發(fā)出驚叫以尋求幫助或嚇退對(duì)象。這些反應(yīng)都是根據(jù)當(dāng)時(shí)情境做出的適應(yīng)性反應(yīng)[69]。對(duì)比看恐怖片和身處真實(shí)的危險(xiǎn)場(chǎng)景這兩種情況,雖然我們把其中的情緒體驗(yàn)都叫做恐懼,但實(shí)際上無論是主觀體驗(yàn)還是行為反應(yīng)都截然不同,似乎不應(yīng)該歸為同一類。

這意味著,情緒與表情的一致性可能沒那么高,個(gè)體的主觀報(bào)告沒有那么清晰準(zhǔn)確,而觀察者也很難基于其表現(xiàn)確認(rèn)其真實(shí)的情緒體驗(yàn)。例如,我們見到他人打招呼時(shí),往往會(huì)伴隨著微笑,目的是讓別人覺得“見到你很高興”,而非真實(shí)的主觀高興的情緒體驗(yàn);而這時(shí)如果讓機(jī)器進(jìn)行識(shí)別,機(jī)器會(huì)將這種表現(xiàn)識(shí)別為“高興”,但不一定能反映人們內(nèi)心的真實(shí)狀態(tài)。又例如,一些運(yùn)動(dòng)員在戰(zhàn)勝對(duì)手時(shí),狂喜中卻出現(xiàn)十分“痛苦”的表情[75],機(jī)器可能會(huì)將其識(shí)別為“悲傷”或者“厭惡”;許多抑郁癥患者同樣會(huì)面帶微笑[80],但是內(nèi)心往往是不快樂的。于是,在基本情緒理論基礎(chǔ)上的自動(dòng)表情識(shí)別系統(tǒng)會(huì)出現(xiàn)生態(tài)效度較低的問題,即,雖然基于數(shù)據(jù)庫的表情識(shí)別準(zhǔn)確率非常高,但是在現(xiàn)實(shí)生活情景中的應(yīng)用價(jià)值卻很有限。

6 表情識(shí)別的未來進(jìn)路

以上問題表明,情緒與表情的關(guān)系很復(fù)雜,表情樣本數(shù)據(jù)的效度比較低,自動(dòng)表情識(shí)別仍然面臨巨大的挑戰(zhàn)。一方面,現(xiàn)實(shí)中的大部分人的表情不是以原型表情的形式出現(xiàn),甚至與這些原型表情根本不相似。于是,基于刻板的表情模板去識(shí)別現(xiàn)實(shí)情景中的表情幾乎不可能。另一方面,人類會(huì)根據(jù)現(xiàn)實(shí)情景和自己的經(jīng)驗(yàn)來理解他人的情緒,而不太依賴于面部肌肉、皮膚的形狀與紋理來做判斷,即不太會(huì)受到“長什么樣”的干擾。也就是說,人對(duì)他人情緒的識(shí)別是“格式塔式的(gestalt)”而不是“刻板分類的”——人類的情緒識(shí)別方式與機(jī)器的識(shí)別方式相去甚遠(yuǎn)。未來工作中,我們可能需要明確表情識(shí)別的目標(biāo),以及嘗試從基于預(yù)測(cè)加工理論的建構(gòu)論觀點(diǎn)來理解情緒。

6.1 表情識(shí)別的目標(biāo)

自動(dòng)表情識(shí)別的目標(biāo)是準(zhǔn)確識(shí)別他人的情緒類型,還是努力理解人類的情緒并學(xué)習(xí)人類的情緒識(shí)別方式?

如果是前者,則識(shí)別任務(wù)的設(shè)定必須是基于“表情、語言、生理信號(hào)能夠準(zhǔn)確反映人的情緒”這一理論假設(shè)。如果計(jì)算機(jī)識(shí)別成績能超越人類的識(shí)別成績,則表明計(jì)算機(jī)工作的成績優(yōu)于常人。如果是后者,工作重點(diǎn)則是理解人類的情緒,并讓計(jì)算機(jī)盡可能模仿人類的情緒識(shí)別方式。在這種模式下,不再關(guān)注計(jì)算機(jī)的情緒識(shí)別是否比人類更準(zhǔn)確,而是計(jì)算機(jī)的情緒識(shí)別是否接近人類識(shí)別的成績。例如,張三現(xiàn)在內(nèi)心很悲傷,但是他笑得很開心的樣子,那么理想的識(shí)別模型應(yīng)該將這個(gè)表情識(shí)別成悲傷還是高興呢?如果識(shí)別為“悲傷”則體現(xiàn)了“察言觀色”的真正目的,即“理解人”的心理活動(dòng);如果識(shí)別為“高興”,體現(xiàn)為模仿人的目標(biāo),即“像大多數(shù)人”一樣識(shí)別他人的表情。

計(jì)算機(jī)表情識(shí)別的目標(biāo)選擇與應(yīng)用場(chǎng)景存在關(guān)聯(lián)。在一些場(chǎng)景中,我們訓(xùn)練計(jì)算機(jī)是為讓它了解人們內(nèi)心的真實(shí)情緒,即所謂“讀懂對(duì)方”,例如共情、測(cè)謊等任務(wù)。而有時(shí)候,我們僅僅希望機(jī)器能夠像人一樣,能看出對(duì)方希望展示的情緒狀態(tài)(如打招呼時(shí)高興的表情),或者能借助場(chǎng)景與經(jīng)驗(yàn)推測(cè)對(duì)方的情緒。那么,訓(xùn)練計(jì)算機(jī)情緒識(shí)別時(shí),首先應(yīng)該考慮應(yīng)用場(chǎng)景和明確的任務(wù)目標(biāo)。

然而,當(dāng)前很多研究者并沒有考慮這兩個(gè)目標(biāo)的差異,在情緒識(shí)別模型建構(gòu)時(shí),往往默認(rèn)情緒識(shí)別的目標(biāo)是努力通過測(cè)量外部信號(hào)推測(cè)人的情緒類型。更具體而言,即是識(shí)別并區(qū)分幾種有限的基本情緒類型,如高興、悲傷等。這一目標(biāo)往往事先假設(shè)了“外部信號(hào)與內(nèi)部情緒是一致的”。唯有這樣,情緒識(shí)別模型才能滿足反向推斷的要求,即,根據(jù)外在表現(xiàn)推斷內(nèi)心情緒[72]。但是,這一假設(shè)實(shí)際上可能并不成立(見6.1節(jié))。對(duì)于第二個(gè)目標(biāo),即讓機(jī)器盡量模仿人,似乎只需要找一群有代表性的普通人,根據(jù)情緒詞表來進(jìn)行情緒類別的標(biāo)注,即“眾包”(Crowdsourcing)[50]。只要眾包的數(shù)據(jù)量足夠,似乎機(jī)器就能夠像人一樣識(shí)別他人的情緒了。然而,這種識(shí)別并不是真正模仿了人類的表情識(shí)別方式(見6.2節(jié))。

我們分析表情識(shí)別的目標(biāo),并反思情緒的本質(zhì),以及在表情識(shí)別領(lǐng)域人工智能的角色和定位。研究發(fā)現(xiàn),無論是情緒的表達(dá)還是情緒的識(shí)別,都不僅僅是一個(gè)“分類”的過程,而是一個(gè)建構(gòu)的過程[81]。按照這種建構(gòu)取向,情緒本身并不存在“可分類”的信息,或者說這些情緒類型本質(zhì)上并不存在——情緒類型只是人們?cè)诮换ミ^程中的建構(gòu)。如果情緒本身在概念意義上缺乏足夠的結(jié)構(gòu)性特征,那么,關(guān)于情緒的類別化也就沒有充分的標(biāo)準(zhǔn),進(jìn)而也無法通過數(shù)據(jù)庫所提供特征與標(biāo)注并訓(xùn)練出一個(gè)計(jì)算化模型。因此,前述情緒識(shí)別的兩個(gè)目標(biāo)都無法實(shí)現(xiàn)。

6.2 交互中的建構(gòu)與情緒理解

前期的實(shí)踐結(jié)果顯示,基于基本情緒理論訓(xùn)練計(jì)算機(jī)識(shí)別系統(tǒng)似乎無法精確地反映人類情緒的本質(zhì),也難以在實(shí)踐中獲得有價(jià)值的應(yīng)用效果。因此,我們需要更深入地理解人的情緒識(shí)別特點(diǎn)。

我們可能很難根據(jù)某一瞬間(一張圖片)正確斷定一個(gè)人的情緒。多數(shù)情緒識(shí)別是在交互過程中慢慢確認(rèn)的,需要不斷地修正原來的判斷[82]。這就是面部表達(dá)的行為生態(tài)學(xué)觀點(diǎn)(behavioral ecology view of facial displays,BECV)。也就是說,一個(gè)人對(duì)另一個(gè)人的表情識(shí)別是在持續(xù)不斷地交互過程中建構(gòu)的。對(duì)一個(gè)人的憤怒表達(dá),有許多解釋的角度,如攻擊的語言內(nèi)容是指向自己的還是維護(hù)自己的(在罵別人)。個(gè)體從情緒情景中所感受到的情緒特征,絕不只是用憤怒或者不憤怒這個(gè)維度來評(píng)價(jià)的。接收者可能會(huì)考慮情緒表達(dá)者是否對(duì)自己有惡意、是否在呵護(hù)自己等角度來進(jìn)行“識(shí)別”,進(jìn)而形成不同的情緒體驗(yàn),并做出不一樣的行為反應(yīng)。因此,整個(gè)過程的動(dòng)態(tài)性和復(fù)雜性只能在持續(xù)地建構(gòu)過程中才能實(shí)現(xiàn)。相應(yīng)地,用簡單的情緒分類來理解情緒并不真正符合日常生活中人們的情緒體驗(yàn)與行為反應(yīng)。總之,個(gè)體對(duì)恐懼、憤怒、喜悅和悲傷等情緒的體驗(yàn)都是融合了情感表征、身體知覺、對(duì)象知覺、評(píng)價(jià)觀念和行為沖動(dòng)等內(nèi)容而形成的整體性體驗(yàn)。從這個(gè)角度來看,情緒并非一個(gè)靜態(tài)結(jié)構(gòu),而是一個(gè)建構(gòu)過程。

建構(gòu)論的觀念最初源自20世紀(jì)初的社會(huì)學(xué)、人類學(xué)和社會(huì)心理學(xué)的社會(huì)互動(dòng)理念,后經(jīng)皮亞杰、維果斯基等的闡釋與倡導(dǎo),到20世紀(jì)末形成了一股強(qiáng)調(diào)社會(huì)互動(dòng)和生成認(rèn)知,強(qiáng)調(diào)動(dòng)作導(dǎo)向的哲學(xué)、社會(huì)學(xué)和心理學(xué)思潮。建構(gòu)論反對(duì)古老的理性主義,強(qiáng)調(diào)知識(shí)不是人出生時(shí)預(yù)留在頭腦中的;它也反對(duì)經(jīng)驗(yàn)主義,認(rèn)為知識(shí)不是物理的或社會(huì)的環(huán)境給主體的認(rèn)知碎片組合而成的。建構(gòu)論認(rèn)為,知識(shí)是主客體互動(dòng)過程中生成的[83]。按照這樣的觀點(diǎn),情緒識(shí)別不是基于人先天擁有的對(duì)“基本情緒”的表達(dá)和識(shí)別知識(shí);也不是通過條件反射式的經(jīng)驗(yàn)學(xué)習(xí)而獲得的能力。情緒本身——包括表達(dá)與識(shí)別——是人際互動(dòng)過程中逐漸生成的體驗(yàn)。

2013年,Clark[84]提出了一個(gè)基于貝葉斯計(jì)算和神經(jīng)科學(xué)的預(yù)測(cè)加工理論(predictive processing)。根據(jù)預(yù)測(cè)加工理論,我們不再需要通過外在的知覺信號(hào)或行動(dòng)去推測(cè)個(gè)體內(nèi)在的“本質(zhì)”狀態(tài),因?yàn)槟欠N將個(gè)體的外部表現(xiàn)當(dāng)作其內(nèi)在狀態(tài)表征的觀念早已化作“老生常談”(stale old debates),應(yīng)該被拋棄了[85]。在預(yù)測(cè)加工理論的框架中,腦被看作是一個(gè)基于貝葉斯概率理論來評(píng)估環(huán)境信息的計(jì)算機(jī)。在個(gè)體與環(huán)境的互動(dòng)過程中,大腦對(duì)互動(dòng)進(jìn)程中的先驗(yàn)概率(prior probability)、預(yù)測(cè)信號(hào)(prediction-signal)、后驗(yàn)概率(posterior probability)、似然性(likelihood)等進(jìn)行實(shí)時(shí)地評(píng)估和計(jì)算,從而實(shí)現(xiàn)最小知覺偏差(minimise prediction error)。通過最小知覺偏差,個(gè)體與環(huán)境的互動(dòng)得以維持在適度的平衡范圍內(nèi),也就是大腦實(shí)現(xiàn)的“最佳猜度”(best guess)。關(guān)鍵是,這種最佳猜度是行動(dòng)導(dǎo)向的(action-oriented),即,是在個(gè)體與環(huán)境的互動(dòng)過程中形成和調(diào)節(jié)的[74]。因此,預(yù)測(cè)加工理論實(shí)際上是一種基于貝葉斯計(jì)算的建構(gòu)論。

從預(yù)測(cè)加工理論的建構(gòu)論視角來看,我們不應(yīng)該努力地做所謂的“情緒分類”,即,不再基于外部的行為與生理指標(biāo)來推測(cè)當(dāng)事人的內(nèi)部有哪種情緒狀態(tài);而應(yīng)該基于個(gè)體與他人及情境的互動(dòng)與建構(gòu)去做“情緒理解”。唯有這樣,我們?cè)谇懊骊愂龅那榫w識(shí)別所遭遇的諸多困難有可能得以化解。

在日常生活中,如果我們一開始就給他人的反應(yīng)貼上具體的情緒標(biāo)簽,那么,很可能會(huì)因?yàn)榍榫w標(biāo)簽的片面性而誤解了對(duì)方的情緒,或者因?yàn)檎Z言的抽象性而抽離了對(duì)方反應(yīng)的生態(tài)意義,使得具身(embody)的情緒體驗(yàn)變成了一個(gè)抽象的情緒識(shí)別命題。在現(xiàn)實(shí)的交互過程中,情緒體驗(yàn)是非常具體而鮮活的。人們會(huì)在交互過程中不斷地建構(gòu)、修正對(duì)他人情緒的理解。例如,當(dāng)我看到一個(gè)人獨(dú)自安靜地坐在角落,可能會(huì)先形成一個(gè)假設(shè):他現(xiàn)在不高興。基于這個(gè)假設(shè),我會(huì)進(jìn)一步預(yù)測(cè):如果我現(xiàn)在去和他開玩笑,極有可能會(huì)激惹他。這個(gè)預(yù)測(cè)更進(jìn)一步激發(fā)我的下一個(gè)假設(shè):在這個(gè)情景中我最好不要去打擾他。這個(gè)假設(shè)將繼續(xù)觸發(fā)了我對(duì)與這個(gè)人互動(dòng)的下一步的預(yù)測(cè)……;在這個(gè)過程中,每一個(gè)環(huán)節(jié)上的假設(shè)都會(huì)激活下一步的預(yù)測(cè),這個(gè)預(yù)測(cè)又進(jìn)一步成為下一個(gè)環(huán)節(jié)的假設(shè)……。對(duì)當(dāng)事人而言,在特定情景中,時(shí)刻T的假設(shè)-預(yù)測(cè)鏈必然是以時(shí)刻T-1的假設(shè)-預(yù)測(cè)鏈為前提而建構(gòu)的,而在時(shí)刻T-1之前,還有時(shí)刻T-2……[86]

同時(shí),從對(duì)方的角度來看,那個(gè)靜靜坐在角落的人可能原本并沒有特別的情緒,只是安靜地坐在那里。但他覺察到我靠近他,又安靜地離開,他也會(huì)形成一系列的假設(shè)-預(yù)測(cè)鏈,例如:這個(gè)人平常會(huì)與我開玩笑,今天卻表現(xiàn)得很冷漠,也許是他對(duì)我有不滿意;也許是因?yàn)槲抑笆裁词虑榱钏桓吲d了……在這樣的假設(shè)-預(yù)測(cè)鏈中,當(dāng)事人事實(shí)上體驗(yàn)到了某種不高興的情緒。因此,他的不高興情緒并不是從一開始被我“識(shí)別”出來的,而是在我和他的互動(dòng)過程中建構(gòu)出來的。

如果我在進(jìn)入這個(gè)情景中的第一時(shí)間形成的假設(shè)是:他看起來很安靜,我可以過去和他開開玩笑……則在我與他之間將形成另外不同的互動(dòng)模式,雙方也將在另一種互動(dòng)模式中建構(gòu)另外的情緒體驗(yàn)。總之,在這個(gè)過程中,這個(gè)人的情緒體驗(yàn)和表達(dá),以及周圍人對(duì)他的情緒的理解都不是根據(jù)一個(gè)時(shí)刻的靜態(tài)的表現(xiàn)就確定了的,而是在雙方的互動(dòng)過程中,根據(jù)反饋信息逐漸地校準(zhǔn)關(guān)于對(duì)方的情緒的評(píng)估,并最終讓當(dāng)事人的情緒體驗(yàn)與之前的預(yù)測(cè)逐漸靠近,實(shí)現(xiàn)了最小知覺偏差。預(yù)測(cè)加工理論為這個(gè)互動(dòng)建構(gòu)過程提供了一個(gè)可計(jì)算的模型。

7 結(jié)論

綜上所述,自動(dòng)表情識(shí)別作為心理學(xué)與計(jì)算機(jī)科學(xué)等深度交叉的前沿領(lǐng)域,受到了眾多專家的關(guān)注。我們梳理自動(dòng)表情識(shí)別的心理學(xué)基礎(chǔ)、情緒的面部表達(dá)方式、表情數(shù)據(jù)的演化、表情樣本的標(biāo)注等方面的理論觀點(diǎn)與實(shí)踐進(jìn)展,然后分析指出自動(dòng)表情識(shí)別面臨的主要問題,最后基于預(yù)測(cè)加工理論的建構(gòu)觀點(diǎn),提出注重交互過程中的表情“理解”。我們認(rèn)為,情緒理解是動(dòng)態(tài)的過程,需要根據(jù)事件的進(jìn)展而不斷建構(gòu)并修正自己的解釋。因此,自動(dòng)表情識(shí)別的研究重點(diǎn)應(yīng)該著眼于對(duì)個(gè)體在與其他人或場(chǎng)景進(jìn)行互動(dòng)過程中的心理體驗(yàn)的理解。基于此,我們有理由期待,自動(dòng)表情識(shí)別的有效性可以進(jìn)一步提高,并開啟表情識(shí)別的2.0時(shí)代。

猜你喜歡
情緒數(shù)據(jù)庫
小情緒
小情緒
小情緒
小情緒
小情緒
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
主站蜘蛛池模板: 亚洲最新地址| 免费啪啪网址| 国产日韩精品一区在线不卡| 久久成人免费| 日本一区二区三区精品视频| 91亚瑟视频| 免费毛片视频| 先锋资源久久| 成人综合网址| 在线观看国产精品第一区免费| 日韩精品免费在线视频| 亚洲成a∧人片在线观看无码| 久久一色本道亚洲| 亚洲丝袜中文字幕| 国产白浆一区二区三区视频在线| 色天天综合久久久久综合片| 久久久久免费精品国产| 在线观看视频一区二区| 亚洲高清中文字幕在线看不卡| 小说 亚洲 无码 精品| 久久精品91麻豆| 中国精品自拍| 午夜在线不卡| 国产精品久久久久久久久kt| 成年人免费国产视频| 亚洲AⅤ综合在线欧美一区 | 综合色区亚洲熟妇在线| 最新无码专区超级碰碰碰| 91精品久久久久久无码人妻| 免费激情网址| 日本黄色不卡视频| 爆乳熟妇一区二区三区| 国产免费一级精品视频| 毛片基地视频| 97亚洲色综久久精品| 国产白浆视频| 欧美性精品不卡在线观看| 91精品网站| 国产成人一级| 国产精品主播| 日日拍夜夜操| 国产日韩久久久久无码精品| 成人亚洲国产| 午夜啪啪福利| 97色婷婷成人综合在线观看| 蜜臀AV在线播放| 亚洲欧美日韩久久精品| 国产乱人乱偷精品视频a人人澡| 99久久婷婷国产综合精| 人妻无码中文字幕第一区| 久久伊伊香蕉综合精品| 欧美午夜网| 国产区成人精品视频| 夜色爽爽影院18禁妓女影院| 福利一区三区| 欧美亚洲国产视频| 最新国产成人剧情在线播放| 色天天综合久久久久综合片| 亚洲女人在线| 精品欧美一区二区三区久久久| 国产制服丝袜91在线| 免费av一区二区三区在线| 中文字幕不卡免费高清视频| 91av成人日本不卡三区| 国产免费久久精品99re不卡| 嫩草国产在线| 亚洲A∨无码精品午夜在线观看| 亚洲福利视频网址| 亚洲天堂首页| 亚洲国产成人久久精品软件| 国产屁屁影院| 欧美综合一区二区三区| 国产第二十一页| 成人精品在线观看| 免费观看无遮挡www的小视频| 免费国产在线精品一区| 婷婷色一二三区波多野衣| 亚洲精品大秀视频| 久草热视频在线| 无码高清专区| 久久免费视频6| 亚洲成在线观看 |