王志良 鄭思儀 王先梅 王巍
心理理論(theory of mind)是Premack和Woodruff在1978年研究黑猩猩的認知能力時首先提出的一個概念,是指了解自己和他人的愿望、信念、意圖等心理狀態并據此推斷他人行為的能力。在社會化過程中,心理理論能夠預測他人情感和認知狀態、操作與控制日常的社會環境,有助于我們與他人合作、競爭、開展良好的人際交往,為人的生活和發展所必需。
人機交互技術(human computer interaction,HCI)是研究人、計算機以及它們之間相互影響的技術,是人與計算機之間傳遞交換信息的媒介和對話接口。以人為中心、自然高效將是新一代人機交互的主要目標。當前人機交互技術大部分僅局限于被動地接受用戶的指令和控制,不能主動地理解用戶的目的或意圖,無法推斷用戶的心理狀態,缺乏感知和引導的能力。就像Matthew Turk在文獻中提到,計算機只能一直等待用戶的輸入,盡管用戶當前已經離開或者中途被打斷去做其他事。當用戶對某項任務已經十分厭煩甚至接近崩潰邊緣時,計算機都無法知曉,仍在進行不停的運算。因此,要想使計算機走進人的世界,就必須賦予計算機擁有像人一樣的心理認知能力,能夠根據人的行為舉止對其心理狀態進行合理推斷,理解人的行為和意圖,從而保證高效、自然、和諧的人機交互。
現代心理學研究中,把心理現象劃分為心理過程、個性心理特征和心理狀態。心理狀態是指心理活動在一定時間內的完整特征,是心理活動的基本形式之一。如注意、疲勞、緊張、輕松、憂傷、喜悅等。它兼有心理過程和個性心理特征的特點,既有暫時性,又具有穩定性,是心理過程和個性心理特征聯結的中介環節。心理狀態的表現是多方面的,它可以表現在知、情、意的任何一個方面。研究、考察人的心理狀態,不僅要描述其表現形態,而且要把握其具體成因,這樣才有應用價值。
心理狀態理解(mind-reading),也稱心理狀態分析或精神狀態分析,它源自于心理學中的一個術語,是指一種能推斷出他人心理狀態或精神狀態的能力。在日常生活中,心理狀態理解可以認為是一種“看似能辨別或有能力辨別他人的想法”或“憑直覺去猜測或了解他人的想法”的行為。Baron-Cohen和Realo等從科學的角度闡述了心理狀態理解這一概念:即一個人能夠從非語言手段及可觀察到的行為動作中推斷出他人的心理狀態。
心理狀態理解是人際交往中人的一項基本心智活動,其目的是通過觀察交往對方的行為舉止推測其心理狀態,理解其交互的意圖,并以此指導、調整自己的行動以及預測對方可能采取的決策。心理狀態理解能夠讓我們從交流中判斷對方的意圖,在談話中了解對方的興趣,通過領會對方的心理狀態來改變其想法和行動。人類的心理狀態理解能力從童年時期就開始出現并發展,18~30個月的嬰兒所能表現出的心理狀態包括情感、愿望、信任、思考、夢想和偽裝。5歲的時候,很多兒童就可以感知并理解他人的心理狀態,并用其去推測這些人的行為動作。雖然在日常生活中,心理狀態理解似給人以微妙和難以捉摸的感覺,但它是人類實現社會功能的基礎,是體現人類社會智能的重要組成部分。
心理狀態理解機制主要涉及到兩個部分:社會感知部分和社會認知部分。它們產生于人腦的不同區域,發展于不同的年齡階段,也會因不同的種族人群產生差異。社會感知部分主要是通過即時觀察到的可利用信息來判斷當時的心理狀態。例如,可以根據一個人的面部表情,或加之語音語調等因素,判斷他此刻正處于“困惑”的心理狀態,這屬于對外部刺激自下而上的(bottom-up)處理方法。社會認知部分主要是對人的心理狀態的合理推測,包括對目的的解釋和行為的預測。它涉及到更多的認知能力,即對抽象模型自上而下(top-down)的處理方法,描述的是人的行為與其相對應的心理狀態之間的映射關系。
當然,面向心理狀態理解的社會感知和社會認知本質上都屬于不確定性問題,所以不可能百分之百地確定人的心理狀態。顯然,心理狀態不可能被直接觀察到,而是要通過觀察人的外在行為、環境因素、上下文場景等前后信息進行推測。從人機交互角度來講,心理狀態理解就是讓計算機對用戶的心理狀態具有認知能力,它的輸入應該為一系列觀察值,如視覺信號、聽覺信號、觸覺刺激、環境因素等,輸出則是一系列相關的心理狀態。傳統的表情識別和基本情感的識別,只是讓計算機具有相對簡單的模式識別和分類的能力,但不具備推理和判斷的能力。而心理狀態理解在識別和分類的基礎上,綜合人的情感及其它非語言細節因素,對人的意圖、興趣、注意和思維等進行了推理和判斷,它對獲取的信息進行重新編碼、存儲、提取,按照一定的規則進行重新組合,再根據不同組合所代表的意義和持續的時間,推斷出不同的心理狀態。
“認知”源自于心理學的概念,《辭?!穼ⅰ罢J知”解釋為人類認識客觀事物、獲得知識的活動,包括知覺、記憶、學習、言語、思維和問題解決等過程,是人對外界信息進行積極加工的過程。認知的構成信息其實是“誰、什么、哪里、何時、怎樣”這幾個問題的答案?!坝嬎恪笔菍λ蓄愋托畔⑻幚淼慕y稱。根據 Smith的分析,目前對“計算”至少存在 6種不盡相同的解釋,而在認知科學中主要表現為3種:形式符號操作、圖靈意義上的可計算和信息加工過程。
認知計算源自于模擬人腦的計算機系統的人工智能。20世紀 90年代后,研究人員開始用“認知計算”一詞,以表明該學科用于教計算機像人腦一樣思考,而不只是開發一種人工系統。傳統的計算技術是定量的,著重于精度和序列等級,而認知計算則試圖解決生物系統中的不精確、不確定性問題。
認知計算是一種自上而下的、全局性的統一理論研究,旨在解釋觀察到的認知現象(思維),符合已知的自下而上的神經生物學事實(腦),可以進行計算,也可以用數學原理解釋。它尋求一種符合已知的有著腦神經生物學基礎的計算機科學類的軟、硬件元件,并用于處理感知、記憶、語言、智力和意識等心智過程。哈佛大學的 Valiant認為,與其他方法相比,認知計算主要有以下3個特點:1)所有存儲、學習或記憶都是用先前獲取的信息通過承載網絡執行的簡單算法過程;2)系統把持續學習作為后臺活動;3)在更加復雜的認知處理中,如分析復雜情景或推理時,內部計算擁有一個重要的時間域和需要保持的狀態信息。在人機交互領域,認知計算與人工智能所關注的重點存在著一些差別。人工智能重在研制一種能夠實現人類認知功能的人工機器,而認知計算則重在研究可以模擬人類認知功能的計算原理和方法。
心理認知是非常復雜的過程,通常包括感覺、知覺、學習、記憶、注意、思維和語言等許多心理過程。1978年,Premack和Woodruff觀察成年黑猩猩推測人物心理狀態的實驗,其結果揭示黑猩猩具有簡單的心理推測能力,并由此提出“心理理論”的概念,激發大家在研究心理認知方面興趣。此后這方面的相關理論、方法和實驗結果就不斷在心理學文獻上出現。以下從3個方面對近年來國內外心理認知計算的研究現狀進行總結。
神經系統是人體重要系統之一,包括中樞神經系統和周圍神經系統,其中腦和脊髓合稱中樞神經系統。腦本身也是一個復雜的系統,大量的神經生物學、實驗心理學和功能成像實驗給出腦活動的許多知識,表明腦是心理活動的物質基礎。心理和腦構成統一的系統,在心腦統一體中,心理并不是實體,而是腦的功能。
Luria等通過對腦損傷病人的臨床觀察和康復訓練得到如下認識:腦一定部位的損傷會引起一定的心理功能障礙,但腦的某一種功能并非僅和腦的某一部位相聯系,在腦的各個部分之間存在緊密聯系。Zeki等通過大量神經解剖學和神經心理學的實驗表明,人腦由大量的腦功能子系統組成,部分腦功能子系統可以相對獨立地進行信息加工。
各種無損傷腦成像技術的迅速發展提供腦活動的許多實驗資料。實驗表明,腦內存在許多功能分離而又相互協同工作的腦區,人在進行不同的心理活動時,腦內有不同的腦區被激活。Gallagher等利用功能磁共振成像(functional magnetic resonance imaging,fMRI)技術揭開心理認知的神經生物學基礎。
事件相關電位(event-related potential,ERP)是腦波的一種,經由將記錄到腦電圖(electroencephalography,EEG)的腦部原始生理信號進行再分析處理而得,與主動心理活動伴隨產生的神經電信號通常有P300、N400和N200波等。其中,P300波已被公認為研究人的認知活動和判斷人的認知能力的有用指標。Woldorff等采用聽覺刺激進行的一項研究發現,在刺激呈現大約20~50 ms后,針對目標刺激的事件相關電位明顯大于針對非目標刺激的事件相關電位。
Raichle介紹了認知神經科學家用來研究認知過程的正電子發射層析攝影掃描技術(positron emission tomography,PET),這是一種基于減法邏輯的方法,可觀察由純實驗條件所引起的腦興奮區域和興奮水平。PET曾多次被用來研究情景記憶(episodic memory),當被試者提取情景記憶時,右前額葉顯示較其他記憶提取時更高的興奮水平。
Anderson等運用磁共振成像(MRI)和腦磁圖(magnetoencephalograghy,MEG)技術研究視覺皮質V5區的工作特點。他們采用MEG技術研究發現V5區對運動—對比模式(motion-contrast pattern)反應更為強烈而對顏色卻沒有什么反應。根據這一結果并結合以前通過PET和 fMRI獲得的證據作出結論:V5區的主要功能是把運動目標從其背景中迅速檢測出來。此外,他們還發現V5區是在V1區(初級視覺皮層)對運動-對比模式興奮大約20 ms后開始興奮。
LeDoux和Adolphs等揭示腦的部分區域與情感的高級處理階段有關。Purves等研究發現,與處理情感有關的腦區域是和決定下一步行為的腦組織結構相互連接,相互影響的。這些發現強調情緒與認知的相互影響,并引導人們對腦有新的認識:人腦不再是一個單純的認知信息處理系統,而是一個情緒與認知相互綜合的系統。因此,一個準確的用戶模型建立需要同時綜合情緒和認知過程,這樣才能驅動用戶的推理和行為決策。
這些心理認知的神經生物學研究成果對我們了解高級社會認知能力是如何在人腦中形成以及它在日常生活中所發揮的作用非常重要。同時,這些研究成果也是建立心理認知計算模型的理論基礎。
心理狀態主要包括情感狀態(如高興、悲傷、憤怒、恐懼、驚奇、厭惡等)、認知狀態(如興趣、思考、贊同、否定、不確定等)和意志狀態(如克制、猶豫、鎮定等)3部分,它們相互作用、相互影響,組成復雜的心理感受,共同影響著我們的決策和行為。
對情感狀態的識別與分析,最早是受到美國麻省理工學院 Picard教授提出的“情感計算”(affective computing)的啟發。1997年,Picard教授出版了一本專著《Affective Computing》,認為情感計算主要分為3個方面,即讓機器發自內心地擁有情感驅動力、讓機器表現得似乎擁有情感以及讓機器能夠識別理解人類的情感表現。20多年以來,在美國、日本、英國、德國、荷蘭、法國、印度和新加坡等國家都有專門進行情感狀態識別的研究小組。美國MIT媒體實驗室已經開發出數種用于測量心理信號的傳感器,如用于測量皮膚電信號的皮膚電反應傳感器、血流脈沖傳感器、肌動電流圖傳感器、呼吸傳感器等。壓力感應鼠標和自動面部表情分析也作為非語音手段,對人類的情感狀態進行識別。除此之外,還有一些基于用戶情感狀態做出反應的實用性產品,例如,一系列關于情感學習(affective learning)的產品,陪伴輔導孩子的學習伙伴(affective companion),能檢測用戶心理受挫并調節用戶情緒的智能體,以及教育性游戲(educational game),遠程醫療,社會服務機器人,康復治療技術和能與用戶交流對話的智能體。
在國內,清華大學、中國科學院計算技術研究所和自動化研究所、北京航空航天大學、北京理工大學、北京科技大學等也分別從不同方面對情感狀態進行了深入的研究。
中國科學院自動化研究所的黃力行等認為語音和面部肌肉動作是用于情感識別的2個最重要的模態。在雙模態情感識別中,給不同的特征賦予不同的權值有利于充分利用雙模態信息。他們提出一種基于Boosting算法的雙模態信息融合方法,能夠自適應地調整語音和人臉動作特征參數的權重,從而達到較好的識別效果,其基本情感狀態的識別率達84%以上。
哈爾濱工業大學的金輝和中國科學院的高文提出一種人臉面部混合表情識別系統。首先把臉部成各個表情特征區域,分別提取其運動特征,并按時序組成特征序列;然后分析不同特征區域所包含的不同表情信息的含義和表情的含量;最后通過概率融合來理解、識別任意時序長度的、復雜的混合表情圖像序列。其各種表情的總體識別率達到96.9%。
北京航空航天大學的薛雨麗、毛峽等使用自主開發的實時人臉表情識別系統,從BHU表情數據庫的所有單一表情視頻中自動檢測出人臉并進行篩選,作為表情分類器的訓練樣本。采用積分圖像和基于AdaBoost方法對包括打哈欠、好奇、厭惡等9種表情進行識別。
哈爾濱工業大學的朱永崇在分析傳統語音識別方法對于長時特征和短時特征利用程度方面的優缺點之后,提出可以有效結合長時和短時特征的多子模式加權投票模型,利用HMM作為短時特征訓練識別工具,KNN作為長時特征訓練識別工具,再用隸屬矢量和權值系數對多個子模式的識別結果進行融合,對非特定人的憤怒、高興、平靜、悲傷4種情感獲得61.06%的平均識別率。
清華大學的魏冉等對處于不同表情中人臉特征差異進行分析。針對面部表情改變時,變化最大的 3個部分——嘴、額頭和眉毛在形狀、紋理和距離上的差異,提出用模板匹配法提取嘴部特征,用邊緣檢測法提取額頭特征,用外輪廓檢測法提取眉毛特征,并綜合這三者的輸出得到最終識別結果的多特征面部表情識別系統,平均識別率為85.7%。
北京理工大學的續爽等在圖嵌入的框架下提出一種根據表情相似度構建鄰接權重圖的方法來學習人臉表情子空間。數據集中人臉圖像的表情以半監督學習的方式估計,人臉圖像之間的表情相似度由模糊隸屬度矢量之間的內積度量,與個體、光照、姿態等人臉差異無關。在得到的子空間內,相似表情的人臉圖像位于流形上的鄰近位置,表情數據在子空間內按語義分布,很好地揭示表情模糊、演變的特性。北京科技大學的王巍等以人工心理學的理論和方法為基礎,對人的心理活動進行人工機器模擬,提出人機交互中的個性化情感模型。
總的來看,目前國內外情感狀態研究最多的仍是集中在對 6種基本情感(高興、悲傷、憤怒、恐懼、驚奇、厭惡)的識別,及少量非基本情感狀態(如困惑、煩躁、悔恨等)的識別,卻幾乎沒有涉及到對心理狀態中認知狀態(如贊同、否定、注意、思考等)的研究,而單純識別情感狀態在人機交互中對理解用戶意圖和推斷用戶心理認知狀態是有一定局限性的。
與情感狀態相比,人機交互中的心理認知狀態、意志狀態乃至整個復雜心理狀態的研究還非常少。特別是在國內,心理狀態的機器理解主要集中在情感識別方面,很少涉及到心理認知方面。
根據測量手段不同,可將心理認知狀態的研究分為基于生理信號、語音信號、視覺信號(包括面部表情和行為姿態)及多通道信息融合等多種方法。其中,生理信號主要是通過采集人的皮質醇水平、心率、血壓、呼吸、皮膚電活動、掌汗、瞳孔直徑、事件相關電位等,并采用波形分析、頻譜分解、統計特征計算等對生理信號進行描述,最終通過統計產品與服務解決方案(statistical product and service solutions,SPSS)、近鄰、距離、多層感知機(multi-layer perception,MLP)、神經網絡等方法進行分類。語音信號主要是根據聲調在時間構造、振幅構造、基頻構造和共振峰構造等特征方面的特點和分布規律進行測算和分析,并以此為基礎或模板,推斷說話人所隱含的心理狀態。面部表情主要是通過眼部、面部和口部肌肉的變化(如五官的幾何特征、局部紋理特征等),建立面部表情與心理認知狀態之間的映射關系。行為姿態主要是根據面部以外的其他身體行為(如肩部動作、胳膊運動、手勢等肢體語言)對心理認知狀態進行分析。
Chen等在對6種基本情感狀態進行研究的基礎上,對包括興趣(interest)和迷惑(puzzlement)等在內的 4種心理認知狀態進行了初步研究。
Baron-Cohen提出心理狀態理解的神經認知機制(neurocognitive mechanism),包括一系列能夠對其他個體的心理狀態進行歸因的模塊。他提出的視線方向檢測器(eye direction detector,EDD)可以檢測出眼睛的位置,并且通過虹膜相對于鞏膜的位置估計視線方向,借此對個體的心理狀態進行歸因。
Liang Yulan等通過攝像頭采集駕駛員的眼動信息來描述駕駛員的認知分心,并用貝葉斯網絡、SVM等方法進行分類。實驗結果表明,眼動信息中的眨眼頻率與注視指標很適合用于評價駕駛分心。
Kutila等通過頭部姿態和眼睛的注視方向等信息來分析駕駛員的視覺分心,將眼動信息與車道保持信息相結合來分析駕駛員的認知分心,最后用SVM對數據進行分類。實驗結果表明,該方法能夠檢測出80%的視覺分心與 68%~86%的認知分心。
Ioannis等將眼動信息(眼睛閉合時間比、眨眼頻率等)與EEG、EOG等生理信號融合起來,采用模糊專家系統對駕駛員進行疲勞判斷,取得較好效果。
Qiang Ji等綜合考慮面部表情、眼部運動、頭部運動、視線變化等因素,在分別考察了單個信息的分類效果后,采用貝葉斯網絡對駕駛員的疲勞程度進行判別。
美國麻省理工學院的個人機器人小組和斯坦—溫斯頓工作室發明一個走向認知的社交智能機器人。它包含內置情感移情系統,可以揣測出所遇到的人的目標和意向。這個機器人包括一套評估和模仿可察覺面部表情的系統,會將特定的面部表情與相關的反應聯系在一起。它還安裝了評估人類聲音性質的特定傳感器,聲音的反饋強化它對他人面部表情和個人情感之間的聯系。
英國劍橋大學計算機實驗室的Peter Robinson教授領導的課題組采用面部表情結合頭部姿態的變化,對心理狀態理解進行研究,分析面部表情、頭部姿態與 6種特定心理狀態之間的映射關系,并首次將心理狀態的自動識別應用于人機交互領域。2009年,Tal Sobol-Shikler和Peter Robinson教授又發表通過語音信號對同時發生的多種心理狀態進行識別的文章,并將配對法和投票法相結合進行分類,該系統對Mind Reading DVD數據庫測試的識別率達到83%。
在多種測量方法中,由于面部是人類表達心理狀態的最自然途徑之一,它除了表達情感之外,還能發出社交信號,如繼續交談或轉換話題等。頭部的姿態、轉動和視線盯視方向在心理狀態理解方面也有著重要的暗示作用。如Haidt研究發現,一種厭惡的盯視、一個克制的微笑和一個頭部的轉動都可能代表“困窘”的信號。Langton強調,頭部轉動和視線盯視方向在檢測注意力焦點時起著非常關鍵的作用。加之面部信息的采集是非侵入式的,大部分采集設備價格低廉,應用范圍廣,因此基于面部表情的心理認知狀態推斷是目前研究最多的方法之一,而多通道信息融合則是未來心理認知發展的主要方向。
近幾年,隨著認知心理學、認知神經科學及智能科學的發展,對心理認知的研究逐漸從心理學和神經生物學領域過渡到人機交互領域。本文在總結國內外研究現狀的基礎上,從模式提取和模型建立兩個方面,針對心理認知在人機交互領域中可能的發展趨勢進行簡要分析,并從人類視覺和計算機視覺的分層對比中,提出心理狀態視覺認知計算的模型框架。
在 Baron-Cohen的心理狀態分類法中,一共有412種心理狀態。這412種心理狀態又根據不同的心理特征和強度被分為24個不同的心理狀態組群,其中包括我們所熟悉的6種基本情感狀態(如高興、害怕、厭惡等)和非基本情感狀態(如煩躁、懷疑等),以及心理認知狀態(如感興趣、同意、不確定等)。
針對人機交互領域中對人的目的、意圖、態度等心理認知狀態理解的需求出發,以Baron-Cohen的心理狀態詞條為基礎,將若干具有相似特征的心理認知狀態進行融合,結合人類視覺認知機理以及計算機對圖像信息的實際處理能力,形成心理認知狀態模式分類及表現形式。
隨著神經生理學、認知科學、計算神經科學等學科的蓬勃發展,大量生理解剖學和心理學的事實為人們對生物視覺系統的深入理解提供了豐富的實驗基礎。研究表明,整個人類視覺認知過程包含 3層結構:感知過程、思維過程和認知過程。在人類視覺中,感知過程是信息獲取階段,完成將視覺轉換為圖像的任務,屬于計算機視覺中對應的圖像處理過程;思維過程是信息處理階段,完成將圖像轉換為符號(數據)的任務,屬于計算機視覺中對應的圖像分析過程;認知過程是信息再生和存儲階段,完成將符號轉換為知識的任務,屬于計算機視覺中對應的圖像理解過程。只有建立在人類視覺認知的基礎上,心理狀態的圖像理解才能借助于計算機模擬人類視覺過程的信息獲取,并利用人工智能方法,在人類智能的水平上實現對心理狀態的推理、識別、學習和解釋能力。借鑒人類視覺認知的3層結構,提出一個多模態信息融合的多層級心理狀態視覺認知計算模型框架。該模型根據人類對自身或他人心理狀態的理解過程,結合認知科學中兩種主流的信息加工方法——自下而上的數據驅動(data-driven)和自上而下的模型驅動(model-driven),融合定量分析與定性分析、多模態信息、符號推理、知識表達等信息領域的成熟技術,建立心理狀態與外在行為(包括面部、頭部、眼睛、視線等)的映射關系。
心理狀態視覺認知計算模型主要包括信號輸入、低層特征提取、中層目標識別和高層心理狀態推理4個層次。其中信號輸入主要是通過攝像頭采集動態視頻或讀取事先采集好的視頻圖像。低層特征提取,是把以“數字”形式表示的輸入信號轉換成以“符號”形式表示的基元特征,完成信息從定量描述到定性描述的轉換。中層目標識別,是對目標進行特征分析和概念理解,即對低層特征的進一步整合、抽象與概括,形成更加符合人類思維的抽象語義符號。與低層特征相比,中層目標更接近于人的高級認知表征,符合人類對事物的描述與主觀認識,具有語義概念的特點。高層心理狀態推理,是在心理狀態模式知識庫的指導下,通過一組語義目標類別自動地對心理狀態進行非線性推理,實現心理狀態理解并為中層目標識別等其他過程提供上下文信息。充分利用心理狀態模式知識庫對未知類別的樣本進行心理狀態分類,是高層心理狀態推理模塊的主要任務。
不管在何時何地,人都存在心理活動,包括在與計算機進行交互的時候。和語言文字相比,潛意識中人們更經常選擇諸如語音語調、姿態及面部表情等非語言手段來表達他們的心理狀態。研究心理認知計算的目的是希望計算機能夠通過分析人的外在行為達到對其內部心理狀態的合理理解,特別是針對人機交互中人的目的、意圖或注意的推理判斷。該研究涉及許多技術領域,包括計算機科學、心理學、認知科學、社會學以及人類學等諸多學科,屬于交叉學科的基礎應用研究。它順應了計算機以人為本、個性化的發展方向,是一個嶄新的、前景廣闊并具有很大挑戰性的研究方向。當前,對心理認知計算的研究主要有以下3點意義。
1)可作為人工心理研究領域的一個算法支撐。人工心理是利用信息科學的手段,對人的心理活動的再一次人工機器實現。但目前人工心理的模型建立主要集中在以心理學理論為主的情緒、情感建模上,其算法只是涉及到人臉識別和表情識別,且模態也比較單一,缺乏從人類的認知機理角度出發,結合多生物特征信息,對心理狀態進行綜合分析,建立心理計算的模型和方法。
2)可提高計算機的認知能力。能夠從視頻序列中通過面部、頭部、視線方向和行為姿態信息來推斷人的心理狀態,彌補當前表情識別系統的不足;可作為用戶目的或意圖的指示器,提高計算機對視覺信息的理解能力與處理效率,使其自主地適應環境,更好地為人類服務。
3)可與其他的人機交互手段相結合,更有效地應用于諸如E-learning、商品導購、智能家居、服務機器人等實際生活場景中。
此外,包含認知狀態在內的心理狀態分析也是心理學、精神分析、醫學等多學科領域的重要研究課題。心理狀態分析的研究成果能為它們提供很有價值的研究手段和方法。例如,孤獨癥譜系障礙(Autism Spectrum Disorder,ASD)患者,可以很好地識別出他人的基本情感狀態,卻不能正確識別他人的心理認知狀態和其他非基本情感狀態。若能采用心理認知狀態分析系統對ASD病癥患者進行該方面的訓練,必將提高他們的社會交往能力。此外心理狀態分析系統還能對精神疾病(抑郁癥、狂躁癥等)進行病情監視,為醫生提供必要的輔助分析手段。
當然,心理狀態的視覺認知計算也存在著一定的困難。
1)人們日常交流中傳遞的信息,可以分為“顯性”信息和“隱性”信息?!帮@性”信息即通過觀察可直接得到的,如對象是誰(人臉識別)以及包括唇讀等識別;而“隱性”信息不能直接觀察得到,只能通過人的外在行為加之環境、上下文及先驗知識等因素進行綜合推理分析得出。心理狀態即是“隱性”信息,存在太多的不確定性因素,很難實現對它的完全正確推斷。同時,心理狀態理解還存在一個認知標準問題,即計算機能做到何種程度(達到多少百分比)就可認為是比較好的認知程度。
2)基于視頻圖像的面部分析是一個開放性的機器視覺研究問題,受到世界許多相關研究單位的廣泛關注,而在面部行為和心理狀態之間還缺乏一個普遍承認的映射關系,所采取的結合方式如何被社會認可,如何更具有說服力,是今后研究中必須面臨的一個問題。
3)多模態生物特征融合,在特征層、分析層和決策層都存在不同的融合算法,選擇哪個層進行融合,運用那些融合算法,才能使心理狀態推斷達到最佳效果,還沒有一定的結論,需要經過反復實驗得出。
4)在心理認知外在表現(如情感、表情)的識別中,幾乎所有基于統計的方法都被使用、改進過,其結果都大體相當。然而,基于統計的方法是自下而上信息加工的主要實現手段。單純的自下而上信息加工處理速度快,但容易陷入局部性和目標不明確性;而單純的自上而下信息加工能夠從全局考慮問題,避免局部性,但搜索問題解空間的速度太慢,最好的方法就是將兩者適當的結合。因此,如何有效地將兩者結合仍是視覺認知領域中一個長期的課題。
總之,由于涉及到計算機科學、認知科學、心理學、生理學等眾多學科領域,心理狀態的認知計算研究在國內外還處于起步和探索階段,有很大的發展潛力。希望本文能起到拋磚引玉的作用,引導國內更多的學者加入到該研究的探索中來。?
(摘自《模式識別與人工智能》2011年第2期)