毛涵,蔣偉
(中國傳媒大學視聽技術(shù)與智能控制系統(tǒng)文化部重點實驗室,北京100024)
隨著社交網(wǎng)絡的快速發(fā)展,圖片、視頻等多媒體規(guī)模不斷擴大,如何有效處理加工多媒體內(nèi)容已成為人們研究的焦點。以往的圖片、視頻研究集中在高層語義的認知層研究,如物體檢測與人臉識別。隨著多媒體傳播方式的變革,人們獲取信息不僅僅依靠視覺,同時聽覺也成為獲取信息的重要渠道。如今,人們不僅僅需要獲取多媒體的內(nèi)容信息,對多媒體的情感分析需求也日益迫切。有效利用視聽覺融合效應逐漸成為多媒體情感研究的突破點。視聽覺融合效應的研究可通過對聲畫關(guān)系和諧與對立問題來切入圖像的情感語義研究。基本研究思路是通過將視覺與聽覺模態(tài)分開,分別研究圖片和音樂的高層情感語義,通過建立情感空間,采用提取特征的方式探索圖片和音樂的情感語義。但圖片的情緒語義分析研究中常存在情感標注維度單一,理解困難等缺點,不利于對視聽融合下的情感語義研究,因而需要以視聽覺信息融合智能處理科學與技術(shù)為依托,建立針對特定場景的情感形容詞標注方式。如以影視劇運用方向為例,選取影視劇圖片庫進行情感形容詞標注。
近年來,對視聽覺融合效應下圖片的情感分析研究不斷受到重視。在圖片情感研究中,研究者通過實驗材料對情感誘發(fā),以揭示圖片與情感的關(guān)聯(lián)。因此,誘發(fā)情感的圖片選擇就顯得尤為重要,因而需要選取標準化的圖片作為實驗材料,通常是構(gòu)建標準化的圖片庫。
圖片庫按類型來分,可分為人物圖片庫和場景圖片庫;按照應用領(lǐng)域細分,可分為生物/醫(yī)學數(shù)據(jù)庫,遙感圖片庫等等。人物圖片庫包括人物表情圖片庫和人物動作圖片庫,人物表情圖片庫的構(gòu)建通常選取面孔表演者,要求表演者做出特定的情緒,如中國大學生情緒面孔表情圖片庫[1];人物動作圖片庫通過任務說明,要求表演者做出指定動作,如MINTA數(shù)據(jù)庫[2];場景圖片庫包括城市景觀圖片庫,藝術(shù)圖片庫,風景圖片庫等等。城市景觀圖片庫的構(gòu)建常采用統(tǒng)一規(guī)格攝像機記錄特定城市景觀,如Tighe建立的Barcelona城市圖片數(shù)據(jù)庫;藝術(shù)圖片庫通常為合成圖片,多為抽象畫,如Abstract圖片庫。風景圖片庫常按室內(nèi)場景和室外場景分類,按照場景的不同,構(gòu)建子類小庫,如Corel圖片庫按照Beach、Buildings、Mountains等共計10類圖片庫。生物/醫(yī)學數(shù)據(jù)庫通過對具體類型的物體如合成細胞,胚胎細胞切片觀察,構(gòu)成生物圖片庫,如Lauge Sorensen[3]構(gòu)建的肺氣腫細胞圖片庫;遙感圖片庫的圖片一般為航拍圖片或者衛(wèi)星拍攝圖片,如城市遙感建筑圖片庫[4]。這些圖片庫的構(gòu)建常采用標準化的流程,通過統(tǒng)一采集圖片的設備以及拍攝角度,得到標準化的圖片,這些圖片的標注通常是對圖片的特征進行標注,未涉及語義標注。通用的圖片庫構(gòu)建從圖片的特征角度出發(fā),未涉及到圖片的高層語義信息—情感語義,因而在針對圖片的情感分析研究,需要建立特定的圖片情感庫。
圖片情感研究第一步是選擇合適的圖片類型并進行情感標記選擇。建立標準的圖片情感庫需要采用標準化的情感標注方式,通常是采用情感空間模型描述方法。圖片情感空間建模的研究在國內(nèi)外還處在初級階段。圖片情感研究需要合適的情感形容詞和情感維度進行描述并建模,大多數(shù)研究者都是根據(jù)經(jīng)典的心理學理論或者專家經(jīng)驗構(gòu)建模型,沒有一個標準的表示模式。圖片情感模型的構(gòu)建主要基于情緒心理學中的兩個理論,分別是基本情緒理論和情緒維度理論:一類是將情感離散化,即將情感分為幾種類型,比如Ekman[5]把情感分為六種:高興、悲傷、驚訝、恐懼、憤怒和厭惡,Andrew Ortony根據(jù)事件、目標和動作等評價標準形成22種情感分類,即OCC模型[6];另一類是把情感映射到維度情感空間中,在連續(xù)的情感空間中對情感進行研究,即支持情感的維度論。在此基礎(chǔ)上,Mehrabian進行大量研究,提出了PAD三維情感維度模型[7],該模型隨后得到了廣大學者的認可。
不同的圖片情感數(shù)據(jù)集對情感的標注也不統(tǒng)一,有的數(shù)據(jù)集還未對外公布,目前已公布的常用圖片情感數(shù)據(jù)庫有:IAPS,CAPS,Art photo,Abstract等。在常用圖片情感數(shù)據(jù)庫中,OCC模型和PAD模型廣泛運用于情感圖片庫的標注,如在IAPS(國際情感圖片系統(tǒng))中,有1182幅紀錄片風格彩色圖片,分別從愉悅度(Pleasure),喚醒度(Arousal),優(yōu)勢度(Dominance)三個維度進行標注,圖片格式為jpg,分辨率未統(tǒng)一;CAPS又稱中文情感圖片庫,按照內(nèi)容清晰,含義明確,沒有文字并盡量突出刺激物本身的原則從2000多幅圖片中共選取852張具有東方特色的圖片,使用P、A、D三個維度進行情感標記,格式為bmp。但現(xiàn)有的情感圖片庫的類型多樣,但并未建立統(tǒng)一的標準,僅僅采用PAD值作為情感標注方式,不利于針對具體類型圖片的情感分析研究。
針對特定領(lǐng)域的情感圖片庫,國內(nèi)外研究者在圖片庫情感標注中除改進已有的心理學模型,如OCC和PAD情感模型外,常通過情感形容詞的方式對特定類型圖片庫進行標注研究。在常用圖片情感數(shù)據(jù)庫中,如構(gòu)建藝術(shù)情感圖片庫時,采取形容詞標注的方式,Colomb[8]等人便根據(jù)藝術(shù)繪畫中的線條、顏色、形狀所表示的情感特性,定義幾個常用的形容詞(溫暖的、清涼的、自然的等)來描述圖片的情感,并建立了情感空間;Yunhee[9]等人選取粗糙等多個形容詞對紡織圖片進行了標注;王上飛等[10-11]從心理學的“維量”思想出發(fā),使用維量分析方法建立了情感空間。曹建芳[12]提出一種融合了情緒、性格因素的OCC情感量化模型,用10個相關(guān)情感形容詞對來自SUN Data BASE的未知場景圖進行情感標注。張海波[13]對服裝面料圖片的情感描述進行研究并建立了面料圖片情感因子空間模型,將服裝圖片特征與七組情感形容詞聯(lián)系起來。付亞麗[14]對木材圖片特有的紋理特征進行分析,建立起木材圖片的情感(“華麗的”和“自然的”)特征空間。高彥宇[15]提取自然風景圖片的顏色、紋理等視覺特征,使用5組情感形容詞對Corel圖片庫中的部分風景圖片進行自動標識。
目前情感圖片庫除風景庫,服飾庫外,針對特定運用領(lǐng)域建庫較少,以影視劇情感研究為例,還未形成標準的情感標注體系。由于目前國內(nèi)建立的情緒詞庫都側(cè)重于考察普通詞語的情感色彩,而不是考察情緒詞的情感色彩,如羅躍嘉[16]等人建立的漢語情感詞系統(tǒng)(CAWS)從感情色彩角度考慮了普通詞的情感要素。情感詞(affective words)和情緒詞(emotional words)屬于不同類型的詞語。情感詞通過其語義理解和個人感知使個體對詞語的情感色彩進行把握;情緒詞直接描述人的情緒狀態(tài)(如愉快、興奮等)而非個人感知。同時,在國外大多數(shù)的圖片情感研究中幾乎都是情感詞[6]。這兩種詞語在圖片情感實驗研究中誘發(fā)的情緒體驗是不同的。將這些詞庫的情感詞直接作為標注材料難免會影響標注的結(jié)果。而采用單一的PAD值進行標注,標注類型單一,理解抽象,不利于標注者識別具體意義,同時不利于后期情感分析研究。目前研究中使用的情感標注詞未嚴格區(qū)分情感詞和情緒詞,使用已有的標準化的情緒詞在情感分析研究中具有一定的局限性,不能直接用于圖片標注。
以電影圖片情感內(nèi)容分析研究為例,國內(nèi)外學者常采用已有的情感空間模型,進行簡單的PAD值的標注,與電影領(lǐng)域相適應的情感形容詞標注尚未建立。有鑒于此,通過對聲畫關(guān)系和諧與對立關(guān)系的研究,有必要篩選出適用于視聽覺信息融合智能處理科學與技術(shù)的標準化影視劇圖片標注的情感形容詞,以推動特定類型圖片下情感的研究,即針對影視劇類型進行情感內(nèi)容分析,需要選取影視劇單幀圖片標準化情感標注詞。
為研究特定場景的圖片情感語義,需要建立與之匹配的情感空間。以影視劇圖片情感內(nèi)容分析研究為例,采用特定的情感詞建立情感空間。情感空間的建立可分為情感詞的確立,情感維度確定,情感空間維度物理意義確定,情感空間確立這四步;首先要進行情感形容詞的篩選。
特定類型圖片的情感標注形容詞的選取通常包括廣泛搜集,主觀評價,標準化篩選[12]等幾步。以影視劇單幀圖片為例,選取影視劇單幀圖片標準化情感標注形容詞可分為以下幾步:(1)收集表達心理情感的形容詞;(2)篩選針對圖片類型的情感形容詞;(3)對情感形容詞做相似性度量;(4)情感形容詞的確立。如下圖1所示。

圖1 電影圖片情感詞篩選流程
首先對形容詞進行初步匯總,確立情感形容詞的定義。情感形容詞是指直接描述愉快、興奮、痛苦等情感狀態(tài)的形容詞。為了保證情感詞的來源具有全面性和代表性,第一,選取經(jīng)典心理學家等對圖片情感的描述詞,第二,選取圖片情感領(lǐng)域研究者對圖片情感的描述詞,第三,來自《現(xiàn)代漢語詞典》收集的情感形容詞。避免字數(shù)對認知實驗(尤其是ERP和fMRI實驗)結(jié)果的干擾,在篩選過程中只保留字數(shù)為2的形容詞,得到160個備選形容詞。
在正式進行整理工作前,征求相關(guān)專家學者5人意見,就初步整理的160個詞語進行探討,包括對情感形容詞的理解和選擇標準,去除情緒形容詞。再通過去除在意義上相近的心理動詞,去除主觀評價色彩形容詞,保留絕對義性質(zhì)形容詞,對篩選形容詞而言,不能只從語義范疇去考慮,還要依據(jù)形式標準去判定。根據(jù)文獻的分析研究,情感形容詞的判定標準如下:
(1)能進入以下語句 “NP1+很+_。”
不能進入以下語句:NP1很+_+NP2
根據(jù)這項標準可以把情感形容詞和表示情感的心理動詞區(qū)分開。
(2)能進入以下語句:“NP1比NP2更+_。”
不能進入以下語句:NP1比NP2+_;
根據(jù)這項標準可以把表示絕對義的情感形容詞和表示相對義的形容詞區(qū)分開來。
(3)能進入以下語句:“NP1令人感到_。”
根據(jù)這項標準把表示情感形容詞和情緒形容詞區(qū)分開來。
在達成一致意見的情況下,開始正式的篩選詞匯工作。最后將篩選完成的情感形容詞100個情感形容詞作為實驗對象。
3.3.1 被試選取
被試選取中國傳媒大學理工科研究生20人,隨機分成2組,一組10人,實驗者從未參加過類似實驗。每組被試女性與男性被試比例不高于 2:1,平均年齡22±2 歲,所有被試者均身體健康,無明顯精神疾病,無色盲,視力或矯正視力正常。實驗前對被試使用貝克抑郁量表以及狀態(tài)-特質(zhì)焦慮量表進行評定(M 焦慮=31.89,SD=10.90;M抑郁=10.56,SD=6.66),所有被試均處于正常水平。實驗前告知被試實驗內(nèi)容,并簽署知情同意書。
3.3.2 情感形容詞確立
首先對情感形容詞以問卷調(diào)查的形式,選取可用于描述影視劇場景中的情感形容詞。將100個形容詞分為5組,每組20個形容詞,將20人分2組進行測試。
回收問卷20份,去除無效問卷1份,得到19份問卷,對其信度進行分析,得到Alpha信度系數(shù)為0.922,問卷信度良好。根據(jù)頻次統(tǒng)計,選取頻次超過11的詞語備選,共獲得49個情感形容詞。頻次統(tǒng)計如下圖2、圖3所示。

圖2 頻次統(tǒng)計圖

圖3 情感形容詞頻次統(tǒng)計圖
49個情感形容詞中在篩選時并未考慮去除語義上相似詞語,即存在近義詞,如愉快與開心就是一對近義詞,使用近義詞標注圖像情感時會產(chǎn)生語義重合,不利于后期語義分析。需要考慮通過語義的相似性進行去重。
則需要計算詞語之間的相似性,語義相似度的計算主要有兩種方法:一類是通過語義詞典,把有關(guān)詞語的概念組織在一個樹形結(jié)構(gòu)中來計算;另一類主要是通過詞語的上下文信息,運用統(tǒng)計方法進行求解。通過給定兩個詞匯w1和w2,計算他們之間的相似度,通過Sim(w1,w2):S*S->[0,1]表示集合S中的兩個詞匯w1和w2的相似程度。在自然語言處理中,詞語的語義是指在不同的上下文語境中,對整體語義所作出的貢獻。相似度函數(shù)值域在[0,1]之間,一個詞語和它本身相似度函數(shù)值為1,兩個詞的語義越相似,相似度函數(shù)值越高。相似性函數(shù)計算流程如下圖4。

圖4 相似性函數(shù)計算流程流程圖
使用同義詞詞林計算[17]的方式將49個詞語分組,同義詞詞林計算按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞分為大,中,小三類。這些詞又根據(jù)詞義的類型分成了若干個詞群,每個詞群中的詞語又進一步分為不同小類,同一層次的詞語要么詞義相近,要么詞義有很強相關(guān)性。同義詞林詞典分類采用層級體系,具備5層結(jié)構(gòu),隨著級別遞增,詞義刻畫越來越細。其中同義詞詞林相似度計算算法思路如下:
首先,設置輸入樣本為{w1,w2,…,wn}
(1)隨機選取w1,w2
(2)進行義項判斷
(3)若w1,w2不在同一棵樹
則Sim(w1,w2)=f;
(4)若w1,w2在同一棵樹
(a)若在第二層分支,系數(shù)為a
(b)若在第三層分支,系數(shù)為b
(c)若在第四層分支,系數(shù)為c
(d)若在第五層分支,系數(shù)為d
采用如上方法計算待選詞的相似度,部分計算結(jié)果如表1所示。通過Sim(w1,w2)數(shù)值可得到多個詞語相似類,詞語相似類統(tǒng)計結(jié)果如表2所示。

表1 相似度計算統(tǒng)計表

表2 詞語相似類統(tǒng)計表
34個詞之間構(gòu)成11組相似類,采用主觀實驗評價方式獲取一組詞中最能表現(xiàn)影視劇圖片情感的形容詞,這34個詞選擇統(tǒng)計結(jié)果如圖5所示。

圖5 情感形容詞相似性分組篩選
共計得到共26個情感形容詞如下:幸福,沮喪,孤獨,夢幻,迷惑,憤怒,平靜,無聊,緊張,震驚,厭惡,惆悵,興奮,愉快,自豪,神圣,郁悶,恐懼,輕松,悲傷,熱血,溫馨,浪漫,失落,壓抑,激動。
情緒詞的標準化工作包含材料的篩選、評定維度的確定、評定結(jié)果的可靠性等重要內(nèi)容。首先,這項研究在選詞的思路上參照了羅躍嘉[6]等人的研究。先廣泛收集情感形容詞,再由專業(yè)人員對情緒形容詞做出判斷和甄選,然后在普通大學生中采集數(shù)據(jù)。這種思路既保證研究的效率,又保證了研究所需的效度。其次,以往的圖像情感研究結(jié)果表明,情緒障礙甚至負面的心境都會影響到被試對情緒材料的加工。在實驗之前,對20名學生最近一周情緒狀態(tài)的調(diào)查表明,被試的情緒總體上沒有出現(xiàn)抑郁和焦慮情緒。這排除了被試自身心境對評定的影響。這項研究初步對情緒形容詞的進行了標準化篩選工作,并通過一些措施確保評定結(jié)果的客觀性和可靠性。總的來看,26個情緒形容詞可以作為素材庫標注體系的一部分,應用于電影圖片庫的情感標注。通過對篩選出的情感形容詞的進一步實驗,通過聚類操作得到情感空間的多維度,通過明確其量化維度的物理意義,最終建立具有針對性的情感空間模型,可為視聽覺融合效應下對聲畫關(guān)系和諧與對立關(guān)系的研究提供幫助,有利于進一步完善視聽覺融合下的情感研究。