劉增榮,余雪麗,李 志
(太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)
情感是人類精神生活中最重要的組成部分,是人類在進(jìn)化過程中產(chǎn)生和發(fā)展而來的。情感是人類行為中最復(fù)雜的感受,是由多個(gè)維量、多個(gè)層次的感受整合相干而成的一種混合心理過程。情感的起源不是生物的,而是文化的,它產(chǎn)生于與社會(huì)具有密切關(guān)系的情境之中,個(gè)體在這種情境中學(xué)會(huì)了恰當(dāng)?shù)那楦幸约叭绾芜\(yùn)用情感,表達(dá)情感;情感受文化、價(jià)值、地域和信念、詞匯等的影響和限制,但情感活動(dòng)的屬性和強(qiáng)度,仍然受生物過程的影響[1]。情感總是包含生理成分,同時(shí)生理變化會(huì)導(dǎo)致個(gè)體把這些生理感受跟情感聯(lián)系起來。
迄今為止,不同的學(xué)科都從自己的研究視角和研究方法對(duì)情感作出解釋,在生理學(xué)、心理學(xué)方面,通過實(shí)驗(yàn)研究和哲學(xué)的概括,對(duì)情感的不少論斷成為了各學(xué)科的共識(shí)。在對(duì)視聽覺的研究中,細(xì)致入微地模擬和刻畫情感活動(dòng)以表達(dá)情感、宣泄情感也是一個(gè)永恒的主題。隨著計(jì)算機(jī)科學(xué)與技術(shù)的不斷發(fā)展,人們意識(shí)到將計(jì)算機(jī)應(yīng)用于情感研究領(lǐng)域,可以更好地理解、控制并豐富視聽覺表達(dá)情感的能力。利用計(jì)算機(jī)對(duì)視聽覺所表達(dá)的情感語義進(jìn)行研究屬于人工情感的范疇,包括情感計(jì)算模型、情感識(shí)別模型、情感檢索等,在廣告設(shè)計(jì)、圖像檢索及音樂自動(dòng)生成等領(lǐng)域都得到了應(yīng)用,但情感語義相干及其對(duì)學(xué)習(xí)、記憶效果的影響等卻少見研究。
針對(duì)視覺、聽覺情感語義研究的模型一般分為兩類:一類是離散型的方式,如OCC[2]模型中的22種情感、Ekman[3]的六種基本情感、Hevner的由67個(gè)形容詞組成的8類基本情感模型[4]等;另一類是連續(xù)型的維度方式,如馮特[5]于1896年提出的“情緒三維理論”和Plutchik[6]的情感三維旋轉(zhuǎn)綜合模型、Thayer模型[7]等。但是對(duì)情感語義的標(biāo)注則仍是采用離散型的情感聚類方式來進(jìn)行,這跟人們對(duì)情感的實(shí)際認(rèn)知有差距,如一幅表達(dá)愉悅情感的圖像很可能也包含著滿足的情感,聽一首音樂,很可能引起“悲喜交加”的感覺,人們很難確定某種心理感受中就只包含一種情感。在描述圖像、音樂的情感語義時(shí)是基于模糊認(rèn)知的一種主觀性的、整體性描述和感性認(rèn)識(shí),也即對(duì)情感語義理解具有主觀性、模糊性、整體性以及不確定性等特征。在對(duì)視聽覺情感語義的研究過程中,語義的相干和融合是不可缺少的步驟,試圖按傳統(tǒng)方法那樣建立精確的語義相干數(shù)學(xué)模型是很困難的,筆者嘗試采用在Zadeh建立的模糊邏輯基礎(chǔ)上進(jìn)一步發(fā)展起來的語言值計(jì)算理論,用基本語言值集來表示圖像、音樂的情感語義空間,定義情感語義向量及其運(yùn)算法則來研究視聽覺的情感語義相干,并通過不同情感語義視聽覺相干環(huán)境下個(gè)體情感語義調(diào)查實(shí)驗(yàn)初步證明了情感語義相干模型及算法的正確性。
心理學(xué)把情感定義為:“人對(duì)客觀現(xiàn)實(shí)的一種特殊反映形式,是人對(duì)于客觀事物是否符合人的需要而產(chǎn)生的態(tài)度的體驗(yàn)”。從這個(gè)定義可以看到,情感是一種主觀體驗(yàn),屬于主觀意識(shí)范疇,具有不確定性和模糊性的特征。人腦反映客觀差異的中介過渡性,以及由此產(chǎn)生的一種不確定性,稱為心理模糊性,其量化稱為心理模糊量,它往往是波動(dòng)的(個(gè)性),但這種波動(dòng)也表現(xiàn)出相對(duì)的穩(wěn)定性(共性)。人們正是依靠相對(duì)穩(wěn)定性,才能夠借助模糊概念彼此之間交往和傳遞信息[8]。心理模糊量的這種動(dòng)態(tài)特征和穩(wěn)定性,在感性工學(xué)的角度來說,分別稱為公共感性和個(gè)性化的感性[9]。
對(duì)心理模糊量的測(cè)量,一般采用以下兩種途徑:一種是通過各種實(shí)驗(yàn)儀器和各種指標(biāo)來檢測(cè)模糊子集標(biāo)記的心理量,但對(duì)于客體的一些抽象特征,如滿意度、嚴(yán)重度等卻往往難以測(cè)量。在這種情況下,大多采用各種心理量表進(jìn)行主觀性評(píng)測(cè),利用形容詞、副詞來進(jìn)行描述,即使用言詞來描述心理模糊量。
研究視聽覺所表達(dá)的情感語義通常是指觀看圖像、視頻,欣賞音樂等活動(dòng)時(shí)個(gè)體受到影響從而使情緒、心境、情感、態(tài)度等發(fā)生變化而表達(dá)出來的一種心理感受,是一種特殊的心理模糊量,它由個(gè)體用言詞表達(dá)或者形容。在探索視聽覺與情感之間關(guān)系的研究中,Colombo[10]通過使用圖像的顏色,并對(duì)照Itten球模型[11],使用愉快(joy)、緊張(uneasy)、放松(relax)、動(dòng)感(action)這幾個(gè)簡(jiǎn)單的詞匯來描述圖像情感語義。王偉凝[12]通過對(duì)50對(duì)表達(dá)圖像情感語義的形容詞進(jìn)行分析后得到16對(duì),來對(duì)圖像情感語義進(jìn)行描述。Schoen和Gatewood主持的實(shí)驗(yàn)[13]研究了音樂與情感反應(yīng)之間的關(guān)系,通過言詞來描述實(shí)驗(yàn)結(jié)果。
特定的圖像、音樂特征總是與特定的情感語義之間存在著穩(wěn)定的聯(lián)系。表達(dá)不同情感語義的形容詞在描述情感時(shí)總會(huì)表達(dá)出一定的規(guī)律性。但是由于描述情感語義的形容詞,都是主觀心理量,它受到文化、地域、民族、受教育程度等不同的影響,Plutchik的情感模型以及在音樂情感中應(yīng)用較多的Hevner模型,都采用在語義上互不相近的四對(duì)形容詞來表達(dá)基本情感,因?yàn)橹饔^言詞描述的原因,這些模型不一定完全適合我們的實(shí)際情況,所以需要通過實(shí)驗(yàn)挑選適合我們表述習(xí)慣的形容詞及其應(yīng)用頻度,從而確定表述視聽覺情感語義的語言值集合,以及心理認(rèn)同程度較高的基本語言值集合。
參照文獻(xiàn)[4][6][8][12][14]中的情感形容詞,我們選擇了50個(gè)形容詞,10個(gè)情感子類的標(biāo)志性形容詞進(jìn)行組合歸類。實(shí)驗(yàn)中通過發(fā)放調(diào)查問卷的方式進(jìn)行調(diào)查,同時(shí)提供被調(diào)查者增加形容詞和子類形容詞的選項(xiàng),來構(gòu)建一個(gè)基本的表達(dá)情感的言詞空間。實(shí)驗(yàn)中發(fā)放問卷50份,收到有效試卷46份(調(diào)查對(duì)象為大一到大四的學(xué)生,男女各25人)。實(shí)驗(yàn)綜合分析結(jié)果如下表1所示,可以看出,受文化、地域等的客觀影響,基本語言值集合跟Plutchik模型和Hevner模型(如表2)相比還是存在著明顯的不同。

表1 情感語義語言值集合列表

表2 Plutchik模型和Hevner模型基本語言值
語言值計(jì)算理論研究起源于Zadeh[15]提出的基于模糊集理論來研究自然語言語義的思想,但這種模型的局限在于對(duì)論域、隸屬函數(shù)的確定方面存在著較大的困難,因此人們對(duì)此模型進(jìn)行了改進(jìn),提出了基于語義相似關(guān)系的計(jì)算模型。根據(jù)文獻(xiàn)[14,16],情感語義的語言值表述構(gòu)成一種特殊的語言值系統(tǒng),可以有如下定義:
定義1 (語言值模型)二元組(L,R)表示為圖像情感語義的語言值模型,即:

式中:L為表述情感語義而抽取的有限語言值構(gòu)成的集合;R為L(zhǎng)上表述語義的模糊相似關(guān)系;n表示語言值集合中元素的數(shù)量;R中的元素rij表示語言值Li,Lj之間所表述情感語義的相似程度,顯然rij=rji,所以這是一個(gè)對(duì)稱矩陣。
在對(duì)通過語言值描述語義關(guān)系的認(rèn)知中,并沒有標(biāo)準(zhǔn)的模型,而是通過后天的學(xué)習(xí)來逐漸形成,所以,本模型中不需要為語言值L定義模糊集合和隸屬函數(shù),而是通過實(shí)驗(yàn)的方式,給出模糊關(guān)系矩陣中各語言值的語義相似關(guān)系。
在本模型中,顯然描述情感語義的基本語言值集合S={愉快,驚奇,恐懼,悲傷,憤怒,期望},簡(jiǎn)記為

根據(jù)情感語義中語言值描述、基本語言值集合的取值及語言值模型的定義,給出如下情感語義向量的定義。
定義2 (情感語義向量)對(duì)于給定的一幅圖像或者一段音樂I,其蘊(yùn)含了特定的情感語義,這個(gè)情感語義用實(shí)驗(yàn)中所建情感空間的六維向量E表示,E中元素值ei表示為圖像或者音樂與基本語言值語義之間的模糊語義相似關(guān)系,用[0,1]來表示相似程度,將該向量稱為情感語義向量

式中,ei∈[0,1],i=1,2,…6,將E 中數(shù)據(jù)最大的元素值ei定義為主導(dǎo)情感語義Ead。

式中,max()表示取最大值所對(duì)應(yīng)的Si值。
由于情感本身具有復(fù)雜性、主觀性的特點(diǎn),現(xiàn)有的研究并不能完全表達(dá)出情感語義的內(nèi)涵,相應(yīng)的情感空間也并不能枚舉所有的情感語義狀態(tài),當(dāng)情感向量的所有分量都為0的時(shí)候,并不表示沒有情感,而是表示這種情感狀態(tài)沒有包含在本文所述的情感語義空間內(nèi)。
定義3 (情感語義基向量)情感語義模糊關(guān)系矩陣R上的行向量簡(jiǎn)稱為情感語義基向量,記為ei,其中i∈[1,6]。
情感語義向量是定義在情感語義相似矩陣上的,因此有6個(gè)情感語義基向量,其主導(dǎo)情感語義值跟基本語言值集中的語義順序相一致。
在針對(duì)情感語義的視聽覺內(nèi)容檢索或者情感繪畫、音樂創(chuàng)作以及其它應(yīng)用中,單一情感語義的應(yīng)用是不多見的,更常用的是涉及多幅圖像、多段音樂或者多種情感語義的相干復(fù)合技術(shù)。所以需要定義語言值模型上的算術(shù)和邏輯運(yùn)算,來計(jì)算情感語義相干結(jié)果。
定義4 (情感語義向量加法運(yùn)算)如果A、B是兩個(gè)情感語義向量,ai,bi(i=1,2,…,6)分別是向量A,B中的元素,λ1,λ2分別是正常數(shù),則向量A與B的加法定義為:

情感語義是以向量的形式表現(xiàn),但向量中的每一個(gè)元素都是采用語言值的相似性進(jìn)行定義,所以可以對(duì)情感語義的向量進(jìn)行邏輯運(yùn)算,其含義是對(duì)向量中的每個(gè)元素進(jìn)行運(yùn)算。
定義5 (情感語義向量邏輯運(yùn)算)如果A,B是兩個(gè)情感語義向量,ai,bi(i=1,2,…,6)分別是向量A,B中的元素,則向量A與B的邏輯運(yùn)算定義為:

顯然,情感語義的加法運(yùn)算、邏輯運(yùn)算都滿足交換律,同時(shí)根據(jù)模糊邏輯,有如下兩個(gè)引理。
引理1 情感語義向量的邏輯運(yùn)算滿足De Morgan法則

引理2 情感語義向量的加法運(yùn)算對(duì)邏輯運(yùn)算∨、∧滿足如下分配律

根據(jù)以上定義及引理,情感語義向量的減法運(yùn)算可以表示如下:

在對(duì)如上情感語義信息相干的研究中,情感語義向量的代數(shù)運(yùn)算解決了情感語義的相干問題,而邏輯運(yùn)算則解決了多個(gè)情感語義向量的復(fù)合計(jì)算問題。
認(rèn)知是人腦反映客觀事物的特性和聯(lián)系,并揭示事物對(duì)于人的意義與作用的心理活動(dòng)[17],對(duì)于語言值的語義認(rèn)知關(guān)系,是通過后天學(xué)習(xí)形成的,這種關(guān)系可以通過實(shí)驗(yàn)來解析。參照文獻(xiàn)[18]的實(shí)驗(yàn)結(jié)果,情感語義相似度量的情感相似矩陣R如下所示:

上表中,行、列的交叉點(diǎn)rij,表示第i行、第j列所表示的基本語言值集中對(duì)應(yīng)情感語義的相似程度,或者1-rij表示它們的不相似程度,同時(shí)也可以看出,這是一個(gè)對(duì)稱矩陣,主對(duì)角線值為1,即rii=1。
在針對(duì)視聽覺的情感語義實(shí)際應(yīng)用中,單一圖像、音樂,或者單一情感語義的應(yīng)用是不多見的,更常用的是涉及多幅圖像、多種音樂,或者多種情感語義的相干技術(shù)。情感語義信息相干的研究中,情感語義向量的代數(shù)運(yùn)算解決了情感語義不同模態(tài)的相干問題,而邏輯運(yùn)算則解決了多個(gè)情感向量的復(fù)合計(jì)算問題,下面通過一個(gè)實(shí)例來詳細(xì)說明具體的計(jì)算。
實(shí)例1 假設(shè)有一幅圖像I和一段音樂M,在多位專家對(duì)其所蘊(yùn)含的情感語義進(jìn)行決策的過程中,2位專家給出了如表3的評(píng)價(jià)。

表3 圖像情感語義專家決策實(shí)例
兩位專家評(píng)價(jià)的效度不一樣,即權(quán)重不同,設(shè)第一位權(quán)重為6,第二位權(quán)重為4,且在語義相干的過程中,視聽覺重要程度一致,則兩位專家對(duì)這幅圖像的綜合評(píng)價(jià)計(jì)算如下。
1)將專家評(píng)價(jià)的語言值轉(zhuǎn)換為對(duì)應(yīng)的情感語義基向量,得到復(fù)合情感語義表達(dá)式并計(jì)算兩位專家的權(quán)重。

表4 情感語義表達(dá)式及權(quán)重
2)根據(jù)表達(dá)式2)~4),有如下計(jì)算:

3)多源情感語義信息相干計(jì)算,根據(jù)(1)得到這幅圖像情感語義的專家綜合評(píng)價(jià)結(jié)果為

根據(jù)結(jié)果可以看出,該幅圖像的主導(dǎo)情感語義是“愉快”,但也包含“驚奇”與“期望”的成分。
按照認(rèn)知心理學(xué)的實(shí)驗(yàn)?zāi)J?,設(shè)計(jì)本實(shí)驗(yàn)。被試人員在實(shí)驗(yàn)之前進(jìn)行必要的信息記錄,其內(nèi)容包含性別、年齡、個(gè)人愛好等基本資料,通過這些資料以方便對(duì)被試進(jìn)行分類。在本實(shí)驗(yàn)中,參加實(shí)驗(yàn)的人數(shù)為大四的學(xué)生計(jì)50人,其年齡段基本接近,同時(shí)按性別分為男、女各取25人參與實(shí)驗(yàn),由于被試人員綜合情況基本相同,所以假定他們?cè)u(píng)價(jià)的效度相同。具體實(shí)驗(yàn)過程如下:
1)從心理學(xué)圖庫(kù)中選擇情感語義為“愉快”的圖像兩幅,同時(shí)從已建好的音樂庫(kù)中選取情感語義表達(dá)為“驚奇”和“期望”的各一首音樂;
2)在一個(gè)封閉且安靜的環(huán)境中,循環(huán)播放選定的音樂作為背景音樂,讓被試人員觀看選擇好的圖像;
3)將6種基本語言值(愉快、驚奇、恐懼、悲傷、憤怒、期望)的描述按類擴(kuò)展為18種描述(如下表3),作為選題卡,由被試來選出其情感狀態(tài);
通過分析50份選題卡的結(jié)果,對(duì)選擇的語義進(jìn)行歸類(比如選擇“高興”,則將其計(jì)入表達(dá)“愉快”的類中),其中選擇“愉快”描述的為37個(gè),占比超過70%,而選擇“驚奇”描述的為6個(gè),占比超過10%,選擇“悲傷”和“期望”的分別為3個(gè)和4個(gè),所占比例都不到10%。

表3 擴(kuò)展后的情感語義語言值列表
從計(jì)算結(jié)果與實(shí)驗(yàn)結(jié)果來看,主導(dǎo)情感都是“愉快”,并且在實(shí)驗(yàn)中,選擇“愉快”的比率超過了70%,可見情感語義相干的模型及運(yùn)算規(guī)律可以較好地解決視聽覺情感語義的相干問題。
由于情感語義本身所具有的主觀性,同時(shí)受文化、地域等的影響較大,所以很難建立起精確的數(shù)學(xué)模型,本文嘗試了基于模糊邏輯來定義情感語義的語言值模型,通過收集用戶情感數(shù)據(jù),由心理學(xué)的認(rèn)知實(shí)驗(yàn)建立情感空間,并基于語言值模型定義了情感語義向量及其語義相干的運(yùn)算法則,最后通過情感語義相干的實(shí)驗(yàn),驗(yàn)證了該方法符合情感認(rèn)知的心理模式,進(jìn)一步的研究是情感的認(rèn)知模型、情感的自動(dòng)標(biāo)注及對(duì)認(rèn)知記憶的影響。視聽覺情感語義及其相干的研究,在廣告設(shè)計(jì)、電子音樂創(chuàng)作、增強(qiáng)學(xué)習(xí)記憶效果以及其它的一些多媒體領(lǐng)域有著廣闊的應(yīng)用前景。
[1]Turner J H,Stets J E.孫俊才譯.情感社會(huì)學(xué)[M].上海:上海人民出版社,2007.
[2]Andrew Ortony,Gerald L.Clore,Allan Collins.The Cognitive Structure of Emotions[M].Cambridge:Cambridge University Press,1988.
[3]Ekman P,F(xiàn)riesen W V.Manual for the Facial Action Coding System[M].PaloAlto:Consulting Psychologists Press,1977.
[4]Hevner K.Expression in music:a discussion of experimental studies and theories[J].Psychological Review,1935:42:186-204.
[5]馮特.馮特心理學(xué)思想[EB/OL].http:∥www.360doc.com/content/10/1218/21/5166796-79351157.shtml/2011-10-15.
[6]Plutchik R.The Nature of Emotions[J].American Scientist,2001:89(4):344-350.
[7]Thayer R.The biopsychology of mood and arousal[M].Oxford:Oxford University Press,1989.
[8]劉濤.音樂情感認(rèn)知模型與交互技術(shù)研究[D].杭州:浙江大學(xué),2006.
[9]王上飛.感性信息處理在圖像檢索中的應(yīng)用研究[D].北京:中國(guó)科學(xué)技術(shù)大學(xué),2002.
[10]Colombo C,A Del Bimbo,Pala P.Semantics in Visual Information Retrieval[J].IEEE Multimedia,1999:6(3):38-53.
[11]Jonhannes Itten.色彩藝術(shù)-色彩的主觀經(jīng)驗(yàn)與客觀原理(The Art of Color)[M].上海:上海人民藝術(shù)出版社,1985.
[12]王偉凝.基于情感語義的圖像特征提取、檢索與分類研究[D].廣州:華南理工大學(xué)博士學(xué)位論文,2005.
[13]Schoen M,Gatewood E L.The Aesthetic Attitude in Music[J].Psychological Monograph,1928(39):162-183.
[14]Tang Yongchuan,Zheng Jiacheng.Linguistic modeling based on semantic similarity relation among linguistic labels[J].Fuzzy Sets and Systems,2006,157(12):1662-1673.
[15]Zadeh L A.Fuzzy logic=computing with words[J].IEEE Transactions on Fuzzy Systems,1996,4(2):103-111.
[16]孫守遷,王鑫,等.音樂情感的語言值計(jì)算模型研究[J].北京:北京郵電大學(xué)學(xué)報(bào),2006(2):35-40.
[17]朱智賢.心理學(xué)大詞典[M].北京:北京師范大學(xué)出版社,1989.
[18]Zengrong Liu,Xueli Yu.Research on Linguistic Computing Model for Image Emotion Semantic[C]∥2011International Conference on Transportation and Mechanical & Electrical Engineering,China:Changchun,2011.