趙涓涓,楊建峰,陳俊杰,王玉友
(太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原030024)
在最近幾年中,人們?cè)谡J(rèn)知心理學(xué)、認(rèn)知科學(xué)和神經(jīng)科學(xué)等領(lǐng)域的研究進(jìn)一步表明:情感、情緒在人們的推理、學(xué)習(xí)、記憶、決策和創(chuàng)造的過程中飾演著非常重要的角色。所以,在人工智能領(lǐng)域中有一個(gè)越來越受到關(guān)注的新的研究方向——人工情緒。隨著科學(xué)技術(shù)的進(jìn)步,人們?cè)絹碓较M?jì)算機(jī)或機(jī)器人能夠替代和輔助人類從事越來越廣泛、越來越復(fù)雜的工作,并且要求其具有自然和諧友好的人機(jī)界面,更希望它們具有更多的類人功能,如感知功能、思維功能和行為功能等。
自然和諧友好的人機(jī)交互是人工智能領(lǐng)域的一個(gè)重要研究目標(biāo),想要實(shí)現(xiàn)這一目標(biāo),就必然要求計(jì)算機(jī)和機(jī)器人具有更強(qiáng)的情感識(shí)別、情感理解和情感表達(dá)能力[1]。人工情感的研究目的就是探索情感在生命體中所扮演的一些角色、發(fā)展技術(shù)和方法,以此來增強(qiáng)計(jì)算機(jī)或機(jī)器人的適應(yīng)能力、自治性和社會(huì)交互的能力[2]。在自然和諧的人性化和智能化的人機(jī)交互研究中,生物信息處理機(jī)制有很好的借鑒意義,已經(jīng)有很多學(xué)者在這些方面做了大量工作,同時(shí)也獲得了非常不錯(cuò)的研究成果。例如,借鑒人類腦神經(jīng)機(jī)制,人們建立了人工神經(jīng)網(wǎng)絡(luò);借鑒生物的進(jìn)化機(jī)制,人們提出了進(jìn)化算法等。但也存在一些問題,由于生物的行為除了受神經(jīng)系統(tǒng)和進(jìn)化系統(tǒng)的調(diào)節(jié)外,還受認(rèn)知與情感系統(tǒng)的控制,但是在大部分的機(jī)器學(xué)習(xí)算法中忽略了認(rèn)知與情感的高層調(diào)節(jié)作用,因此在人機(jī)交互的過程中機(jī)器不具有情感反饋的能力,即機(jī)器的情感感知與情感決策能力在人機(jī)交互中被遺忘了。筆者受生物系統(tǒng)控制論和認(rèn)知心理學(xué)的啟發(fā),采用神經(jīng)、進(jìn)化和認(rèn)知去共同控制機(jī)器人的情感決策,借鑒人工情感系統(tǒng)的調(diào)節(jié)作用,研究基于情緒認(rèn)知評(píng)價(jià)理論的情感決策。
Picard給出的有關(guān)情感計(jì)算的定義為:關(guān)于、產(chǎn)生于或故意影響情感方面的計(jì)算[2],它主要集中在情感的發(fā)生、識(shí)別和情感的表達(dá)上,直接研究人類的情感過程(包括人類情感的本質(zhì)內(nèi)核和運(yùn)動(dòng)形式),試圖使計(jì)算機(jī)擁有情感,即構(gòu)建一個(gè)具有“自發(fā)情感的情感平臺(tái)”,從而使計(jì)算機(jī)具備情感決策能力和情感行為。情感計(jì)算領(lǐng)域高度綜合化,它通過計(jì)算科學(xué)與心理科學(xué)、認(rèn)知科學(xué)相結(jié)合,研究的范圍包括人與人之間的交互、人與計(jì)算機(jī)之間的交互過程中的情感特點(diǎn),設(shè)計(jì)出具有情感反饋的人機(jī)交互環(huán)境,將有可能使人與計(jì)算機(jī)的情感交互成為可能。
人工情緒(artificial emotion)是通過信息科學(xué)的手段來模擬人類情緒過程,進(jìn)而對(duì)人類的情緒進(jìn)行識(shí)別和理解,屬于機(jī)器能夠產(chǎn)生類人情緒并且和人類進(jìn)行自然和諧的人機(jī)交互的研究領(lǐng)域[3]。目前對(duì)人工情緒的研究主要有以下幾個(gè)領(lǐng)域:情感計(jì)算(affective computing)、感性工學(xué)(kansei engineering)和人工心理。
在情緒認(rèn)知理論中,情緒產(chǎn)生于對(duì)刺激情景或者事物的評(píng)價(jià),影響情緒產(chǎn)生的因素包括環(huán)境事件、生理狀況和認(rèn)知過程,其中認(rèn)知過程是決定情緒性質(zhì)的關(guān)鍵。同一刺激情景,由于對(duì)它的評(píng)估不同就會(huì)產(chǎn)生不同的情緒反應(yīng)。Richard的情緒認(rèn)知評(píng)價(jià)理論(cognitive appraisal theory)認(rèn)為,人和環(huán)境相互作用產(chǎn)生了情緒,人不僅接受環(huán)境中的刺激事件對(duì)自己的影響,同時(shí)要調(diào)節(jié)自己對(duì)刺激的反應(yīng),主要包括初評(píng)價(jià)、次評(píng)價(jià)和再評(píng)價(jià)[4]。
Ahn與Picard提出的情感認(rèn)知學(xué)習(xí)與決策的框架模型和Ahn提出的一個(gè)簡(jiǎn)單的情緒認(rèn)知模型的根據(jù)即認(rèn)知評(píng)價(jià)理論中非常重要的一點(diǎn)——認(rèn)知過程是決定情緒性質(zhì)的關(guān)鍵因素[5]。

式中:e代表當(dāng)前的情緒狀態(tài);c′代表下一認(rèn)知狀態(tài);e′代表下一情緒狀態(tài)。
Q-learning是強(qiáng)化學(xué)習(xí)中非常經(jīng)典的算法之一,Q-learning算法主要應(yīng)用于機(jī)器人行為決策和控制領(lǐng)域,其中包括單個(gè)自主機(jī)器人行為的學(xué)習(xí)和多個(gè)機(jī)器人群體行為的學(xué)習(xí)。Q-learning學(xué)習(xí)是一種不同于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的在線學(xué)習(xí)技術(shù)。它將學(xué)習(xí)當(dāng)成是一個(gè)“試探——評(píng)價(jià)”的過程,學(xué)習(xí)系統(tǒng)會(huì)首先感知外部環(huán)境狀態(tài),然后對(duì)環(huán)境采取某一個(gè)動(dòng)作,環(huán)境接受該動(dòng)作后,其狀態(tài)會(huì)發(fā)生相應(yīng)的變化,同時(shí)會(huì)給出一個(gè)回報(bào)(reward)反饋給主體,主體根據(jù)強(qiáng)化信號(hào)和環(huán)境的當(dāng)前狀態(tài)再進(jìn)行下一個(gè)動(dòng)作的選擇,選擇的原則是使受到獎(jiǎng)勵(lì)的概率增大[7]。由于基于情感認(rèn)知的學(xué)習(xí)與決策算法采用了強(qiáng)化學(xué)習(xí)的理論框架,因此在認(rèn)知獎(jiǎng)勵(lì)模塊(cognitive reward model)和情緒獎(jiǎng)勵(lì)模塊(emotional reward model)兩個(gè)模塊中主要采取了強(qiáng)化學(xué)習(xí)中的Q-learning算法。Q-learning學(xué)習(xí)的積累回報(bào)函數(shù)Q(s,a)是指在狀態(tài)s執(zhí)行完動(dòng)作a后希望獲得的積累回報(bào),它取決當(dāng)前的立即回報(bào)和期望的延時(shí)回報(bào)。所有狀態(tài)與動(dòng)作對(duì)應(yīng)的Q值存放在一張二維的Q表中,Q表中的值在每一步完成后都會(huì)被更新一次,更新二維表時(shí)Q函數(shù)的具體計(jì)算公式為:

式中:β為學(xué)習(xí)因子且0<β≤1;γ為折算因子且0≤γ<1;γ為獎(jiǎng)勵(lì)。
Q-learning學(xué)習(xí)是按照遞歸方式實(shí)現(xiàn)的該方法:在每一時(shí)間步t,觀察當(dāng)前狀態(tài)st,根據(jù)某種選擇原則選擇行為at并且執(zhí)行行為at,再觀察后繼狀態(tài)st+1以及獲取獎(jiǎng)賞值γt,然后根據(jù)公式(2)調(diào)整Q表中的值[10]。Watkins已經(jīng)證明當(dāng)學(xué)習(xí)因子滿足一定條件時(shí),Q-learning學(xué)習(xí)算法必定收斂在最優(yōu)解。
在目前的機(jī)器學(xué)習(xí)中,大多數(shù)的學(xué)習(xí)決策算法僅僅考慮了來自于外部目標(biāo)或代價(jià)的外在動(dòng)機(jī)的獎(jiǎng)勵(lì),而忽略了來自于內(nèi)在認(rèn)知與情感的動(dòng)機(jī)獎(jiǎng)勵(lì)。近幾年來,一些學(xué)者受到認(rèn)知心理學(xué)和認(rèn)知神經(jīng)學(xué)關(guān)于情感與認(rèn)知研究的啟發(fā),已經(jīng)開展了將認(rèn)知模型與來自內(nèi)在情感的動(dòng)機(jī)模型相結(jié)合的研究工作。MIT多媒體實(shí)驗(yàn)室的Ahn和Picard提出了基于情感和認(rèn)知的學(xué)習(xí)與決策框架,并研究了單步?jīng)Q策任務(wù)和連續(xù)決策任務(wù)[5]。在MIT情感計(jì)算研究小組提出的模型中,同時(shí)考慮了來自情感的內(nèi)在獎(jiǎng)勵(lì)和來自認(rèn)知的外部獎(jiǎng)勵(lì),并將它們作為了決策和學(xué)習(xí)的動(dòng)機(jī)。
Q-learning學(xué)習(xí)不僅能夠利用有限的學(xué)習(xí)經(jīng)驗(yàn)獲取大范圍知識(shí),還具有很強(qiáng)的泛化能力[7]。函數(shù)比較功能是神經(jīng)網(wǎng)絡(luò)要實(shí)現(xiàn)的主要功能,若從這個(gè)角度來看,神經(jīng)網(wǎng)絡(luò)可以分為全局逼近網(wǎng)絡(luò)和局部逼近網(wǎng)絡(luò)。如果網(wǎng)絡(luò)的一個(gè)或多個(gè)連接權(quán)系數(shù)在輸入空間的任一點(diǎn)對(duì)任何一個(gè)輸出都有影響,則稱該網(wǎng)絡(luò)為全局逼近網(wǎng)絡(luò);若對(duì)輸入空間的某個(gè)局部區(qū)域,只有少量的連接權(quán)影響網(wǎng)絡(luò)的輸出,則稱該網(wǎng)絡(luò)為局部逼近網(wǎng)絡(luò)。傳統(tǒng)的Q-learning算法利用表格來表示Q(s,a)函數(shù)即相應(yīng)的狀態(tài)-動(dòng)作對(duì)應(yīng)值以表格的形式存儲(chǔ)到內(nèi)存當(dāng)中,該方法的優(yōu)點(diǎn)是簡(jiǎn)單并且計(jì)算的效率高,缺點(diǎn)是當(dāng)情感狀態(tài)與認(rèn)知狀態(tài)集合S、情感行為動(dòng)作集合A都比較大的時(shí)候,該方法會(huì)占用大量的內(nèi)存空間,并且不具備泛化能力,這樣不但占用大量的內(nèi)存空間而且學(xué)習(xí)收斂速度非常慢,情感狀態(tài)信息連續(xù)將無法實(shí)現(xiàn)。在本算法中BP神經(jīng)網(wǎng)絡(luò)的工作方式是:接收外界環(huán)境的完全或不完全狀態(tài)描述即交互人的情感狀態(tài)和認(rèn)知狀態(tài),將其看做BP神經(jīng)網(wǎng)絡(luò)的輸入,并通過BP神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行計(jì)算,輸出Q-learning學(xué)習(xí)算法中所需要的Q值,通過Q值在情感行為集合A中尋找與之對(duì)應(yīng)的情感行為,然后情感虛擬人做出剛剛查找到的情感行為[8]。采用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)Q-learning學(xué)習(xí)算法克服了傳統(tǒng)Q學(xué)習(xí)存在的問題,使Q-learning學(xué)習(xí)算法具備更強(qiáng)的泛化能力以實(shí)現(xiàn)對(duì)一個(gè)大范圍知識(shí)的有效獲取和表示,在較大程度上發(fā)揮了兩種技術(shù)各自的優(yōu)勢(shì)。該算法主要思想框架見圖1。

圖1 基于BP神經(jīng)網(wǎng)絡(luò)和Q-learning情感決策算法框圖
1)初始化外在情緒狀態(tài)空間集E={喜悅、悲傷、恐懼、生氣}和認(rèn)知狀態(tài)集C={幼年、少年、青年、成年};
2)獲取當(dāng)前的認(rèn)知狀態(tài)ct∈{c1,…,c|C|}、交互者的情感狀態(tài)at∈{a1,…,a|A|},并且更新情感智能體的外在情緒概率分布e

3)把當(dāng)前的認(rèn)知狀態(tài)信息和情感狀態(tài)信息送到BP神經(jīng)網(wǎng)絡(luò)的輸入層中,通過決策值公式(決策值QDM由來自認(rèn)知評(píng)價(jià)系統(tǒng)的外部決策值Qext和來自情感模型的內(nèi)在決策值Qint構(gòu)成)計(jì)算并輸出決策值QDM;

4)根據(jù)Boltzmann選擇策略[5]計(jì)算出行為策略d

5)執(zhí)行決策d,由BP神經(jīng)網(wǎng)絡(luò)獲得一個(gè)新的認(rèn)知狀態(tài)ct+1,并且通過計(jì)算如下公式獲得外部獎(jiǎng)勵(lì)值rext

7)利用外在獎(jiǎng)勵(lì)的情緒模型QEER(j,c,d)更新外在情緒狀態(tài)的概率分布;
8)利用情感認(rèn)知決策模型QDM(j,c,d)更新外在情緒狀態(tài)與情感行為對(duì)應(yīng)關(guān)系;
9)返回第(2)步繼續(xù)執(zhí)行。
情感迷宮問題模型是驗(yàn)證情感決策的經(jīng)典環(huán)境。在Matlab中的仿真環(huán)境實(shí)現(xiàn)該算法,可在仿真過程中直觀地觀測(cè)情感智能體在為得到某一種特定情緒時(shí)的移動(dòng)路線和移動(dòng)情況。情感智能體在情感迷宮中通過學(xué)習(xí)能夠以最快的速度搜索到目的情緒,并且在尋找過程中躲避不需要的其他情緒。情感智能體通過觀察獲得當(dāng)前認(rèn)知狀態(tài)和情感狀態(tài),并且通過Boltzmann選擇策略計(jì)算出行為策略,然后執(zhí)行相應(yīng)的動(dòng)作,若遇到障礙物則會(huì)受到懲罰;相反的,若沒有遇到障礙物則得到獎(jiǎng)勵(lì)。智能體在迷宮中尋找目的地的路線和性能的表現(xiàn)如圖2所示。

圖2 情感迷宮模型和性能曲線
在圖2所示的情感迷宮模型和性能曲線中,基于情感認(rèn)知評(píng)價(jià)理論的情感決策算法中的參數(shù)選擇如下:學(xué)習(xí)效率α=0.1;折算因子γ=0.9;溫度參數(shù)初始值T=100。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是4-8-4,隱含層激勵(lì)函數(shù)是Sigmoid函數(shù),輸入輸出為線性函數(shù)。為了更清楚地觀察自適應(yīng)狀態(tài)構(gòu)建方法的有效性,與采用傳統(tǒng)Q-learning算法中函數(shù)方法進(jìn)行仿真結(jié)果對(duì)比。在傳統(tǒng)算法狀態(tài)空間構(gòu)建中參數(shù)α大小分別設(shè)為0.1和0.4兩種情況。
圖3與圖4分別為傳統(tǒng)Q-learning學(xué)習(xí)算法與基于情感認(rèn)知評(píng)價(jià)理論的人機(jī)交互情感決策算法下情感虛擬人獲得平均報(bào)酬和成功找到目標(biāo)情感時(shí)的試驗(yàn)次數(shù)對(duì)比結(jié)果。從圖3中可以看出,BpQ-learning算法的性能優(yōu)于傳統(tǒng)Q-learning算法的性能。對(duì)于傳統(tǒng)的Q-learning算法來說,分割越小性能越好,當(dāng)α=0.1時(shí),經(jīng)過200次試驗(yàn)訓(xùn)練后,其平均報(bào)酬可達(dá)0.72,而BpQ-learning算法的平均報(bào)酬可達(dá)1.1,因此很明顯使用BpQ-learning算法的情感虛擬人在尋找目的情感的試探過程中獲得獎(jiǎng)勵(lì)要比使用傳統(tǒng)Q-learning算法的情感虛擬人獲得的獎(jiǎng)勵(lì)高。圖4為情感虛擬人在使用兩種算法尋找目標(biāo)情感時(shí)試探次數(shù)的對(duì)比結(jié)果,從圖4中可以看出,兩種算法在第一幕的時(shí)候幾乎是經(jīng)過相同的試探次數(shù)才找到目標(biāo)情感,但是隨著幕數(shù)的增加,基于情感認(rèn)知評(píng)價(jià)理論的情感決策算法用越來越少的試探次數(shù)找到目標(biāo)情感,說明BpQ-learning算法的學(xué)習(xí)能力要比傳統(tǒng)Q-learning算法的學(xué)習(xí)能力強(qiáng)、學(xué)習(xí)得快,但是隨著幕數(shù)的增加傳統(tǒng)Q-learning算法幾乎也能達(dá)到BpQ-learning算法的試探次數(shù)。

圖3 BpQ-learning與Q-learning的平均獎(jiǎng)勵(lì)值比較

圖4 BpQ-learning與Q-learning的試探次數(shù)比較
本文改進(jìn)了一種基于認(rèn)知、情感的內(nèi)在獎(jiǎng)勵(lì)與外在世界的外部獎(jiǎng)勵(lì)相結(jié)合作為在學(xué)習(xí)和決策動(dòng)機(jī)的學(xué)習(xí)與決策算法,同時(shí)把BP神經(jīng)網(wǎng)絡(luò)運(yùn)用到該算法中。采用BP神經(jīng)網(wǎng)絡(luò)來代替Q表格,這樣的改進(jìn)不僅提高了Q學(xué)習(xí)的泛化能力,而且能夠大大縮減了計(jì)算量,在一定程度上提高學(xué)習(xí)的精度,增強(qiáng)穩(wěn)定性。未來的工作將會(huì)進(jìn)一步更詳細(xì)地證明基于情緒認(rèn)知評(píng)價(jià)理論的人機(jī)交互情感決策的實(shí)效性,以及試驗(yàn)最優(yōu)化該算法的各種參數(shù)因子并且在更復(fù)雜的環(huán)境中驗(yàn)證該算法的可靠性與先進(jìn)性。
[1] 王志良,王巍,谷學(xué)靜,等.具有情感的類人表情機(jī)器人研究綜述[J].計(jì)算機(jī)科學(xué),2011,38(1):34-39.
[2] Picard R W.Affective Computing[M].Cambridge:MIT Press,1997.
[3] 王國(guó)江,王志良,楊國(guó)亮,等.人工情感研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006,23(11):7-11.
[4] 黃希庭.心理學(xué)導(dǎo)論(第二版)[M].北京:人民教育出版社,2007.
[5] Ahn H,Picard R W.Affective-cognitive learning and decision making:the role of emotions[C]∥Proceedings of the 18th European Meeting on Cybernetics and Systems Research.Vienna,Austria:Austrian Society for Cybernetics Studies,2006.
[6] 吳忠植.認(rèn)知科學(xué)[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2008.
[7] Fuchida T,Aung K T,Sakuragi A.A study of Q-learning considering negative rewards[J].Artificial Life and Robotics,2010,15:351-354.
[8] 王義萍,陳慶偉,胡維禮.機(jī)器人行為選擇綜述[J].機(jī)器人,2009,31(5):472-480.
[9] 王琦.情感虛擬人研究[D].上海:上海師范大學(xué),2008.
[10] 張?jiān)疲瑒⒔ㄆ?Q 學(xué)習(xí)的改進(jìn)研究及其仿真實(shí)驗(yàn)[J].計(jì)算機(jī)仿真,2007,24(10):111-114.