熊熙 喬少杰 吳濤 吳越韓楠 張海清
情緒是一種復(fù)雜的心理體驗(yàn).個(gè)體可以通過模仿其他個(gè)體的肢體動(dòng)作或面部表情來傳播情緒[1],同時(shí)情緒會(huì)受到各種非語言因素的影響.對(duì)情緒的研究引起了多學(xué)科的廣泛關(guān)注,包括經(jīng)濟(jì)學(xué)、神經(jīng)科學(xué)和心理學(xué).眾多研究表明人們會(huì)受到其他人的情緒影響,并且這種影響的持續(xù)時(shí)間或長(zhǎng)或短[2].陌生人之間的短暫接觸也能傳播情緒,例如服務(wù)員的“微笑服務(wù)”可以提升顧客滿意度進(jìn)而為自己帶來小費(fèi)[3].社交網(wǎng)絡(luò)特別強(qiáng)調(diào)用戶創(chuàng)造內(nèi)容,用戶不但是信息接受者,同時(shí)也是信息的制造者、發(fā)布者和傳播者,成為網(wǎng)絡(luò)輿論形式中不可分割的一部分.在線社交網(wǎng)絡(luò)也成為人們交流信息與情緒的主要平臺(tái).下面以一個(gè)直觀的例子說明研究社交網(wǎng)絡(luò)中情緒傳播的重要性.2015年,亞馬遜網(wǎng)站創(chuàng)始人杰夫·貝佐斯(Je ffBezos)曾在Twitter發(fā)布一條推文,宣稱自己剛剛實(shí)現(xiàn)了運(yùn)載火箭的軟著陸.該條消息以極快的速度在網(wǎng)絡(luò)上轉(zhuǎn)發(fā)和擴(kuò)散,并且其關(guān)注者表現(xiàn)出極大的喜悅,在Twitter上展開了熱烈討論.于此同時(shí),嫉妒和抑郁的情緒在SpaceX公司CEO埃隆·馬斯克(Elon Musk)的關(guān)注者中迅速蔓延.隨后馬斯克發(fā)布推文表示三年前他的火箭已經(jīng)完成了六次亞軌道飛行.該條消息迅速為其關(guān)注者帶來了積極的情緒.從這個(gè)例子可以看出,社交網(wǎng)絡(luò)可以通過用戶交互行為使情緒迅速擴(kuò)散,并充分放大個(gè)體的情緒影響力.
本文對(duì)多層社交網(wǎng)絡(luò)中情緒傳播的研究主要基于如下幾點(diǎn)考慮:1)因?yàn)樯缃痪W(wǎng)絡(luò)用戶情緒與用戶的空間距離和時(shí)間跨度有關(guān),所以需要從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中提取時(shí)空特征,進(jìn)而預(yù)測(cè)情緒傳播趨勢(shì);2)社交網(wǎng)絡(luò)為用戶提供了多種交互機(jī)制,使信息和情緒的傳播更加便捷,同時(shí)也對(duì)情緒傳播產(chǎn)生了多維度的影響,因此有必要研究不同用戶交互行為對(duì)情緒傳播的影響.3)利用多層網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)的結(jié)構(gòu)和動(dòng)力學(xué)特性,可以突破傳統(tǒng)單層網(wǎng)絡(luò)分析的局限性.多層網(wǎng)絡(luò)的出現(xiàn)實(shí)質(zhì)是為了突破傳統(tǒng)單層網(wǎng)絡(luò)中連邊同質(zhì)性的限制,各層有不同的拓?fù)浣Y(jié)構(gòu)并且每層的節(jié)點(diǎn)之間不一定有對(duì)應(yīng)關(guān)系.
社交網(wǎng)絡(luò)的結(jié)構(gòu)和動(dòng)力學(xué)特性比隨機(jī)網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)和無標(biāo)度網(wǎng)絡(luò)等典型網(wǎng)絡(luò)更加復(fù)雜,而且多種用戶行為對(duì)情緒傳播會(huì)產(chǎn)生重要影響.在此基礎(chǔ)上,本文的研究主要實(shí)現(xiàn)以下目標(biāo):
1)在考慮多種用戶行為等復(fù)雜要素的基礎(chǔ)上構(gòu)建一種社交網(wǎng)絡(luò)中的情緒傳播模型.
2)利用該模型研究社交網(wǎng)絡(luò)中情緒傳播規(guī)律,并預(yù)測(cè)其傳播趨勢(shì).
本文主要貢獻(xiàn)包括:
1)提出一種基于社交網(wǎng)絡(luò)多種交互行為的情緒傳播模型,被稱為ECM模型(Emotional contagion model).利用該模型可以分析社交網(wǎng)絡(luò)中情緒傳播的過程與規(guī)律.研究發(fā)現(xiàn):多層社交網(wǎng)絡(luò)中中性情緒用戶所占比例隨時(shí)間逐漸增大,并且正向情緒與負(fù)向情緒比例始終接近.情緒傳輸率越大,用戶情緒更容易受到其他用戶的影響而發(fā)生變化.初始情緒越中立的用戶,在演化過程中情緒波動(dòng)越小,而初始情緒極性越大的用戶情緒波動(dòng)越大.
2)通過實(shí)驗(yàn)對(duì)比了本文所提模型與其他情緒傳播模型,包括:基于情緒的Spreader-ignorant-stifler(ESIS)模型[4]和獨(dú)立級(jí)聯(lián)模型[5],實(shí)驗(yàn)結(jié)果表明ECM模型對(duì)社交網(wǎng)絡(luò)中情緒傳播具有較好的預(yù)測(cè)效果.
情緒可以看作是由許多的關(guān)鍵成分所組成的復(fù)雜心理現(xiàn)象,通常包括主觀情緒體驗(yàn)、面部表情以及軀體行為等,同時(shí)可以利用“效價(jià)–喚醒度”的劃分方法[6]將情緒分為不同類型:依據(jù)效價(jià)(Valence)將情緒分為正、負(fù)兩極,位于正極的稱積極情緒,通常帶來愉悅感受,如快樂、愛、愉快、幸福等;位于負(fù)極的稱消極情緒,通常產(chǎn)生不愉悅感受,如憂愁、悲傷、憤怒、緊張、焦慮、痛苦、恐懼、憎恨等;同時(shí)依據(jù)喚醒度(Arousal)區(qū)分情緒的強(qiáng)弱,喚醒度越大,所產(chǎn)生的情緒就越強(qiáng)烈.
不同類型情緒的傳播各有特點(diǎn),利用弗雷明漢心臟研究(Framingham heart study,FHS)[7]的參與者數(shù)據(jù)可以分別研究高興、抑郁和孤獨(dú)等多種情緒在社交網(wǎng)絡(luò)中的傳播過程[8],進(jìn)而通過廣義估計(jì)公式分析好友間情緒的關(guān)聯(lián)度,最終發(fā)現(xiàn)各種情緒都會(huì)在社交網(wǎng)絡(luò)中傳播,并且都能產(chǎn)生長(zhǎng)時(shí)間的影響.Coviello等[8?9]研究了在線交互行為對(duì)傳播用戶情緒的作用,以陰雨天氣為例,發(fā)現(xiàn)下雨不僅可以直接造成人們的情緒低落,還可以通過社交網(wǎng)絡(luò)影響另一個(gè)天氣晴朗的城市的用戶情緒.上述研究主要針對(duì)消息的內(nèi)在特征,但未考慮用戶多種行為對(duì)情緒傳播的影響.
信息傳播為情緒傳播提供了必要的條件.現(xiàn)有的信息傳播模型可以分為兩類:圖模型和傳染病模型[10].圖模型以網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),主要包括獨(dú)立級(jí)聯(lián)模型(Independent cascade model,IC model)[5]和線性閾值模型(Linear threshold model,LT model)[11],其中獨(dú)立級(jí)聯(lián)模型中的用戶以一定概率在節(jié)點(diǎn)間傳遞信息,線性閾值模型的每個(gè)節(jié)點(diǎn)受到鄰點(diǎn)的影響力超過自身閾值就會(huì)被激活.傳染病模型主要通過模擬傳染病的傳播過程來對(duì)信息傳播過程建模,其中常見的傳染病模型包括SIR(Susceptible-infected-recovered)模型[12]和SIS(Spreader-ignorant-stifler)模型[13]等.這些模型將用戶分為幾類,各類型用戶在某些條件下可以相互轉(zhuǎn)化.近年來,一些不同場(chǎng)景下的信息傳播模型陸續(xù)被提出.Xiong等[14]提出一種信息擴(kuò)散模型,該模型在SIR模型的基礎(chǔ)上增加了一種保留狀態(tài),用于表示用戶收到信息但未做出決策的狀態(tài).Wang等[4]提出了基于情緒的SIS(ESIS)模型,將情緒劃分為若干細(xì)粒度類型,邊權(quán)值等于用戶間帶有某種情緒的消息的轉(zhuǎn)發(fā)數(shù),而接收消息的概率由傳播概率和轉(zhuǎn)發(fā)強(qiáng)度共同決定.雖然上述模型總結(jié)了信息和情緒傳播過程中的部分特征,但是卻忽略了情緒傳播的多維度時(shí)空特性.
Boccaletti等[15]將多層網(wǎng)絡(luò)視為類似于一個(gè)由多個(gè)單層網(wǎng)絡(luò)組成的網(wǎng)絡(luò)集,每個(gè)單層網(wǎng)絡(luò)構(gòu)成一個(gè)網(wǎng)絡(luò)層,以(G,C)表示整個(gè)多層網(wǎng)絡(luò),其中,G是由一組單層網(wǎng)絡(luò)組成的集合,C是包含所有不同層間連邊的集合,進(jìn)而形成網(wǎng)絡(luò)層內(nèi)的鄰接矩陣和網(wǎng)絡(luò)層間的鄰接矩陣.Kivela[16]進(jìn)一步考慮多層網(wǎng)絡(luò)中同一層的網(wǎng)絡(luò)節(jié)點(diǎn)之間存在多重類型連邊的情況,即同一層中網(wǎng)絡(luò)又可進(jìn)一步分為“亞層”,提出用張量分析的形式來表示這類多層網(wǎng)絡(luò)整體的鄰接矩陣.社交網(wǎng)絡(luò)多種交互機(jī)制所構(gòu)成的多層網(wǎng)絡(luò)結(jié)構(gòu)具有其特殊性,例如轉(zhuǎn)發(fā)關(guān)系網(wǎng)是關(guān)注關(guān)系網(wǎng)的子網(wǎng),上述抽象的多層網(wǎng)絡(luò)分析方法無法獲得滿意的結(jié)論.
社交網(wǎng)絡(luò)的多層結(jié)構(gòu)使信息和情緒可以同時(shí)在多個(gè)拓?fù)浣Y(jié)構(gòu)中傳播,增加了研究的復(fù)雜性.Yagan等[17?18]研究了在線和真實(shí)社會(huì)網(wǎng)絡(luò)中信息的傳播規(guī)律,通過數(shù)學(xué)解析與模擬仿真的方法,發(fā)現(xiàn)獲得信息的用戶比例存在閾值,當(dāng)該比例大于閾值時(shí),信息將會(huì)大范圍傳播,并且傾向于在同一個(gè)社區(qū)中傳播.Kim等[19]研究了信息跨多個(gè)異質(zhì)社交網(wǎng)絡(luò)的擴(kuò)散動(dòng)力學(xué).網(wǎng)絡(luò)用戶通過RSS訂閱器或社交網(wǎng)絡(luò)聚合器等工具,跨平臺(tái)瀏覽各種類型的新聞,使不同社交媒體發(fā)生耦合.上述研究的不足在于:跨平臺(tái)采集數(shù)據(jù)具有較大難度,即使利用社交網(wǎng)絡(luò)聚合器等工具取得數(shù)據(jù),仍然難以將同一個(gè)用戶在不同平臺(tái)中的數(shù)據(jù)對(duì)應(yīng)起來.
社交網(wǎng)絡(luò)的用戶情緒更多地受用戶行為的影響,例如“轉(zhuǎn)發(fā)”和“提及”這兩種動(dòng)作會(huì)為情緒傳播帶來不同的影響:“提及”對(duì)單個(gè)用戶的影響力較大,但影響范圍不及“轉(zhuǎn)發(fā)”.本文正是綜合考慮不同用戶行為對(duì)情緒傳播的影響,構(gòu)建社交網(wǎng)絡(luò)中的情緒傳播模型來分析情緒傳播的特征.
如圖1所示,構(gòu)建基于多層社交網(wǎng)絡(luò)的情緒傳播模型包括四個(gè)主要步驟:
1)從在線社交網(wǎng)絡(luò)Twitter和新浪微博中采集一段時(shí)間的用戶信息及其行為關(guān)系信息,以及在這段時(shí)間內(nèi)發(fā)送的文本消息.將這些數(shù)據(jù)進(jìn)行預(yù)處理以供分析使用.
2)用戶的多種交互行為構(gòu)成多層網(wǎng)絡(luò),并且用戶對(duì)其好友隨后的信息會(huì)產(chǎn)生影響.利用統(tǒng)計(jì)方法分析不同時(shí)間點(diǎn)和不同網(wǎng)絡(luò)位置的用戶情緒及其交互行為數(shù)據(jù),以提取情緒在空間和時(shí)間上的多維度傳播特征.
3)構(gòu)建社交網(wǎng)絡(luò)中的情緒傳播模型,其中包含若干行為子層.每個(gè)子層根據(jù)該行為的交互歷史形成不同拓?fù)浣Y(jié)構(gòu),并且每個(gè)子層中擁有不同的情緒傳輸率.

圖1 社交網(wǎng)絡(luò)中情緒傳播分析及模型構(gòu)建示意圖Fig.1 Analysis and modeling of emotion contagion in social networks
4)基于采集的數(shù)據(jù)對(duì)該模型進(jìn)行仿真實(shí)驗(yàn),分析情緒的傳播規(guī)律,并利用該模型預(yù)測(cè)情緒的傳播趨勢(shì).
利用文獻(xiàn)[20]中提到的方法可以將用戶不同交互機(jī)制形成的多層社交網(wǎng)絡(luò)用G=∪Gα來表示,其中,α表示不同子層.四個(gè)子層分別為關(guān)注子層(α=F)、轉(zhuǎn)發(fā)子層(α=R)、提及子層(α=M)和回復(fù)子層(α=S).每個(gè)子層中的用戶都可以表示為節(jié)點(diǎn).這些子層存在以下特征:
1)各子層內(nèi)部的連邊分別具有不同的含義:關(guān)注子層的每條邊表示兩個(gè)用戶間存在好友關(guān)系;轉(zhuǎn)發(fā)子層的每條邊則表示用戶轉(zhuǎn)發(fā)了其他用戶的消息;提及子層的每條邊表示用戶在自己發(fā)布的消息中提到了其他用戶,該機(jī)制可以用于專門構(gòu)建用戶間的對(duì)話關(guān)系,或者僅僅是為了提醒某人查看該消息[21],從而使被提及用戶閱讀該消息的幾率大大增加;回復(fù)子層中每條邊表示用戶回復(fù)其他用戶的消息.
2)關(guān)注子層是其他子層的基礎(chǔ),提供了信息和情緒傳播的通道,而其他每個(gè)子層的節(jié)點(diǎn)集合和連邊集合都是關(guān)注子層相應(yīng)集合的子集,因而其他子層的節(jié)點(diǎn)分布比關(guān)注子層稀疏,這表明用戶只會(huì)主動(dòng)挑選部分消息進(jìn)行轉(zhuǎn)發(fā)、提及或回復(fù),而不像查看消息那樣是一個(gè)被動(dòng)接受的過程.其他交互行為都受到關(guān)注子層的非規(guī)則拓?fù)浣Y(jié)構(gòu)的影響.
3)用戶的關(guān)注行為在一段時(shí)間內(nèi)相對(duì)穩(wěn)定,不容易發(fā)生變化,因此用戶在較短時(shí)間內(nèi)(1小時(shí)至10天)的交互只需要考慮轉(zhuǎn)發(fā)、提及與回復(fù)這三種行為.
這三個(gè)行為子層中情緒傳輸效果存在較大差異,因此采用情緒傳輸率[20]來衡量一對(duì)用戶間傳播情緒的能力.情緒傳輸率受到用戶行為的影響,即不同的行為子層擁有不同的情緒傳輸率.
社交網(wǎng)絡(luò)用戶間的不同交互機(jī)制構(gòu)成了具有不同拓?fù)浣Y(jié)構(gòu)的用戶關(guān)系網(wǎng)絡(luò),這些網(wǎng)絡(luò)之間相互依存并相互影響.利用多層網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)的結(jié)構(gòu)和動(dòng)力學(xué)特性,可以突破傳統(tǒng)單層網(wǎng)絡(luò)分析的局限性,多維度挖掘情緒傳播的特征.多層網(wǎng)絡(luò)的出現(xiàn)實(shí)質(zhì)是為了突破傳統(tǒng)單層網(wǎng)絡(luò)中連邊同質(zhì)性的限制,各層有不同的拓?fù)浣Y(jié)構(gòu)并且每層的節(jié)點(diǎn)之間不一定有對(duì)應(yīng)關(guān)系.
Kramer通過發(fā)現(xiàn)社交網(wǎng)絡(luò)用戶可以影響其好友情緒,并且影響距離最大為3(用戶與其直接好友之間的距離為1),持續(xù)時(shí)間最多為3天[22].這一事實(shí)說明用戶間情緒具有時(shí)間關(guān)聯(lián)性和空間關(guān)聯(lián)性.同時(shí),社交網(wǎng)絡(luò)中用戶行為的多樣性使情緒傳播又具有特殊性.為有效分析情緒傳播規(guī)律,并預(yù)測(cè)其傳播趨勢(shì),本文提出基于多層社交網(wǎng)絡(luò)的情緒傳播模型(Emotional contagion model,ECM模型).
為簡(jiǎn)化模型構(gòu)建,本模型基于以下假設(shè):為方便表示情緒的傳播過程,可以將連續(xù)時(shí)間軸劃分為若干細(xì)小時(shí)間段,其中每個(gè)時(shí)間段稱為一個(gè)時(shí)步.在一個(gè)時(shí)步中,兩個(gè)節(jié)點(diǎn)最多完成每種交互行為各一次,并且該行為子層上的所有節(jié)點(diǎn)(用戶)依次更新情緒狀態(tài).
如果用ρ表示關(guān)注子層的節(jié)點(diǎn)密度,它在整個(gè)模型演化過程中保持不變.α表示某一個(gè)行為子層,則該子層的節(jié)點(diǎn)密度ρα<ρ,可以表示為ρα=ργα,其中,γα稱為密度系數(shù),由[t??t,t]內(nèi)該層中發(fā)生交互行為的用戶分布決定.
α子層這兩個(gè)用戶之間在時(shí)步t新出現(xiàn)連邊的概率為γα,即α子層的密度系數(shù).假設(shè)α子層中用戶i與j之間存在連邊,而用戶k與j之間不存在連邊,則i和k分別對(duì)j采取α行為的概率為:

其中,?Eij(t)和?Ekj(t)表示節(jié)點(diǎn)i和k與節(jié)點(diǎn)j在時(shí)步t的情緒差,即 ?Eij(t)=Ei(t)?Ej(t),?Ekj(t)=Ek(t)?Ej(t);δα(j)和δF(j)分別表示j在α層和關(guān)注子層的鄰點(diǎn)集合;pkj表示k與j之間新產(chǎn)生連邊的概率,該值約等于γα,而pij則表示用戶i與j之間在時(shí)步t將發(fā)生交互的概率,可以表示為下面的公式:

如果用戶i對(duì)用戶j在[t??t,t]內(nèi)采取了α行為,則表示α子層中用戶i和用戶j之間的連邊權(quán)重,可以按以下公式計(jì)算:


在式(3)中,分子與分母分別表示在時(shí)間區(qū)間[t??t,t]內(nèi),j與i之間以及j與其在α層所有鄰點(diǎn)之間發(fā)生該行為的次數(shù).因此,是一個(gè)基于歷史行為數(shù)據(jù)的時(shí)變參數(shù),隨時(shí)間窗的移動(dòng)而改變.式(1)表示用戶j模仿相鄰用戶的情緒,即情緒從相鄰用戶向j擴(kuò)散,因此該式可以轉(zhuǎn)換為:


最后,同時(shí)考慮3個(gè)行為子層,可以得到:

式(7)表示用戶j在時(shí)步t的情緒表達(dá)式,其等于該用戶與相鄰用戶情緒差異的時(shí)間累積和行為累積.
本文提出一種基于多層社交網(wǎng)絡(luò)的情緒傳播模型–ECM 模型.該模型包括三個(gè)行為子層,并且每層的拓?fù)浣Y(jié)構(gòu)各不相同,分別由用戶的交互歷史決定.算法過程簡(jiǎn)單描述如下:
算法1.基于多層社交網(wǎng)絡(luò)的情緒傳播模型–ECM模型

算法共執(zhí)行sn個(gè)時(shí)步(第1行),在每次循環(huán)結(jié)束時(shí)需要更新時(shí)步;每個(gè)時(shí)步的處理過程可以分為兩個(gè)部分,分別用于計(jì)算[t??t,t]的時(shí)間段中每種行為發(fā)生的次數(shù)(第2~4行),以及更新每個(gè)用戶的情緒值(第5~9行).

表1 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 The statistical information of the datasets
為了說明ECM模型具有較好的時(shí)間性能,可用于預(yù)測(cè)情緒傳播趨勢(shì),需要分析ECM模型的時(shí)間復(fù)雜性.每個(gè)時(shí)步的流程都分為兩個(gè)部分,第一部分用于計(jì)算每種行為的發(fā)生次數(shù),其時(shí)間復(fù)雜度為O(n2),第二部分用于更新用戶情緒,其時(shí)間復(fù)雜度也為O(n2).綜合上述步驟獲取整個(gè)ECM模型的時(shí)間復(fù)雜度為O(m×n2),其中,m和n分別表示時(shí)步數(shù)和用戶總數(shù).
Twitter是一種基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò),在世界范圍受到用戶的廣泛歡迎.據(jù)統(tǒng)計(jì),2015年Twitter的月均活躍用戶量達(dá)到2.71億,成為傳播信息和情緒的有力工具.與此同時(shí),作為國內(nèi)最大的微博網(wǎng)站,新浪微博每天也有超過1億條微博內(nèi)容產(chǎn)生.目前常用的社交網(wǎng)絡(luò)數(shù)據(jù)集主要有以下兩個(gè):
1)斯坦福大學(xué)SNAP實(shí)驗(yàn)室提供的Higgs網(wǎng)絡(luò)數(shù)據(jù)集[23].歐洲核子研究組織(CERN)于2012年7月4日宣布發(fā)現(xiàn)Higgs玻色子,該消息引起社交網(wǎng)絡(luò)上的廣泛議論.該數(shù)據(jù)集包含7月1日~7月4日該消息在Twitter傳播過程中的相關(guān)信息,其中包括好友、轉(zhuǎn)發(fā)、提及和回復(fù)這四種關(guān)系分別構(gòu)成的網(wǎng)絡(luò),以及每次行為發(fā)生的時(shí)間點(diǎn).由于該數(shù)據(jù)集不包括任何文本信息,因此無法提取用戶行為發(fā)生時(shí)的情緒狀況,需要人為指定被傳播消息的情緒值.
2)數(shù)據(jù)堂提供新浪微博數(shù)據(jù)集.其中包含用戶好友關(guān)系和他們對(duì)12個(gè)主題相關(guān)信息的轉(zhuǎn)發(fā)關(guān)系,但是未包含提及與回復(fù)這兩種行為數(shù)據(jù).
現(xiàn)有數(shù)據(jù)集具有一定局限性,無法全面分析本文模型.因此本文利用爬蟲工具從Twitter和新浪微博網(wǎng)站重新采集了大量數(shù)據(jù).其中Twitter數(shù)據(jù)集包括33070個(gè)用戶及其關(guān)系信息,以及2016年3月間5起熱門話題的相關(guān)文本內(nèi)容;新采集的新浪微博數(shù)據(jù)集包括6344個(gè)用戶及其關(guān)系信息,以及2017年5月間的9起熱門事件的相關(guān)文本內(nèi)容.表1對(duì)比了本文新采集的數(shù)據(jù)集與現(xiàn)有數(shù)據(jù)集的主要統(tǒng)計(jì)信息.
本文采用情感分析工具SentiStrength[24]對(duì)情緒傳播過程進(jìn)行量化分析.每條消息都同時(shí)包含正向情緒或負(fù)向情緒,因此每條消息都被同時(shí)賦予一個(gè)正向情感值S+(t)與一個(gè)負(fù)向情感值S?(t).這兩個(gè)值分別取1(中性)到5(強(qiáng)正向和強(qiáng)負(fù)向)之間的一個(gè)整數(shù)值.為使用統(tǒng)一的度量方法來衡量消息文本的情緒,可以將情緒極化值定義為正向情緒值和負(fù)向情緒值之和,即極化值S(t)取值范圍為?4(S+(t)=1,S?(t)=5)到+4(S+(t)=5,S?(t)=1).當(dāng)正向和負(fù)向情緒值相同時(shí)(S+(t)=S?(t))則為中性情緒(S(t)=0).當(dāng)情緒較弱時(shí),極化值接近0,可以近似看作中性情緒.
此外,可以利用情緒極化值來定義情緒傾向.S(t)取值為?4到?2表示負(fù)向情緒傾向;S(t)取值為?1到1表示中性情緒傾向;S(t)取值為2到4則表示正向情緒傾向.如果需要在時(shí)變模型中表示情緒值,則可以使用連續(xù)情緒值,即采用θ1表示正向情緒和中性情緒的界線,θ2表示負(fù)向情緒和中性情緒的界線.如果連續(xù)情緒極性值服從[?4,4]的均勻分布,即a=?4,b=4,并且三種情緒取值區(qū)間寬度相同,則有下面公式:

利用式(8)可以求得θ1≈1.33,θ2≈?1.33.
為對(duì)比不同兩個(gè)數(shù)據(jù)集的文本情感,本文仿照SentiStrength對(duì)新浪微博數(shù)據(jù)集的中文文本進(jìn)行分詞和情感分析,主要IKAnalyzer分詞工具[25]和BosonNLP情感詞典[26]對(duì)新浪微博的文本進(jìn)行情感標(biāo)注.
每個(gè)用戶通過三種行為影響其鄰居的情緒.通過對(duì)本文采集的數(shù)據(jù)進(jìn)行分析,可以發(fā)現(xiàn)一系列特征.統(tǒng)計(jì)數(shù)據(jù)來自非連續(xù)三天的平均值并且每個(gè)時(shí)步定義為2個(gè)小時(shí).在每個(gè)時(shí)步中,用戶情緒的變化可以表示為各種行為出現(xiàn)頻率以及不同行為情緒傳輸率的線性函數(shù)[20].利用線性回歸方法分析兩個(gè)數(shù)據(jù)集,可以得到置信度為95%時(shí)三個(gè)子層的情緒傳輸率.如表2所示,在兩個(gè)數(shù)據(jù)集中,提及子層的情緒傳輸率都最大,表明該行為更利于情緒在網(wǎng)絡(luò)中的擴(kuò)散.并且新浪微博中情緒傳播更加迅速,主要是由于新浪微博中公共消息更多,更容易受到用戶的關(guān)注并形成情緒聚集.

表2 兩個(gè)數(shù)據(jù)集不同子層的情緒傳輸率Table 2 The transimisibilities on different layers in the two datasets
社交網(wǎng)絡(luò)的結(jié)構(gòu)和動(dòng)力學(xué)特性比隨機(jī)網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)和無標(biāo)度網(wǎng)絡(luò)等典型網(wǎng)絡(luò)更加復(fù)雜,而且各種因素都會(huì)對(duì)社交網(wǎng)絡(luò)中的情緒傳播產(chǎn)生重要影響.本小節(jié)將利用ECM模型分析社交網(wǎng)絡(luò)中的情緒傳播過程及其特征.由于兩個(gè)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果近似,因此本小節(jié)僅展示在Twitter數(shù)據(jù)集上的結(jié)果.
用戶之間存在某些特殊關(guān)系,例如親戚、朋友或擁有相同的愛好.用戶通過這些現(xiàn)實(shí)世界的關(guān)系產(chǎn)生在線關(guān)注關(guān)系,情緒也會(huì)因?yàn)檫@些關(guān)系而在網(wǎng)絡(luò)中傳播.如圖2所示,可以發(fā)現(xiàn):具有某種情緒的用戶在一段時(shí)間內(nèi)發(fā)布的消息中都會(huì)帶有該情緒傾向,并且該情緒會(huì)影響該用戶的直接或間接好友.同時(shí),情緒傳播過程具有明顯的局部性,例如用戶一般只能影響距離在3以內(nèi)的用戶,并且距離越近關(guān)聯(lián)度越大,而對(duì)距離大于3的用戶幾乎沒有影響.此外還可以從數(shù)據(jù)中發(fā)現(xiàn)抑郁、孤獨(dú)和憤怒等負(fù)向情緒比愉快、興奮等正向情緒更容易傳播.

圖2 用戶間情緒關(guān)聯(lián)度與距離之間的關(guān)系圖Fig.2 Relation between emotional correlation and distances
利用ECM模型可以定量展示社交網(wǎng)絡(luò)用戶情緒的動(dòng)態(tài)傳播過程.如圖3所示,三種情緒具有相近的初始比例,比例之差不超過4.0%.初始階段,三種情緒同時(shí)在網(wǎng)絡(luò)中傳播,中性情緒減少,其他兩種極化情緒增多.這主要是因?yàn)榫W(wǎng)絡(luò)的非均衡性會(huì)產(chǎn)生一些中心用戶,他們的極化情緒會(huì)對(duì)周圍用戶產(chǎn)生較大影響,使他們也同樣“情緒化”,中性情緒與極性情緒的比例差達(dá)到10.1%.用戶在與多個(gè)鄰居的交互中獲得了更多的信息,極化情緒用戶逐漸減少,而中性情緒用戶所占比例隨時(shí)間逐漸增大,并且正向情緒與負(fù)向情緒比例始終接近,比例差最大僅為2.5%.在演化趨于穩(wěn)定時(shí),中性情緒處于主導(dǎo)地位,約占57.1%的比例,同時(shí)存在一部分用戶仍然持有極性情緒.通過分析網(wǎng)絡(luò)情緒分布,可以發(fā)現(xiàn)這些極化用戶之間形成了多個(gè)社區(qū),每個(gè)社區(qū)內(nèi)部用戶相互影響,情緒趨同,卻不易隨其他社區(qū)的情緒而改變.
為分析不同行為對(duì)情緒傳播的影響,需要研究情緒在單一行為子層的傳播過程,同時(shí)忽略其他子層的影響.圖4表示情緒轉(zhuǎn)換數(shù)(即情緒從一種傾向轉(zhuǎn)換為另一種傾向的次數(shù))與參數(shù)的關(guān)系,其中橫坐標(biāo)表示用戶初始情緒與節(jié)點(diǎn)度的乘積的平均值.不同的子層具有不同的情緒傳輸率,其中提及行為的傳輸率最高,而轉(zhuǎn)發(fā)行為的傳輸率最小.圖4中三條曲線的關(guān)系表明情緒傳輸率越大,用戶情緒更容易受到其他用戶的影響而發(fā)生變化.對(duì)同一條曲線,初始情緒越中立,則用戶情緒波動(dòng)越小,例如初始平均情緒值為0時(shí),則用戶在演化過程中僅平均改變2次情緒傾向.而初始情緒極性越大,則用戶情緒波動(dòng)越大.橫坐標(biāo)為150時(shí),平均每個(gè)用戶約改變24次情緒傾向.尤其是具有較大節(jié)點(diǎn)度的中心用戶,其極性情緒更能影響其他用戶.
為了展示ECM 模型的預(yù)測(cè)效果,可以將ECM 模型、ESIS模型和IC模型與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn).鑒于這些模型之間略有差異,因此需要對(duì)參數(shù)進(jìn)行一定的調(diào)整,使它們?cè)谕换鶞?zhǔn)上進(jìn)行比較,具體參數(shù)調(diào)節(jié)過程如下:

圖3 ECM模型的演化規(guī)律Fig.3 Evolutionary process of ECM model

圖4 情緒轉(zhuǎn)換數(shù)隨用戶初始情緒與節(jié)點(diǎn)度乘積的變化Fig.4 The relation between the number of individual emotional tendency changes,the degree and the initial emotion
1)ESIS模型將情緒細(xì)分為六種.首先根據(jù)某用戶轉(zhuǎn)發(fā)的含有該情緒的消息數(shù)來計(jì)算該用戶的該種情緒值.然后將這六種情緒歸為正向、負(fù)向和中性三類:高興是正向,驚訝是中性,而憤怒、傷心、害怕和厭惡則是負(fù)向.最后某用戶在某時(shí)步內(nèi)的情緒值即為他在該時(shí)步內(nèi)所有消息的各情緒值之和.
2)修改IC模型,使邊的權(quán)重表示用戶間的影響力,而不僅僅是表示獲得信息的概率,因此節(jié)點(diǎn)即使受到該情緒影響也不會(huì)停止演化.另外,該模型使用與ECM模型相同的情緒值計(jì)算方法:當(dāng)用戶收到一個(gè)消息,用戶當(dāng)前情緒值為該消息的情緒值與之前用戶情緒值之和.
3)ESIS模型和IC模型也被看作是多層模型,只不過每層的拓?fù)浣Y(jié)構(gòu)相同.
4)所有演化時(shí)步都被固定為2個(gè)小時(shí).
通過對(duì)ESIS模型和IC模型的時(shí)間分析,可以發(fā)現(xiàn)它們的時(shí)間復(fù)雜度均為O(m×n2),其中m和n分別表示時(shí)步數(shù)和節(jié)點(diǎn)數(shù).這與ECM一致,表明三種模型擁有近似的執(zhí)行時(shí)間.此外,圖5展示了三種模型與真實(shí)數(shù)據(jù)在不同演化時(shí)步下的接近程度,其中縱坐標(biāo)表示節(jié)點(diǎn)情緒值與節(jié)點(diǎn)度的乘積平均值.
從圖5可以看出,ESIS模型比其他模型擁有更好的數(shù)據(jù)擬合性.IC模型最簡(jiǎn)單,而ESIS模型由SIS模型演化而來,可用于解釋信息傳播的過程.但是這兩種模型偏離真實(shí)數(shù)據(jù)較多,因?yàn)樗鼈兌贾豢紤]了情緒本身的因素,而未考慮多種網(wǎng)絡(luò)行為對(duì)情緒傳播的影響.對(duì)比實(shí)驗(yàn)表明,ECM模型與其他兩種模型具有相同的時(shí)間復(fù)雜度,但是與真實(shí)數(shù)據(jù)的擬合度更好.此外,圖5中幾種曲線都具有類似的走向,先是快速上升,然后緩慢下降.這是因?yàn)闊衢T事件通常可以在短時(shí)間內(nèi)激起人們的廣泛關(guān)注并出現(xiàn)極化情緒,隨著時(shí)間的推移,人們的情緒會(huì)慢慢趨于理性和穩(wěn)定.
分類算法的分類效果可以通過混淆矩陣中的準(zhǔn)確率(Precision)、查全率(Recall)和F值(F-measure)等三個(gè)指標(biāo)[27]來衡量.本文將情緒傳播中正向、中性和負(fù)向三種情緒分別歸屬到兩個(gè)分類:正向情緒為一類,中性和負(fù)向情緒為一類,則兩個(gè)分類之間的界線就是θ1.θ1為典型值1.3時(shí)三種模型的分類效果如圖6所示,顯然ECM模型擁有更好的分類準(zhǔn)確率.新浪微博的公眾信息較多,用戶易受到中心用戶的影響,不易隨著其他個(gè)人用戶情緒而發(fā)生改變,因此分類準(zhǔn)確率較高;而Twitter的用戶通常關(guān)注了較多的個(gè)人好友,其情緒也容易受到這些好友的影響,導(dǎo)致分類準(zhǔn)確率降低.
三種模型中F-1值隨參數(shù)θ1的變化曲線如圖7所示,可以看出ECM 模型的F-1值比其他兩種模型提高了2.7%~7.8%,說明其擁有更高的分類準(zhǔn)確率.三種模型的F-1值在θ1=1.5附近達(dá)到最大值,這是因?yàn)樵谇榫w值均勻分布的條件下,此時(shí)三種情緒都擁有近似的用戶數(shù)量.ECM模型的曲線波動(dòng)較大,并且與其他兩種模型的F-1之差也在θ1=1.5附近達(dá)到最大,說明ECM模型對(duì)參數(shù)θ1最為敏感.隨著θ1的增大或減小,情緒分布都會(huì)發(fā)生變化,從而導(dǎo)致情緒預(yù)測(cè)準(zhǔn)確率的下降.
三種模型中F-1值隨用戶數(shù)量的變化曲線如圖8所示.可以看出,ECM模型將分類準(zhǔn)確率提高了1.8%~6.2%.三種模型的F-1值都會(huì)隨用戶數(shù)的增大而增大,這是因?yàn)榇笠?guī)模的訓(xùn)練集將會(huì)提高分類準(zhǔn)確率.ECM模型描述情緒傳播特征更加充分,因此F-1值上升更加迅速,在用戶數(shù)為1900時(shí)達(dá)到最大值70.5%.
本文提出一種基于社交網(wǎng)絡(luò)多種交互行為的情緒傳播模型,利用該模型分析社交網(wǎng)絡(luò)中情緒傳播的過程與規(guī)律.在集的社交網(wǎng)絡(luò)數(shù)據(jù)基礎(chǔ)上進(jìn)行仿真分析,發(fā)現(xiàn)中性情緒用戶所占比例隨時(shí)間逐漸增大,并且正向情緒與負(fù)向情緒比例始終接近.情緒傳輸率越大,用戶情緒更容易受到其他用戶的影響而發(fā)生變化.初始情緒越中立的用戶,在演化過程中情緒波動(dòng)越小,而初始情緒極性越大的用戶情緒波動(dòng)越大.最后,本文還對(duì)比了該模型與其他情緒傳播模型,如:基于情緒的SIS模型和獨(dú)立級(jí)聯(lián)模型,實(shí)驗(yàn)表明ECM模型對(duì)社交網(wǎng)絡(luò)中情緒傳播具有較好的預(yù)測(cè)效果,預(yù)測(cè)準(zhǔn)確率比其他兩種模型提高1.8%~7.8%.

圖6 三種模型分類度量值的對(duì)比Fig.6 The comparison of classification measurements of the three models

圖7 三種模型中的F-1值隨θ1的變化規(guī)律(Twitter數(shù)據(jù)集)Fig.7 F-1 changes withθ1for the three models(Twitter dataset)

圖8 三種模型中的F-1值隨用戶數(shù)的變化規(guī)律(Twitter數(shù)據(jù)集)Fig.8 F-1 changes with the number of users for the three models(Twitter dataset)
本文工作仍然存在一些需要改進(jìn)的地方,例如:
1)社交網(wǎng)絡(luò)中的情緒傳播是一個(gè)復(fù)雜的過程,目前很難考慮所有網(wǎng)絡(luò)因素的影響,例如網(wǎng)絡(luò)結(jié)構(gòu)的動(dòng)態(tài)演化.也就是說,用戶傾向與擁有相近情緒的用戶建立新的連接,而與相反情緒的用戶斷開連接.分析多種因素對(duì)情緒傳播的影響將是未來一項(xiàng)有價(jià)值的工作.
2)本文的工作基于情緒分析算法,并采用了SentiStrength等工具和手段對(duì)消息文本進(jìn)行分析.雖然比之前的分析方法準(zhǔn)確,但仍然無法解析人類語言表達(dá)中的微妙情緒,例如挖苦和嘲諷,也無法很好地識(shí)別一句話中的多種情緒.情緒的這些特點(diǎn)都給其識(shí)別帶來了困難,需要在未來進(jìn)行深入研究.