郎冬冬 劉卓然 馮旭鵬 劉利軍 黃青松,2
1(昆明理工大學信息工程與自動化學院 云南 昆明 650500)
2(云南省計算機應用重點實驗室 云南 昆明 650500)
基于情感傾向性的意見領袖發現方法
郎冬冬1劉卓然1馮旭鵬1劉利軍1黃青松1,2
1(昆明理工大學信息工程與自動化學院 云南 昆明 650500)
2(云南省計算機應用重點實驗室 云南 昆明 650500)
隨著社交網絡的迅猛發展,大量的網民參與到話題討論,積極推動著信息的傳播。而意見領袖在信息傳播中又起著決定性的作用。因此,如何在網絡輿論中準確尋找意見領袖成為研究熱點。針對傳統的意見領袖研究方法沒有將用戶節點看作網絡或僅僅把網絡中的用戶節點權重看成是回復次數疊加的問題,綜合考慮回帖者的情感傾向,提出基于回帖者情感傾向性的意見領袖發現算法。實驗表明,改進的意見領袖發現算法與傳統的PR算法、UI-LR算法相比具有更高的識別精度。
意見領袖 回帖者 情感傾向 輿論
隨著網絡的迅速發展,人們利用新興媒體,如論壇、BBS、博客、微博、貼吧等平臺參與到公眾話題討論。在信息傳播中,意見領袖對社會輿論的形成發揮著重要作用。而局部意見在意見領袖的引導下演化為輿論,影響力直接滲透到現實社會[1]。因網民與網民的評論和回復之間極易受到影響,而每個用戶的影響力不同,人們判斷信息的可信度是依據其所發評論文本的內容和質量。所以,意見領袖的挖掘在輿論監測、市場推廣等領域有著重要作用[2]。
國內外學者對發掘社交網絡中意見領袖的識別方法進行了大量研究,例如: Li[3]、Duan[4]等從用戶發表的內容出發,挖掘用戶潛在情感,進而找到社區中的意見領袖。Zhang等[5]通過對新浪微博的研究發現,微博系統具有很強的名人效應。Tsai等[6]通過構建社交關系網絡并基于用戶行為和興趣領域發現社區中的意見領袖。馮時等[7]采用層次分析法對影響指標進行量化分析,從而對各節點進行排序,最終得到意見領袖。樊興華等[8]提出了影響力擴散模型(IDPM),引入整合如用戶統計信息、帖字傾向性、帖子回復結構網絡特性等因素的有效因子,但未給出回復帖子傾向性的判定方法。吳渝等[9]綜合了用戶自身的影響力和PageRank相似的圖模型方法來計算用戶的影響力,但忽略了用戶之間交互的情感關系。
目前基于PageRank算法識別出網絡論壇中意見領袖的方法有:Zhou等[10]分析了意見網絡中的情感傾向性問題并提出基于情感分析的OpinionRank算法;Xiao等[11]提出一種基于社區發現和情感挖掘的LeaderRank發現算法;Zhai等[12]發現基于興趣的PageRank算法最能準確識別方法的準確性,但也未考慮回帖者的主觀情感傾向性;吳凱等[13]歸納決定用戶影響力的因素,建立了用于用戶影響力度量的算法。但在實際網絡交互中,一個用戶的影響力不僅與被回復數有關,還會與回帖者情感傾向等因素有關,用戶的自身影響力越大,回復者受到的影響力也就越大。
因此,本文利用PageRank算法來計算節點影響力值,然后把匿名用戶和回復者的情感值納入計算,提出了基于情感傾向性的意見領袖發現算法。還將回帖的情感傾向納入計算和匿名用戶的回復來計算綜合影響力的方式,解決了信息發布者的選取問題。并以論壇的數據進行實驗,結果表明本文方法可有效提升意見領袖的識別準確率。
在信息傳播過程中,意見領袖是影響輿論走向的一個關鍵因素,它有著重要的引導作用。本文利用基于回帖者情感傾向的意見領袖發現方法為輿論引導打下了基礎。它主要包含四部分:(1) 網民言論的收集與記錄;(2) 用戶情感矩陣的構建;(3) 用戶節點模型的計算;(4) 將匿名用戶回帖的數據納入計算,綜合計算意見領袖值。
針對用戶的觀點計算回帖者的情感傾向值e,本文利用情感分析模型對回帖者集合進行情感極性分析方法[14],先對主客觀文本分類,有助于提高情感極性分析的效率和準確度。然后利用基于知網和PMI相融合的方式計算詞語的情感極性,以及通過上下文計算短語的情感極性。最終通過極性累加的方式得出評論文本的情感極性傾向和強度,得出情感值e。
主客觀文本分類:(1) 抽取文本中的情感特征:《知網》中的情感詞、建議詞、第一第二人稱代詞、非規范用語等。(2) 通過計算互信息去除表征力不強的詞,公式為:
|I(f,C1)-I(f,C2)|>θ
(1)
其中I是文本的特征f對于主觀類別C1和客觀類別C2的互信息量。當它大于閾值θ時就把該特征f抽取出來。
通過樸素貝葉斯分類算法[15]對文檔進行主觀和客觀文檔分類。分別計算每一個類別的后驗概率,取后驗概率最大的類別為文檔的類別。
基于PMI詞語情感極性計算:通過計算新詞與選取的基準詞在語料庫中共現的概率得出新詞的情感傾向。本文采用吳澤衡等[14]的方法,從知網中選取了40對情感基準詞,如表1所示。

表1 情感基準詞
任意兩個詞的PMI值計算公式如下:
(2)
其中W和W′是任意兩個詞,P(W&W′)為兩個詞同時出現的概率。褒義基準詞記ComWord,貶義基準詞記DerWord,對于某新來詞NewComeWord,新詞的情感傾向值計算公式:


(3)
最后采用知網詞語相似度計算方法[16]sim(w,w′)來計算新詞基于知網的詞語情感傾向值Eneword。計算公式如下:

(4)
其中,NewW是新來詞,褒義基準詞ComWord和貶義基準詞DerWord,是從知網中選取的40對情感基準詞。
在計算用戶回帖情感傾向值的過程中,用戶所發評論的回帖是由回復其評論用戶集的文本組成。本文借鑒了肖宇等[17]情感傾向值的計算方法,得出用戶j對用戶i所發評論的主觀情感傾向值的計算方法:

(5)
其中,∑eij表示用戶j對用戶i所發評論的主觀情感傾向值的系數和,nij表示在同一個話題中用戶j對用戶i評論回帖的個數。
構造用戶關系圖模型時,用戶回復自己的評論不能作為用戶關系圖之間的“邊”,但可以定義用戶i對自己的主觀情感傾向值Eii。其為所有匿名用戶對用戶i發帖的主觀情感傾向的平均值。假設某個匿名用戶對其回帖個數為m,匿名用戶對用戶i的主觀情感傾向值ei,則匿名用戶的主觀情感傾向值計算方法為:

(6)
假設一共需要評價n個用戶,構造用戶情感傾向矩陣E,則應記為:E={Eij}1≤i≤n,1≤j≤n,用戶的情感傾向矩陣構建完成。
本文在PageRank的基礎上加入用戶之間的情感傾向值和自身的影響力,提出了基于情感傾向的Emotion LeaderRank(ELeaderRank)圖模型。建立用戶間的網絡鏈接圖模型,首先將社交平臺中的所有用戶看作“節點”,用戶之間的回復關系被看作“邊”。具體定義如下:(1) 假設用戶對自己發布的評論進行回復,不建立節點到節點之間的“邊”。(2) 假設用戶所發的內容沒有被任何用戶回復,刪除此節點。(3) 假設此用戶是僵尸粉或者是匿名信息,刪除節點。(4) 假設用戶A節點對用戶B節點所發內容進行了回復,建立A節點到B節點的邊,邊的權值由節點B的回復次數和用戶B節點對用戶A節點的情感傾向值EAB綜合確定。用戶間通過話題之間的發帖和回帖建立的圖模型如圖1所示。

圖1 用戶關系的圖模型圖
本文引入用戶間的情感傾向來綜合計算用戶之間的鏈接關系,改進基于用戶影響力的意見領袖挖掘算法。通過用戶節點的出度和入度計算用戶影響力來構建整個ELeaderRank圖。
2.2.1 用戶節點影響力初值
首先對用戶特征進行提取,提取的特征體系如圖2所示。

圖2 用戶特征圖
用戶影響力主要包含用戶的活躍度和被其他用戶關注的程度,用戶的活躍度主要包括:回復數、發帖子數、在線時長三大特征。在線時長主要代表了用戶的等級以及用戶所在平臺的等級,發帖數和回復數都能反映用戶對新信息的觀點和看法。它們在一定程度上體現了用戶活躍度。被關注度包括:被回復數、被引用數、被瀏覽數三大特征,它們從側面反映用戶在傳播過程中的直接影響力。用戶影響力初值I的計算方法如下:
(7)
其中,Ia表示用戶節點a的初始影響力值,a屬于用戶總集合U,wi和Ci分別表示屬性(發帖數、在線時長等)和它對應的權值。對用戶各屬性特征采集的數據用0-1變換計算,把用戶各屬性的數值確定在范圍[0,1]上,再利用丁雪峰等[18]計算輿情帖子權值的方法得出用戶各屬性的權值。使用satty的10級重要性等級表和判斷矩陣計算屬性的相對重要性算法,得到各屬性的權重如表2所示。

表2 用戶屬性評價指標權重表
2.2.2 用戶影響力的領袖值計算
基于用戶影響力的意見領袖發現方法使用了PageRank算法構建圖模型,利用式(7)計算出的用戶影響力初值I作為節點之間邊的權值。再通過用戶集合U的元素用戶節點u,u∈U之間的多次交互在傳遞用戶自身的影響力值,不停地迭代直到收斂于一個定值。最后計算出各用戶在圖模型中的影響力值,即用戶領袖值,計算公式如下:

(8)

(9)
其中,Inf(x),Inf(y)表示用戶x、y的用戶領袖值,R(x)和R′(y)表示所有在微博、博客、論壇上回復用戶x的用戶集合和所有被用戶y回復的用戶集合,I(x)、I(y)分別表示用戶x和用戶y的初始影響力值,d是回復一個帖子的概率,一般設置在(0,1)之間。本文利用原PageRank算法的固定設置取值為0.85,wyx、wyr分別表示用戶y回復用戶x、r的回帖次數。
2.2.3 回帖者情感傾向的領袖值計算
上述算法中把用戶之間的多次交互行為構造成類似于PangeRank圖中的“邊”,將節點之間的權重簡單地視為用戶之間的回復次數的疊加而未考慮回帖者的情感傾向,最終通過影響力傳遞迭代計算出用戶領袖值。由于回帖者的每一次言論中都有可能會出現情感傾向為正面、負面、中性的評論,對于一個用戶,他的用戶領袖值越高,那么支持他言論的用戶就越多,即用戶的回帖者的情感傾向正面值越大。本文改進了上述算法中的不足,使得各用戶節點的權重不僅僅由回復次數決定,而是由回帖者的情感傾向、回復次數和用戶節點初始影響力三個因素共同決定,提出了基于回帖者情感傾向的意見領袖發現算法LASR(A LeaderRank Algorithm based on sentiment of replies)。假設用戶x和y發生過交互行為,LASR算法定義用戶x的領袖值的計算公式如下:

(10)

(11)
式(11)中每一次的迭代計算加入了回帖者的情感傾向值E、Eyr、Eyx分別表示作為回帖者的用戶y對用戶x、r的情感傾向值,由用戶情感傾向矩陣計算得來。它的結果類似于PageRank算法過程,一直迭代到收斂為止。
2.2.4 意見領袖值的優化計算
我們將實名用戶與匿名用戶同時納入最終意見領袖挖掘的計算,那么用戶x的領袖值L(x)就由式(9)和式(10)迭代計算的實名認證用戶的用戶領袖值Inf(x)和匿名用戶領袖值aInf(x)來確定,具體計算方法如下:
L(x)=λInf(x)+(1-λ)aInf(x)
(12)
式(12)中匿名用戶領袖值aInf(x)由實名用戶領袖值Inf(x)迭代計算出的用戶領袖最小值Inf(x)min和匿名用戶的主觀情感傾向決定。主觀情感傾向值取自1.2節中情感傾向值計算得到的用戶情感傾向值矩陣,計算公式為:
aInf(x)=Exx·Inf(x)min
(13)
本文以貓撲貼貼為采集站點來源,選取貓撲貼貼的”五花八門”、“社會廣角”、“手機之家”、“青蕪校園”板塊為實驗數據來源。利用網頁采集器采集從2015年9月到10月的網民評論數據作為數據集,并按照2.1節的EleaderRank圖模型構建用戶圖模型。爬取的數據集中一共有181 599個帖子,其中從18萬帖子集合中過濾出文本字數為100字以上的文本,共約15 000篇主貼,167 000篇回帖,一共有約10萬名用戶參與討論。
到目前為止,由于在現階段的國內外研究并不存在一個絕對合理和精確的意見領袖的評估方法,因此本文利用節點影響覆蓋率作為意見領袖的評價指標[9]。節點覆蓋率表示節點所影響的用戶群在所有被影響用戶群中所占的比重,節點影響覆蓋率的定義如下:

(14)
其中,p(k)表示前k個用戶節點的節點覆蓋率,L(i)表示在數量為N的用戶中,意見領袖值排名為i的影響用戶群的個數。
實驗中,用戶初始影響力權值選取表2的數據,式(11)的阻尼系數d取0.85。
在實驗中,由于LASR算法的性能一定程度上取決于匿名用戶的影響力取值再計算意見領袖所占權重的大小,考慮公式:L(x)=λInf(x)+(1-λ)aInf(x)。利用節點覆蓋率的權重評價指標,觀察λ值的變化對LASR算法意見領袖挖掘效果的影響。取前80名用戶群來計算節點覆蓋率,結果如圖3所示。

圖3 節點覆蓋率圖
圖3中,縱坐標是節點覆蓋率的值,橫坐標是λ的值,描述前80名用戶節點覆蓋率的值隨參數λ變化所描繪出的曲線圖。可以看出,當λ=0時,意見領袖值L(x)=aInf(x),LASR算法退化為只計算匿名回復領袖值的計算方法;當λ的值很小時(小于0.2),節點覆蓋率的值很小,算法的性能很一般。這是由于在計算用戶領袖值時過多的考慮了匿名用戶對領袖值所產生的影響,減弱了實名用戶之間的聯系。而LASR算法在建立節點圖模型時,是針對于實名用戶的,這就使得用戶領袖值不能準確地反應用戶的影響力,從而導致評價指標節點覆蓋率偏低。當參數λ增大時,LASR算法的性能隨之提高,后來趨于平緩;當λ=0.7時,LASR算法的性能最佳;當參數λ=1時,意見領袖值L(x)=aInf(x),LASR算法退化為只考慮實名用戶的意見領袖挖掘算法。由此,我們在以上和其他算法的對比實驗中,令λ的值為0.7代入LASR算法的計算。
為了驗證本方法的有效性,本文對比了三種不同意見領袖挖掘算法的節點覆蓋率,選取TOP 100的用戶作為橫坐標,統計節點覆蓋率的結果如圖4所示。

圖4 四種意見領袖挖掘算法比較圖
圖4中,LASR算法表示本文提出的基于回帖者情感傾向的意見領袖挖掘算法;UI-LR算法[9]是基于用戶影響力的意見領袖發現算法;WIR算法[13]是基于微博影響力的意見領袖發現算法;PR算法[12]是基于興趣的意見領袖發現算法。
在實驗評價指標節點覆蓋率下,LASR算法的性能在前10名用戶節點覆蓋率有所落后,但在整體上看都要優于另外三種算法。這表示計算回帖者的情感傾向對意見領袖挖掘的性能確實有比較大的提升。同時,我們可以從圖中看出WIR算法的性能最低,這是由于實驗數據選取的是以貓撲貼貼論壇為站點來源,而WIR算法主要針對微博數據并不適合處理論壇數據,所以準確性也會受到比較大的影響。
對比四種算法進行實驗的結果,選取各自算法排名前10位用戶作為對比材料。表格中的字母為論壇中用戶的ID名代號,從A到Q的用戶ID名為“莉莉用顏色比喻以太”、“CharmmyWong”、“耶耶耶耶耶和華”、“逗貓少年”、“抽煙借火”、“風野子”、“與時盡現”、“少年先瘋隊丶隊長”、“1903de國王”、“蘇格拉小底褲”、“寶樂迪小寶”、“王琦家20091101”、“oh_myTJ豌豆種子”、“老丶衲”、“77empty”、“記憶中無法抹去的傷痕”、“該昵稱已被注冊走你”,結果如表3所示。

表3 四種算法排名前10的用戶表
如表3所示,四種算法的主要分歧在于E(只出現兩次且排名靠后)、H(只出現一次)、J(只出現兩次且排名靠后)、K(只出現一次)、L(只出現一次)、N(只出現兩次且排名靠后)、O(只出現一次)、P(只出現一次)、Q(只出現一次),分別觀察E、H、J、K、L、N、O、P、Q對應ID的基本數據,如表4所示。

表4 分歧用戶的歷史數據表
從表4中可以得知,以分析的9個用戶歷史數據來看,顯然N、O、P這三個用戶參與話題討論的次數最多(發帖和回帖數)、粉絲數最多、訪問量相對較多,那么他們是相對于其他6個用戶成為用戶領袖的可能性就越大。而N屬于算法UI-LR和WIR;O、P屬于算法LASR,那么從這一點可以得出本文LASR算法對意見領袖識別的準確性更佳。
在意見領袖挖掘的研究中,回帖者的情感傾向和匿名用戶的回復是影響意見領袖識別準確性的兩個重要因素。為了提高意見領袖識別的準確性,本文提出了基于回帖者情感傾向的意見領袖挖掘方法。在UI-LR算法構造PageRank圖的基礎上,將回帖者的情感傾向和匿名回復應用于意見領袖識別的過程中,改善了意見領袖識別的性能。
然而,在計算意見領袖值時,收斂值的取值是一個難題。這個關鍵數值對算法的性能會有較大的影響。本文通過實驗計算出關鍵數值為0.7最佳,以后的研究需要用更合理的方法來計算關鍵數值和收斂值。
[1] 陳然.網絡論壇輿論領袖篩選方法初探[J].中國網絡傳播研究,2010(4):133-143.
[2] 吳峴輝,張暉,楊春明,等.一種話題相關的微博意見領袖挖掘算法[J].小型微型計算機系統,2014,38(10):2296-2301.
[3] Li Yanyan,Ma Shaoqian,Zhang Yonghe,et al.An improved mix framework for opinion leader identification in online learning communities[J].Knowledge-Based Systems,2013,43(2):43-51.
[4] Duan Jiangjiao,Zeng Jiangping,Luo Banghui.Identification of Opinion Leaders Based on User Clustering and Sentiment Analysis[C]//IEEE/WIC/ACM International Joint Conferences on Web Intelligence.IEEE,2014:377-383.
[5] Zhang Sai,Xu Ke,Li Haitao.Measurement and Analysis of Information Propagation in Online Social Networks Like Microblog[J].Journal of Xian Jiaotong University,2013,76(1-2):201-207.
[6] Tsai M F,Tzeng C W,Lin Z L,et al.Discovering leaders from social network by action cascade[J].Social Network Analysis and Mining,2014,4(1):1-10.
[7] 馮時,景珊,楊卓,等.基于LDA模型的中文微博話題意見領袖挖掘[J].東北大學學報(自然科版),2013,34(4):490-494.
[8] 樊興華,趙靜,方濱興,等.影響力擴散概率模型及其用于意見領袖發現研究[J].計算機學報,2013,36(2):360-367.
[9] 吳渝,馬璐璐,林茂,等.基于用戶影響力的意見領袖發現算法[J].小型微型計算機系統,2015(3):561-565.
[10] Zhou H,Zeng D,Zhang C.Finding leaders from opinion networks[C]//IEEE International Conference on Intelligence and Security Informatics,ISI 2009,Dallas,Texas,USA,June 8-11,2009,Proceedings.DBLP,2009:266-268.
[11] Xiao Yu,Xia Lin.Understanding opinion leaders in bulletin board systems:Structures and algorithms[C]//The 35th Annual IEEE Conference on Local Computer Networks,LCN 2010,10-14 October 2010,Denver,Colorado,USA,Proceedings,2010:1062-1067.
[12] Zhai Z,Xu H,Jia P.Identifying Opinion Leaders in BBS[C]//Ieee/wic/acm International Conference on Web Intelligence and International Conference on Intelligent Agent Technology - Workshops,9-12 December 2008,Sydney,Nsw,Australia.DBLP,2008:398-401.
[13] 吳凱,季新生,郭進時,等.基于微博網絡的影響力最大化算法[J].計算機應用,2013,33(8):2091-2094.
[14] Wu Zeheng.Research on internet hotspot analysis and monitoring technologies based on topic detection and sentiment analysis[D].South China University of Technology,2011.
[15] 章棟兵.互聯網輿情分析關鍵技術的研究與實現[D].武漢理工大學,2010.
[16] 劉群,李素建.基于《 知網》 的詞匯語義相似度計算[J].中文計算語言學,2002.
[17] 肖宇,許煒,夏霖.一種基于情感傾向分析的網絡團體意見領袖識別算法[J].計算機科學,2012,39(2):34-37.
[18] 丁雪峰,胡勇,趙文,等.網絡意見領袖特征研究[J].四川大學學報(工程科學版),2010,42(2):147-150.
DISCOVERYMETHODOFOPINIONLEADERBASEDONEMOTIONALTENDENCY
Lang Dongdong1Liu Zhuoran1Feng Xupeng1Liu Lijun1Huang Qingsong1,2
1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)
With the rapid development of social networks, a large number of netizens participate in the discussion of topics, and actively promote the dissemination of information. And opinion leader in the dissemination of information plays a decisive role. Therefore, how to accurately find opinion leaders in the network of public opinion has become a research hotspot. For the traditional research method of opinion leaders does not regard the user node as a network or simply consider the weight of the user node in the network as the problem of the number of replies, taking into account the emotional tendency of the replies, we put forward the opinion leader discovery algorithm. Experiments show that the improved opinion leader discovery algorithm has higher recognition accuracy compared with the traditional PR algorithm and UI-LR algorithm.
Opinion leader Replies Emotional tendency Opinion
TP3
A
10.3969/j.issn.1000-386x.2017.10.011
2016-10-18。國家自然科學基金項目(81360230,81560296)。郎冬冬,碩士,主研領域:機器學習,自然語言處理。劉卓然,碩士。馮旭鵬,碩士。劉利軍,講師。黃青松,教授。