丁學君
(東北財經大學 管理科學與工程學院,遼寧 大連 116025)
目前,微博已經成為輿情話題傳播的重要渠道之一,對微博網絡中的輿情話題傳播過程進行監控及預測,將有利于相關部門對不良輿情進行有效地疏導和澄清。本文以新浪微博為例,在深入分析用戶轉發行為的基礎上,提取出了影響微博個體轉發行為的4類特征,利用邏輯回歸模型(Logistic Regression,LR)對微博用戶的輿情話題轉發概率進行預測,并在此基礎上給出了一種基于個體行為的微博輿情話題轉發規模預測算法。
本文利用有向無權圖G(U,E)來對微博網絡進行描述。其中U為網絡中所有節點構成的集合;E為網絡中所有邊構成的集合,且eu,v∈E表示節點u指向節點v的有向邊,即節點u對節點v的關注關系,信息的傳播方向與關注方向相反。假設用戶v發布了一條話題消息 topic,則 y=f(v,u,topic)表示節點 v 的粉絲節點u在看到該話題后采取的行為:y=1表示節點u對該話題進行轉發;y=0表示節點u不對該話題進行轉發。因此,研究微博用戶的個體轉發行為,即是在給定話題信息topic以及用戶關系網絡G(U,E)的情況下,預測用戶u轉發話題信息topic的概率。
本文借鑒文獻[2]和文獻[3]的研究結論,使用LR模型對微博用戶的輿情話題轉發概率進行預測,其預測公式如下:

其中,Fu(topic,G)為影響用戶u轉發話題的行為特征集合;yu表示用戶u的轉發行為;ω為權值向量,其值可以采用極大似然函數進行估計。
2.2.1 話題接收者特征
(1)話題接收者的興趣度。本文利用了Jaccard相似度計算方法,通過計算微博話題內容與用戶感興趣內容的相似程度,來對用戶興趣度進行量化。
步驟1:興趣收集。收集某時間段內用戶u發布的所有Ns條微博,構建用戶 u 的語句級興趣空間 IS={S1,S2,…,SNs}。
步驟2:分詞。本文采用中科院計算技術研究所開發的ICTCLAS系統[4]對IS中的語句進行分詞,得到用戶u的詞語級興趣空間 IW={W1,W2,…,WNw}。
步驟3:從中剔除停用詞。本文利用CSDN(2010)提供的停用詞列表,以去除IW中的停用詞,最終得到用戶u的興趣空間。
步驟4:針對某一輿情話題topic,按照步驟2~步驟3,對該話題進行處理,得到話題 topic 的特征空間 TP={T1,T2,…,TNt}。
步驟5:計算INT和TP的Jaccard系數。Jacccard系數是樣本集交集與樣本集合集的比值[5],即微博輿情話題特征空間與接收用戶興趣空間的相似度為:

SIMu,topic表示了用戶u對目標話題topic的感興趣程度。
(2)話題接收者的活躍度。本文利用式(3)計算話題接收者的活躍度Ra:

其中,ri,ci,oi分別為用戶在n天內轉發、評論和原創的微博總數。
(3)話題接收者的重復接收次數。研究表明,用戶會因為信息的重復接收,而對該信息的轉發傾向發生改變[6]。因此,本文認為話題接收者的關注對象中轉發目標話題信息的數量,會影響該話題接收者的轉發行為。
2.2.2 話題發布者的特征
(1)話題發布者的影響力。微博網絡中,發布者的影響力大小勢必會對其粉絲的轉發行為產生影響[6]。本文采用文獻[7]給出的UIR算法來評價話題發布者的影響力,該算法可以描述為:

其中,UIR(v)為節點 v 的影響力,d 為[0,1]區間上的阻尼系數,通常情況下,取經驗值d=0.85,本文假設節點的初始UIR值為1。f(v)表示節點v的粉絲集合,Au,v為節點v分配給節點u的UIR值的比例:

其中,Nf是節點v的粉絲節點總數,Rak為節點v的第k個粉絲節點的活躍度,Rak可由式(3)計算得到,通過有限次的反復迭代,就可以獲得目標節點v的UIR值。
(2)話題發布者與接收者之間的社會關系。研究表明,與具有“單向關注”關系的用戶相比,具有“雙向關注關系”(“互粉”)的用戶間的親密程度更高[8]。此外,用戶間的互動次數也從另一個方面反映了用戶間的關系親密程度,本文定義用戶u和用戶v之間的互動次數為

其中,Cu,v為用戶 u 和用戶 v 轉發對方微博的數量,Ru,v為用戶u和用戶v評論對方微博的數量,Mu,v為用戶u和用戶v在微博中提及(“@”)對方的次數。
2.2.3 話題的內容特征
研究表明,微博話題中是否包含圖片、視頻、URL、Hashtag以及“@”等內容,均會對用戶的轉發行為產生影響[3]。
2.2.4 外部媒體關注度
本文利用目標輿情話題傳播過程中,網絡媒體對此輿情事件的新聞報道數量,來描述外部媒體的關注度。針對某一目標輿情話題 topic,首先得到該話題的特征空間 TP=(T1,T2,…,TNt),并提取出相應輿情事件的關鍵詞,然后利用百度搜索引擎得到該輿情事件的相關新聞報道數量NMtopic。
通過以上分析,本文共提取了影響微博用戶輿情話題轉發行為的11個數值化特征,見表1。 特征6、7、8、9、10均采用二元表示方法。

表1 微博用戶轉發行為的特征分析
微博網絡中,用戶節點對某一目標話題topic的轉發規則如下:(1)定義微博輿情話題的傳播底圖為有向網絡G(U,E),其中U為該網絡中所有節點的集合,E為網絡中所有邊的集合,節點總數為N。
(2)定義U中的節點僅具有兩種狀態,即易感狀態S和傳播狀態I,其中S態表示節點沒有對目標話題進行轉發,I態表示節點對目標話題進行了轉發;USt、UIt分別表示t時刻,網絡中的S態節點集合和I態節點集合。
(3)定義節點 u 所關注的節點集合為 FL(u)={v|eu,v∈E}。
(4)定義 t時刻節點 u 所關注的 S 態節點集合為 FLSt(u)={v|v∈FL(u),且 v為 S 態};t時刻節點 u 所關注的 I態節點集合為 FLIt(u)={v|v∈FL(u),且 v 為 I態}。 此處假設 FLIt(u)中的每個節點均會影響節點u的轉發行為,且其中所有節點對節點u轉發行為的影響相互獨立。
(5)根據式(1)確定節點 u 對話題 topic的轉發概率 Pu,topic

(6)假設節點u對話題topic產生轉發行為的閾值為λu,且λu=[0,1],則當 Pu,topic≥λu時,節點 u 將產生轉發行為,并由 S 態轉變成為I態。
(7)FLI(u)中每增加一個 I態節點時,需要對特征集合 Fu,topic中的話題發布者特征進行更新,即更新表1中的特征4、5、6。由此得到目標輿情話題在網絡G(U,E)中的傳播過程。
本文根據上述話題轉發規則,給出了一種微博輿情話題轉發規模的預測算法——PRALR算法,其實現過程如下。
步驟1:網絡初始化。獲取微博網絡上輿情話題傳播的歷史數據集,得到傳播底圖 G(U,E),并為網絡中的每一個節點用 1,2,…,N進行編號,其中N為節點集合U中的節點總數;利用式(1)給出的邏輯回歸模型,通過訓練得到權值向量ω,進而建立每個節點的轉發概率預測公式;為U中的每個節點設置隨機的轉發閾值λ∈[0,1];初始狀態下,網絡中所有節點均設置為易感狀態S,即US0中的節點數為N,UI0中的節點數為0;根據網絡中邊的集合E,為U中的每個節點 i建立集合 FLS0(i)、FLI0(i)(i=1,2,…,N)。
步驟2:t=1時刻,設置網絡中某一節點v為I態,即v為話題topic在該網絡中的入口節點,將其從對應的FLS0(i)中移除,放入相應的 FLI0(i)中,并更新 US1、UI1。
步驟 3:t時刻,對于網絡中任意節點 u,根據集合 FLIt-1(u)中各節點狀態的改變,對節點u的特征4、5、6進行更新,得到更新后的Fu(topic,G),并重新計算節點 u 此時的轉發概率函數 Pu,topic,如果 Pu,topic≥λu,則節點u產生轉發行為。
步驟4:將在步驟3中產生轉發行為的節點u從對應的FLSt-1(i)中移除,加入到相應的集合 FLIt-1(i)中,即將 FLSt-1、FLIt-1分別更新成為 FLSt、FLIt,同時更新 USt、UIt。
步驟5:t=t+1,重復步驟3~步驟4,直到網絡中再也沒有新的節點產生轉發行為為止。此時,集合UI中的節點數,即為話題topic在該網絡中的最終轉發次數。
本文利用自行開發的爬蟲工具從新浪微博中抓取了1000條用戶特征數據,及這些用戶在采樣時間段內發布的95783條微博數據,并最終從原始數據集中提取出15276條輿情話題數據,構成實驗數據集,其中包括6814條轉發數據,8762條非轉發微博數據。
本文利用Matlab工具對微博用戶輿情話題轉發行為進行預測。首先,從實驗數據集中提取出表1所描述的11個話題轉發行為特征,構建每個用戶的話題轉發行為特征集合Fu,topic;然后,將實驗數據集分成訓練數據集和測試數據集兩部分,其中訓練集中的微博數量占70%,測試集中的微博數量占30%;最后,利用訓練集估計出式(1)中的權值向量ω,進而建立每個用戶的微博輿情話題轉發概率模型,并利用測試集對用戶的轉發行為進行預測,預測結果見表2。結果表明,本文給出的微博輿情話題轉發行為預測模型具有較高的預測準確度。

表2 微博用戶轉發行為預測結果
本文從數據集中選取了2個輿情話題,其中話題1為“奧巴馬2013年就職典禮”,其在本文選取的微博子網中被轉發了595次(采樣時間為2013年1月 21日-2013年 3月 31日);話題2為“長春盜車殺嬰案”,其在傳播子網中被轉發了1057次(采樣時間為2013年3月4日-2013年3月31日)。利用PRALR算法對以上兩個話題的轉發規模進行預測,分別得到了其轉發次數隨時間的變化趨勢,如圖1所示。結果表明,PRALR算法可以有效地預測微博輿情話題轉發規模的演化趨勢。

圖1 話題轉發規模隨時間的變化趨勢
本文分析了影響微博用戶輿情話題轉發行為的相關因素,利用邏輯回歸模型,對微博用戶的輿情話題轉發行為進行了預測。此外,本文還將微觀層面上的個體用戶行為與宏觀層面上的微博網絡話題傳播過程相結合,給出了一個基于個體行為的微博輿情話題轉發規模預測算法——PRALR算法。實驗結果表明,本文給出的微博用戶輿情話題轉發概率預測模型,及預測微博輿情話題轉發規模的PRALR算法,均具有較高的預測精度。本文的研究工作將為相關部門制訂有效的微博輿情話題控制策略提供一定的理論依據。
[1]D J Zhao,M B Rosson.How and Why People Twitter:The Role that Micro -blogging Plays in Informal Communication at Work [C]//In Proceedings of ACM 2009 International Conference on Supporting GroupWork, Florida, 2009:243-252.
[2]吳凱,季新生,劉彩霞.基于行為預測的微博網絡信息傳播建模[J].計算機應用研究,2013,30(6):1809-1812.
[3]張旸,路榮,楊青.微博客中轉發行為的預測研究[J].中文信息學報,2012,26(4):109-114.
[4]張華平, 劉群.中文自然語言處理開發平臺[EB/OL].[2013-03-01].http://www.nlp.org.cn.
[5]林學民,王煒.集合和字符串的相似度查詢[J].計算機學報,2011,34(10):1853-1862.
[6]R Narayanam,Y Narahari.A Shapley Value-based Approach to Discover Influential Nodes in Social Networks [J].IEEE Transactions on Automation Science and Engineering, 2011,8(2):130-147.
[7]何靜,郭進利.基于改進PageRank算法的微博用戶影響力研究[J].中國報業,2013 (2):21-23.
[8]苑衛國,劉云,程軍軍,等.微博雙向“關注”網絡節點中心性及傳播影響力的分析[J].物理學報,2013,62(3).