馮程,梁剛,周鴻宇,楊進(.四川大學計算機學院,成都 60065;.樂山師范學院計算機科學學院,樂山 64000)
FENG Cheng1,LIANG Gang1,ZHOU Hong-yu1,YANG Jin2(1.College of Computer Science,Sichuan University,Chengdu,Chengdu 610065;2.College of Computer Science,Leshan Normal University,Leshan,Leshan 614000)
自動謠言檢測分析與實現
馮程1,梁剛1,周鴻宇1,楊進2
(1.四川大學計算機學院,成都610065;2.樂山師范學院計算機科學學院,樂山614000)
隨著微博的發展,微博從傳統的社交工具轉變為用戶分享信息的重要來源[1]。截至2015年10月,新浪微博月活躍用戶數達到2.2億,每日發布的微博數超過1億條[2]。在提供信息便利的同時,微博也面臨著謠言泛濫的問題。據2015年中國社科院新聞與傳播研究所發布的《新媒體藍皮書》調查顯示,近六成的假新聞首發于微博[3]。謠言是指真相或來源不可靠的消息,其傳播會引起公眾的恐慌,擾亂社會的秩序,降低政府的公信力,甚至危及國家安全。如2011年的日本核電站泄露事故,有謠言稱日本核輻射會污染海水導致以后生產的鹽都無法食用,而且吃含碘的食用鹽可防核輻射,從而導致了鹽價上漲,民眾大量搶購食鹽[4]。
為了抑制微博謠言泛濫的問題,學術界和相關行業提出了基于手工的識別技術和基于機器學習的識別技術。基于手工的識別技術由人為判別,需較長的時間周期并依賴鑒定者的專業能力。基于機器學習的方法是一種自動識別的技術,它將謠言問題看作分類問題,通過提取謠言和其傳播的特征用于訓練分類模型。該方法受平臺限制,并且特征的設計與選擇較為困難。本文在前人基礎之上,提出了并實現了一種微博謠言的自動識別系統。由于沒有任何一種單一的學習算法在所有情況下都具有優勢,不同的學習算法可能會得到類似的結果[5],并且最有效的特征通常對機器學習的結果有著巨大的影響[6],因此有效特征的選擇對于謠言檢測非常重要。前人的研究集中使用微博的固有特征[7-9],而忽略隱含因素的影響,因此本文在前人的研究基礎上提出兩個微博的隱特征:贊的數目和置疑度。
為了識別微博中的謠言,微博服務提供商做了大量的努力。新浪微博推出了名為“微博辟謠”的官方賬號,由7名經驗豐富的編輯組成,對新浪微博24小時不間斷監控。微博辟謠定期收集和判斷微博中的謠言消息,并將結果以微博的形式發布,凡是關注該賬號的用戶都可以及時收到辟謠消息。另外,新浪微博還提出了基于眾包技術的“不實消息舉報”服務。任何用戶都可以通過這個平臺舉報謠言,最終由微博社區服務中心的編輯進行判斷并通過微博展示結果。由于消息的正確性完全由人工判斷、識別周期長,這些方法不能有效地識別謠言。
為了解決手工識別方式的缺點,提出了基于機器學習的自動識別技術。Mendoza[7]中從Twitter中提取出68個特征并歸為4類:基于內容的特征、基于用戶的特征、基于傳播的特征和基于話題的特征。后續的一些研究在不同的研究對象上分析出更適合的特征,或者從不同角度發現更具有代表性的特征。如Yang[8]等提出了客戶端類型和事件地點兩個新的特征;Sun[9]等提出了消息使用的實意動詞數、消息是否包含強烈消極詞匯等,并針對于圖文不符類謠言提出了基于多媒體的特征;Cai[10]根據轉發和評論文本簇聚消息得到關鍵詞作為特征。這些研究集中使用微博的固有特征,而忽略了微博中各個實體間的聯系和其中隱藏的特征,如微博之間的爭議、用戶態度等。
謠言識別可以看作機器學習中的監督學習,監督學習的任務是通過學習使得模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。監督學習的模型可以是概率模型或非概率模型,由條件概率分布P (Y|X)或決策函數Y=f(x)表示。其中X稱為輸入變量,Y稱為輸出變量。在監督學習中,輸入變量的取值記作x,通常由特征向量表示:
x=(x(1),x(2),…,x(i),…,x(n))
x(i)表示的第i個特征,通常使用xi表示多個輸入變量中的第i個,即:
xi=(xi(1),xi(2),…,xi(n))
監督學習從訓練數據集中學習模型,對測試數據進行預測。訓練數據由輸入與輸出對組成,通常表示為:
T={(x1,y1),(x1,y1),…,(xN,yN)}
xi∈N哿R表示輸入,即特征向量;yi表示輸出,即預測結果。測試數據也由相應的輸入與輸出對組成。監督學習分為學習和預測兩個過程,在學習過程中,利用給定訓練集學習得到模型,表示為概率模型或決策函數。在預測過程中,對于給定測試樣本中的輸入xN+1,由模型yN+1=argmaxyN+1P(yN+1|xN+1或yN+1=f(xN+1)給出相應的yN+1。
特征選擇和提取是機器學習的重要步驟,在文獻[8]中列舉出了68個特征用于謠言檢測。本文分析了微博的特性,使用Best-first策略選擇了其中的7個特征,如表1所示。

表1 特征描述
在此基礎上,本文分析了微博中包含的隱藏信息,提出了兩個新的特征:贊的數目和置疑度。新浪微博中提供了 “贊”的操作用于統計用戶對該微博的喜好。Mendoza[7]指出微博平臺中的謠言消息通常會比正常消息受到更多的置疑。通過觀察發現,對于熱點話題,正常消息的“贊”的數目和謠言消息的“贊”的數目存在明顯的區別。置疑度定義為評論數與轉發數之間的關系,定義為:

評論數通常表示用戶對該條消息存在者不同的態度或其他的想法,而轉發數通常表示了用戶對該條微博存在支持的態度,置疑度表示了用戶對微博消息存在不同態度的比率。我們將收集到的數據進行處理,提取“贊”的數目及置疑度與消息之間的關系,使用箱線圖描述兩個新特征區分消息的能力,得到如圖1所示的結果。
如圖1所示,“贊”的數目和置疑度對謠言和正常消息有著明顯的區分能力。通常正常消息的“贊”的數目會更多。與此同時,謠言的置疑程度也明顯區別于正常消息。
4.1數據集
本文通過模擬登錄weibo.cn頁面,構造URL抓取微博數據。數據集中包含了1000條正常數據和1000條謠言數據。在實驗過程中,本文使用10則交叉驗證
進行訓練和驗證分類器。

圖1 兩個新特征對于1(謠言)和2(正常消息)貢獻的箱線圖
4.2實驗結果
本文經過分析,提取出包含了新特征的9個特征用于謠言檢測系統,最后使用標準信息檢索度量值準確率、召回率和F1來評估方法的性能。精度表示被正確標注的謠言占分類器預測為謠言的比率。召回率表示被正確標注的謠言占真正謠言的比率。F1是精度和召回率的一個綜合評價,定義為:

在實驗過程中,我們分別使用三種不同的分類算法構造分類器。實驗結果如圖2所示。
如圖2所示,SVM分類器、貝葉斯分類器和決策樹分類器的準確率分別是87%、83%和78%,F1分數分別為0.855、0.850和0.765。決策數在三者中精度較低,這是因為特征中有少許的特征分類能力較弱。而從整體結果看出,選擇不同的機器學習算法得到的結果是相似的。

圖2 三種不同分類算法結果對比圖
微博給消息傳播提供了一個良好的平臺,同時也面臨著謠言泛濫的問題,找到一種有效的自動謠言識別方法是非常重要的。本文分析了基于機器學習的分類模型,實現了一個自動謠言檢測系統。并挖掘微博中包含的隱藏信息,提出了贊的數目和置疑度兩個新的特征。實驗結果證明本文提出的方法與特征的可行性和有效性。
[1]M.Mendoza,B.Poblete,C.Castillo,Twitter Under Crisis:Can We Trust What We RT[C].Proceedings of the First Workshop on Social Media Analytics,2010:71-79.
[2]Weibo MAUs 198 Mln in Q1 2015,Up 38%YoY.http://www.chinainternetwatch.com/13364/weibo-q1-2015/.
[3]報告稱近六成假新聞首發于微博 周二微信謠言最多.http://www.chinanews.com/gn/2015/06-24/7362797.shtml.
[4]人民日報盤點十大網絡謠言軍車進京、搶鹽風波上榜.http://news.xinhuanet.com/politics/2012-04/16/c1117824495.htm.
[5]J.Friedman,T.Hastie,R.Tibshirani.The Elements of Statistical Learning vol.1:Springer Series in Statistics Springer,Berlin,2001. [6]M.A.Hall.Correlation-Based Feature Selection for Machine Learning.The University of Waikato,1999.
[7]C.Carlos,M.Marcelo,P.Barbara,Information Credibility on Twitter[C].Proceedings of the 20th International Conference on World Wide Web,2011:675-684.
[8]Y.Fan,L.Yang,Y.Xiaohui et al.Automatic Detection on Sina Weibo[C].Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics,2012,13.
[9]S.Shengyun,L.Hongyan,H.Jun et al.Detecting Event Rumors on Sina Weibo Automatically[J].Web Technologies and Applications,2013:120-131.
[10]C.Guoyong,W.Hao,L.Rui,Rumor Detection in Chinese Via Crowd Responses[C].2014 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining,2014.
Rumor;Social Media;Microblog;Machine Learning
Research and Implementation of Automatic Rumor Detection
1007-1423(2016)07-0040-04
10.3969/j.issn.1007-1423.2016.07.009
馮程(1992-),男,貴州桐梓人,碩士研究生,研究方向為網絡安全、機器學習
梁剛(1976-),男,四川成都人,博士,講師,研究方向為網絡安全、智能計算、機器學習
周泓宇(1990-),男,重慶人,碩士研究生,研究方向為機器學習
楊進(1980-),男,四川樂山人,博士,教授,研究方向為網絡安全、機器學習
2016-01-26
2016-02-26
FENG Cheng1,LIANG Gang1,ZHOU Hong-yu1,YANG Jin2
(1.College of Computer Science,Sichuan University,Chengdu,Chengdu 610065;2.College of Computer Science,Leshan Normal University,Leshan,Leshan 614000)
針對微博中謠言泛濫的問題,提出一種自動識別謠言的方法。該方法基于機器學習的原理,并在前人的基礎上,結合贊的數目和置疑度兩個新特征。實驗結果顯示結合新特征實現的系統在識別謠言上準確率達到82%,驗證所提出的方法與特征的可行性和有效性。
謠言;社交網絡;微博;機器學習
四川省科技廳項目(No.2014JY0036)、四川省教育廳創新團隊基金(No.13TD0014)
Aiming at the spread of rumor in microblog system,proposes an automatic rumor detection method.It is based on the principle of ma-chine learning and combined with the number of pros as well as the number of the doubt on the basis of previous studies.The experiment shows that system with new features reaches 82%accuracy rate.Thus,it proves that system that implemented is feasible and two new fea-tures are efficient.