999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

自動謠言檢測分析與實現

2016-09-20 07:22:32馮程梁剛周鴻宇楊進四川大學計算機學院成都60065樂山師范學院計算機科學學院樂山64000
現代計算機 2016年7期
關鍵詞:特征用戶

馮程,梁剛,周鴻宇,楊進(.四川大學計算機學院,成都 60065;.樂山師范學院計算機科學學院,樂山 64000)

FENG Cheng1,LIANG Gang1,ZHOU Hong-yu1,YANG Jin2(1.College of Computer Science,Sichuan University,Chengdu,Chengdu 610065;2.College of Computer Science,Leshan Normal University,Leshan,Leshan 614000)

自動謠言檢測分析與實現

馮程1,梁剛1,周鴻宇1,楊進2
(1.四川大學計算機學院,成都610065;2.樂山師范學院計算機科學學院,樂山614000)

0 引言

隨著微博的發展,微博從傳統的社交工具轉變為用戶分享信息的重要來源[1]。截至2015年10月,新浪微博月活躍用戶數達到2.2億,每日發布的微博數超過1億條[2]。在提供信息便利的同時,微博也面臨著謠言泛濫的問題。據2015年中國社科院新聞與傳播研究所發布的《新媒體藍皮書》調查顯示,近六成的假新聞首發于微博[3]。謠言是指真相或來源不可靠的消息,其傳播會引起公眾的恐慌,擾亂社會的秩序,降低政府的公信力,甚至危及國家安全。如2011年的日本核電站泄露事故,有謠言稱日本核輻射會污染海水導致以后生產的鹽都無法食用,而且吃含碘的食用鹽可防核輻射,從而導致了鹽價上漲,民眾大量搶購食鹽[4]。

為了抑制微博謠言泛濫的問題,學術界和相關行業提出了基于手工的識別技術和基于機器學習的識別技術。基于手工的識別技術由人為判別,需較長的時間周期并依賴鑒定者的專業能力。基于機器學習的方法是一種自動識別的技術,它將謠言問題看作分類問題,通過提取謠言和其傳播的特征用于訓練分類模型。該方法受平臺限制,并且特征的設計與選擇較為困難。本文在前人基礎之上,提出了并實現了一種微博謠言的自動識別系統。由于沒有任何一種單一的學習算法在所有情況下都具有優勢,不同的學習算法可能會得到類似的結果[5],并且最有效的特征通常對機器學習的結果有著巨大的影響[6],因此有效特征的選擇對于謠言檢測非常重要。前人的研究集中使用微博的固有特征[7-9],而忽略隱含因素的影響,因此本文在前人的研究基礎上提出兩個微博的隱特征:贊的數目和置疑度。

1 相關工作

為了識別微博中的謠言,微博服務提供商做了大量的努力。新浪微博推出了名為“微博辟謠”的官方賬號,由7名經驗豐富的編輯組成,對新浪微博24小時不間斷監控。微博辟謠定期收集和判斷微博中的謠言消息,并將結果以微博的形式發布,凡是關注該賬號的用戶都可以及時收到辟謠消息。另外,新浪微博還提出了基于眾包技術的“不實消息舉報”服務。任何用戶都可以通過這個平臺舉報謠言,最終由微博社區服務中心的編輯進行判斷并通過微博展示結果。由于消息的正確性完全由人工判斷、識別周期長,這些方法不能有效地識別謠言。

為了解決手工識別方式的缺點,提出了基于機器學習的自動識別技術。Mendoza[7]中從Twitter中提取出68個特征并歸為4類:基于內容的特征、基于用戶的特征、基于傳播的特征和基于話題的特征。后續的一些研究在不同的研究對象上分析出更適合的特征,或者從不同角度發現更具有代表性的特征。如Yang[8]等提出了客戶端類型和事件地點兩個新的特征;Sun[9]等提出了消息使用的實意動詞數、消息是否包含強烈消極詞匯等,并針對于圖文不符類謠言提出了基于多媒體的特征;Cai[10]根據轉發和評論文本簇聚消息得到關鍵詞作為特征。這些研究集中使用微博的固有特征,而忽略了微博中各個實體間的聯系和其中隱藏的特征,如微博之間的爭議、用戶態度等。

2 機器學習問題模型

謠言識別可以看作機器學習中的監督學習,監督學習的任務是通過學習使得模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。監督學習的模型可以是概率模型或非概率模型,由條件概率分布P (Y|X)或決策函數Y=f(x)表示。其中X稱為輸入變量,Y稱為輸出變量。在監督學習中,輸入變量的取值記作x,通常由特征向量表示:

x=(x(1),x(2),…,x(i),…,x(n))

x(i)表示的第i個特征,通常使用xi表示多個輸入變量中的第i個,即:

xi=(xi(1),xi(2),…,xi(n))

監督學習從訓練數據集中學習模型,對測試數據進行預測。訓練數據由輸入與輸出對組成,通常表示為:

T={(x1,y1),(x1,y1),…,(xN,yN)}

xi∈N哿R表示輸入,即特征向量;yi表示輸出,即預測結果。測試數據也由相應的輸入與輸出對組成。監督學習分為學習和預測兩個過程,在學習過程中,利用給定訓練集學習得到模型,表示為概率模型或決策函數。在預測過程中,對于給定測試樣本中的輸入xN+1,由模型yN+1=argmaxyN+1P(yN+1|xN+1或yN+1=f(xN+1)給出相應的yN+1。

3 特征

特征選擇和提取是機器學習的重要步驟,在文獻[8]中列舉出了68個特征用于謠言檢測。本文分析了微博的特性,使用Best-first策略選擇了其中的7個特征,如表1所示。

表1 特征描述

在此基礎上,本文分析了微博中包含的隱藏信息,提出了兩個新的特征:贊的數目和置疑度。新浪微博中提供了 “贊”的操作用于統計用戶對該微博的喜好。Mendoza[7]指出微博平臺中的謠言消息通常會比正常消息受到更多的置疑。通過觀察發現,對于熱點話題,正常消息的“贊”的數目和謠言消息的“贊”的數目存在明顯的區別。置疑度定義為評論數與轉發數之間的關系,定義為:

評論數通常表示用戶對該條消息存在者不同的態度或其他的想法,而轉發數通常表示了用戶對該條微博存在支持的態度,置疑度表示了用戶對微博消息存在不同態度的比率。我們將收集到的數據進行處理,提取“贊”的數目及置疑度與消息之間的關系,使用箱線圖描述兩個新特征區分消息的能力,得到如圖1所示的結果。

如圖1所示,“贊”的數目和置疑度對謠言和正常消息有著明顯的區分能力。通常正常消息的“贊”的數目會更多。與此同時,謠言的置疑程度也明顯區別于正常消息。

4 實驗

4.1數據集

本文通過模擬登錄weibo.cn頁面,構造URL抓取微博數據。數據集中包含了1000條正常數據和1000條謠言數據。在實驗過程中,本文使用10則交叉驗證

進行訓練和驗證分類器。

圖1 兩個新特征對于1(謠言)和2(正常消息)貢獻的箱線圖

4.2實驗結果

本文經過分析,提取出包含了新特征的9個特征用于謠言檢測系統,最后使用標準信息檢索度量值準確率、召回率和F1來評估方法的性能。精度表示被正確標注的謠言占分類器預測為謠言的比率。召回率表示被正確標注的謠言占真正謠言的比率。F1是精度和召回率的一個綜合評價,定義為:

在實驗過程中,我們分別使用三種不同的分類算法構造分類器。實驗結果如圖2所示。

如圖2所示,SVM分類器、貝葉斯分類器和決策樹分類器的準確率分別是87%、83%和78%,F1分數分別為0.855、0.850和0.765。決策數在三者中精度較低,這是因為特征中有少許的特征分類能力較弱。而從整體結果看出,選擇不同的機器學習算法得到的結果是相似的。

圖2 三種不同分類算法結果對比圖

5 結語

微博給消息傳播提供了一個良好的平臺,同時也面臨著謠言泛濫的問題,找到一種有效的自動謠言識別方法是非常重要的。本文分析了基于機器學習的分類模型,實現了一個自動謠言檢測系統。并挖掘微博中包含的隱藏信息,提出了贊的數目和置疑度兩個新的特征。實驗結果證明本文提出的方法與特征的可行性和有效性。

[1]M.Mendoza,B.Poblete,C.Castillo,Twitter Under Crisis:Can We Trust What We RT[C].Proceedings of the First Workshop on Social Media Analytics,2010:71-79.

[2]Weibo MAUs 198 Mln in Q1 2015,Up 38%YoY.http://www.chinainternetwatch.com/13364/weibo-q1-2015/.

[3]報告稱近六成假新聞首發于微博 周二微信謠言最多.http://www.chinanews.com/gn/2015/06-24/7362797.shtml.

[4]人民日報盤點十大網絡謠言軍車進京、搶鹽風波上榜.http://news.xinhuanet.com/politics/2012-04/16/c1117824495.htm.

[5]J.Friedman,T.Hastie,R.Tibshirani.The Elements of Statistical Learning vol.1:Springer Series in Statistics Springer,Berlin,2001. [6]M.A.Hall.Correlation-Based Feature Selection for Machine Learning.The University of Waikato,1999.

[7]C.Carlos,M.Marcelo,P.Barbara,Information Credibility on Twitter[C].Proceedings of the 20th International Conference on World Wide Web,2011:675-684.

[8]Y.Fan,L.Yang,Y.Xiaohui et al.Automatic Detection on Sina Weibo[C].Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics,2012,13.

[9]S.Shengyun,L.Hongyan,H.Jun et al.Detecting Event Rumors on Sina Weibo Automatically[J].Web Technologies and Applications,2013:120-131.

[10]C.Guoyong,W.Hao,L.Rui,Rumor Detection in Chinese Via Crowd Responses[C].2014 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining,2014.

Rumor;Social Media;Microblog;Machine Learning

Research and Implementation of Automatic Rumor Detection

1007-1423(2016)07-0040-04

10.3969/j.issn.1007-1423.2016.07.009

馮程(1992-),男,貴州桐梓人,碩士研究生,研究方向為網絡安全、機器學習

梁剛(1976-),男,四川成都人,博士,講師,研究方向為網絡安全、智能計算、機器學習

周泓宇(1990-),男,重慶人,碩士研究生,研究方向為機器學習

楊進(1980-),男,四川樂山人,博士,教授,研究方向為網絡安全、機器學習

2016-01-26

2016-02-26

FENG Cheng1,LIANG Gang1,ZHOU Hong-yu1,YANG Jin2
(1.College of Computer Science,Sichuan University,Chengdu,Chengdu 610065;2.College of Computer Science,Leshan Normal University,Leshan,Leshan 614000)

針對微博中謠言泛濫的問題,提出一種自動識別謠言的方法。該方法基于機器學習的原理,并在前人的基礎上,結合贊的數目和置疑度兩個新特征。實驗結果顯示結合新特征實現的系統在識別謠言上準確率達到82%,驗證所提出的方法與特征的可行性和有效性。

謠言;社交網絡;微博;機器學習

四川省科技廳項目(No.2014JY0036)、四川省教育廳創新團隊基金(No.13TD0014)

Aiming at the spread of rumor in microblog system,proposes an automatic rumor detection method.It is based on the principle of ma-chine learning and combined with the number of pros as well as the number of the doubt on the basis of previous studies.The experiment shows that system with new features reaches 82%accuracy rate.Thus,it proves that system that implemented is feasible and two new fea-tures are efficient.

猜你喜歡
特征用戶
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 看看一级毛片| 亚洲国产成人自拍| 国产精品视频免费网站| 国国产a国产片免费麻豆| 国内精自视频品线一二区| 久久先锋资源| 亚洲专区一区二区在线观看| 人妖无码第一页| 欧美日韩午夜| 曰韩人妻一区二区三区| 被公侵犯人妻少妇一区二区三区 | 日韩人妻少妇一区二区| 欧美第九页| 国产在线拍偷自揄拍精品| 99热国产这里只有精品无卡顿" | 亚洲福利一区二区三区| jizz在线免费播放| 国产午夜福利在线小视频| 国产极品粉嫩小泬免费看| 伊人色综合久久天天| 91伊人国产| 看看一级毛片| 99re精彩视频| 91精品福利自产拍在线观看| 成年人福利视频| 99青青青精品视频在线| 中文字幕人妻无码系列第三区| 久久国产乱子| 国产成人精品视频一区二区电影 | 亚洲av无码专区久久蜜芽| 美女内射视频WWW网站午夜 | 免费在线色| 理论片一区| 国产高清精品在线91| yjizz视频最新网站在线| 人人爱天天做夜夜爽| 伊人91在线| 蜜桃视频一区| 国产日产欧美精品| 日韩欧美在线观看| 久久久久久久97| 亚洲人成网站18禁动漫无码| 欧美在线综合视频| 91无码人妻精品一区| 欧美精品亚洲二区| 国产在线观看成人91| 欧美午夜理伦三级在线观看| 欧美中文一区| 四虎成人精品| 午夜无码一区二区三区| аⅴ资源中文在线天堂| 亚洲无码一区在线观看| 婷婷六月综合| 国产99欧美精品久久精品久久| 国产精品吹潮在线观看中文| 国产精品成人AⅤ在线一二三四| 福利在线不卡| 日韩av无码精品专区| 九色综合视频网| 国产午夜不卡| 99精品福利视频| 日本成人福利视频| 一级不卡毛片| 色婷婷电影网| 丁香综合在线| 在线视频97| 这里只有精品在线播放| 久久久久无码精品国产免费| 国产美女无遮挡免费视频| 丁香六月综合网| 囯产av无码片毛片一级| 国产传媒一区二区三区四区五区| 欧美日韩一区二区在线播放 | 最新国产麻豆aⅴ精品无| 国产成人91精品| 日韩精品毛片人妻AV不卡| 又爽又大又黄a级毛片在线视频| 99青青青精品视频在线| 男女男精品视频| 国产午夜人做人免费视频| 亚洲最黄视频| 她的性爱视频|