999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于突發話題和領域專家的微博謠言檢測方法

2017-12-14 05:22:12楊文太
計算機應用 2017年10期
關鍵詞:特征用戶檢測

楊文太,梁 剛,謝 凱,楊 進,許 春

(1.四川大學 計算機學院,成都 610065; 2.四川大學 網絡空間安全學院,成都 610065)) (*通信作者電子郵箱 lianggang@scu.edu.cn)

基于突發話題和領域專家的微博謠言檢測方法

楊文太1,梁 剛2*,謝 凱1,楊 進2,許 春2

(1.四川大學 計算機學院,成都 610065; 2.四川大學 網絡空間安全學院,成都 610065)) (*通信作者電子郵箱 lianggang@scu.edu.cn)

針對現有謠言檢測方法中存在的數據采集困難和謠言檢測滯后的問題,提出一種基于動量模型的突發話題檢測和領域專家發現的謠言檢測方法。該方法借鑒物理學中的動力學理論對話題特征進行建模,使用特征的動力學物理量描述特征的突發特性和發展趨勢,并在對突發特征進行特征聚合之后提取得到突發話題;然后,依據話題與用戶個人信息的領域相關性在候選專家池中發現領域相關的微博用戶來甄別話題信息的真實性。基于新浪微博數據的實驗結果表明,相對于僅基于有監督機器學習的微博謠言識別方法,該方法謠言識別準確率提高了13個百分點;相對于主流人工識別方法,將最長謠言檢測用時縮短至20 h,能夠較好地應用于實際的微博謠言檢測環境。

動量模型;話題;突發;領域專家;謠言檢測

0 引言

隨著微博平臺的流行,微博平臺上產生了大量難于驗證的謠言信息,給用戶體驗、平臺發展和國家穩定帶來巨大危害。微博謠言問題主要表現為以下幾個方面:第一,由于微博平臺的謠言來自不同領域,用戶受限于有限的背景知識,在難以甄別謠言信息真假的情況下可能會相信謠言微博中的虛假事實,或者接受了其中的觀點,誤信虛假信息不僅會助長了謠言信息的傳播,還可能給個人帶來不可預料的財產、名譽等損失。第二,微博允許用戶自由地發布信息以及缺少有效的信息發布監管措施,致使散布在微博上的謠言數量急劇上升。微博中謠言信息的泛濫降低了正常信息的可信度,由于一時難以分辨真假,可能致使用戶對傳播有益信息的微博持懷疑態度,從而從整體上損害微博平臺的信息可靠度;第三,由于某些危害國家社會穩定的謠言得到大肆傳播,會對國家長治久安帶來隱患。

由于上述微博謠言的危害,謠言治理工作正變得日益重要。其中微博謠言檢測引起了業界相關工作者和學界相關研究者的關注。現有謠言檢測方法一般分為兩類:人工檢測和基于機器學習的自動檢測[1]。

1 相關工作

1.1 人工謠言檢測

在人工識別方面,新浪微博提供了官方辟謠賬號“@微博辟謠”,通過微博辟謠團隊的辟謠專家人工確定微博真實性,然后發布辟謠信息,但由于微博平臺謠言檢測工作量大、人工資源不足等,該賬號目前為止僅發布了2 775條微博,其中2011年3月—2017年3月期間,發表微博總數為1 765條,難以反映實際的辟謠規模;另外由于該辟謠服務是以微博用戶賬號的方式存在的,辟謠信息的傳播直接依賴于賬號本身的粉絲數,目前粉絲數為101萬,相對于2016年微博發布的月活躍用戶總數2.97億[2],僅占比約0.34%,因此該辟謠服務能夠發揮的謠言檢測和辟謠作用有限。新浪微博官方同時提供了基于眾包的辟謠平臺“微博不實信息舉報中心”,所有微博用戶可以向其舉報疑似謠言微博,在社區管理員審核之后,公告審核結果。對該平臺調研發現,目前已完成判定舉報數僅為31 464條,其中包含大量重復舉報,且平均判定周期多于24 h,因此該平臺也很難發揮謠言檢測作用。

由于無法提供足夠的人力資源以供可疑謠言感知和可疑謠言檢測,人工謠言檢測方法具有以下局限性:

1)對信息的覆蓋率不足。主要表現為兩個方面:第一,對謠言信息的覆蓋率不足,以前文提到的兩種工業界的謠言檢測方案為例,它們對謠言信息的感知都來自于用戶舉報和專家手工搜索,而舉報謠言信息的用戶數量和專家數量難以匹配實際的謠言檢測規模,因此人工方法的謠言感知能力較弱;第二,辟謠信息的覆蓋率不足,“@微博辟謠”依賴于粉絲數來傳播辟謠信息,“微博不實信息舉報中心”則依賴于該網址的訪客數,辟謠信息的傳播速度都難以匹配謠言信息的傳播速度。

2)謠言檢測周期長。在檢測周期內,在謠言帶來大量危害之前仍然無法檢測到謠言,那么謠言檢測工作將失去意義。

綜上,現有的人工檢測方法難以勝任實際的謠言檢測任務。

1.2 基于機器學習自動謠言檢測

在自動識別方面,學界廣泛使用的是機器學習方法,現有相關工作主要從機器學習算法的選擇和創新、區分謠言和非謠言的謠言檢測特征的選擇和抽取兩方面作出貢獻。文獻[3]提出基于信息、用戶、話題、傳播的四類謠言檢測特征,并使用J48算法來構建謠言檢測模型,以下相關工作則基于文獻[3]對謠言檢測特征作了擴展,并探索選用了多種機器學習算法;文獻[4]提取了基于內容和網絡的特征,結合推特上面的特定模因訓練貝葉斯分類器自動檢測謠言;文獻[5]提出了基于客戶端和基于位置的兩類新特征,使用支持向量機(Support Vector Machine, SVM)在新浪微博平臺上自動檢測謠言;文獻[6]將微博所附的多媒體資源和微博發文時間差作為特征來檢測事件謠言,并基于微博配圖來源的文字描述和微博文本之間的相似性來判斷圖文不匹配類型的謠言;文獻[7]提出時序、結構、語言三類特征,指出謠言信息和正常信息的微博數目-時間圖波動和傳播網絡圖之間的差異,并以此作為謠言檢測特征,在SVM、決策樹、隨機森林三種算法上做了對比實驗,最終選擇了隨機森林;文獻[8]從群眾響應的角度來挖掘特征,抽取了轉發和評論中的文本特征,據此使用分層聚類算法來發現樣本中更多的謠言;文獻[9]指出謠言事件的演變過程早期會出現關于事件的詢問信息,提出了通過檢測事件詢問信息來檢測謠言的思路,使用文本特征作為聚類算法的特征,結合正則表達式和聚類算法來判斷未知信息的可靠度;文獻[10]發現了謠言和非謠言數據的謠言檢測特征在時間序列上存在可區分的差異,建立了一種動態時序結構用以描述對時間敏感的謠言檢測特征在時間序列上的變化,將其作為特征,并使用決策樹、隨機森林、SVM作為基礎算法來做對比實驗;文獻[11]則從用戶行為的角度出發提出了新的基于用戶行為的謠言檢測特征,并對邏輯斯諦回歸、SVM、樸素貝葉斯、決策樹、K近鄰五種算法做了對比實驗;文獻[12]提出一種基于隨機游走圖內核和常規的徑向基內核的混合SVM檢測算法,使用隨機游走圖內核算法度量兩棵傳播樹的相似度,而在常規徑向基內核算法中則提出8個新的謠言檢測特征;文獻[13]在時序上以事件為最小粒度檢測謠言,提出16個新特征,同時,由于動態生成實驗數據和動態地給特征賦值,因此支持實時檢測;文獻[14]集成了基于內容、傳播、信息源的三種模型,實現了一種實時謠言檢測系統;文獻[1]提出了一種基于權威媒體的數據標注方法以及3個新的謠言檢測特征,并使用5種主流機器學習算法做了對比實驗。

基于機器學習的自動謠言檢測方法具有自動檢測謠言的優點,同時也存在一些問題:1)已標注謠言數據難于獲取。該方法需要在模型訓練階段提供謠言數據和非謠言數據,而能夠滿足謠言檢測需要的謠言數據的獲取比較困難。常用的方式包括:爬取已標注數據和手工標注數據。以新浪微博不實信息舉報中心為例,其提供完成判定的謠言微博數為31 850條,但其中存在大量重復舉報,并且被舉報內容中絕大多數鮮少引起關注,其轉發數和評論數偏低(以評論數大于100來篩選,只得到了1/9的微博),顯然只選擇該中心為謠言數據獲取來源不能滿足謠言檢測的需要。為模型訓練需要,研究人員還需要手工標注大量數據,需要耗費巨大的時間和人力資源;此外,模型一經訓練完成就不再更改,只能對符合訓練數據特征的數據進行謠言檢測,如果要求對于訓練數據特征不一致的新樣本進行檢測,只有重新獲取或標注符合新樣本特征的訓練數據,這無疑使模型喪失了靈活性。2)這種謠言檢測方法對用于檢測的謠言數據具有達到一定傳播程度的要求。首先,基于機器學習的自動檢測方法屬于一種回顧性檢測(Retrospective Investigation),要使這類方法輸出一定準確率的檢測結果,必須提供足夠多的訓練數據,因此需要收集足夠多的謠言數據,而謠言數據量大意味著存在大量關于謠言的轉發和評論,間接要求該謠言必須經過一定程度的擴散;其次,這類模型使用的部分特征,比如微博評論數、轉發數、用戶粉絲數等的取值已經對應了謠言的一定傳播階段,例如形成不久的謠言的各類特征取值接近為0,隨著在傳播周期上時間的推移,相應數值會不斷增大,即要使模型能夠以要求的準確率檢測謠言,需要謠言和非謠言數據的以上特征取值呈現出足夠區分的差異,這意味著謠言已經得到一定程度的擴散。使用滿足上述條件的數據和特征訓練的模型固然可以自動檢測已廣泛散布開來的謠言,但在檢測處在生命周期初期的謠言時準確率不高,具有冷啟動現象,表現為對謠言檢測的滯后性,因此難以有效應用在實際的謠言檢測情景中。

1.3 本文工作

綜合人工謠言檢測方法的信息覆蓋率低、檢測周期長和自動謠言檢測方法的難于獲取已標注數據,以及對訓練數據規模和傳播程度的要求的缺陷,可以歸結出現有謠言檢測工作的兩大問題:1)數據難以獲取,主要表現為訓練模型的數據標注問題和待檢測數據的獲取問題;2)謠言檢測滯后,人工檢測受限于人力資源限制,自動檢測受限于所基于的機器學習方法本身對數據和特征的要求,對傳播初期的謠言的檢測存在冷啟動的現象,二者都無法以可接受的準確率檢測處在傳播周期初期的謠言。

針對如上問題,本文專注于提高模型對屬于謠言檢測聚焦范圍的信息獲取的覆蓋率和及時性,以及縮短謠言檢測周期以使模型具有檢測初始傳播謠言的能力,提出基于突發話題檢測和專家發現的人工謠言檢測方法。

2 問題定義

為了應對現有人工檢測和基于機器學習的自動檢測的上述問題,本文綜合考慮人工謠言檢測和基于機器學習的自動謠言檢測各自的優勢和局限,以及謠言檢測工作的重點,將謠言檢測工作分為兩部分:感知和檢測,即待檢測謠言的感知和待檢測謠言的檢測。在感知部分需要解決的問題有:1)確定待檢測信息的主要對象;2)提高模型對待檢測信息的感知能力,包括覆蓋率和效率。在檢測部分需要解決:1)縮短謠言檢測周期;2)提高對處在謠言檢測周期初期的謠言的檢測能力。

在感知部分,首先,不是所有的微博都需要用來作謠言甄別[5],比如,用戶之間的日常聊天和小規模傳播的社會新聞類虛假信息的辟謠價值就不高,前者無關社會生活,后者得不到大規模傳播,最終都不會帶來大規模損失。其次,謠言的傳播與話題的擴散聯系緊密,在社交網絡中,謠言的興起、傳播和消亡和以謠言為內容的話題的生命周期是一致的,謠言在微博平臺上短時間內的興起表現為相應突發話題的產生,而對于沒有形成話題的不實信息,雖然也符合謠言的定義,但由于信息內容沒有引起廣泛的關注而轉發數和評論數都較低,所能造成的不利影響微乎其微,不在謠言檢測工作重點范圍內。基于以上考慮,本文將謠言檢測的對象定位為話題。為提高話題檢測的覆蓋率,選擇粉絲數多和影響力大的社會新聞領域代表用戶作為檢測話題的原始信息來源,同時作為用戶層面的篩選,過濾對謠言檢測不是特別重要的微博信息,降低了模型需要的數據量,進而間接提高了模型的效率。為提高模型對待檢測信息的感知效率,以話題的突發特性作為特征,檢測微博平臺上短時間內的突發話題,使模型具有了對突發謠言,即剛剛開始傳播的謠言的感知能力,使得及時檢測謠言成為可能,同時作為話題層面的數據篩選,進一步降低數據量,提高模型效率。相關文獻[15]指出可以使用物理動力學模型對話題的發展過程建模,利用動力學物理量,如加速度和動量等,描述話題的演變趨勢和熱門程度,進而可以通過對相關物理量的觀測來發現突發話題。文獻[16]將動量模型對突發話題的檢測思想運用在新浪微博上,在微博平臺上定義了話題的相關動量模型的物理量。本文基于文獻[16]的工作,使用工具pull-word抽取微博中的詞語作為話題識別特征,建立基于動量模型的突發話題檢測模型,主要包括突發特征檢測和突發特征聚合。

在檢測部分,由于不需要人工資源做待檢測信息感知,并且感知部分已從用戶和話題兩個層面降低了模型的數據處理量,整個模型需要的人工資源量相對于傳統人工檢測方法大為減少,這使應用人工方式檢測謠言成為可能。此外,相對于自動檢測,基于領域專家的人工檢測對用于檢測的謠言數據沒有數量和提取特征的要求,對新產生的謠言可以達到較高的檢測準確率,因此本文采用人工檢測方法來作謠言檢測。為應對傳統謠言檢測方法中因人力資源不足而帶來的檢測周期長的問題,提出主動利用群眾智慧的策略,挖掘和度量待檢測信息和微博用戶的領域相關性,把待檢測謠言推送給領域最相關的微博用戶(即領域專家)作信息真實性的甄別。相關文獻[17]選擇所有微博用戶作為候選專家池,為謠言檢測提供了充足的專家資源的同時,存在以下兩個問題:1)所有微博用戶量巨大,難于獲取;2)由于基數太大,所有微博用戶中能作為謠言檢測人工資源的專家比例低,專家發現工作量大。本文基于文獻[17]提出適應于實際情景的建立候選專家池和度量話題和用戶領域相關性的方法。

綜上,本文余下部分聚焦于識別處在傳播擴散過程早期的待檢測話題信息和發現與話題信息相關的人工專家。

3 系統模型

圖1為本文提出的基于突發話題檢測和領域專家發現的謠言檢測模型的結構和處理流程。如圖1所示,整個模型由基于動量模型的突發話題檢測模型和基于用戶個人信息的領域專家發現模型兩個子塊構成。處理流程如下:1)確定待檢測微博的監控點用戶和用于構建候選專家池的微博各領域專家;2)爬蟲獲取監控點用戶在實驗所涉及的所有時間窗口內的微博集合,對其分詞、去停用詞,再結合實驗用微博數據的全集,得到每個時間窗口內每個話題特征的質量、加速度、動量值,據此提取每個時間窗口內的突發特征集合;3)通過特征聚合得到每個時間窗口內的突發話題集合,輸出至領域專家發現模型;4)流程進入領域專家發現模型,基于實驗開始時構建的候選專家池,為每個時間窗口內的突發話題集合發現用于識別突發話題真實性的領域相關專家,至此模型流程結束。

圖1 模型流程示意圖

3.1 基于動量模型的突發話題檢測

3.1.1 突發特征檢測

話題的發展過程和物理學中物體的靜止、開始運動、運動加快、運動變緩、回歸靜止的過程的相似性,使得使用動力學模型發現突發特征成為可能。在動力學模型中,動量反映了物體的運動方向和能量,加速度反映了物體位置的二階變化率;對于話題特征而言,動量反映了特征的變化趨勢和能量大小,加速度反映了特征的突發程度。在時間序列上,特征的動量和加速度不斷變化,通過設置加速度和動量的閾值,可以篩選得到指定時間點上的突發特征。

突發特征檢測的第一步工作是特征選擇,文獻[16]檢測微博文本中的有意義串作為特征,指出由于粒度更大,有意義串相比詞語更能夠反映話題信息。本文通過對分詞工具pull-word的調研,發現其能夠以較高的出詞概率輸出較長的詞,比如對“人民公園”這段文本,能夠以0.95的概率輸出“人民公園”,而輸出“人民”和“公園”的概率分別僅為0.86和0.78,這說明該工具優先輸出較長的詞,并且具有識別較長詞語的能力,因此基于其提供在線接口的優點和發現新詞的能力,本文利用該工具對新浪微博進行分詞、去停用詞之后,選取高于一定出詞概率閾值的詞語作為話題特征。

對話題特征的加速度和動量的計算需要選取合適的時間刻度,定義同時滿足物理學要求和符合實際應用情景的物理學屬性。基于對話題演化過程以及動量模型的理解,結合新浪微博所能提供的數據,選取一個時間窗口作為動量模型中的一個時刻,并如下定義了特征的質量和位置這兩個基本屬性:

定義1 質量屬性需要滿足較長時間內不變,以及能夠代表特征在語料集中的重要程度,話題特征的質量可經式(1)計算得到:

mi=tfi×idfi

(1)

其中:tfi表示在大規模語料集中特征i的詞頻;idfi表示特征i在該語料集中的逆向文件頻率。逆向文件頻率的計算公式如下:

(2)

其中:|D|代表微博總數;|Dw|代表包含特征i的文檔數。對于給定的語料集,mi取固定值,既符合物理學中對質量的定義,又能反映特征i在微博集合中的重要性。

定義2 位置屬性要求能夠反映特征在當前時間窗口內的熱門程度。逐漸變得熱門的特征必然頻繁出現,包含該特征的微博數也迅速上升,為了避免極少部分用戶惡意重復發文的干擾,也應考慮發文中包含該特征的用戶數,特征i在t時刻的位置的計算公式如下:

x(t,i)=α×tf(t,i)+β×df(t,i)+γ×af(t,i)

(3)

其中:tf(t,i)表示時刻窗口t內詞i的頻率;df(t,i)表示時間窗口t內包含詞i的文檔頻率;af(t,i)代表時間窗口t內的發表微博內容包含特征i的微博用戶比例;α、β和γ為權重系數,α+β+γ=1。這樣計算出的特征的位置屬性,能夠反映特征i在時刻t的熱度。

基于以上特征質量和特征位置的定義,可以計算出特征i在特定時刻t的加速度a(t,i)和動量p(t,i):

(4)

p(t,i)=mi×v(t,i)

(5)

速度v(t,i)計算公式為:

(6)

其中Δt表示趨于零的時間變化量。

3.1.2 突發特征聚合

在3.1.1節工作的基礎上,得到時間窗口T內的突發特征集合,由于詞語的多義性和表達的局限性,無法直接用來表示一個話題,考慮多個詞語的組合可以相互補充含義和消除單個詞語出現的歧義,比如“塑料”和“紫菜”單獨出現含義比較局限,但把二者結合在一起看,就可以代表“紫菜是用塑料做的”這一謠言。本文將突發特征聚合起來共同表征一個話題。能夠表征一個話題的突發特征必然頻繁出現在同一觀察窗口中,基于突發話題特征的這一特性,采用特征之間的互信息[16]來描述兩個特征屬于同一個話題的可能性,互信息值越高,兩個特征相關度越高,屬于同一個話題的可能性越大。互信息的計算如下:

(7)

其中:P(i)代表特征i在當前時間窗口微博中出現的概率;P(i,j)代表特征i和j共同出現在同一時間窗口內的概率。

為了聚合出能代表話題的特征集合,采用如上定義的互信息作為兩個特征之間的距離,使用自下而上的層級聚類算法[17]聚合相關度高的特征成為話題。

綜上,突發話題檢測算法描述如下。

算法1 基于動量模型的突發話題檢測算法。

輸入 實驗微博集合D,實驗數據覆蓋的時間窗口數Nt,時間窗口大小Tw,加速度閾值Ta,動量閾值Tp。

輸出Htl突發話題集合。

begin

forT← 1 toTwdo

words=WP(Dt)

/*WP為分詞函數,Dt為時刻t之前發布的微博*/

fori← 0 toNwandcount←0 do

/*Nw為words長度*/

ifwords[i] inFlthen

/*Fl為特征列表*/

continue

else

count←count+1

Fl[count] ←words[i]

end if

end for

fori←0 toNfandj←0 do

/*Nf為Fl長度*/

fort←0 toTwdo

computea(t,i),p(t,i)

ifa(t,i)←Taandp(t,i)←Tpthen

Hfl[j]←Nf[i]

/*Hfl[]為話題列表*/

j←j+1

break

end if

end for

htl← Hc(Hfl)

/*Hc()為分層聚類算法函數*/

returnhtl

end

算法1開始時,對每個時間窗口內的樣本數據分詞、去重,提取得到當前時間窗口內的話題特征集合。為當前時間窗口內的每一個話題特征計算加速度值、動量值,并分別與設置的加速度閾值和動量閾值相比較,提取加速度和動量同時高于閾值的話題特征作為突發話題特征,最后對突發話題特征集合使用層級聚類算法聚合得到話題集合,算法最終為每個時間窗口輸出一個突發話題集合。

3.2 基于微博用戶個人信息的領域專家發現

通過對微博平臺的調研,發現微博提供了驗證用戶的影響力榜,涵蓋的用戶滿足權威性的認定,因此本文將榜單內用戶作為候選專家,方便數據獲取。

基于用戶個人信息的領域專家發現模型基于如下假設:話題信息和用戶個人信息都能在一定程度上反映出所屬領域。本文將突發話題檢測模型輸出的聚合后的話題特征集合看作一個話題信息,將微博平臺提供的昵稱、所在地、簡介、工作信息、用戶標簽等諸多內容作為用戶個人信息。對于指定話題信息的領域專家發現的思路就是:在候選專家中選擇個人信息與話題信息相關度最高的用戶作為相關領域專家。至此,對于指定話題的專家發現問題轉化為:根據用戶個人信息與話題特征的相關性對用戶的排序問題,本文采用話題特征在用戶個人信息中的查找命中率fr(i,a)作為度量指標對用戶排序,選取fr(i,a)大于閾值的用戶集合,作為針對話題i的人工檢測專家,定義如下:

fr(i,a)=N(i,a)/Ni

(8)

其中:N(i,a)代表在用戶a個人信息中包含話題i特征的個數;Ni代表話題i的特征個數。

綜上,領域專家發現算法描述如下。

算法2 基于微博用戶個人信息的領域專家發現。

輸入 突發話題集合Htl,微博專家信息集合E,相關性閾值Tfr。

輸出 為每個突發話題找到的專家集合eli。

begin

E←Wp(E)

fori← 0 toNtdo

/*Nt表示Htl長度* /

forj← 0 toNeandm← 0 do

/*Ne表示E長度*/

computefr(i,a)

iffr(i,a)←Tfrthen

eli[m]←fr(i,a)

m←m+1

end if

end for

end for

end

算法2為每個突發話題集合中的突發話題和微博專家信息池中的專家信息計算查找命中率,并用預先設置的閾值篩選,算法2最終為每一個突發話題輸出一組領域相關的人工謠言檢測專家。

4 實驗和結果分析

4.1 數據獲取和處理

本文實驗數據包括三部分:1)用于檢測時間窗口內突發話題的微博文本;2)用于驗證突發話題檢測結果的話題驗證集;3)用于建立候選專家池的微博用戶信息。

微博日活躍用戶數量龐大,對每日產生的全部微博進行檢測不切實際,因此需要對微博數據進行采樣。謠言中占比最大的是能引起廣泛關注的社會新聞類型,也是謠言檢測工作聚焦的重點,本文從微博中采樣社會新聞類型的微博作為突發話題的源數據。工具“艾薇盒子”提供了國內傳媒類微博賬號的榜單,編寫網絡爬蟲獲取榜單內賬號ID作為監控點,經人工驗證處理之后共計得到55個監控點用戶,編寫微博爬蟲獲取監控點每天的微博,建立突發話題檢測數據集。另外,微博發現頻道提供了24 h內的話題集合,在每個時間窗口內爬取這些話題,作為話題驗證集。

為滿足謠言檢測需要,候選專家必須具有一定的權威性和活躍度,微博“發現”頻道提供了驗證用戶的影響力排行榜單,作為基于權威性和活躍度對微博用戶的一次篩選,本文選擇該榜單內用戶作為候選專家,編寫爬蟲爬取用戶“基本信息”“工作信息”“教育信息”“標簽信息”等個人信息,經篩選處理后,共得到492位專家。

4.2 評價指標

本文使用F1-measure度量突發話題檢測和專家發現的準確度,除此之外計算了突發話題檢測時間Tb,以描述模型檢測突發話題的周期,計算公式為:

(9)

Tb=te-tf

(10)

其中:TP表示將正類檢測為正類數;FN表示將正類檢測為負類數;FP表示將負類檢測為正類數;TN表示將負類檢測為負類數;te表示首次檢測到話題的時刻;tf表示第一條屬于該話題的微博發布的時刻,時間單位為一個時間窗口。

4.3 實驗步驟

4.3.1 突發話題檢測

從所采集的微博數據發現樣本集平均每2 h產生一個話題,因此本文設置時間窗口為2 h,作為突發話題檢測的最小時間粒度。使用工具pull-word對獲取到的每個時間窗口內的微博分詞、去停用詞,保留出詞概率大于閾值的詞語作為特征,其中以步長0.1,范圍0~1.0嘗試選擇分詞閾值Tw,使得到的保留詞語數量盡可能多、字串重復率盡可能低、詞語長度盡可能長,以利于突發話題檢測,對共10個Tw的取值依次嘗試,依據保留詞語的以上三個屬性,最終選擇Tw=0.9。

對分詞結果以自建停用詞表去停用詞,所得詞語作為特征,在對9天時間內共8 766條微博的處理之后得到了39 929個待檢測突發話題特征。為每個特征在每個時間窗口下計算加速度和動量值,篩選加速度和動量大于閾值的特征。其中參數α、β和γ按步長0.1,范圍0~1.0嘗試取值,約束條件為γ=1-α-β。以10%為步長,分別確定加速度和動量的比例閾值Ta、Tp。將突發特征集合按互信息層次聚類之后得到話題集合,再與話題驗證集比較,得到模型突發話題檢測的F1和話題檢測周期Tb。

調參思路:選擇最優的α、β、γ、Ta和Tp閾值組合以使突發話題檢測F1值最大,檢測周期Tb最短。圖2給出其中的12組參數組合取值作為示例,其中:每組參數取值都能得到一組F1、Tb取值,選取使F1-Tb最大的一組參數為最優參數。

根據上述思路,訓練得到突發話題檢測模型參數為:α=0.4,β=0.3,γ=0.3,Ta=0.9,Tp=0.9,在測試集上測試模型評價指標,得到F1為89.46%,話題的最早檢測時長為10個時間窗口,說明突發話題檢測模型能夠以較高的F1在話題生命周期的初期檢測到突發話題。

4.3.2 專家發現

對候選專家池中的用戶個人信息分詞去停用詞,然后計算話題特征在用戶個人信息中的查找命中率fr(i,a),按其大小對候選專家排序,取大于比例閾值Tfr的專家集合作為該話題的人工謠言檢測專家,根據對話題數據專家發現的人工標注結果,以步長0.1,范圍0.1~1.0來選取使專家發現模型F1最高的Tfr。

圖3為閾值Tfr的調參示意,在F1-Tfr曲線中選擇最大值點對應的Tfr作為專家發現模型的查找命中率閾值。從圖3可看出,取閾值Tfr=0.7時,得到最大F1值為85.61%。

在Tfr參數確定完畢,模型訓練完成后,使用測試集驗證領域專家發現模型的專家發現能力。在測試集上模型表現出84.28%的F1值,說明模型具備良好的領域專家發現能力。

圖2 部分參數組合

圖3 F1值與查找命中率閾值Tfr 曲線

4.4 對比實驗

本文提出的謠言檢測模型結合了機器學習方法和人工檢測方法,模型自動化部分最終的輸出是關于每一個檢測到的突發話題的人工謠言檢測專家集合,而系列相關文獻方法的輸出是關于微博文本或者話題的可靠度或者信息類別(是否屬于謠言),因此無法直接使用本文方法和相關文獻方法作對比實驗。由于本文方法對于特定話題的檢測準確率直接來自于人工專家的識別,因此使用人工標注代替實際應用中算法對領域專家的自動選擇,將人工標注結果作為本文謠言檢測準確率的結果與文獻[5]做對比實驗,采用十折交叉驗證,得到圖4結果。此外,對比實驗還比較了本文方法和“@微博辟謠”以及“微博不實信息舉報中心”的最早檢測時間。對本文方法取4.3.1中的結果作為最早檢測時間,對“@微博辟謠”和“微博不實信息舉報中心”則采用隨機抽取100條已判定謠言信息的最早判定時間。對比實驗顯示,本文方法最早檢測檢測到謠言用時為20 h,“微博不實信息舉報中心”為38 h,“微博辟謠”為53 h。

由于謠言檢測階段由人工專家負責,所以本文方法檢測準確率遠遠高于基于機器學習的謠言檢測方法,圖4實驗結果反映了這一點,其中最小差值為13%。謠言檢測時間對比實驗反映出本文方法謠言檢測用時低于其他兩個人工檢測方法,這反映了本文利用突發話題檢測來捕捉待檢測謠言的思想的有效性。

圖4 文獻[5]方法與本文方法準確率比較

5 結語

本文提出結合基于動量模型的突發話題檢測和基于領域相似性的領域專家發現來解決現有謠言檢測工作存在問題的方法。與傳統的單純人工檢測和現有的基于機器學習的自動檢測方法相比,本文提出的謠言檢測方法具有如下優點:1)由于突發話題檢測模型只需要獲取指定監控點用戶的時序微博且所需時間窗口數較少,同時專家發現模型中需要的領域專家信息屬于靜態數據,只需要定期爬取更新,因此不存在數據采集困難的問題;2)由于對于謠言的辨識是通過領域專家人工識別,不受自動謠言檢測中選取的謠言檢測特征的影響,因而謠言檢測準確率高;3)由于能夠檢測突發話題,并為之發現領域內專家,因此相對于單純人工方法,擴展了謠言感知范圍和人力資源,使得該方法具有更高的謠言檢測效率和更大的謠言檢測覆蓋范圍;4)以較小的時間窗口來捕獲微博信息,可以檢測處在生命周期早期的謠言,解決了謠言檢測工作的及時性問題,能夠有效應用于實際的謠言檢測任務。同時,本文也存在不足之處,比如爬蟲速率過快會被封禁的問題,有待進一步改進。

References)

[1] LIANG G, YANG J, XU C. Automatic rumors identification on Sina Weibo[C]// Proceedings of the 2016 12th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery. Piscataway, NJ: IEEE, 2016: 1523-1531.

[2] 樊博. 2016微博用戶發展報告[EB/OL]. [2017- 04- 28]. http://data.weibo.com/report/reportDetail?id=346. (FAN B. 2016 microblog user development report[EB/OL]. [2017- 04- 28]. http://data.weibo.com/report/reportDetail?id=346.

[3] CASTILLO C, MENDOZA M, POBLETE B. Information credibility on twitter[C]// Proceedings of the 20th International Conference on World Wide Web. New York: ACM, 2011: 675-684.

[4] QAZVINIAN V, ROSENGREN E, RADEV D R, et al. Rumor has it: identifying misinformation in microblogs[C]// EMNLP 2011: Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011: 1589-1599.

[5] YANG F, LIU Y, YU X, et al. Automatic detection of rumor on Sina Weibo[C]// Proceedings of the 2012 ACM SIGKDD Workshop on Mining Data Semantics. New York: ACM, 2012: 13.

[6] SUN S, LIU H, HE J, et al. Detecting event rumors on sina weibo automatically[C]// APWeb 2013: Proceedings of the 15th Asia-Pacific Web Conference on Web Technologies and Applications. Berlin: Springer, 2013: 120-131.

[7] KWON S, CHA M, JUNG K, et al. Prominent features of rumor propagation in online social media[C]// Proceedings of the 2013 IEEE 13th International Conference on Data Mining. Piscataway, NJ: IEEE, 2013: 1103-1108.

[8] CAI G, WU H, LV R. Rumors detection in Chinese via crowd responses[C]// Proceedings of the 2014 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Piscataway, NJ: IEEE, 2014: 912-917.

[9] ZHAO Z, RESNICK P, MEI Q. Enquiring minds: early detection of rumors in social media from enquiry posts[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 1395-1405.

[10] MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1751-1754.

[11] LIANG G, HE W, XU C, et al. Rumor identification in microblogging systems based on users’ behavior[J]. IEEE Transactions on Computational Social Systems, 2015, 2(3): 99-108.

[12] WU K, YANG S, ZHU K Q. False rumors detection on sina weibo by propagation structures[C]// Proceedings of the 2015 IEEE 31st International Conference on Data Engineering. Piscataway, NJ: IEEE, 2015: 651-662.

[13] LIU X, NOURBAKHSH A, LI Q, et al. Real-time rumor debunking on twitter[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1867-1870.

[14] ZHOU X, CAO J, JIN Z, et al. Real-time news certification system on Sina Weibo[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 983-988.

[15] HE D, PARKER D S. Topic dynamics: an alternative model of bursts in streams of topics[C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2010: 443-452.

[16] 賀敏, 杜攀, 張瑾, 等. 基于動量模型的微博突發話題檢測方法[J]. 計算機研究與發展, 2015, 52(5): 1022-1028. (HE M, DU P, ZHANG J, et al. Microblog bursty topic detection method based on momentum model[J]. Journal of Computer Research and Development, 2015, 52(5): 1022-1028.)

[17] LIANG C, LIU Z, SUN M. Expert finding for microblog misinformation identification[EB/OL]. [2017- 01- 10]. http://www.personal.psu.edu/cul226/files/coling2012_expert.pdf.

[18] MAIMON O, ROKACH L. Data Mining and Knowledge Discovery Handbook[M]. Berlin: Springer, 2005: 321-352.

Rumordetectionmethodbasedonbursttopicdetectionanddomainexpertdiscovery

YANG Wentai1, LIANG Gang2*, XIE Kai1,YANG Jin2,XU Chun2

(1.CollegeofComputerScience,SichuanUniversity,SichuanChengdu610065,China;2.CollegeofCyberSpaceSecurity,SichuanUniversity,SichuanChengdu610065,China)

It is difficult for existing rumor detection methods to overcome the disadvantage of data collection and detection delay. To resolve this problem, a rumor detection method based on burst topic detection inspired by the momentum model and domain expert discovery was proposed. The dynamics theory in physics was introduced to model the topic features spreading among the Weibo platform, and dynamic physical quantities of the topic features were used to describe the burst characteristics and tendency of topic development. Then, emergent topics were extracted after feature clustering. Next, according to the domain relativity between the topic and the expert, domain experts for each emergent topic were selected within experts pool, which is responsible for identifying the credibility of the emergent topic. The experimental results show that the proposed method gets 13 percentage points improvement on accuracy comparing with the Weibo rumor identification method based merely on supervised machine learning, and the detection time is reduced to 20 hours compared with dominating manual methods, which means that the proposed method is applicable for real rumor detection situation.

momentum model; topic; burst; domain expert; rumor detection.

2017- 04- 28;

2017- 07- 24。

四川省教育廳重點資助項目(17ZA0238,17ZA0200);四川省學術和技術帶頭人培養支持經費資助項目(2016)。

楊文太(1993—),男,甘肅慶陽人,碩士研究生,主要研究方向:網絡安全、謠言檢測; 梁剛(1976—),男,四川成都人,副教授,博士,主要研究方向:網絡安全、智能計算; 謝凱(1992—),男,四川成都人,碩士研究生,主要研究方向:網絡安全、輿情監測; 楊進(1980—),男,四川樂山人,副研究員,博士,主要研究方向:網絡安全、智能計算; 許春(1972—),男,河北石家莊人,副教授,博士,主要研究方向:網絡安全、智能計算。

1001- 9081(2017)10- 2799- 07

10.11772/j.issn.1001- 9081.2017.10.2799

TP393.08

A

This work is partially supported by the Research Foundation of Education Bureau of Sichuan Province (17ZA0238, 17ZA0200), the Sichuan Training Support Fund for Academic and Technical Leaders (2016).

YANGWentai, born in 1993, M. S. candidate. His research interests include network security, rumor detection.

LIANGGang, born in 1976, Ph. D., associate professor. His research interests include network security, intelligent computing.

XIEKai, born in 1992, M. S. candidate. His research interests include network security, public opinion monitoring.

YANGJin, born in 1980, Ph. D., associate research fellow. His research interests include network security, intelligent computing.

XUChun, born in 1972, Ph. D., associate professor. His research interests include network security, intelligent computing.

猜你喜歡
特征用戶檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應用
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 成人午夜视频在线| 国产精品免费久久久久影院无码| 超薄丝袜足j国产在线视频| 国产成人91精品免费网址在线| 欧美天堂在线| 成人第一页| 人妻91无码色偷偷色噜噜噜| 在线免费a视频| 国产成年女人特黄特色毛片免| 无码人中文字幕| 国产成人精品日本亚洲77美色| 亚洲欧美另类中文字幕| 亚洲男人天堂2020| 国产精品无码AⅤ在线观看播放| 极品av一区二区| 久久午夜夜伦鲁鲁片无码免费| 538国产视频| 波多野结衣中文字幕一区| 亚洲一区二区日韩欧美gif| 精品人妻无码中字系列| 免费看av在线网站网址| 国内自拍久第一页| 亚洲人成亚洲精品| 女人18一级毛片免费观看| 亚洲美女久久| 久久久久国产精品熟女影院| 日韩成人免费网站| 免费久久一级欧美特大黄| 亚洲最新地址| 国产精品爽爽va在线无码观看 | 国产一区二区三区视频| 99精品国产自在现线观看| 久久久久夜色精品波多野结衣| AV网站中文| 麻豆精品久久久久久久99蜜桃| 91久草视频| 日韩在线播放欧美字幕| 伊人精品成人久久综合| 一级爱做片免费观看久久| а∨天堂一区中文字幕| 永久免费无码成人网站| www欧美在线观看| 亚洲有无码中文网| 国产日产欧美精品| 国产成人精品一区二区| 扒开粉嫩的小缝隙喷白浆视频| 色综合热无码热国产| 在线无码九区| 亚洲女人在线| 亚洲中文字幕国产av| 中文字幕乱码中文乱码51精品| jizz亚洲高清在线观看| 久久无码高潮喷水| 91国语视频| 国产天天射| 日韩高清一区 | 亚洲αv毛片| 91精品久久久久久无码人妻| 国产亚洲高清视频| 久久午夜夜伦鲁鲁片不卡| 91啪在线| 国产成人在线无码免费视频| 人妻丰满熟妇av五码区| 亚洲综合久久一本伊一区| 毛片视频网| 国产精品任我爽爆在线播放6080 | 一区二区日韩国产精久久| 亚洲人成人伊人成综合网无码| 久久成人国产精品免费软件| 亚洲精品自拍区在线观看| 亚洲欧美成人在线视频| 亚洲aaa视频| 国产浮力第一页永久地址| 亚洲国产天堂在线观看| 国产91无码福利在线| 国产美女叼嘿视频免费看| 亚洲性色永久网址| 亚洲欧洲日产国产无码AV| 国产精品久久久久婷婷五月| 欧美激情综合| 91福利免费| 国产精品一线天|