李勝 丁振 左玲
中南財(cái)經(jīng)政法大學(xué),信息與安全工程學(xué)院 湖北 武漢 430073
現(xiàn)代網(wǎng)絡(luò)技術(shù)的高速發(fā)展使得越來越多的人開始使用諸如微博、微信、twitter、Facebook等通信社交媒體軟件,這也是人們獲取信息和發(fā)布信息的重要平臺(tái)。但是社交媒體的開放性和便捷性給社會(huì)帶來好處的同時(shí)也出現(xiàn)了一些問題,某些營銷號(hào)或者個(gè)體賬號(hào)會(huì)發(fā)布一些未經(jīng)證實(shí)的推斷或者不真實(shí)的信息,這就導(dǎo)致了謠言的產(chǎn)生。于是,在這個(gè)天然大數(shù)據(jù)的環(huán)境下,社交媒體又缺乏有效的信息審核制度,謠言可能會(huì)在網(wǎng)絡(luò)上大量快速地傳播。根據(jù)報(bào)道,微博上超過三分之一的熱點(diǎn)新聞都含有虛假成分信息[1]。謠言在社交媒體的瘋狂傳播會(huì)將不真實(shí)的信息快速在網(wǎng)絡(luò)上發(fā)酵歪曲和誤導(dǎo)群眾,嚴(yán)重影響社會(huì)安定,甚至可能會(huì)影響地區(qū)和國家安全。
鑒于謠言帶來的巨大危害,越來越多的研究人員開始探索謠言檢測技術(shù)。現(xiàn)有謠言檢測技術(shù)主要分為三類:人工檢測方法,基于機(jī)器學(xué)習(xí)的檢測方法和基于深度學(xué)習(xí)的檢測方法。人工檢測方法準(zhǔn)確率高,但具有明顯的滯后性,無法適應(yīng)社會(huì)網(wǎng)絡(luò)中海量數(shù)據(jù)。機(jī)器學(xué)習(xí)方法將社會(huì)網(wǎng)絡(luò)謠言問題看作有監(jiān)督學(xué)習(xí)中的二分類問題,自動(dòng)化程度高,有效地彌補(bǔ)了人工檢測方法的不足,但該類方法依賴于人工提取與選擇特征,且得到的特征向量魯棒性[3]也不夠健壯。深度學(xué)習(xí)方法可以獲得更好、更本質(zhì)的表征性,從而能實(shí)現(xiàn)更好的分類效果。相信經(jīng)過人們不斷的探索和進(jìn)一步研究,謠言能夠快速并準(zhǔn)確的被識(shí)別并給出警告,社會(huì)也會(huì)越來越安定。
一般來說,目前我們更習(xí)慣于把謠言檢測類問題看成一個(gè)二分類問題。這個(gè)問題可以被看作為:給出一個(gè)新聞故事或者推文集合,如E = {e1, e2, e3…en},還有一個(gè)判斷是否為謠言的類別標(biāo)簽P = {p1, p2},其中,p1代表是謠言,p2代表不是謠言。我們要做的就是通過大量的數(shù)據(jù)集學(xué)習(xí)出一個(gè)分類模型M出來,使得對(duì)給出任意一條推文,都能預(yù)測出一個(gè)p1或者p2,從而達(dá)到檢測謠言的目的。
社會(huì)網(wǎng)絡(luò)謠言檢測過程通常包含:數(shù)據(jù)處理、特征選擇與提取、模型訓(xùn)練與謠言檢測四個(gè)階段。
數(shù)據(jù)處理包括原始數(shù)據(jù)的收集與數(shù)據(jù)標(biāo)注,數(shù)據(jù)收集的作用主要有兩項(xiàng):第一,用于構(gòu)建模型訓(xùn)練的數(shù) 據(jù)集;第二,對(duì)社會(huì)網(wǎng)絡(luò)進(jìn)行監(jiān)控,獲取待檢測的社會(huì)網(wǎng)絡(luò)信息。數(shù)據(jù)標(biāo)注則是根據(jù)問題及需求的不同對(duì)數(shù)據(jù) 進(jìn)行不同的標(biāo)注。
特征選擇與特征提取是從收集的原始數(shù)據(jù)中選擇與構(gòu)造出最能代表數(shù)據(jù)的特征向量集合。對(duì)于機(jī)器學(xué)習(xí)方法而言,特征選擇與提取的重要程度甚至超過了模型選擇的重要性。因此現(xiàn)有基于機(jī)器學(xué)習(xí)方法的重要工作是以找到更有效的特征作為提升謠言檢測準(zhǔn)確率為主要思路.基于深度學(xué)習(xí)的謠言檢測具有很強(qiáng)的特征學(xué)習(xí)能力,其無需對(duì)特征進(jìn)行人工提取即可得到比傳統(tǒng)機(jī)器學(xué)習(xí)更高維、復(fù)雜、抽象的特征數(shù)據(jù)。模型訓(xùn)練是指根據(jù)具體的問題場景從已有的分類模型中選擇模型,并根據(jù)模型在訓(xùn)練數(shù)據(jù)集上的分類表現(xiàn)調(diào)整參數(shù)以找到一個(gè)最優(yōu)模型的過程.對(duì)于社會(huì)網(wǎng)絡(luò)謠言問題,如何在充滿噪音且不均衡的海量數(shù)據(jù)信息中訓(xùn)練出準(zhǔn)確率高的分類器是當(dāng)前社會(huì)網(wǎng)絡(luò)謠言檢測問題面臨的最大挑戰(zhàn)。
數(shù)據(jù)處理是謠言檢測的一個(gè)非常重要的環(huán)節(jié),數(shù)據(jù)處理包括了數(shù)據(jù)數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注兩個(gè)部分。
目前關(guān)于網(wǎng)絡(luò)謠言的數(shù)據(jù)一般分為三種數(shù)據(jù)來源:
(1)通過網(wǎng)絡(luò)平臺(tái)的API接口獲取數(shù)據(jù)
目前,幾乎所有的社會(huì)網(wǎng)絡(luò)平臺(tái)都向用戶提供了完善的RESTAPI接口,REST即表述性狀態(tài)傳遞(Representational State Transfer,簡稱REST)是一套新興的WEB通信協(xié)議[2]。這樣方便用戶從社會(huì)網(wǎng)絡(luò)平臺(tái)中獲取到用戶發(fā)表的微博、好友關(guān)系等社交信息。
(2)利用爬蟲技術(shù)獲取數(shù)據(jù)集
利用網(wǎng)絡(luò)爬蟲技術(shù)可以以更靈活的方式獲取所需的數(shù)據(jù)。如:在Facebook中從某一用戶開始不斷搜尋其好友,對(duì)整個(gè)社交平臺(tái)的數(shù)據(jù)進(jìn)行爬取。
基于爬蟲技術(shù)的獲取數(shù)據(jù)優(yōu)點(diǎn)就是能夠獲取到足夠大的供研究的數(shù)據(jù),但也有兩個(gè)缺點(diǎn)和挑戰(zhàn):①可能會(huì)面臨法律風(fēng)險(xiǎn),如果擅自爬取未經(jīng)授權(quán)的Web數(shù)據(jù),就可能觸犯其所在國家的法律;②面臨的技術(shù)難度大,爬蟲技術(shù)需要編寫者了解網(wǎng)絡(luò)層的各種協(xié)議和技術(shù)。
(3)通過公開數(shù)據(jù)集獲取
利用公開數(shù)據(jù)集可以輕易且合法地獲取標(biāo)準(zhǔn)數(shù)據(jù),例如來自于新浪微博和Twitter兩個(gè)平臺(tái)的公開數(shù)據(jù)集。此外,清華大學(xué)自然語言處理與社會(huì)人文計(jì)算機(jī)實(shí)驗(yàn)室的數(shù)據(jù)集也較為知名,其數(shù)據(jù)來源主要為:中文社交媒體謠言數(shù)據(jù)抓取、中文社交媒體謠言自動(dòng)識(shí)別以及用戶提交,目前仍在不斷更新。
數(shù)據(jù)標(biāo)注主要是在進(jìn)行謠言檢測階段的前一個(gè)工作,主要是為了能更好地訓(xùn)練出一個(gè)較優(yōu)的二分類模型,目前大致有兩種數(shù)據(jù)標(biāo)注方式。
(1)人工數(shù)據(jù)標(biāo)注
人工標(biāo)注指的是在獲取到需要的數(shù)據(jù)集后,專門依靠人力去對(duì)初始數(shù)據(jù)集進(jìn)行標(biāo)注工作。該方法簡單方便,但需消耗大量人力和時(shí)間,且人工標(biāo)注也可能會(huì)出錯(cuò),這主要和標(biāo)注者的經(jīng)驗(yàn)水平有關(guān)。
(2)基于半監(jiān)督學(xué)習(xí)的標(biāo)注
由于人工標(biāo)注存在大量人力時(shí)間的消耗,研究人員提出了在謠言檢測問題中引入半監(jiān)督學(xué)習(xí)自動(dòng)標(biāo)注的方法,在僅需要少量的人工標(biāo)注數(shù)據(jù)下,引入了一種CERT框架,該框架聯(lián)合聚類數(shù)據(jù)、選擇特征和訓(xùn)練分類器實(shí)現(xiàn)數(shù)據(jù)的分類。基于半監(jiān)督學(xué)習(xí)的自動(dòng)標(biāo)注方法簡單且易實(shí)現(xiàn),在一定程度上緩解了人工標(biāo)注方法存在的問題,但該方法的先決條件太強(qiáng),需要研究者能準(zhǔn)確地估計(jì)數(shù)據(jù)分布信息。
現(xiàn)階段的謠言檢測技術(shù)主要分為三種,即:基于人工的謠言檢測、基于機(jī)器學(xué)習(xí)的謠言檢測和基于深度學(xué)習(xí)的謠言檢測。
目前在大多數(shù)的社交媒體平臺(tái)上主要還是用的人工謠言檢測,平臺(tái)在用戶或者業(yè)內(nèi)人員的幫助下進(jìn)行信息核實(shí),謠言甄別。
我國主流社交媒體新浪微博設(shè)計(jì)了一個(gè)舉報(bào)處理功能,用戶被鼓勵(lì)舉報(bào)那些有可能是謠言的虛假文章,微博平臺(tái)的專業(yè)人士組成的團(tuán)隊(duì)則會(huì)仔細(xì)做出甄別,并會(huì)定期在“微博辟謠”這個(gè)官方賬號(hào)里公布那些聳人聽聞的謠言。
Facebook的方法是在用戶和外部事實(shí)核查人員的幫助下給假新聞貼標(biāo)簽,用戶會(huì)提醒平臺(tái)可能出現(xiàn)的謠言,平臺(tái)就會(huì)將這些疑似謠言的新聞發(fā)送給管理員進(jìn)行核實(shí)。
Twitter采用的是,在基于用戶們對(duì)每個(gè)推文的真實(shí)度評(píng)價(jià)后,Twitter設(shè)計(jì)了一個(gè)結(jié)合自動(dòng)評(píng)估和眾包注釋的半自動(dòng)策略來自動(dòng)標(biāo)記可能的虛假推文。
人工檢測謠言的方式準(zhǔn)確率較高,但是也存在一些問題:①人工檢測會(huì)耗費(fèi)大量的人力,不斷需要人們?nèi)ド缃幻襟w的信息進(jìn)行甄別判斷;②這種方式的檢測質(zhì)量也直接和判別謠言的人們的學(xué)識(shí),能力等因素掛鉤,存在因個(gè)人原因誤判的可能;③在大數(shù)據(jù)時(shí)代,社交媒體產(chǎn)生的推文多到我們無法想象,無法僅靠人工完成檢測工作。因此研究自動(dòng)識(shí)別謠言的方法已勢在必行。
在早期的謠言檢測階段研究者們就開始了試圖用機(jī)器學(xué)習(xí)的技術(shù)識(shí)別謠言。機(jī)器學(xué)習(xí)技術(shù)檢測謠言通常包含以下三個(gè)部分:①獲取到謠言相關(guān)的數(shù)據(jù)集并劃分訓(xùn)練集和測試集,然后開始進(jìn)行特征工程進(jìn)行特征提取;②利用提取過的特征在訓(xùn)練集上面訓(xùn)練出一個(gè)分類模型;③利用訓(xùn)練好的分類模型,經(jīng)過不斷評(píng)估和優(yōu)化,對(duì)測試集進(jìn)行分類預(yù)測。
在機(jī)器學(xué)習(xí)技術(shù)檢測謠言的過程中,特征工程是極其重要的環(huán)節(jié),其很大程度上決定了機(jī)器學(xué)習(xí)識(shí)別謠言的精度。現(xiàn)有用于檢測網(wǎng)絡(luò)謠言的特征提取方式主要包括:①基于單一信息的特征提取方式,通過提取單條數(shù)據(jù)的特征來處理數(shù)據(jù);②基于事件級(jí)特征提取方式,通過挖掘數(shù)據(jù)之間層次性關(guān)系來提取數(shù)據(jù)之間的潛在聯(lián)系。
與傳統(tǒng)分類器相比,深度學(xué)習(xí)在許多機(jī)器學(xué)習(xí)問題(例如,對(duì)象檢測,情感分類和語音識(shí)別)中表現(xiàn)出明顯的優(yōu)勢,于是研究者們開始嘗試了用深度學(xué)習(xí)技術(shù)進(jìn)行謠言識(shí)別。根據(jù)神經(jīng)網(wǎng)絡(luò)的不同結(jié)構(gòu),可以將神經(jīng)網(wǎng)絡(luò)方法進(jìn)一步分為兩類:
(1)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)
基于RNN的結(jié)構(gòu),這種方法將謠言數(shù)據(jù)建模為順序數(shù)。關(guān)鍵是RNN中各個(gè)單元之間的連接形成一個(gè)直接循環(huán)并創(chuàng)建網(wǎng)絡(luò)的內(nèi)部狀態(tài),這可能使它能夠捕獲具有謠言擴(kuò)散特性的動(dòng)態(tài)時(shí)間信號(hào)。
(2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)
CNN由堆疊的卷積和池化層組成,其結(jié)構(gòu)有助于對(duì)重要的語義特征進(jìn)行建模。基于CNN的方法假定CNN不僅可以從輸入實(shí)例中自動(dòng)提取局部全局重要特征,而且可以揭示那些高級(jí)交互。下面將介紹基于這兩種深度神經(jīng)網(wǎng)絡(luò)的謠言檢測方法。
謠言檢測技術(shù)經(jīng)過多年發(fā)展,目前的檢測效果在不斷提升中,但是也面臨了一些問題和挑戰(zhàn)如下:
(1)早期檢測。在社交網(wǎng)絡(luò)上傳播的故事的生命周期很短,一些研究表明該故事還不到三天。而且,謠言會(huì)在幾秒鐘或幾分鐘之內(nèi)傳播開來。至關(guān)重要的是,要盡早發(fā)現(xiàn)謠言。但是,大多數(shù)現(xiàn)有研究都通過假設(shè)謠言在謠言的整個(gè)生命周期中都具有全部內(nèi)容來對(duì)其進(jìn)行檢測。謠言開始時(shí)的資源非常有限,以至于在早期發(fā)現(xiàn)它非常具有挑戰(zhàn)性。雖然于等。提出一種解決該問題的方法,性能不能滿足早期檢測的需要。
(2)面對(duì)突然的大量數(shù)據(jù)和大量信息的處理效果不夠,目前的方法應(yīng)對(duì)這種多篇數(shù)據(jù)信息的推文和長篇具有豐富語義信息的推文應(yīng)對(duì)能力還是不夠,檢測時(shí)間長,誤差大,會(huì)出現(xiàn)“冷啟動(dòng)”的問題。
(3)在訓(xùn)練集出現(xiàn)了數(shù)據(jù)分布不均衡和小樣本的情況下,現(xiàn)有的謠言檢測方法處理起來誤差也較大。因此面對(duì)這種偏、怪的數(shù)據(jù)時(shí),仍需要研究者們設(shè)計(jì)出一個(gè)更好的策略,以應(yīng)對(duì)網(wǎng)絡(luò)上的各式各樣的數(shù)據(jù)集。
在Web2.0時(shí)代,自動(dòng)謠言檢測技術(shù)已經(jīng)是刻不容緩了。面對(duì)海量數(shù)據(jù)的今天,研究者們?nèi)孕铻楦玫闹{言檢測方法而努力,凈化網(wǎng)絡(luò)里的糟粕垃圾。也希望謠言檢測技術(shù)能不斷更新迭代,實(shí)現(xiàn)更精準(zhǔn)全面的檢測。