基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)謠言檢測技術(shù)研究

2020-01-04 19:01:41李勝丁振左玲

科學(xué)與信息化 2020年36期

李勝丁振左玲

中南財(cái)經(jīng)政法大學(xué)，信息與安全工程學(xué)院湖北武漢 430073

引言

現(xiàn)代網(wǎng)絡(luò)技術(shù)的高速發(fā)展使得越來越多的人開始使用諸如微博、微信、twitter、Facebook等通信社交媒體軟件，這也是人們獲取信息和發(fā)布信息的重要平臺(tái)。但是社交媒體的開放性和便捷性給社會(huì)帶來好處的同時(shí)也出現(xiàn)了一些問題，某些營銷號(hào)或者個(gè)體賬號(hào)會(huì)發(fā)布一些未經(jīng)證實(shí)的推斷或者不真實(shí)的信息，這就導(dǎo)致了謠言的產(chǎn)生。于是，在這個(gè)天然大數(shù)據(jù)的環(huán)境下，社交媒體又缺乏有效的信息審核制度，謠言可能會(huì)在網(wǎng)絡(luò)上大量快速地傳播。根據(jù)報(bào)道，微博上超過三分之一的熱點(diǎn)新聞都含有虛假成分信息[1]。謠言在社交媒體的瘋狂傳播會(huì)將不真實(shí)的信息快速在網(wǎng)絡(luò)上發(fā)酵歪曲和誤導(dǎo)群眾，嚴(yán)重影響社會(huì)安定，甚至可能會(huì)影響地區(qū)和國家安全。

鑒于謠言帶來的巨大危害，越來越多的研究人員開始探索謠言檢測技術(shù)。現(xiàn)有謠言檢測技術(shù)主要分為三類：人工檢測方法，基于機(jī)器學(xué)習(xí)的檢測方法和基于深度學(xué)習(xí)的檢測方法。人工檢測方法準(zhǔn)確率高，但具有明顯的滯后性，無法適應(yīng)社會(huì)網(wǎng)絡(luò)中海量數(shù)據(jù)。機(jī)器學(xué)習(xí)方法將社會(huì)網(wǎng)絡(luò)謠言問題看作有監(jiān)督學(xué)習(xí)中的二分類問題，自動(dòng)化程度高，有效地彌補(bǔ)了人工檢測方法的不足，但該類方法依賴于人工提取與選擇特征，且得到的特征向量魯棒性[3]也不夠健壯。深度學(xué)習(xí)方法可以獲得更好、更本質(zhì)的表征性，從而能實(shí)現(xiàn)更好的分類效果。相信經(jīng)過人們不斷的探索和進(jìn)一步研究，謠言能夠快速并準(zhǔn)確的被識(shí)別并給出警告，社會(huì)也會(huì)越來越安定。

1 謠言檢測過程

一般來說，目前我們更習(xí)慣于把謠言檢測類問題看成一個(gè)二分類問題。這個(gè)問題可以被看作為：給出一個(gè)新聞故事或者推文集合，如E = {e1, e2, e3…en}，還有一個(gè)判斷是否為謠言的類別標(biāo)簽P = {p1, p2}，其中，p1代表是謠言，p2代表不是謠言。我們要做的就是通過大量的數(shù)據(jù)集學(xué)習(xí)出一個(gè)分類模型M出來，使得對(duì)給出任意一條推文，都能預(yù)測出一個(gè)p1或者p2，從而達(dá)到檢測謠言的目的。

社會(huì)網(wǎng)絡(luò)謠言檢測過程通常包含：數(shù)據(jù)處理、特征選擇與提取、模型訓(xùn)練與謠言檢測四個(gè)階段。

數(shù)據(jù)處理包括原始數(shù)據(jù)的收集與數(shù)據(jù)標(biāo)注，數(shù)據(jù)收集的作用主要有兩項(xiàng)：第一，用于構(gòu)建模型訓(xùn)練的數(shù) 據(jù)集；第二，對(duì)社會(huì)網(wǎng)絡(luò)進(jìn)行監(jiān)控，獲取待檢測的社會(huì)網(wǎng)絡(luò)信息。數(shù)據(jù)標(biāo)注則是根據(jù)問題及需求的不同對(duì)數(shù)據(jù) 進(jìn)行不同的標(biāo)注。

特征選擇與特征提取是從收集的原始數(shù)據(jù)中選擇與構(gòu)造出最能代表數(shù)據(jù)的特征向量集合。對(duì)于機(jī)器學(xué)習(xí)方法而言，特征選擇與提取的重要程度甚至超過了模型選擇的重要性。因此現(xiàn)有基于機(jī)器學(xué)習(xí)方法的重要工作是以找到更有效的特征作為提升謠言檢測準(zhǔn)確率為主要思路．基于深度學(xué)習(xí)的謠言檢測具有很強(qiáng)的特征學(xué)習(xí)能力，其無需對(duì)特征進(jìn)行人工提取即可得到比傳統(tǒng)機(jī)器學(xué)習(xí)更高維、復(fù)雜、抽象的特征數(shù)據(jù)。模型訓(xùn)練是指根據(jù)具體的問題場景從已有的分類模型中選擇模型，并根據(jù)模型在訓(xùn)練數(shù)據(jù)集上的分類表現(xiàn)調(diào)整參數(shù)以找到一個(gè)最優(yōu)模型的過程．對(duì)于社會(huì)網(wǎng)絡(luò)謠言問題，如何在充滿噪音且不均衡的海量數(shù)據(jù)信息中訓(xùn)練出準(zhǔn)確率高的分類器是當(dāng)前社會(huì)網(wǎng)絡(luò)謠言檢測問題面臨的最大挑戰(zhàn)。

2 數(shù)據(jù)處理

數(shù)據(jù)處理是謠言檢測的一個(gè)非常重要的環(huán)節(jié)，數(shù)據(jù)處理包括了數(shù)據(jù)數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注兩個(gè)部分。

2.1 數(shù)據(jù)采集

目前關(guān)于網(wǎng)絡(luò)謠言的數(shù)據(jù)一般分為三種數(shù)據(jù)來源：

（1）通過網(wǎng)絡(luò)平臺(tái)的API接口獲取數(shù)據(jù)

目前，幾乎所有的社會(huì)網(wǎng)絡(luò)平臺(tái)都向用戶提供了完善的RESTAPI接口，REST即表述性狀態(tài)傳遞（Representational State Transfer，簡稱REST）是一套新興的WEB通信協(xié)議[2]。這樣方便用戶從社會(huì)網(wǎng)絡(luò)平臺(tái)中獲取到用戶發(fā)表的微博、好友關(guān)系等社交信息。

（2）利用爬蟲技術(shù)獲取數(shù)據(jù)集

利用網(wǎng)絡(luò)爬蟲技術(shù)可以以更靈活的方式獲取所需的數(shù)據(jù)。如：在Facebook中從某一用戶開始不斷搜尋其好友，對(duì)整個(gè)社交平臺(tái)的數(shù)據(jù)進(jìn)行爬取。

基于爬蟲技術(shù)的獲取數(shù)據(jù)優(yōu)點(diǎn)就是能夠獲取到足夠大的供研究的數(shù)據(jù)，但也有兩個(gè)缺點(diǎn)和挑戰(zhàn)：①可能會(huì)面臨法律風(fēng)險(xiǎn)，如果擅自爬取未經(jīng)授權(quán)的Web數(shù)據(jù)，就可能觸犯其所在國家的法律；②面臨的技術(shù)難度大，爬蟲技術(shù)需要編寫者了解網(wǎng)絡(luò)層的各種協(xié)議和技術(shù)。

（3）通過公開數(shù)據(jù)集獲取

利用公開數(shù)據(jù)集可以輕易且合法地獲取標(biāo)準(zhǔn)數(shù)據(jù)，例如來自于新浪微博和Twitter兩個(gè)平臺(tái)的公開數(shù)據(jù)集。此外，清華大學(xué)自然語言處理與社會(huì)人文計(jì)算機(jī)實(shí)驗(yàn)室的數(shù)據(jù)集也較為知名，其數(shù)據(jù)來源主要為：中文社交媒體謠言數(shù)據(jù)抓取、中文社交媒體謠言自動(dòng)識(shí)別以及用戶提交，目前仍在不斷更新。

2.2 數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注主要是在進(jìn)行謠言檢測階段的前一個(gè)工作，主要是為了能更好地訓(xùn)練出一個(gè)較優(yōu)的二分類模型，目前大致有兩種數(shù)據(jù)標(biāo)注方式。

（1）人工數(shù)據(jù)標(biāo)注

人工標(biāo)注指的是在獲取到需要的數(shù)據(jù)集后，專門依靠人力去對(duì)初始數(shù)據(jù)集進(jìn)行標(biāo)注工作。該方法簡單方便，但需消耗大量人力和時(shí)間，且人工標(biāo)注也可能會(huì)出錯(cuò)，這主要和標(biāo)注者的經(jīng)驗(yàn)水平有關(guān)。

（2）基于半監(jiān)督學(xué)習(xí)的標(biāo)注

由于人工標(biāo)注存在大量人力時(shí)間的消耗，研究人員提出了在謠言檢測問題中引入半監(jiān)督學(xué)習(xí)自動(dòng)標(biāo)注的方法，在僅需要少量的人工標(biāo)注數(shù)據(jù)下，引入了一種CERT框架，該框架聯(lián)合聚類數(shù)據(jù)、選擇特征和訓(xùn)練分類器實(shí)現(xiàn)數(shù)據(jù)的分類。基于半監(jiān)督學(xué)習(xí)的自動(dòng)標(biāo)注方法簡單且易實(shí)現(xiàn)，在一定程度上緩解了人工標(biāo)注方法存在的問題，但該方法的先決條件太強(qiáng)，需要研究者能準(zhǔn)確地估計(jì)數(shù)據(jù)分布信息。

3 謠言檢測方法

現(xiàn)階段的謠言檢測技術(shù)主要分為三種，即：基于人工的謠言檢測、基于機(jī)器學(xué)習(xí)的謠言檢測和基于深度學(xué)習(xí)的謠言檢測。

3.1 人工謠言檢測

目前在大多數(shù)的社交媒體平臺(tái)上主要還是用的人工謠言檢測，平臺(tái)在用戶或者業(yè)內(nèi)人員的幫助下進(jìn)行信息核實(shí)，謠言甄別。

我國主流社交媒體新浪微博設(shè)計(jì)了一個(gè)舉報(bào)處理功能，用戶被鼓勵(lì)舉報(bào)那些有可能是謠言的虛假文章，微博平臺(tái)的專業(yè)人士組成的團(tuán)隊(duì)則會(huì)仔細(xì)做出甄別，并會(huì)定期在“微博辟謠”這個(gè)官方賬號(hào)里公布那些聳人聽聞的謠言。

Facebook的方法是在用戶和外部事實(shí)核查人員的幫助下給假新聞貼標(biāo)簽，用戶會(huì)提醒平臺(tái)可能出現(xiàn)的謠言，平臺(tái)就會(huì)將這些疑似謠言的新聞發(fā)送給管理員進(jìn)行核實(shí)。

Twitter采用的是，在基于用戶們對(duì)每個(gè)推文的真實(shí)度評(píng)價(jià)后，Twitter設(shè)計(jì)了一個(gè)結(jié)合自動(dòng)評(píng)估和眾包注釋的半自動(dòng)策略來自動(dòng)標(biāo)記可能的虛假推文。

人工檢測謠言的方式準(zhǔn)確率較高，但是也存在一些問題：①人工檢測會(huì)耗費(fèi)大量的人力，不斷需要人們?nèi)ド缃幻襟w的信息進(jìn)行甄別判斷；②這種方式的檢測質(zhì)量也直接和判別謠言的人們的學(xué)識(shí)，能力等因素掛鉤，存在因個(gè)人原因誤判的可能；③在大數(shù)據(jù)時(shí)代，社交媒體產(chǎn)生的推文多到我們無法想象，無法僅靠人工完成檢測工作。因此研究自動(dòng)識(shí)別謠言的方法已勢在必行。

3.2 基于機(jī)器學(xué)習(xí)的謠言檢測

在早期的謠言檢測階段研究者們就開始了試圖用機(jī)器學(xué)習(xí)的技術(shù)識(shí)別謠言。機(jī)器學(xué)習(xí)技術(shù)檢測謠言通常包含以下三個(gè)部分：①獲取到謠言相關(guān)的數(shù)據(jù)集并劃分訓(xùn)練集和測試集，然后開始進(jìn)行特征工程進(jìn)行特征提取；②利用提取過的特征在訓(xùn)練集上面訓(xùn)練出一個(gè)分類模型；③利用訓(xùn)練好的分類模型，經(jīng)過不斷評(píng)估和優(yōu)化，對(duì)測試集進(jìn)行分類預(yù)測。

在機(jī)器學(xué)習(xí)技術(shù)檢測謠言的過程中，特征工程是極其重要的環(huán)節(jié)，其很大程度上決定了機(jī)器學(xué)習(xí)識(shí)別謠言的精度。現(xiàn)有用于檢測網(wǎng)絡(luò)謠言的特征提取方式主要包括：①基于單一信息的特征提取方式，通過提取單條數(shù)據(jù)的特征來處理數(shù)據(jù)；②基于事件級(jí)特征提取方式，通過挖掘數(shù)據(jù)之間層次性關(guān)系來提取數(shù)據(jù)之間的潛在聯(lián)系。

3.3 基于深度學(xué)習(xí)的謠言檢測

與傳統(tǒng)分類器相比，深度學(xué)習(xí)在許多機(jī)器學(xué)習(xí)問題（例如，對(duì)象檢測，情感分類和語音識(shí)別）中表現(xiàn)出明顯的優(yōu)勢，于是研究者們開始嘗試了用深度學(xué)習(xí)技術(shù)進(jìn)行謠言識(shí)別。根據(jù)神經(jīng)網(wǎng)絡(luò)的不同結(jié)構(gòu)，可以將神經(jīng)網(wǎng)絡(luò)方法進(jìn)一步分為兩類：

（1）遞歸神經(jīng)網(wǎng)絡(luò)（RNN）

基于RNN的結(jié)構(gòu)，這種方法將謠言數(shù)據(jù)建模為順序數(shù)。關(guān)鍵是RNN中各個(gè)單元之間的連接形成一個(gè)直接循環(huán)并創(chuàng)建網(wǎng)絡(luò)的內(nèi)部狀態(tài)，這可能使它能夠捕獲具有謠言擴(kuò)散特性的動(dòng)態(tài)時(shí)間信號(hào)。

（2）卷積神經(jīng)網(wǎng)絡(luò)（CNN）

CNN由堆疊的卷積和池化層組成，其結(jié)構(gòu)有助于對(duì)重要的語義特征進(jìn)行建模。基于CNN的方法假定CNN不僅可以從輸入實(shí)例中自動(dòng)提取局部全局重要特征，而且可以揭示那些高級(jí)交互。下面將介紹基于這兩種深度神經(jīng)網(wǎng)絡(luò)的謠言檢測方法。

4 結(jié)束語

謠言檢測技術(shù)經(jīng)過多年發(fā)展，目前的檢測效果在不斷提升中，但是也面臨了一些問題和挑戰(zhàn)如下：

（1）早期檢測。在社交網(wǎng)絡(luò)上傳播的故事的生命周期很短，一些研究表明該故事還不到三天。而且，謠言會(huì)在幾秒鐘或幾分鐘之內(nèi)傳播開來。至關(guān)重要的是，要盡早發(fā)現(xiàn)謠言。但是，大多數(shù)現(xiàn)有研究都通過假設(shè)謠言在謠言的整個(gè)生命周期中都具有全部內(nèi)容來對(duì)其進(jìn)行檢測。謠言開始時(shí)的資源非常有限，以至于在早期發(fā)現(xiàn)它非常具有挑戰(zhàn)性。雖然于等。提出一種解決該問題的方法，性能不能滿足早期檢測的需要。

（2）面對(duì)突然的大量數(shù)據(jù)和大量信息的處理效果不夠，目前的方法應(yīng)對(duì)這種多篇數(shù)據(jù)信息的推文和長篇具有豐富語義信息的推文應(yīng)對(duì)能力還是不夠，檢測時(shí)間長，誤差大，會(huì)出現(xiàn)“冷啟動(dòng)”的問題。

（3）在訓(xùn)練集出現(xiàn)了數(shù)據(jù)分布不均衡和小樣本的情況下，現(xiàn)有的謠言檢測方法處理起來誤差也較大。因此面對(duì)這種偏、怪的數(shù)據(jù)時(shí)，仍需要研究者們設(shè)計(jì)出一個(gè)更好的策略，以應(yīng)對(duì)網(wǎng)絡(luò)上的各式各樣的數(shù)據(jù)集。

在Web2.0時(shí)代，自動(dòng)謠言檢測技術(shù)已經(jīng)是刻不容緩了。面對(duì)海量數(shù)據(jù)的今天，研究者們?nèi)孕铻楦玫闹{言檢測方法而努力，凈化網(wǎng)絡(luò)里的糟粕垃圾。也希望謠言檢測技術(shù)能不斷更新迭代，實(shí)現(xiàn)更精準(zhǔn)全面的檢測。