陳蕾,鄒儀
(中國人民警察大學,河北 廊坊 065000)
“謠言識別”被賦予了非比尋常的時代意義。目前,信息以互聯網為載體在網民之間飛速傳播,“話語權”也向普通民眾轉移,自媒體時代的到來深刻地影響著人們的生活。更需重視的是,網絡在極大方便信息交互的同時,一些無中生有或粉飾事實的信息,由于難以識別、不易發現,導致其在傳播網絡中被歪曲放大不斷蔓延,造成消極的社會影響甚至危害社會秩序和國家安全。例如,2013-04-23,黑客入侵美聯社的Twitter 賬號,散布美國總統奧巴馬被炸傷的謠言,引起資本市場的震蕩,令美國股市蒸發2 000億美元[1]。微博憑借其多樣性、共享性、實時性、互動性在各類社交媒體平臺中脫穎而出,即使是用戶覆蓋度最高的微信系統,其微信公眾賬號中超過60%的推廣信息也是通過微博進行發布的[2],識別微博平臺中的謠言也具有相當重要的意義。
目前關于謠言的識別方法可以分為2 大類,一類是基于人工的識別方法,另一類是基于計算機技術的自動識別方法。
人工謠言識別法是各大網絡社交平臺普遍使用的一種謠言識別方法。由于社交媒體中謠言難以一一辨認,各類平臺都鼓勵其用戶進行監督投訴,開設專門的投訴通道,甚至對能準確投訴監督的用戶有一定獎勵;此外,平臺也會在其用戶中或社會上選擇一些行業專家,利用專家的領域知識對相關謠言信息的真實性進行鑒定識別。前者利用普通網民進行謠言識別,可稱為網民謠言識別;后者認定相關專家進行謠言識別,可稱為專家謠言識別。
關于網民謠言識別的研究較少,且在行政管理領域被討論較多。鄭潔等[3]認為要培育全民“把關人”,使其自覺加入到處理相關事件的隊伍里,只有這樣才能有效規避技術弊端所帶來的監管缺失問題。林鴻潮[4]認為要發揮集體智能在網絡空間探尋真相,通過“眾包”協作的方式,集合“數字志愿者”的力量。相關研究大多停留在探討廣泛發動網民的重要意義上,至于如何更加高效、科學地發動網民的力量較少討論。
專家謠言識別在社交媒體上一般作為網民謠言識別的一種補充。張淳藝[5]針對新冠肺炎期間“糧慌”的謠言提出政府等權威機構要及時澄清、辟謠,民眾也要做到“不信謠,不傳謠”。高玉君等[6]通過研究微博辟謠機制,說明了專家謠言識別的過程。微博網民通過“舉報”功能向平臺舉報可疑信息,微博平臺的相關專家會再次對這些信息進行一個再判別,并在平臺上公布鑒別結果,這些專家或權威機構也可以在網絡中直接搜尋相關“謠言”并加以判斷,平臺會通過公眾號“微博辟謠”對用戶進行發布。
人工謠言識別法有著較高的識別率,但亦存在著一些缺點。其一是人力耗費多。無論是網民謠言識別還是專家謠言識別,都需要對相關信息進行逐條甄別并以此識別出其是否為謠言,這就意味著將產生極大的人力消耗。其二是專業依賴強。謠言復雜多樣,單個謠言可能包含著跨度極廣的專業知識,某些特定領域的專家依賴其知識背景或專業知識有很大概率作出錯誤的判斷。其三是遺漏率高。社交媒體平臺對做出正確舉報行為的用戶沒有“實質”性的獎勵,導致網民對監督舉報的積極性低,僅靠其自覺又難以達到相應效果,加之專家等專職人員數量有限,所以無法對謠言進行全方位的網羅、識別。
自動謠言識別包括基于機器學習的謠言識別和基于深度學習的謠言識別。本節將對2 種方法在謠言識別領域的研究作出歸納說明。
目前應用于謠言識別的機器學習算法主要有支持向量機、決策樹、貝葉斯算法、隨機森林等。用其進行謠言識別的一般過程是:在謠言發布初期,結合自然語言敏感詞、情感詞等分析手段識別話題,進行初步篩選。具體步驟是:用爬蟲軟件獲取微博原始數據,并進行數據清洗,去除無關信息;對獲取的微博數據進行分詞、去停用詞,并結合微博的內容增加新詞匯,然后對文本特征按權值進行轉換,最后進行聚類和降維,實現輸出。
3.1.1 數據獲取
數據獲取是進行謠言檢測的前提,現在一般借助網絡爬蟲程序實現數據獲取。其大體流程是:根據微博等社交軟件的特點,分析登錄協議、數據請求過程和每個請求的URL 與數據的對應關系;然后,通過獲取cookie 并創建session,使用程序模擬網頁登錄的過程;實現模擬登錄后,以登錄用戶的信息為種子集合,通過HTTP 協議使用GET 方法對數據進行采集并對獲得的數據進行解析。這種模擬用戶登錄的方法,不需要官方授權和APⅠ,很靈活,可以全面、高效地獲取數據。
3.1.2 數據處理
對于獲取的微博數據,需要進行相關的文本分析和特征提取,以方便機器學習算法處理。主要步驟有:①噪聲過濾。去除噪聲是數據清洗的一部分,主要目的是去除無用的數據,提升后續環節的檢測效率。一般設定一個閾值,將粉絲數量低于該閾值的微博用戶的微博數據刪除。②分詞。微博文本都刪除是短文本,對短文本進行分類,是進行預處理的關鍵步驟之一。目前比較常用的中文分詞方法主要基于統計學、字符串匹配或者人工智能方法,實現將連續文本轉換成詞的序列,方便進行去除停用詞、詞性轉換等,從而為后續的文本向量化打下基礎。③向量表示。為了方便計算,一般需要將微博的文本信息按照其特征項(比如字符、詞語)轉換為特征向量的形式。有效地為微博消息的文本內容建立結構化向量,計算文本之間的相關性,是提升識別效率的重要手段。
3.1.3 特征選擇
目前用于謠言識別的機器學習算法大都屬于監督學習,嚴格意義上來說仍然需要人工對其訓練數據進行標注,但造成不同算法甚至相同算法間巨大差異的原因在于其訓練分類器的數據特征不同。如何取舍相關特征用以表征數據,就成為謠言識別成效的關鍵所在。現在研究比較多的特征類型如下。
3.1.3.1 基于用戶特征
謠言發端于用戶,用戶是社交網絡的重要組成部分,將其作為謠言識別的特征亦是值得研究的課題。針對該特征,LⅠANG 等人[7]基于微博平臺用戶的行為,選取發帖用戶和傳播用戶每日關注的好友數、每日發布的博文數、可能的消息源數、質疑評論占比和更正數這5 個特征,結合用戶認證人數、粉絲人數、轉發及評論數等特征數據訓練決策樹模型,并獲得了86.5%的精確度和85.4%的召回率。WU 等[8]認為謠言歸根結底是由普通用戶發布,再被意見領袖轉發,最后被大量普通用戶轉發,這是區別于非謠言的一個重要特征,其選取信息發布者和轉發者的行為特征與消息內容特征相結合,利用混合SVM 模型以識別謠言。
3.1.3.2 基于內容特征
在社交平臺中,內容是謠言的表現形式,其包括文字、圖片、視頻、表情符號等,在各類文獻的研究中,實驗結果均表明基于內容特征的謠言識別模型在性能上明顯優于基于用戶特征、基于網絡特征的謠言識別模型[9]。賀剛等人[10]選取文本符號、鏈接、關鍵詞分布、時間差4 類特征,使用SVM 模型進行訓練并獲得81.2%的準確率,訓練結果表明,這4 類特征中關鍵詞分布特征對準確率影響最大。ZHANG 等人[11]選取流行度取向、內外一致性、情感極性、評論觀點4個基于內容的隱式特征,并用SVM 模型進行訓練獲得了72.4%的精確度和58.6%的召回率。
3.1.3.3 基于傳播特征
謠言的傳播和非謠言的傳播存在著極大的不同,用戶在接觸謠言時會有不同的反應,而這些反應亦會被映射到傳播過程中。KWON 等人[12]觀察到非謠言在傳播過程中會有一個顯著峰而謠言則會有多個峰,基于該特征建立了周期性外部震動模型以捕獲謠言的周期性爆發,最后結合結構和內容特征訓練隨機森林模型獲得93.5%的精確度和89.2%的召回率。MA 等人[13]提出傳播樹內核(PTK),主要選取傳播結構中的非時間特征,實驗結果顯示,PTK 謠言識別模型分別比基線方法中表現最好的GRU 模型檢測精確度提高6.4%、8.9%。
綜合來說,基于機器學習的謠言識別關鍵在于選擇合適的特征,特征的選擇在一定程度上比算法模型的選擇更為重要,所以其本質還是人工性的,存在著一些不足。其一,對于一些復雜數據難以處理,社交媒體謠言數據特征一般是高維、抽象的,人工難以完全拆解識別。其二,使用人工標注的特征集合用以訓練模型,并試圖得到一個通用的謠言識別機器,難以保證模型的泛化性能。
深度學習作為機器學習一個發展迅猛的分支,在自然語言處理等方面應用越來越廣泛。深度學習主要有卷積神經網路(CNN)和循環神經網絡(RNN)2大類組成,比較靈活,一般只需要修改參數就可以實現模型修改,但是需要大量數據和訓練的支撐。
相比于機器學習需要人工進行特征篩選,深度學習可以自動習得相關數據特征,且其學習得到的特征比人工標注的更加有效,達到更好的謠言識別效果[14]。MA 等人[15]提出利用循環神經網絡(RNN)檢測微博謠言,并分別在Twitter 和微博數據集上進行實驗,并與SVM-TS 等手工制作特征模型進行比較,其中GRU-2 在Twitter 和微博數據集上的準確率分別為88.1%和91.0%,準確率大幅提升。劉政等人[16]采用卷積神經網絡(CNN)檢測微博謠言,并使用Doc2Vec訓練向量矩陣,此模型與RNN 模型進行比較,精確率提高了10.2%。WANG 等[17]通過研究各類謠言事件的共性,提出事件生成對抗網絡(EANN)模型以識別謠言,實驗顯示該模型比att-RNN 模型的準確率提高了10.3%,F1 提高了16.5%,表明事件共性特征進一步提高了模型的泛化能力。劉鐘山[18]提出的基于LSTM 的謠言檢測模型作為改進的RNN 模型,對公開的微博謠言數據集進行檢測,實驗顯示該模型比GRU 模型的準確率提高了12.0%,F1 值提高了11.3%,整體識別效果良好。
綜合來看,基于深度學習的謠言識別的效果優于機器學習的模型,它很好地避免了人工特征選擇的缺陷,但是由于其比較復雜,需要大量的數據作為支撐,因此如何獲得大量且完整的數據也成為了一個關鍵問題。
人工識別和機器自動識別2 類謠言識別的方法各有其優缺點和存在的意義。人工識別的方法由于其準確性等優點有著不可替代的作用,但應該提出更為有效、科學的方法來促進發揮其作用。基于機器學習的謠言識別技術如何取舍相關特征用以表征數據是謠言識別成效的關鍵。目前多采用支持向量機(SVM)模型,在特征選取上內容特征有著很高的準確度,但是還應關注這些綜合性特征在不同算法模型甚至不同模型組合中的訓練精度,以及模型的泛化能力。基于深度學習的謠言識別可以自動習得相關數據特征,且其學習得到的特征比人工標注的更加有效,存在很多優勢,但較為復雜,未來亦會有更多在此方面的研究。