王淼 郭陽明 陳澤林 鐘林龍



摘要:【目的/意義】對網絡中大量的輿情進行真實與虛偽信息的判斷,保留真實,去掉虛假,同時為政府輿情工作者提供謠言判斷進行借鑒。【方法/過程】采集微博的謠言與非謠言的主題、回復等數據作為數據集,使用Paddle Fluid API編程,并配置循環神經網絡模型(Recurrent Neural Network),使用數據集進行模型訓練,最后進行模型分析檢測。【結果/結論】通過RNN模型訓練和數據分析,使輿情中的謠言事件數據化,挖掘文本中的虛假信息特征集,從而進行更好的謠言判斷,同時也能使輿情工作者更好的控制謠言。
關鍵詞:網絡輿情;循環神經網絡;謠言判斷
中圖分類號:TP311 ? ? 文獻標識碼:A
文章編號:1009-3044(2020)24-0018-03
1 引言
根據中國互聯網協會2019年發展報告[1],到2018年底,中國網民的規模上漲到8.29億,新增5663萬人,普及率高達59.6%,與2017年底相比增長3.8%,比全球的平均水平高2.6%。伴隨著中國因特網產業的不斷發展,因特網在人們生活中的普及程度不斷提高,使得更加便利的新興產業也在迅速發展。與此同時,信息爆炸的時代,新聞傳播變得更加重要,網絡信息傳播越來越快捷和方便,不僅讓公眾更容易發布信息,也縮短了信息傳播的時間,但也使得輿論容易受到大眾的影響,產生不同程度的謠言和虛假信息。因為多方面的原因,有些事件剛剛發生,尚未被人們充分認識,一些虛假的言論往往會影響公眾的態度,從而導致突發事件的輿論在短時間內迅速發酵[2],引發社會動蕩。所以對網絡輿論中謠言判斷的研究就顯得非常重要,這有利于維護社會穩定,營造良好的網絡輿論氛圍。目前對于我國的輿情的研究現狀[3],存在多種研究方向,其中包括:研究輿情指標體系、演化模型、輿情傳播途徑[4]、輿情識別分析、輿情數據分析、輿情預警等,在數據分析中又可以分為幾個小類,包括但不限于:用戶情感分析、用戶行為分析、謠言檢測判斷等。謠言檢測判斷的工作對于輿情工作者來說,重要性不低于輿情識別與輿情預警,有一個完善的謠言判斷機制可以大大節省輿情工作的時間和精力。根據以上情況,本文通過對微博的謠言與非謠言的主題、回復等數據進行分析,通過循環神經網絡對虛假數據的文本信息進行捕捉和分析,對該謠言的特征集有一個更直觀清晰的認識,并對其進行總結概括,尋找其不足和成熟之處。科學有效地進行謠言的甄別,為政府研判、預警機制建立以及應急方案的確立等提供理論依據。通過對網絡輿情謠言的判斷檢測的深入研究打下基礎,促進對于網絡輿情實時監控[5]、正確引導和科學控制的發展,以達到降低或避免因負面突發事件網絡輿情帶來的社會危害。
2 相關謠言判斷方法分析
目前在謠言識別領域主流的三種模型分別是基于內容的建模如面向知識庫以及基于社交網絡的模型,下文主要介紹面向知識庫、面向內容風格、基于社交網絡這三種謠言判斷方法。
2.1 面向知識庫
面向知識庫,即根據現有的專家系統進行研究,加以利用,從而實現謠言判斷。事實確認[6]系統與謠言識別[7]系統有些相似。該系統校真了文章中描述的觀點和目標。與QA系統類似,它是NLP相對復雜的領域,作為知識的表達和知識的推理。知識數據庫數據集具有集中式分區方案。 1)專家系統[8]:由各個領域的專家創建的知識數據庫。顯然,這種方法的效率和可擴展性很差。但是,對于垂直類別(生物學,歷史記錄),可以嘗試使用更客觀的事實進行分類。 2)集體智慧[9]:從用戶的集體知識的反饋中建立的一系列知識數據庫。在1和2可用之后,可以使用類似的檢索方法來評估新內容的相似性,并充分利用累積的歷史內容特征。 3)算法分類[10]:使用知識或案例圖來評估內容的可靠性。當前,最主要的開放知識圖譜是DB Pedia和Google Relation Extraction的數據集。
2.2 面向內容風格
面向內容風格的謠言判斷方式是指:使用文章內容本身的寫作風格來保留句子的句法結構,并通過上下文無關的語法或其他深層的NLP模型(例如RST修辭依賴理論)來捕獲語法信息。根據所記錄的文字信息的描述類型,作者分為兩類。這檢測了欺騙的程度以及主觀和客觀解釋的程度(更客觀和更公平的可能性更大)。令人震驚體的標題黨屬于這一類。其中,可以與欺騙性新聞也許會使用的特征包括常規特征和聚合特征兩類。常規特征,例如頁面,文本,圖像,標題等。聚合特征是幾種常規特征和子模型問題的有監督訓練的結合。這些子模型的輸出可以用作欺騙消息區域中的聚合函數。圖1顯示了使用的主要特征集,主要通過圖文靜態內容的樣式維度、文本維度[11]、圖片維度[12]、標題維度四個維度特征進行分類判斷,再通過對這四個維度特征進行細化分類,最終得出判斷方式。
2.3 基于社交網絡建模
基于社交網絡主要是根據用戶在社交網絡中的行為和謠言傳播的軌跡構建模型的一種建模方式。分為兩種,基于立場和基于傳播行為的。前者主要是基于用戶對內容的操作(評論,點贊 ,舉報等等)構建矩陣或者圖模型。而基于傳播行為對對象建模,類似 PageRank [13]的行為傳遞。1. 對虛假新聞的傳播游走軌跡跟蹤, 以及通過圖模型和演化模型中針對特定假新聞的進一步調查;2. 識別虛假新聞的關鍵傳播者,對于減輕社交媒體的傳播范圍至關重要。
3 模型構建
3.1 數據采集
本次實踐所使用的數據是從新浪微博不實信息舉報平臺抓取的中文謠言數據,數據集其中包括謠言2458條、非謠言2206條,其中數據格式都為json格式。如下圖中,text中字段為原文文字:
數據的處理準備階段的整體流程如圖2所示:
1) 解壓數據,讀取數據并解析,生成all_data.txt文件。需導入的包分別為:zipfile、os、random、PIL中的Image、PIL中的ImageEnhance、json
(1)原始數據的解壓,將數據解壓為.txt文件格式,并且提取其中中文字段為數據元組。
(2)劃分謠言與非謠言數據并將謠言與非謠言進行標記并統計,將謠言數據、非謠言數據、全部數據分文件放入。并且將謠言標注為0,非謠言標注為1,同時運用遍歷數據的方法解析謠言、非謠言數據總量,分別統計謠言、非謠言數據總數。最終統計結果為:謠言數據總量為:2458,非謠言數據總量為:2206。
(3)之后將全部數據進行亂序排列,寫入all_data.txt中。
2) 生成數據字典。
需導入的包分別為:os、multiprocessing中的cpu_count、numpy、shutil、paddle、paddle.fluid、PIL中的Image、matplotlib.pyplot。生成數據字典:讀取全部數據、并將數據生成一個元組,隨后將元組轉換成字典,保存在本地。
3) 生成數據列表,并且對訓練集以及驗證集進行劃分。
對訓練集和驗證集進行劃分:創建序列化表示的數據,按照比例劃分訓練集以及驗證集,將其分別存放至eval_list.txt和train_list.txt。
3.3 模型配置與訓練
3.3.1 循環神經網絡的介紹
循環神經網絡是深度學習的算法之一,是一類以序列數據為輸入,在序列的推進方向進行遞歸且所有循環單元以鏈式連接的遞歸神經網絡。其中雙向循環神經網絡和長短期記憶網絡是比較常見的兩種循環神經網絡。主要運用于語音識別、語言建模、機器翻譯等領域,同時也可以處理包含序列輸入的計算機視覺問題。
3.3.2 模型配置
在數據準備的工作之后,我們就搭建了一個循環的神經網絡,并且對其中的文本特征鏡像了提取,完成微博謠言的檢測。其中,paddlePaddle API中dynamic_lstm接口已經給我們實現了LSTM[14]。并且還定義了損失函數[15]以及準確率的函數。
(1) 搭建循環神經網絡[16]。
首先定義長短期記憶網絡,以數據的IDs作為輸入,以softmax作為全連接的輸出層,大小為2,也就是正負面。
(2) 定義數據類型。
定義輸入數據,lod_level不為0指定輸入數據為序列數據
(3) 定義損失函數和準確率函數。
① 定義了一個損失函數之后,還有對它求平均值,因為定義的是一個Batch的損失值。定義損失函數的作用是衡量模型預測的好壞。
② 我們還定義了一個準確率函數,這個可以在我們訓練的時候輸出分類的準確率。
(4) 循環神經網絡的訓練與評估。
對模型進行訓練,在每一輪訓練結束之后,使用驗證集進行驗證,并求出相應的損失值Cost和準確率acc,并展示訓練曲線以及訓練結果。
經過以上步驟之后得到準確率,表2展示的是損失值及準確率。
圖3為模型訓練過程中的曲線圖,由此可以看出,當損失值Cost值越小時,準確率acc值越高,最終的準確率達到84%。
4 研究結果與討論
本文的研究從面向知識庫、面向內容風格、基于社交網絡建模這三方面在理論上方面說明了謠言的判斷檢測可以從不同的方法路徑去了解文本數據的信息,獲取虛假信息的特征集。以微博的謠言與非謠言的主題和回復等數據作為數據集,采用Paddle Fluid API編程,并配置循環神經網絡,經過定義網絡、定義損失函數、定義優化的方案等來訓練謠言與非謠言數據集,最后經過模型的評估,來對信息進行謠言的甄別。研究的結果顯示,經過訓練后的模型,在一定程度上可以通過虛假數據的特征集,從而來征甄別謠言和非謠言。同時,為了更好地判斷謠言,可以選取以下特征集來進行謠言判斷:
(1) 非官方報社的轟動型消息。網絡中出現的大新聞,例如:某癌癥被攻克,某衛星將撞擊地球,需確定此類消息的來源,如果是某小媒體,或者個人消息來源,官方還為發布,這就是謠言。
(2) 非共識的恐嚇。人對于未知的事物,本能地害怕。什么危險會危及生命,基本上都是主流的專家專注領域,大體都會有全社會的共識,比如對于心臟病、車禍、癌癥等這些危害,大家都有一個共同的認識。但面對未知的領域的威脅,大眾選擇了“相信它的危害,而不相信它的無害”,而沒有精力和時間去研究這些問題的真相。因此,只要你夸大事實,恐嚇他人,并且主流科學和媒體沒有明確地斷定有害,那就是謠言。
(3) 來歷不明的信息。所有信息都要看發布人的身份,凡事假扮內行,往往就是謠言。專家們會在他們的領域里有獨到的見解,但在其他領域里可能會出錯。即使是著名記者,如果他的信息不是來自專業領域的權威專家,也不值得相信,比如張杰,作為一名歌唱家,根本就不是一名物理專家,那么他在物理領域的洞察力就不可信。即使是同一門學科的不同門類也不能含糊,如呼吸科對骨科所發表的見解,基本上也是隔行如隔山,沒有可信度。
參考文獻:
[1] CNNIC. 中國互聯網絡發展狀況統計報告[EB/OL].http://www.cac.gov.cn/2019-02/28/c_1124175677.htm,2019-02-28.
[2] 張玉亮.基于發生周期的突發事件網絡輿情風險評價指標體系[J].情報科學,2012,30(7):1034-1037,1043.
[3] 蔣研川, 肖鐵巖, 凌曉明. 新媒體環境下高校校園網絡輿論的現狀及引導策略研究[J]. 重慶大學學報(社會科學版), 2012(1):142-148.
[4] 趙劍華,萬克文.基于信息傳播模型-SIR傳染病模型的社交網絡輿情傳播動力學模型研究[J].情報科學,2017,35(12):34-38.
[5] 唐濤. 基于情報學方法的網絡輿情監測研究[J]. 情報科學, 2014(1).
[6] 熊炎. 反駁改述謠言能夠消除事實幻覺效應[J]. 現代傳播, 2018, 040(003):74-79.
[7] 賀剛,呂學強,李卓,等.微博謠言識別研究[J].圖書情報工作,2013,57(23):114-120.
[8] 劉漢波. 作為風險文化的微信謠言——"無知羞恥"下的信息互酬與角色扮演[J]. 民族藝術, 2017,(5):36-41.
[9] 占欣, 夏志杰, 羅夢瑩,等. 影響群體智慧抑制社會化媒體謠言傳播的因素研究[J]. 圖書館, 2018(8):85-90.
[10] 林榮蓉. 基于敏感詞庫的微博謠言識別研究[D]. 中南財經政法大學, 2018.
[11] 姜贏, 張婧, 朱玲萱,等. 網絡謠言文本句式特征分析與監測系統[J]. 電子設計工程, 2017, 025(023):7-10,15.
[12] 鄧勝利, 付少雄. 社交媒體附加信息對用戶信任與分享健康類謠言的影響分析[J]. 情報科學, 2018,36(3):51-57.
[13] Zhiwei Jin, Juan Cao, Yongdong Zhang,等. News Verification by Exploiting Conflicting Social Viewpoints in Microblogs[C]// Thirtieth Aaai Conference on Artificial Intelligence. AAAI Press, 2016.
[14] 陳帆. 基于LSTM情感分析模型的微博謠言識別方法研究[D]. 重慶大學,2018.
[15] 楊桂元, 唐小我. 一種新的預測評價方法——損失函數法[J].預測,1998,17(3):38-40.
[16] 劉禮文, 俞弦. 循環神經網絡(RNN)及應用研究[J].科技視界,2019(32):54-55..
【通聯編輯:梁書】