999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

傳播用戶代表性特征學習的謠言檢測方法

2022-06-17 07:10:44謝欣彤胡悅陽劉譞哲趙耀帥姜海鷗
計算機與生活 2022年6期
關鍵詞:特征用戶檢測

謝欣彤,胡悅陽,劉譞哲,趙耀帥,姜海鷗

1.北京大學 信息科學技術學院,北京 100871

2.高可信軟件技術教育部重點實驗室(北京大學),北京 100871

3.中國民航信息網絡股份有限公司,北京 101318

4.中國民用航空局 民航旅客服務智能化應用技術重點實驗室,北京 101318

5.北京大學 軟件與微電子學院,北京 102600

6.北京大學(天津濱海)新一代信息技術研究院,天津 300452

近年來,互聯網技術改變了千家萬戶的生活習慣,成為了人們獲取信息、互動交流的重要渠道。在中國互聯網信息中心2020 年4 月發布的第45 次中國互聯網發展統計報告(http://www.cac.gov.cn/2020-04/27/c_1589535470378587.htm)中稱,截至2020 年3 月,我國網民數量已超9.04億,互聯網普及率達到64.5%。

然而,互聯網在帶來便利的同時,也為謠言的傳播提供了環境。謠言是在社會中出現并流傳的未經官方公開證實或已經被官方辟謠的信息,其特點是所根據的事實較少,主觀的補充與改造較多。尤其在疫情期間,大量制造恐慌、捕風捉影、偽科學消息在網絡上涌現。中國互聯網聯合辟謠平臺數據統計顯示,2020 年4 月“糧食短缺,趕緊囤米搶油”相關信息達437 186 條,“新冠抗體可使人免受‘二次感染’”相關信息達205 187 條,這樣廣泛散布的謠言消息無疑將在一定程度上影響社會秩序。

互聯網已經成為了思想文化信息的集散地和社會輿論的放大器,網絡空間中傳播的信息有著日益強大的社會影響力。如何有效地對網絡空間進行公共輿情管理,是對現代化政府治理能力提出的考驗。中共中央、國務院印發的《新時代公民道德建設實施綱要》中也提到,為適應新時代新要求,抓好網絡空間道德建設十分關鍵。

信息技術是一把雙刃劍,其發展同樣推動了互聯網與政府公共服務體系,特別是政務服務的深度融合,也加快了互聯網+政務服務模式創新進程。網絡空間中的公共輿情治理,是互聯網+政務服務中重要的一環,而及時有效地開展網絡平臺辟謠工作,更是公共輿情治理尤為關鍵的一步。

現有的網絡平臺辟謠工作大多依賴于人工舉報篩查機制。新浪公司成立了“微博辟謠”賬號及社區管理中心,開放用戶對存疑消息的舉報渠道,跟進有關部門的查證工作并進行結果發布。而為了提高平臺內容可靠性,過濾編造、假新聞等低質內容,今日頭條公司在2018 年已有4 000 名內容審核編輯,人員規模仍在進一步擴大,未來預期達到10 000 名。但是僅僅依靠人工進行舉報、篩查,不僅耗費大量時間和精力,辟謠的時效性也有很高的局限性,因為往往在謠言的傳播具有一定規模時,對社會公共秩序產生較大影響時才能引起有關部門工作人員的注意。

基于這樣的背景,為了幫助推進互聯網+政務服務公共輿情治理工作,本文提出以高時效性謠言自動檢測過濾代替傳統的人工舉報篩查機制,輔助辟謠工作人員捕捉網絡平臺上發布的海量消息中疑似的謠言,進而推動互聯網治理進一步精準化和精細化。本文的主要工作是收集最新的數據集并進行真實性標注,對其中用戶特征分布進行統計分析進行特征選取并提出了基于傳播用戶代表性特征的早期謠言檢測方法RPPC,再通過實驗驗證該方法的有效性。實驗結果表明,RPPC 能夠在消息傳播初期過濾疑似謠言,在一定程度上輔助政府部門的輿情治理工作,從而提高政務服務的時效及質量。

1 相關工作

謠言檢測算法方面的研究大多圍繞著提取謠言的消息內容及傳播中的趨勢特點來展開。可以根據處理方式分為基于分類的機器學習方法和基于對比的方法。

基于對比的檢測方法將待檢測的消息與真實性可察的消息對象進行比照。此類方法雖能有效地提高檢測時效性,但準確率普遍較低,因此本章主要介紹基于分類的檢測方法及相關工作。

基于分類的方法,大多借助各類機器學習算法,利用帶標簽的數據訓練分類器,從而得到檢測模型。然而,輸入特征在很大程度上影響著分類器的準確度。謠言檢測領域的開創性研究團隊Castillo 等人提出包括消息、用戶、話題和傳播等方面的一系列特征。在此基礎上,后續工作大多通過對特征的取舍及創新來提高分類器的表現。下面對基于常見類型特征的相關工作進行介紹。

文本特征主要分為顯性特征和隱性特征。其中,顯性特征分析從語法角度出發,主要包括詞語、符號和簡單情感特征等。謠言檢測相關的早期研究大多借助于對顯性特征進行機器學習分類。文獻[3]提取的文本特征包括內容長度、字母數量、符號數;Takahashi 等人提出將真實消息和謠言信息中的詞頻分布作為檢測謠言的文本特征;Ratkiewicz等人提取文本中的標簽、鏈接和提問作為特征。但研究發現獨特的顯性文本特征常局限于特定的話題,分類模型不具有普適性。基于語義的隱性特征包括潛在語義、情感(詞向量、分類器等)和消息間關聯特征(語義相似性計算)等。這類方法在預測的準確率方面優于基于語法的顯性特征提取類方法,但總體而言,基于文本特征的方法常借助于大量對于消息評論文本、轉發文本的挖掘,因此由于謠言擴散早期文本信息不足,常用于追溯性謠言檢測,即時性檢測表現不佳。

多媒體信息特征包括圖片、音視頻等內容,具有較強的吸引力和誤導性(Sun 等人的研究結果表明80%的謠言都含有圖片信息)。文獻[13]提出了從基于圖片本身的視覺特征(像素、清晰度、相關性、區分度)和基于事件的統計特征(圖片數、含圖片消息比率、圖像與消息數量比例)兩個角度識別圖片類虛假消息,且在各類分類器上實驗表明,圖片類特征的檢測效果優于常見的其他特征。然而,當前基于多媒體特征檢測謠言大多需要在模型中引入文本特征及其他外部知識來印證內容,模型輸入及結構較復雜,也未考慮到多媒體信息中包含的元數據(文件名、創建時間及地點等),同時很少運用基于相關的多媒體處理技術識別深層的語義特征。

基于用戶行為特征的方法主要對信息的發布者、傳遞者和接受者及其交互行為進行分析。此類方法大多通過搜集發布用戶的動態數、轉發數、關注數、粉絲數及異常行為模式等特征作為判別依據。Wu 等人對消息的傳播模式進行分析,指出謠言的傳播模式與其他消息存在明顯差異。文獻[17]使用了聚類的方法對用戶的轉發及評論行為進行分析。文獻[18]創新性地引入五個特征(日均關注數、日均動態數、發布相似內容的用戶數、質疑性質評論比、糾正性質評論比),實驗結果表明選取的新特征效果顯著。Li等人引入了用戶的可靠性特征,同時也結合了大量文本信息數據作為輸入。Liu 等人將消息傳播中的轉發用戶特征作為輸入,在中文及英文的社交媒體平臺數據集的早期謠言檢測中均取得了較好的檢測效果。

受其啟發,本文試圖探究基于用戶行為特征的謠言檢測方法的可移植性。例如一些綜合資訊類應用,雖然沒有集成度高的轉發功能,評論區信息卻很豐富;與此同時,此類應用的用戶信息完善度不及傳統社交媒體。因此,本文考慮從更改采集的數據源、精簡輸入特征兩方面入手,初步探究基于用戶行為特征的檢測方法是否具有移植可能。

2 基于傳播用戶代表性特征的謠言檢測方法

本文設計了一種基于傳播用戶代表性特征的謠言檢測方法(representative propagation path classification,RPPC),通過提取發布及評論用戶具有代表性的特征向量作為輸入,對消息的真實性進行分類。

2.1 問題定義

而每個消息a都對應著標簽(a)∈{0,1},用于表示該消息的真實性,目標是得到模型,當給定消息a的傳播路徑(a)時,能預測得到消息的真實性,即(a)=((a))。本文目標是檢測消息為謠言與否,當=1 時,(a)=0 表示消息屬實,而(a)=1 表示其為謠言。當>1 時,標簽可以表示多級別的真實性,如真實、虛假、不明等。

2.2 數據集構造

本文所構造的數據集Weibo2020 如表1 所示,由兩部分組成:謠言消息及真實消息。其中謠言消息來自微博社區管理中心2016 年8 月2 日至2020 年3月23 日所判定的不實信息,以及中國互聯網聯合辟謠平臺、騰訊新聞較真平臺中公布的謠言反向搜索得到的謠言微博。真實消息采集自3 月20 日微博熱門內容中的社會、國際、科技、健康等板塊爬取實時發布的微博。篩去已刪除的微博及互動數為0 的條目,共收集謠言消息3 688 條,真實信息3 460 條。

表1 數據集Weibo2020 統計情況Table 1 Statistics of dataset Weibo2020

本文方法主要關注的是參與消息傳播的用戶特征,數據集包含的主要用戶字段如表2 所示。

表2 數據集Weibo2020 包含的用戶特征Table 2 User characteristics in dataset Weibo2020

該數據集的標簽為“真”或“假”,微博社區管理中心等判定的謠言信息標定為“假”,采集的實時微博為“真”。

2.3 消息傳播用戶特征分析

在問題定義中,本文用參與傳播的發布及評論用戶的特征作為傳播路徑的向量表示,關注用戶特征的選取。本文將消息的發布及評論行為作為傳播路徑,對Weibo2020 進行統計分析,結果顯示在消息的發布用戶和評論群體中,用戶的注冊時間、認證情況、粉絲數、動態數四個特征分布有明顯差異。

圖1、圖2 為用戶注冊時間分布情況,其中橫坐標為用戶注冊時間戳,縱坐標為用戶比例。可以看出,發布用戶中,普通用戶的注冊高峰出現較早,謠言用戶群體的注冊時間則比較平均。而在評論用戶中,普通評論用戶的注冊時間則普遍偏早于評論謠言用戶。

圖1 發布用戶注冊時間戳Fig.1 Publishers'registration timestamp

圖2 評論用戶注冊時間戳Fig.2 Commentators'registration timestamp

圖3 為用戶群體認證情況統計。在評論用戶群體中,用戶的認證情況分布較為相近。但在發布用戶群體的認證情況分布上,兩個群體比例存在顯著差異,一個可能的原因是認證用戶所發布的內容更容易出現在熱門板塊,但是發布用戶的認證與否仍然極可能有助于謠言的檢測。

圖3 用戶認證情況Fig.3 Verification of users

圖4 用戶粉絲數Fig.4 User follower count

圖4 為發布用戶及評論用戶粉絲數分布箱線圖,可以看出普通發布用戶的粉絲數明顯高于謠言發布用戶。

圖5 為用戶動態數分布情況。在發布群體中,普通發布用戶相較于發布謠言用戶有更多的發表動態表現,因此傳播路徑中用戶的動態發布數也很可能成為判斷消息真實性的重要特征。

圖5 用戶動態數Fig.5 User status count

2.4 基于傳播用戶代表性特征學習的謠言檢測算法

本文算法RPPC 模型結構如圖6 所示,主要由四部分構成:傳播路徑構造與轉換模塊、基于門控循環單元的特征提取模塊、基于卷積神經網絡的特征提取模塊和傳播路徑向量分類模塊。

其中傳播路徑構造與轉換模塊將消息的傳播過程處理為固定的輸入模式,基于門控循環單元、卷積神經網絡的模塊對其進行學習,拼接后得到傳播路徑向量,最終交由傳播路徑向量分類模塊給出消息真實性預測結果。

圖6 算法RPPC 框架示意圖Fig.6 Workflow for RPPC

通過門控循環單元及卷積神經網絡模塊獲得ss后,將其拼接起來成為一個向量∈R

再將其輸入多層前饋神經網絡獲得對于消息的預測。

RPPC 使用Softmax 函數作為神經網絡的最后一層,并選取概率最大的作為預測目標值。

其中,為隱藏層的數量,l為第個隱藏層的輸出,Wb為第層的權重矩陣及偏差,為最終的輸出,代表對于該消息傳播路徑的可信度預測值。

3 實驗及結果分析

本章對RPPC 算法進行實驗驗證。將RPPC 算法和現有工作中在早期謠言檢測表現突出的謠言檢測算 法PPC(propagation path classification)進行比較,并對特征及傳播路徑長度選取對算法表現的影響進行實驗。

3.1 實驗參數選取

在模型結構設計部分,與PPC一致,選取了GRU 輸出維度及CNN 濾波器數量均為32,因此經過循環神經網絡及卷積循環網絡處理后得到的向量表示長度均為32,其中CNN 濾波器長度為3。傳播路徑分類部分的多層前饋神經網絡中每層神經元數為20,進行實驗后設定層數為4。

本文選擇的批量(batchsize)大小為32,優化算法為Adam,學習率為1E-4,momentum 為0,多層前饋神經網絡激活函數為ReLU。

為了更好地評估模型表現,本文進行了五折交叉驗證。

3.2 實驗結果與分析

將傳播路徑定義為在同條微博下的評論用戶特征向量序列。Weibo2020 中,單條微博下的評論數量分布如圖7 所示。僅有不到25%的微博評論不足10條,即超過75%的微博的評論數超過10。為了保證實驗結果對絕大多數微博有效,對傳播路徑長度為10 的情況進行實驗。

圖7 數據集評論數分布Fig.7 Distribution of dataset comment count

本實驗與PPC 一致,將PPC_RNN+CNN 模型作為基線,本文提出的將注冊時間、認證情況、粉絲數、動態數四個特征作為輸入的模型記為“RPPC_RNN+CNN”。本文同時也實現了模型的兩個輕量級版本,只使用單一的循環神經網絡或者卷積神經網絡,分別記為“RPPC_RNN”及“RPPC_CNN”。為了驗證模型特征選取是否合理,也在原有四個特征基礎上依次添加了個人簡介長度、用戶名長度、關注用戶數的模型進行實現,記為“RPPC_RNN+CNN_5”“RPPC_RNN+CNN_6”及“RPPC_RNN+CNN_7”,實驗結果如表3。

表3 實驗結果對比Table 3 Comparison of experimental results %

結果顯示,本文提出的模型“RPPC_RNN+CNN”在準確率等指標上超過了基于轉發路徑并使用了8個用戶特征的基線模型“PPC_RNN+CNN”,即在提高了遷移至其他應用平臺可能性的同時兼顧了檢測效果。同時,模型的表現也明顯優于基于單一神經網絡的“RPPC_CNN”及“RPPC_RNN”,說明將兩類神經網絡集成于模型中在當前問題中是具有意義的。此外,與“RPPC_RNN+RNN_X”系列模型的對比結果顯示,增加模型使用的特征對模型表現幾乎沒有影響。因此本文認為提出的模型“RPPC_RNN+CNN”結構設計合理、特征選取得當,在檢測效果上具有很好的表現。

3.3 傳播路徑長度對模型的影響

RPPC 對消息的分類基于傳播路徑,而路徑長度越長,輸入數據所包含的信息量越大,模型的表現則可能會得到提升。因此本文也對選取不同長度的傳播路徑對模型表現的影響進行探究,并對實際應用中的模型選取進行討論。

基于圖8 對于Weibo2020 中微博評論數量隨時間增長的情況統計,發現在檢測時間1 h 內,平均一條微博會收到60 條評論,因此本文對傳播路徑長度在10~60 之間的模型表現進行實驗。

圖8 微博評論數隨時間增長情況Fig.8 Weibo comment increasement with time

選用不同長度傳播路徑的模型運行結果如圖9所示。

實驗結果顯示,總體而言傳播路徑長度對RPPC表現的影響并不大,因此本文認為選用輸入傳播路徑長度為10的模型,便可以對5 min內發布消息的真實性進行預測,具有很好的時效性,符合本文場景的需要。

4 總結與展望

本文針對目前辟謠工作中大量依靠人工舉報篩查、工作量大而時效性不高的情況,提出以高時效性謠言自動檢測分析代替傳統的人工舉報篩查機制,推進互聯網+政務服務,幫助提升政府的公共輿情治理能力。具體工作如下:

收集最新的數據集Weibo2020 并進行真實性標注,通過對其中用戶群體的特征分布進行特征選取,在此基礎上設計并實現了基于傳播用戶代表性特征的謠言檢測算法RPPC,其具有遷移至社交媒體類之外應用平臺可能性,并通過實驗測試該方法的有效性。實驗結果表明,RPPC 與同規模的基于傳播路徑的算法,在輸入數據規模減少了50%的同時,提高準確率2.57 個百分點,能對5 min 內發布的消息進行真實性預測,且準確率達到約80%。

圖9 傳播路徑長度對模型表現的影響Fig.9 Influence of propagation length on model performance

同時,也必須指出本文工作使用數據集的局限性。首先,由于采集的數據集規模有限,受當前較為特殊的時間環境背景影響較大,在與Liu 等人工作的比較中很可能存在偏差,算法的性能表現還需要在未來工作中構造規模更大、覆蓋面更全的數據集,進而進行更全面的測試、調整。此外,由于在實際運用場景中,謠言與真實消息的存在比例遠小于數據集中所選取的1∶1,在進行實時過濾時可能會出現將較多普通消息判斷為謠言的情況,目前本文模型RPPC的檢測結果僅作為對消息真實性的初步判斷。

在未來的工作中,為了能夠幫助提供更好的服務質量,可以考慮從擴大數據集規模、調整數據集構造比例等方面進一步對算法性能進行測試;同時,為了提高服務覆蓋面及服務質量,應構造綜合資訊類應用平臺數據集,實地驗證該方法的可遷移性,并考慮使用多種檢測方法相結合的方式,對處于各個傳播階段、包含信息量不同的消息提供更有針對性、準確率更高的檢測。

猜你喜歡
特征用戶檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應用
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 99久久国产自偷自偷免费一区| www.youjizz.com久久| 亚洲午夜国产片在线观看| 精品福利视频网| 亚洲天堂首页| 日本高清在线看免费观看| 巨熟乳波霸若妻中文观看免费| 国产在线小视频| 精品国产一区二区三区在线观看 | 成人福利一区二区视频在线| 亚洲综合激情另类专区| 曰AV在线无码| 视频国产精品丝袜第一页| 性色一区| 亚洲欧美日韩久久精品| 国产成年女人特黄特色毛片免| 国产高清国内精品福利| 日本中文字幕久久网站| 久久中文字幕2021精品| 无码在线激情片| 国产精品无码AⅤ在线观看播放| 黄片在线永久| 亚洲天堂视频网站| 欧美a网站| 欧美视频在线不卡| 亚洲国产综合精品中文第一| 亚洲成a人片77777在线播放| 亚洲av无码人妻| 亚洲日韩高清无码| 欧美精品成人一区二区在线观看| 欧美成人影院亚洲综合图| 久久久精品国产亚洲AV日韩| 国产一级小视频| 无码精品一区二区久久久| 中文天堂在线视频| 国产免费网址| 国产精品真实对白精彩久久 | 国模在线视频一区二区三区| 午夜爽爽视频| 亚洲日韩国产精品综合在线观看| 精品国产免费观看一区| 乱系列中文字幕在线视频| 91免费片| 亚洲三级网站| 国产精品免费福利久久播放 | 九九热免费在线视频| 日韩欧美中文亚洲高清在线| 久久99热这里只有精品免费看| 久草热视频在线| 午夜福利网址| 欧美精品亚洲精品日韩专区va| 97国产在线播放| 四虎精品黑人视频| 伦精品一区二区三区视频| 欧美a级完整在线观看| 久久香蕉欧美精品| 亚洲男人的天堂网| 强奷白丝美女在线观看| 国产精品不卡片视频免费观看| 亚洲日韩AV无码一区二区三区人| 国产精品网拍在线| 丰满的熟女一区二区三区l| 亚洲av无码片一区二区三区| 国产伦片中文免费观看| 毛片大全免费观看| 麻豆精品在线| 国产色图在线观看| 四虎永久免费在线| 精品伊人久久久大香线蕉欧美| 免费又黄又爽又猛大片午夜| 亚洲av日韩av制服丝袜| 青青久久91| 亚洲男人的天堂久久精品| www精品久久| 亚洲av无码人妻| 特级做a爰片毛片免费69| 久久久久青草线综合超碰| 国内精品免费| 亚洲爱婷婷色69堂| 亚洲中文字幕av无码区| 亚洲男人的天堂久久香蕉网| 浮力影院国产第一页|