999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于事件表示的虛假情報檢測研究*

2023-12-13 11:43:46劉玉婷
網絡安全與數據管理 2023年11期
關鍵詞:語義特征信息

劉玉婷,丁 鯤,劉 茗

(1.國防科技大學第六十三研究所 信息科學技術學院,江蘇 南京 210007;2.南京信息工程大學 計算機學院、網絡空間安全學院,江蘇 南京 210044;3.國防科技大學大數據與決策實驗室,湖南 長沙 410073)

0 引言

隨著大數據、云計算、物聯網、區塊鏈、5G 等信息技術的興起,社交媒體成為了人們獲取開源情報的重要渠道,但同時也為虛假情報的廣泛傳播提供了平臺。與傳統的秘密情報不同的是,開源情報是以滿足用戶特定情報需求為導向,圍繞一個或多個明確主題,在分散的公開可用的信息源中經收集、整理及分析評估之后產生并及時傳遞給特定受眾的情報信息。近年來,互聯網的高速發展給用戶提供了大量開源情報,尤其是社交媒體渠道的膨脹使得情報的來源和真實性難以鑒別。據2022年度的微博辟謠報告顯示,全年有82 274條不實信息被官方處理。愈演愈烈的虛假情報引發了一系列社會治理問題,因此,如何有效進行虛假信息查證是突破信息迷霧的重要研究議題之一。

以往的虛假情報檢測主要是情報員人工干預,以標記內容特征等形式來對假新聞標示。但是這些方法還集中在靜態內容的基礎上,并且很難掌握情報文本深層次的語義特征,另外以人工的方式來處理不僅耗費精力且效率不高。為解決上述問題,本文構建了基于事件表示的虛假情報檢測模型。該模型具體如下,通過擴展網絡結構的方式學習事件文本內部結構信息,進一步捕捉事件元素之間的交互信息進行深層特征提取,以獲得更高質量的特征向量;再將事件表示映射到一個具體的領域。為了驗證本文所提出的方法的有效性,在謠言數據集上進行了相關任務的驗證。

1 相關工作

1.1 事件表示學習

為保留事件豐富的語義信息,將結構化的信息表示為計算機可以理解的形式。早期的事件表示學習研究主要基于離散的事件表示,將事件表示為由事件元素構成的元組。文獻[1]將事件表示為三元組(Qi,P,t),其中Qi為對象的謂詞,P為對象間的關系,t為事件發生的時間。為進一步地添加事件角色[2],提出六元組(P,O1,O2,O3,O4,t),分別代表著標記事件發生的動作或狀態、實施者、事件作用的對象、使事件發生的工具、地點以及時間戳。為簡化事件表示[3],將其表示為(P,O1,O2,T),一個事件只包含一個施事者O1和受事者O2。

但離散的事件表示面臨著稀疏性的問題,為緩解稀疏性[3],提出基于WordNet將各事件元素中的單詞還原為詞干,再將事件動詞泛化為其在VerbNet中的類別名稱,從而能得到泛化事件。

為計算低維、稠密的事件向量表示,根據事件結構對事件元素的詞向量進行語義組合。按組合方式的不同,分為基于詞向量與基于神經網絡的事件表示這兩種方法[4]。提出了一種高效訓練詞向量的模型——Word2Vec,并利用向量的加法屬性來學習短語向量表示,再根據詞匯的“共現”信息將詞匯編碼成一個向量。基于詞向量的方法是對用矩陣向量表示短語的補充,在一定程度上推進了推理工作的發展。與基于詞向量的方法不同的是,基于神經網絡的方法則是使用神經網絡模型從文本中提取特征,進行編碼,解決了詞向量編碼存在的建模薄弱的問題[5]。提出了Neural Tensor Network模型,首先對施事者和動作詞、動作詞和受事者進行組合,再對得到的向量進行組合,從而得到最終的事件表示。

以上研究表明,高效的事件表示學習方法可以很大程度上提升下游任務的效果。

1.2 謠言檢測

早期的謠言檢測方法主要是手工從消息中提取關于消息的文本內容、用戶資料、傳播結構等統計特征,然后利用機器學習算法進行分類檢測。但這類方法十分依賴特征工程,且無法提取語義特征。

為解決手工提取特征的缺陷,基于深度學習的謠言檢測方法得到廣泛使用[6]。利用雙向長短時記憶神經網絡(Bi-directional Long-Short Term Memory,Bi-LSTM)和貝葉斯網絡分別提取新聞和評論的語義特征,然后通過多層感知機將新聞特征和評論特征做融合輸入分類器進行分類。

當前謠言檢測領域的方法大都是利用神經網絡模型來提取不同的特征。然而僅將特征拼接、特征相加或基于簡單神經網絡進行特征空間映射等方法很難準確地提取深層特征,所以需要利用特征融合策略來學習特征的增強表示[7-8]。

1.3 虛假情報查證

虛假情報的查證的方法可分為人工和算法兩類,人工手段主要是以標記等形式來對假情報進行標示,算法識別則是以內容特征、傳播特征等為基礎進行識別[9-10]。提出以閾值為基礎的數據融合策略,分析了拓撲感知條件下的虛假信息攻擊,發現在大多數節點已經妥協的基礎上,網絡對于虛假信息抵御的彈性仍能得到加強。人工手段亦會運用一些可視化工具輔助進行虛假情報的查證[11-13],運用知識圖譜等可視化分析方法,對比分析了國內外網絡謠言研究的起源和發展,同時分析了國內外研究熱點和未來研究趨勢。

對海量數據進行判讀、清洗和篩選需要大量的人力資源,也難以滿足情報任務需求。考慮到人類的計算速度和精力有限,借助大數據等技術手段提升開源情報的處理效率和穩定性。

2 虛假情報檢測

虛假情報檢測的框架包含三個部分。如圖1所示,情報收集層,從原始文本中提取事件,對其進行統一化處理;情報分析層,構建模型對情報特征進行分析,獲取更深層次的特征;情報研判層,采用一些具有特定任務和指標的評估方法來測試模型的性能。

圖1 虛假情報檢測框架

2.1 情報收集層

在情報收集階段,由于可公開獲取的信息越來越多,在搜集工作中要選擇可靠且權威性較高的情報源,保證情報的可信度。

為提高收集到的情報質量,首先針對收集到的原始情報進行數據預處理,預處理的步驟如圖2所示。數據清洗目的在于刪除原始數據集中無關數據、重復數據、平滑噪聲數據,篩選掉與挖掘主題無關的數據,處理缺失值、異常值等;數據集成的目的在于將多個數據源合并存放在一個一致的數據存儲中;數據歸約目的在于得到信息內容的損失最小化;數據變換則是對數據進行規范化處理,將數據轉換成適當的形式。

圖2 預處理流程

圖3 情報分析模型

2.2 情報分析層

經預處理后的情報信息量仍然巨大,很難以人工的方法對其進行查證,情報分析的重要性就隨之凸顯了。在特征編碼階段,在提取語義特征時,使用Word2vec作為特征提取器,用長短期記憶網絡(Long Short-Term Memory,LSTM)獲取深層次的語義特征。模型圖如3所示。

具體來說,詞嵌入模塊主要將情報文本轉化為詞向量矩陣,情報文本可表示為長度為N的事件序列(e1,e2,e3,…,eN),使用Word2vec獲取詞向量序列Ei,形式化過程可表示為(1):

Ei=Embedding(ei)

(1)

事件特征融合主要由LSTM、最大池化層和全連接層組成,主要用于獲取事件中的語義信息。首先通過LSTM網絡捕捉到情報文本的語義特征,然后使用最大池化層對高維的特征進行降維,保留對目標有用的信息,最后通過全連接層得到低維的情報文本的抽象語義表示。

LSTM采用了門控輸出的方式,主要由輸入門it、遺忘門ft和輸出門ot組成,形式化表示為:

it=σ(Wiixt+Whih(i-1)+bii+bhi)

(2)

fi=σ(Wifxt+Whfh(i-1)+bif+bhf)

(3)

gt=tanh(Wigxt+Whgh(t-1)+bit+bhg)

(4)

ot=σ(Wioxt+Whoh(t-1)+bio+bho)

(5)

ct=ft*c(t-1)+it*gt

(6)

ht=ot*tanh(ct)

(7)

其中,σ代表sigmoid函數,ct代表候選狀態,ht代表隱藏狀態。

池化層對LSTM的輸出進行最大池化操作,提取情報的重要特征,并將高維特征降至低維,如(8)所示:

φi=MaxPooling(hi)

(8)

其中,MaxPooling(·)代表最大池化。

全連接層將情報的高維特征映射到低維空間,降低模型計算復雜度,得到最終的事件表示ci。

將最終得到的事件表示送入分類器中,采用softmax激活函數進行最終的預測,判斷情報的可信程度,計算過程為:

(9)

2.3 情報研判層

對于普通用戶而言,通過利用情報分析結果,與虛假信息內容進行直接對比,有效切斷虛假信息帶來的持續效應。

對情報人員而言,通過對情報文本進行有序化處理和分析之后建立虛假信息查證的開源情報庫,促進信息轉化,形成系統完整的開源情報產品,將大大減少情報工作人員所耗費的時間與精力,使情報人員及信息用戶更方便地掌握、交流和共享信息。

3 實驗與分析

3.1 數據集

以謠言事件為例探討本文所提出的方法的有效性。數據集來源為從微博不實信息舉報平臺抓取的中文謠言數據。數據集中共包括三個文件夾,分別是非謠言、謠言和所有數據,其中每個文件里面單條數據均為json格式,其中text字段代表微博原文的文字內容,數據集中共包含1 538條謠言和1 849條非謠言。

3.2 實驗設置

為了證明本模型的有效性,在相似度計算任務上進行測試。

(1)相似度計算

將任意四個場景的事件中的兩個事件作為一個事件對,相同場景的則為相似事件,否則為不相似事件。該實驗采用精確率P、召回率R和綜合評價指標F1作為模型性能的評判方法,計算方法如下:

(10)

(11)

(12)

其中,TP為模型識別正確的總數,FP模型識別錯誤的總數,FN為未識別正確的樣例的總數。

3.3 參數設置

實驗代碼使用Python編程語言編寫,機器學習框架采用PyTorch,在 NVIDIA GEFORCE RTX 3090 GPU平臺上進行實驗。在詞向量方面,采用謠言數據訓練的Word2vec詞向量。實驗中,Dropout 用來防止過擬合,“丟棄率”為 0.5。實驗使用的部分參數如表1所示。

表1 模型參數

3.4 實驗結果與分析

(1)事件相似度計算結果與分析

為了驗證模型的有效性,本文設計了相似度計算任務實驗。實驗結果如表2所示。

表2 實驗結果

實驗各項指標表明,通過融合事件的語義特征可以有效地區分詞向量共現高但語義不同的事件,一定程度上表明本文方法在區分真偽情報上的有效性。

(2)事件聚類實驗結果與分析

為了證明基于事件表示的虛假情報檢測方法能夠更加準確區分真偽情報,設計了事件聚類相關實驗。實驗結果如圖4示。

圖4 聚類可視化圖

聚類結果的可視化表明,本方法將真實情報歸為同一組,虛假情報歸為不同的組。

4 結論

本文提出一種基于事件表示的虛假情報檢測方法,在掌握更深層次的情報內容的基礎上進行情報真偽的辨別。一方面,幫助普通用戶分辨開源情報的真偽,為有效阻斷虛假情報的傳播并采取預警措施提供了科學的依據。另一方面,該方法能夠有效輔助情報人員預測情報的真偽。考慮到情報數據集的特殊性,謠言數據具有一定的代表性,因此選取微博謠言數據集進行本文方法的有效性驗證。隨著事件表示的方法愈發成熟,在未來的日常戰備活動中,將為情報員分辨情報提供智能化的輔助決策手段。

猜你喜歡
語義特征信息
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 色综合五月婷婷| 国产网友愉拍精品| 中文字幕乱妇无码AV在线| 国产人成网线在线播放va| 欧美精品xx| 国产在线小视频| 国产区免费| 欧美一区二区三区不卡免费| 1024你懂的国产精品| 国产一区二区三区精品久久呦| 国产欧美精品专区一区二区| 熟妇人妻无乱码中文字幕真矢织江| 国产一区二区三区在线观看免费| 91在线视频福利| 曰韩免费无码AV一区二区| 国产成人精品亚洲77美色| 国产自产视频一区二区三区| 国产亚洲欧美在线人成aaaa| 婷婷综合在线观看丁香| 国产成人欧美| 久久精品这里只有国产中文精品| 精品无码专区亚洲| 国产日产欧美精品| 亚洲综合色婷婷中文字幕| 欧美成a人片在线观看| 欧美另类视频一区二区三区| 天天色综合4| 97影院午夜在线观看视频| 欧美在线视频不卡| 亚洲人在线| 欧美亚洲欧美| 国产精品久久久久久影院| 亚洲国产成人无码AV在线影院L | 亚洲成人一区二区三区| 久久无码高潮喷水| 最新亚洲av女人的天堂| 黄色网址手机国内免费在线观看| 国产精品美人久久久久久AV| 色妞www精品视频一级下载| 国产91精选在线观看| 天天色天天操综合网| 亚洲精品高清视频| 香蕉eeww99国产精选播放| 国产无码在线调教| 久久熟女AV| 亚洲最大综合网| 亚洲第一天堂无码专区| 日本国产精品| 国产美女91呻吟求| 亚洲精品无码av中文字幕| 中日韩一区二区三区中文免费视频| 亚洲妓女综合网995久久| 亚洲女同一区二区| 国产xxxxx免费视频| 国产精品一区二区不卡的视频| 91小视频在线| 激情无码视频在线看| 深夜福利视频一区二区| a亚洲视频| 国产丝袜第一页| 亚洲午夜国产精品无卡| 国产人成在线观看| 精品国产网站| 免费一级毛片在线播放傲雪网| 波多野结衣中文字幕久久| lhav亚洲精品| 亚洲综合天堂网| 偷拍久久网| 3p叠罗汉国产精品久久| 久久久久免费精品国产| 国产swag在线观看| 亚洲成年网站在线观看| 免费人成网站在线高清| 日本尹人综合香蕉在线观看| 亚洲第一黄色网址| 亚洲色图欧美| 最新国产高清在线| 国产96在线 | 欧美曰批视频免费播放免费| 色呦呦手机在线精品| 97视频在线精品国自产拍| 亚洲毛片网站|