999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BtLSTM的社交媒體虛假新聞檢測

2022-05-26 08:56:10郭亞杰紀淑娟趙金升
軟件導(dǎo)刊 2022年5期
關(guān)鍵詞:語義特征文本

郭亞杰,紀淑娟,曹 寧,趙金升

(1.山東科技大學(xué)計算機科學(xué)與工程學(xué)院,山東青島 266590;2.山東鑫超網(wǎng)絡(luò)科技有限公司,山東泰安 271000)

0 引言

在現(xiàn)代社會,相較于傳統(tǒng)新聞媒介,越來越多的人傾向于從自媒體新聞平臺上獲得消息。發(fā)生這種變化的原因與自媒體平臺的以下性質(zhì)有關(guān):①在自媒體上閱讀新聞往往比傳統(tǒng)新聞媒體(如報紙或電視)更及時、更方便;②在自媒體上更容易與朋友或其他讀者分享、討論新聞;③自媒體的語言文字更加簡潔,形式多樣,甚至以短視頻或圖片的方式呈現(xiàn)。

生活中比較常見的自媒體平臺包括微博、微信公眾號、抖音、快手、知乎等,均具有明顯的普泛化、私人化、基層化特點,其中微博作為當前影響力最深、用戶基數(shù)最大、知名度最廣的自媒體平臺,為廣大網(wǎng)民提供了一個可以自主發(fā)由言論和進行交流的平臺。微博的準入門檻較低,用戶魚龍混雜,所有用戶都可以直接使用手機、電腦等終端隨時發(fā)表言論。因此,很多人為彌補在現(xiàn)實生活中不被重視的缺失,通過在微博中發(fā)布虛假新聞博人眼球,還有一些第三方通過雇傭水軍在微博上發(fā)布一些虛假消息[1],從而牟取利益。微博具有的評論、轉(zhuǎn)發(fā)功能使得虛假信息能夠輕易地在社交媒體中大范圍傳播和擴散,并且可以從網(wǎng)絡(luò)傳播演化為現(xiàn)實生活中的傳播。此外,社交機器人在新聞傳播過程中扮演著重要角色。研究表明[2],社交機器人的存在比例在真實新聞和虛假新聞傳播過程中有很大差異,這也使得真實新聞和虛假新聞的傳播范圍有所不同。由圖1(彩圖掃OSID 碼可見,下同)可以看出,社交機器人能夠使得虛假新聞在短時間內(nèi)大范圍擴散,而真實新聞的擴散范圍則相對較小,其中紅色圓圈表示真實用戶,藍色圓圈表示社交機器人。

Fig.1 Spreading path of real news and fake news based on social robot圖1 基于社交機器人的真實新聞與虛假新聞的傳播路徑

虛假新聞的廣泛傳播會對個人和社會產(chǎn)生嚴重負面影響。首先,虛假新聞會打破信息生態(tài)系統(tǒng)的平衡。例如最受歡迎的虛假新聞在微博上的傳播范圍明顯超過最受歡迎的真實新聞;其次,虛假新聞會有意地說服閱讀者接受有偏見或錯誤的信息,例如一些報告顯示俄羅斯通過創(chuàng)建虛假賬戶和社交機器人傳播虛假故事[2]。因此,及時對虛假新聞進行檢測具有重要的現(xiàn)實意義。

1 相關(guān)研究

現(xiàn)有信息傳播研究方法主要分為基于內(nèi)容特征和基于傳播特征兩大類。然而,基于傳播特征的方法受到數(shù)據(jù)缺失、數(shù)據(jù)噪聲和數(shù)據(jù)收集困難的限制,研究者必須沿著虛假新聞傳播的路線,不斷捕捉其相關(guān)行為。相比之下,基于內(nèi)容特征的方法更為簡單方便,多通過提取文本特征檢測虛假新聞。

深度學(xué)習(xí)方法可以自動提取特征,受到新聞行業(yè)的極大關(guān)注。例如,賀剛等[3]將符號、關(guān)鍵詞分布、時間差以及文本特征、用戶特征等作為特征模板,然后利用支持向量機(Support Vector Machines,SVM)對微博謠言進行識別;Yu 等[4]通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取文本內(nèi)容的語義特征;Popat[5]發(fā)現(xiàn)語言風(fēng)格對理解文章的可信度起著至關(guān)重要的作用;Castillo 等[6]基于文本內(nèi)的問號、表情符號、情感詞等進行特征提取,然后通過決策樹對Twitter信息進行識別。

在深度學(xué)習(xí)技術(shù)自動提取特征的基礎(chǔ)上,一些學(xué)者基于新聞內(nèi)容進行虛假新聞檢測。例如,Li 等[7]提出多級卷積神經(jīng)網(wǎng)絡(luò),引入了局部卷積特征和全局語義特征,以有效捕捉文本中的語義信息,進而對新聞進行真假分類;段大高等[8]將博主的用戶屬性與微博的文本屬性進行融合,然后使用BP 神經(jīng)網(wǎng)絡(luò)進行微博謠言檢測;劉知遠等[9]提出一種基于CNN 的虛假新聞早期檢測模型,能夠自動尋找可信檢測點,并實現(xiàn)高精度檢測。在真實數(shù)據(jù)集上的實驗結(jié)果表明,該模型具有較高的識別準確率;劉政等[10]首先將微博文本進行向量化,然后通過CNN 挖掘文本的深層特征,從而獲得更好的檢測效果;Zubiaga 等[11]利 用Word2Vec對Twitter進行向量表示,從而進行謠言檢測。

還有一些研究者從新聞的評論回復(fù)中提取特征以檢測信息真?zhèn)危ㄓ脩艮D(zhuǎn)發(fā)、點贊和評論等。理論上來說,人們對新聞的反應(yīng)不僅包含新聞的社會屬性,還包含這篇新聞在社交媒體上傳播以及人們?nèi)绾闻c之互動的結(jié)構(gòu)信息?;诖?,Ma 等[12]采用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對與新聞事件相關(guān)的轉(zhuǎn)發(fā)、評論進行分類,在虛假新聞早期檢測中取得了不錯的效果;Jin 等[13]利用微博中自相矛盾的觀點進行虛假新聞檢測。

由以上研究可以看出,無論是基于傳播結(jié)構(gòu)還是用戶特征進行虛假新聞檢測,在構(gòu)建模型的過程中都需要融合新聞文本或評論轉(zhuǎn)發(fā)文本特征,文本特征對于虛假新聞檢測不可或缺。BERT(Bidirectional Encoder Representations from Transformers)模型[14]能全面表示句子的語義信息,長短時記憶神經(jīng)(Long Short-Time Memory,LSTM)模型[15]能夠解決句子的長距離依賴問題。基于此,本文提出一種基于BtLSTM 的虛假新聞檢測模型,將BERT 模型與LSTM 模型融合互補,能更好地區(qū)分真實新聞和虛假新聞在語義特征上的差別,有效提升基于文本內(nèi)容的虛假新聞檢測效果。

2 BtLSTM 模型建立

2.1 問題定義

對本文中使用的符號進行定義,其中事件集合M=為第j條新聞文本;wi表示第j條新聞中第i個詞語;yj為第j條文本所屬的類別,其中0 代表真實新聞,1 代表虛假新聞。BERT 層的輸入E={E1,E2,…,En},其中Ei為一條新聞文本中第i個詞語的向量表示,Ei∈Rd×1;BERT 層的輸出為T={t1,t2,…,tn},其中ti為第i個詞語的向量表示,ti∈Rd×1;LSTM層的輸入X={x1,x2,…,xn},其 中xi∈Rn×1。

2.2 BtLSTM 模型

圖2 為BtLSTM 模型的總體結(jié)構(gòu)。其首先利用預(yù)訓(xùn)練的BERT 語言模型提取新聞文本的語義表示,然后使用LSTM 模型進一步提取特征。該模型是對預(yù)訓(xùn)練BERT 語言模型的擴展,能夠結(jié)合上下文理解語義,準確表示多義詞的語義信息。同時,該模型利用LSTM 模型的記憶功能進行學(xué)習(xí),可最大程度地保留全局語義特征。

Fig.2 BtLSTM model structure圖2 BtLSTM 模型結(jié)構(gòu)

2.2.1 BERT層

BERT 模型的結(jié)構(gòu)如圖3 所示,其基于雙向Transformer編碼器實現(xiàn),編碼器為Encoder-Decoder 結(jié)構(gòu),利用多頭注意力機制[16-17]通過上文信息增強文本的語義表示。

對于BERT 模型的輸入,每個詞語的向量表示Ei都是通過將詞向量(token embeddings)、段向量(segment embeddings)、位置向量(position embeddings)相加得到[18],輸入示例如圖4 所示。BERT 模型在每條文本前插入了一個[CLS]符號,將該符號的輸出向量作為整個文本的語義表示,這個沒有明顯語義信息的符號能夠更加公平地融合各詞的語義信息;文本末尾的符號[SEP]表示兩條文本的分割符。

Fig.3 Structure of BERT model圖3 BERT模型結(jié)構(gòu)

BERT 模型的預(yù)訓(xùn)練采用遮掩語言模型實現(xiàn),隨機對文本中的詞語進行遮掩,然后在訓(xùn)練過程中對其進行預(yù)測,使得模型依賴上下文信息學(xué)習(xí)到不同方向的語義特征[19]。通過不斷調(diào)整模型參數(shù),使得最后模型輸出的語義表示向量能夠準確刻畫出文本的語言本質(zhì)。經(jīng)過BERT 層訓(xùn)練后,最后一層的輸出為T={t1,t2,…,tn}∈Rd×n,ti為詞語的向量表示,其包含融合了整個文本的語義信息。

2.2.2 LSTM層

LSTM 層結(jié)構(gòu)如圖5 所示。將BERT 層的輸出T經(jīng)過tanh激活函數(shù)后得到X={x1,x2,…,xn}∈Rn×n,并將其作為LSTM 層的輸入,其中xi的計算公式為:

式中,wx為權(quán)重矩陣,wx∈Rn×d;bx為偏置項;θ為激活函數(shù)tanh;xi為詞語經(jīng)過BERT 層后得到的向量表示,xi∈Rn×1。

將得到的向量輸入到LSTM 模型中的隱藏層進行計算。本文采用的是雙向LSTM 模型,因此要在兩個不同方向的隱藏層分別進行計算,并保存前向隱藏層和后向隱藏層在每個時刻的輸出[20]。其中,n 時刻前向隱藏層輸出向量表示為,后向隱藏層輸出向量表示為,計算公式分別為:

Fig.4 Input example of BERT model圖4 BERT模型輸入示例

Fig.5 Structure of LSTM layer圖5 LSTM 層結(jié)構(gòu)

式中,wf為前向隱藏層輸出對應(yīng)的權(quán)重矩陣;wb為后向隱藏層對應(yīng)的權(quán)重矩陣;α為sigmoid 激活函數(shù)。

將1~n 時刻的所有隱藏層輸出進行整合,連接成最終的特征向量H,表示為:

將特征向量H 輸入到全連接層,最后將全連接層的輸出輸入到Softmax 函數(shù)進行檢測,計算出對應(yīng)類別的分布概率,表示為:

式中,W為權(quán)重矩陣,b為偏置項。

3 實驗方法與結(jié)果分析

3.1 數(shù)據(jù)集

采用Song 等[21]于2018 年發(fā)布的數(shù)據(jù)集,該數(shù)據(jù)集為根據(jù)新浪微博不實信息舉報平臺抓取的中文數(shù)據(jù),包含與微博原文相關(guān)的轉(zhuǎn)發(fā)與評論信息。數(shù)據(jù)集中共包含1 538條真實新聞和1 849 條虛假新聞,其中標簽1 代表虛假新聞,0 代表真實新聞。采用劉政等[12]對數(shù)據(jù)集的劃分方式,將訓(xùn)練集與測試集的比例設(shè)定為9∶1,模型訓(xùn)練過程中選取訓(xùn)練集中的10%作為驗證集。數(shù)據(jù)集樣例如表1所示。

Table 1 Sample data set表1 數(shù)據(jù)集樣例

3.2 實驗設(shè)置

使用哈爾濱工業(yè)大學(xué)訊飛聯(lián)合實驗室發(fā)布的中文預(yù)訓(xùn)練BERT 模型[16],該模型在Google 發(fā)布的中文BERT 模型的基礎(chǔ)上進行了改進,主要包括BERT-Base 和BERTLarge 兩種語言模型。兩者具有相同的網(wǎng)絡(luò)結(jié)構(gòu),但參數(shù)和大小有所不同,本實驗選擇BERT-Base 模型。本文使用的BERT 模型、LSTM 模型參數(shù)如表2、表3所示。

Table 2 BERT model parameters表2 BERT模型參數(shù)

Table 3 LSTM model parameters表3 LSTM 模型參數(shù)

3.3 評估標準

采用文獻[22]中的評估指標,包括準確率(Precision)、召回率(Recall)和F1 值(F1-score)。為了正確使用這些評估指標,首先定義TP、FN、FP、TN 4 種分類情況,具體如表4所示。

Table 4 Classification index description表4 分類指標說明

在此基礎(chǔ)上,準確率、召回率、F1值的定義如下:

3.4 結(jié)果分析

將傳統(tǒng)的深度學(xué)習(xí)模型(FastText、CNN、LSTM)、BERT、BtCNN(BERT+CNN)作為基線模型,與本文提出的BtLSTM 模型進行準確率、召回率和F1 值的比較。各模型實驗結(jié)果如表5 所示。可以看出,BtLSTM 模型在所有模型中效果最好,所有評估指標均為最優(yōu)。單一LSTM 模型的性能比CNN 模型稍差一些,但當它們分別與BERT 模型結(jié)合后,BtLSTM 模型的性能優(yōu)于BtCNN 模型,這是由于通過BERT 層對文本進行全面的語義表示后,LSTM 模型的記憶功能能更好地利用文本的上下文語義信息,而CNN 模型只能提取局部特征,對上下文信息有所遺漏。此外,相較于通過Word2vec 模型對新聞文本進行向量化的LSTM 模型,本文提出的通過BERT 模型對新聞文本進行向量化的BtLSTM 模型在準確率和F1 值上分別提高了3.52%、3.32%,表明BERT 模型能更好地對文本進行全面的語義表示。

Table 5 Comparison of evaluation indicators of each model表5 各模型評估指標比較(%)

為驗證不同模型在各個訓(xùn)練時間所能達到的檢測性能,在驗證集上對各模型在不同迭代次數(shù)下的準確率和F1值變化趨勢進行分析,結(jié)果見圖6、圖7。

可以看出,BtLSTM 在較短訓(xùn)練時間內(nèi)就達到了較好的性能,并能保持平穩(wěn)狀態(tài)。這是由于BERT 生成的嵌入詞是一種上下文相關(guān)的動態(tài)表示,因此具有更好的語義表示。當BERT 模型與LSTM 模型結(jié)合時,兩者相輔相成,優(yōu)勢均能得到最大限度地發(fā)揮。BERT 模型和BtCNN 模型也在較短時間內(nèi)達到了其最好性能,但比BtLSTM 模型稍差一些。CNN 和LSTM 模型的性能差于BERT、BtCNN 和BtLSTM 模型。表現(xiàn)最差的為FastText 模型,在第10 次迭代才到達較為穩(wěn)定的狀態(tài),且性能也較差。

4 結(jié)語

目前,越來越多的人開始使用自媒體代替?zhèn)鹘y(tǒng)媒體獲取新聞資訊。然而,自媒體會被一些人用來傳播不真實的新聞消息,可能會對個人和社會產(chǎn)生強烈的負面影響。因此,本文提出一種基于BtLSTM 的虛假新聞檢測模型,首先利用BERT 層提取新聞的文本特征,然后使用LSTM 模型對向量化的文本進行訓(xùn)練以檢測新聞?wù)鎸嵭?。實驗結(jié)果表明,動態(tài)生成的詞嵌入比傳統(tǒng)的詞嵌入對文本信息的語義表示更加全面,檢測準確率更高。然而,本文模型也存在一定的局限性,虛假新聞傳播快、危害大,其檢測時效性十分重要,后續(xù)擬將本文模型與新聞時效性相結(jié)合,以獲得更高效的虛假新聞檢測模型。

Fig.6 Accuracy curve of each model varies with iteration times圖6 各模型準確率隨迭代次數(shù)變化的曲線

Fig.7 F1 value curve of each model varies with iteration times圖7 各模型F1值隨迭代次數(shù)變化的曲線

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲AV电影不卡在线观看| 91精品国产丝袜| 亚洲熟妇AV日韩熟妇在线| 91丝袜乱伦| 国产成人禁片在线观看| 亚洲av无码成人专区| 欧美啪啪精品| 国产又色又刺激高潮免费看| 久久一本日韩精品中文字幕屁孩| 99re在线视频观看| 国产精品视频第一专区| 1级黄色毛片| 一区二区三区成人| 国产亚洲精品无码专| 中国毛片网| 黄色网在线免费观看| 国产成人精品亚洲77美色| 亚洲资源站av无码网址| 色欲不卡无码一区二区| 天天躁夜夜躁狠狠躁躁88| 麻豆精品在线视频| 在线免费无码视频| 亚洲欧美极品| 国产高潮视频在线观看| 亚洲精品第一在线观看视频| 高潮爽到爆的喷水女主播视频 | 玖玖精品视频在线观看| 亚洲欧洲AV一区二区三区| 国产高清在线丝袜精品一区| 日韩午夜片| 欧美一级在线播放| 蜜芽一区二区国产精品| 天天综合天天综合| 嫩草影院在线观看精品视频| 日韩经典精品无码一区二区| 亚洲综合色在线| 老色鬼欧美精品| 欧美不卡视频一区发布| 久久亚洲高清国产| aa级毛片毛片免费观看久| 91成人在线观看| 国产主播在线观看| 亚洲六月丁香六月婷婷蜜芽| 亚洲精品中文字幕无乱码| 欧美19综合中文字幕| 最新国产在线| 日韩视频精品在线| 亚洲码在线中文在线观看| 狠狠色丁婷婷综合久久| 国产精品亚洲一区二区三区z | 亚洲浓毛av| 国产精品丝袜视频| 亚洲浓毛av| 国产97公开成人免费视频| 91在线播放国产| 在线观看亚洲精品福利片| 无码有码中文字幕| 黄色在线不卡| 日韩无码黄色| 婷婷午夜天| 国产精品lululu在线观看| 亚洲日本中文综合在线| a级毛片毛片免费观看久潮| 婷五月综合| 高清欧美性猛交XXXX黑人猛交 | 亚洲啪啪网| 在线国产你懂的| 国产一在线观看| 亚洲精品在线影院| 青青草综合网| 丁香六月激情综合| 中文字幕 欧美日韩| 在线播放国产一区| 亚洲免费人成影院| av在线手机播放| 日韩在线影院| 国内精自视频品线一二区| 国产超碰一区二区三区| 亚洲精品第五页| 无码精品一区二区久久久| 亚洲男人在线| 黄色网页在线播放|