999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于深度學(xué)習(xí)模型的常識(shí)類謠言自動(dòng)檢測(cè)方法

2021-05-28 12:37:36李郭鈺葉奕李金玲
現(xiàn)代計(jì)算機(jī) 2021年10期
關(guān)鍵詞:深度特征文本

李郭鈺,葉奕,李金玲

(南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,衡陽(yáng)421000)

0 引言

隨著互聯(lián)網(wǎng)的出現(xiàn)和迅速發(fā)展,Web網(wǎng)絡(luò)為我們提供了信息傳播與共享,個(gè)人對(duì)新聞意見表達(dá)的平臺(tái),在國(guó)家安全、經(jīng)濟(jì)、現(xiàn)代信息服務(wù)等領(lǐng)域中的作用日益凸現(xiàn)。近幾年我國(guó)乃至國(guó)際通過網(wǎng)絡(luò)爆發(fā)的重大輿情事件激增,如三鹿奶粉事件、突尼斯的茉莉花事件等,都不同程度地掀起了網(wǎng)絡(luò)輿情浪潮,對(duì)事件發(fā)展、政府公信力、社會(huì)輿論安全以及國(guó)家安全造成了巨大的壓力[1]。借助互聯(lián)網(wǎng)這一當(dāng)前規(guī)模最宏大、尺度最開放、參與門檻最低的公共輿論空間,不僅有尋求利益訴求的普通民眾,也有不懷好意散播謠言的不良分子。例如非典時(shí)期民眾對(duì)于板藍(lán)根、抗病毒口服液、醋等商品的搶購(gòu)行為,就是因?yàn)槁犘帕诉@類犯了常識(shí)性錯(cuò)誤的網(wǎng)絡(luò)謠言。隨著越來越多的“憑空捏造式”曝光事件不斷浮出水面,網(wǎng)絡(luò)中的常識(shí)性謠言已嚴(yán)重影響了民眾的正常生活。為了避免網(wǎng)絡(luò)輿論空間被人利用,人為制造偽謠言引發(fā)群體性事件,如何檢測(cè)和監(jiān)控謠言成為目前凈化網(wǎng)絡(luò)環(huán)境迫切需要考慮的問題。

傳統(tǒng)的謠言檢測(cè)方法通常是從謠言的特征分析入手,然后利用機(jī)器學(xué)習(xí)算法根據(jù)建立的特征空間,把網(wǎng)絡(luò)輿情分為謠言和非謠言兩類。Castillo等人[2]從文本、用戶、話題、傳播等四個(gè)維度總結(jié)了15項(xiàng)關(guān)鍵特征,并采用J48算法實(shí)現(xiàn)了謠言的自動(dòng)檢測(cè)。此后,學(xué)者們發(fā)掘了多種網(wǎng)絡(luò)謠言的特征[3-4],如位置特征、時(shí)間序列特征、語(yǔ)言結(jié)構(gòu)特征、網(wǎng)絡(luò)轉(zhuǎn)發(fā)度等多種特征,然后再利用SVM、決策樹、隨機(jī)森林等多種傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行謠言的自動(dòng)識(shí)別[5]。上述基于特征的機(jī)器學(xué)習(xí)方法雖然在謠言檢測(cè)性能上取得了較好的成果,但是特征分析所耗費(fèi)人力、物力和時(shí)間以及魯棒性不足等問題仍無(wú)法較好地解決。

隨著深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域獲得的成功,不少學(xué)者開始在謠言檢測(cè)領(lǐng)域使用深度學(xué)習(xí)算法,旨在提升謠言檢測(cè)的自動(dòng)化程度。Ma等人[6]首次將深度學(xué)習(xí)模型應(yīng)用在社交媒體謠言檢測(cè)問題上,利用TF-IDF計(jì)算得到各個(gè)時(shí)間段的微博文本向量,并輸入雙層的門控循環(huán)單元GRU網(wǎng)絡(luò)學(xué)習(xí)事件的特征表示。廖祥文等人[7]考慮到微博問的時(shí)序特征,融合注意力機(jī)制和雙向GRU網(wǎng)絡(luò)模型,時(shí)間段序列的隱層表示,進(jìn)而對(duì)微博事件進(jìn)行分類。深度學(xué)習(xí)算法的不斷改進(jìn),謠言自動(dòng)化監(jiān)測(cè)性能也在逐步提升,但是在已有的研究中,謠言的內(nèi)容特點(diǎn)并未被考慮。劉勘等人[8]首次提出了利用Multi-BiLSTM模型解決不同領(lǐng)域的謠言檢測(cè)問題,研究結(jié)果表明分領(lǐng)域進(jìn)行謠言檢測(cè)性能較已有方法有較大提升。不過,該方法在應(yīng)用過程中,必須對(duì)數(shù)據(jù)集進(jìn)行細(xì)分,而現(xiàn)實(shí)生活中把數(shù)據(jù)集分為較多的子類別,既不現(xiàn)實(shí)也耗費(fèi)時(shí)間。因此,本文把網(wǎng)絡(luò)上的謠言進(jìn)行分類,重點(diǎn)針對(duì)常識(shí)類的謠言,根據(jù)其特征提出一種基于深度學(xué)習(xí)模型的常識(shí)類謠言自動(dòng)檢測(cè)方法。

1 深度學(xué)習(xí)模型概述

1.1 LSTM模型結(jié)構(gòu)

長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[14]是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),要是為了解決普通循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型中訓(xùn)練長(zhǎng)序列數(shù)據(jù)的梯度消失或梯度爆炸問題。從圖1所示的LSTM內(nèi)部結(jié)構(gòu)圖中可以看出LSTM與RNN的區(qū)別在于,LSTM模型中設(shè)立了三個(gè)門(gate)來決定上一層的input值是否重要到能被記住及能不能被輸出output。每個(gè)門(gate)都是由一個(gè)Sigmoid函數(shù)單元控制,其中輸入門(input gate)如果產(chǎn)生的值近似于零,則將把這里的值擋住,不會(huì)進(jìn)到下一層;遺忘門(forget gate)產(chǎn)生值近似于零,將把區(qū)塊里記住的值忘掉;輸出門(output gate)可以決定在區(qū)塊記憶中的input是否能輸出。

圖1 LSTM模型結(jié)構(gòu)圖

1.2 Attention機(jī)制

近年來,注意力(Attention)機(jī)制在自然語(yǔ)言處理領(lǐng)域許多問題的解決上得到了廣泛的應(yīng)用。2017年,Google機(jī)器翻譯團(tuán)隊(duì)發(fā)表的Attention is all you need中大量使用了自注意力(self-attention)機(jī)制來學(xué)習(xí)文本表示。自注意力機(jī)制也成為了近幾年深度學(xué)習(xí)的焦點(diǎn)之一,并在各種NLP任務(wù)上進(jìn)行探索。Attention函數(shù)其本質(zhì)可以被描述為一個(gè)查詢(query)到一系列(鍵key-值value)對(duì)的映射。在計(jì)算Attention時(shí)主要分為三步,首先是將query與每個(gè)key進(jìn)行相似度計(jì)算得到權(quán)重,常用的相似度函數(shù)有點(diǎn)積、拼接、感知機(jī)等;接下來一般是使用一個(gè)Softmax函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化;最后將權(quán)重和相應(yīng)的鍵值value進(jìn)行加權(quán)求和得到最后的Attention。目前在NLP研究中,key和value常常都是同一個(gè),即key=value。具體計(jì)算過程如圖2所示。

圖2 Attention機(jī)制計(jì)算原理圖

2 基于深度學(xué)習(xí)模型的常識(shí)類謠言檢測(cè)

2.1 常識(shí)類謠言檢測(cè)技術(shù)框架

本文主要是針對(duì)常識(shí)類謠言檢測(cè)方法的研究,目標(biāo)是得到一個(gè)對(duì)常識(shí)類謠言識(shí)別準(zhǔn)確率高,且各方面表現(xiàn)優(yōu)異的模型。主要過程有數(shù)據(jù)獲取,語(yǔ)料預(yù)處理、模型訓(xùn)練、數(shù)據(jù)可視化四個(gè)步驟。數(shù)據(jù)獲取主要通過網(wǎng)絡(luò)爬蟲爬取中國(guó)互聯(lián)網(wǎng)聯(lián)合辟謠平臺(tái)等多個(gè)網(wǎng)站上經(jīng)過官方權(quán)威辟謠過的謠言信息,以及使用復(fù)旦大學(xué)文本分類數(shù)據(jù)集中的相關(guān)數(shù)據(jù)。對(duì)已有語(yǔ)料的預(yù)處理包括語(yǔ)料清洗、分詞、標(biāo)注、去停用詞這四個(gè)步驟,處理后的數(shù)據(jù)集被分為謠言類,非謠言類。然后使用SVM、KNN、樸素貝葉斯這三種機(jī)器學(xué)習(xí)模型以及CNN、LSTM、MLP這三種深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,并且在此基礎(chǔ)上衍生出了四種模型,進(jìn)行對(duì)比實(shí)驗(yàn),最后利用Python中的plot將數(shù)據(jù)可視化處理。技術(shù)路線如圖3所示。

圖3 常識(shí)類謠言檢測(cè)技術(shù)路線圖

2.2 基于LSTM+Attention的常識(shí)類謠言檢測(cè)模型

由于LSTM的特征提取能力不夠理想,因此我們使用嵌入Attention機(jī)制的LSTM模型實(shí)現(xiàn)對(duì)常識(shí)類謠言的檢測(cè),如圖4所示,具體步驟如下:

步驟一:首先使用Word2Vec模型,并加入Adam優(yōu)化器,實(shí)現(xiàn)輸入文本的向量化。本文的語(yǔ)料庫(kù)p由n個(gè)句子組成,每個(gè)句子又由m個(gè)單詞組成,即,p={p1,p2,...,pn},pi={si1,si2,...,sin},si={wi1,wi2,...,wim}。使用經(jīng)過預(yù)訓(xùn)練的向量集替換后的embedding矩陣形狀為365076×300,最后,設(shè)定embedding層的參數(shù)固定,不參加訓(xùn)練,把預(yù)訓(xùn)練的Word2Vec嵌入LSTM模型之中,接著利用LSTM_Layer進(jìn)行詞語(yǔ)特征信息提取。

步驟二:由于LSTM的特征提取能力不夠理想,我們?cè)诖饲度胱⒁饬C(jī)制,在文本信息向量化的前提下,提取文本的局部特征,然后將這些特征導(dǎo)入LSTM模型,通過注意力機(jī)制對(duì)LSTM模型的輸入與輸出之間的相關(guān)性進(jìn)行重要度計(jì)算,根據(jù)重要度獲取文本整體特征。在此模型中,注意力層的效果可以看作是一個(gè)自動(dòng)加權(quán),它鏈接了兩個(gè)不同的模塊,這兩個(gè)模塊通過加權(quán)來鏈接。以獲得更好的特征提取效果。

步驟三:最后,融合局部特征和整體特征,通過分類器輸出分類結(jié)果。

圖4 基于LSTM+Attention的常識(shí)類謠言檢測(cè)模型圖

3 實(shí)驗(yàn)

本文在各個(gè)模型對(duì)比實(shí)驗(yàn)中用到的指標(biāo)有四個(gè),分別是準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1值。首先,語(yǔ)料被分為四類:

TP:樣本為正,預(yù)測(cè)結(jié)果為正,即樣本為謠言,實(shí)際被檢測(cè)為謠言;

FP:樣本為負(fù),預(yù)測(cè)結(jié)果為正,即樣本為非謠言,實(shí)際被檢測(cè)為謠言;

TN:樣本為負(fù),預(yù)測(cè)結(jié)果為負(fù),即樣本為非謠言,實(shí)際被檢測(cè)為非謠言;

FN:樣本為正,預(yù)測(cè)結(jié)果為負(fù),即樣本為謠言,實(shí)際被檢測(cè)為非謠言。

為了驗(yàn)證本文所提出模型的有效性,把提出的LSTM+Attention模型與傳統(tǒng)的機(jī)器學(xué)習(xí)模型和主流的深度學(xué)習(xí)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示。

表1 深度學(xué)習(xí)與機(jī)器學(xué)習(xí)模型對(duì)比分析

從表1我們可以看到LSTM_Word2Vec_Attention神經(jīng)網(wǎng)絡(luò)模型的檢測(cè)準(zhǔn)確率達(dá)到了92.2%,并且召回率也達(dá)到了93.5%,說明該模型在處理常識(shí)類謠言檢測(cè)問題上有著非常優(yōu)異的表現(xiàn)。加入Attention機(jī)制以及Adam優(yōu)化器使得LSTM模型進(jìn)行了再一次的提升,這是由于Attention層更好地獲取語(yǔ)料中的特征,實(shí)現(xiàn)了對(duì)貢獻(xiàn)度不同的詞語(yǔ)進(jìn)行提取,并且抓住樣本中本身存在的關(guān)系,同樣也體現(xiàn)出了Adam優(yōu)化器的一些優(yōu)點(diǎn):①參數(shù)的更新沒有受梯度的伸縮變換的影響;②超參數(shù)的解釋性較好,一般情況下無(wú)需調(diào)整;③很適合應(yīng)用于大規(guī)模的數(shù)據(jù)及參數(shù)的場(chǎng)景。

同時(shí)從表1中我們也能直觀地發(fā)現(xiàn),實(shí)驗(yàn)中所用到的深度學(xué)習(xí)模型對(duì)于常識(shí)類謠言檢測(cè)的表現(xiàn),普遍優(yōu)于機(jī)器學(xué)習(xí)模型。雖然深度學(xué)習(xí)模型對(duì)于數(shù)據(jù)的依賴性較大,執(zhí)行時(shí)間普遍長(zhǎng)于機(jī)器學(xué)習(xí)模型,但是大多數(shù)機(jī)器學(xué)習(xí)算法的性能依賴于所提取的特征的準(zhǔn)確度,然而深度學(xué)習(xí)會(huì)嘗試從大量數(shù)據(jù)中直接獲取高等級(jí)的特征,這也是深度學(xué)習(xí)模型在處理常識(shí)類謠言識(shí)別這類問題上普遍強(qiáng)于傳統(tǒng)機(jī)器學(xué)習(xí)模型的一個(gè)重要因素。通過實(shí)驗(yàn)數(shù)據(jù)的對(duì)比,我們也可以發(fā)現(xiàn)無(wú)論是對(duì)于機(jī)器學(xué)習(xí)模型還是深度學(xué)習(xí)模型,引入預(yù)訓(xùn)練的Word2Vec模型會(huì)給訓(xùn)練和測(cè)試結(jié)果帶來明顯的提升,所以文本向量化在處理這類問題上起著至關(guān)重要的作用。

4 結(jié)語(yǔ)

本文以準(zhǔn)確、高效地識(shí)別常識(shí)類網(wǎng)絡(luò)謠言為目的,利用網(wǎng)絡(luò)爬蟲獲取了大量謠言信息,對(duì)語(yǔ)料進(jìn)行了預(yù)處理之后,在LSTM_Word2Vec模型基礎(chǔ)上進(jìn)行優(yōu)化,并嵌入注意力機(jī)制,提出了一種LSTM_Word2Vec_At-tention神經(jīng)網(wǎng)絡(luò)模型用于常識(shí)類的謠言檢測(cè)。

通過實(shí)驗(yàn)數(shù)據(jù)的對(duì)比,本文得到了以下結(jié)論:首先相較于傳統(tǒng)機(jī)器學(xué)習(xí)模型,深度學(xué)習(xí)模型在常識(shí)類謠言檢測(cè)的任務(wù)中有著很好的表現(xiàn);其次,加入預(yù)訓(xùn)練的Word2Vec模型給模型準(zhǔn)確率帶來了3-7.6%的提升,這說明文本向量化在處理這類問題上起著至關(guān)重要的作用;最后,在LSTM模型基礎(chǔ)上進(jìn)行優(yōu)化,并嵌入注意力機(jī)制和Word2Vec詞向量得到的LSTM_Word2Vec_Attention神經(jīng)網(wǎng)絡(luò)模型達(dá)到了92.2%的準(zhǔn)確率,這證明該模型對(duì)于常識(shí)類謠言任務(wù)有著比傳統(tǒng)深度學(xué)習(xí)模型更好的表現(xiàn)。

猜你喜歡
深度特征文本
深度理解一元一次方程
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 精品一区二区三区无码视频无码| 国产亚洲精久久久久久久91| 亚洲精选无码久久久| aaa国产一级毛片| 亚洲成人在线网| 日本成人一区| 亚洲天堂日韩在线| 毛片三级在线观看| 欧美激情伊人| 精品无码国产一区二区三区AV| 精品无码一区二区三区在线视频| 国内自拍久第一页| 香蕉蕉亚亚洲aav综合| 日本欧美精品| 青青草原国产免费av观看| 国产美女主播一级成人毛片| 精品自拍视频在线观看| 91福利一区二区三区| 色香蕉影院| 高清色本在线www| 国产福利一区视频| 在线另类稀缺国产呦| 久久婷婷五月综合色一区二区| 精品国产福利在线| 国产成+人+综合+亚洲欧美 | 亚洲人成网址| 免费国产福利| 伊人国产无码高清视频| 国产视频欧美| 国产视频欧美| 日韩欧美国产综合| 久久精品人人做人人| 亚洲精品777| 久久天天躁狠狠躁夜夜2020一| 色屁屁一区二区三区视频国产| 日本人妻丰满熟妇区| 国产白浆在线| 久久www视频| 免费看av在线网站网址| 黑人巨大精品欧美一区二区区| 免费一级α片在线观看| 欧美a在线视频| AV熟女乱| 日韩毛片在线视频| 97国产一区二区精品久久呦| 午夜福利亚洲精品| 色综合综合网| 国产精品美女在线| 国产剧情国内精品原创| 白浆视频在线观看| 亚洲无码在线午夜电影| 中文成人在线视频| 国产精品片在线观看手机版| 伊人久久精品无码麻豆精品| 中文字幕久久波多野结衣| 亚洲六月丁香六月婷婷蜜芽| 福利国产微拍广场一区视频在线| 国产精品久久自在自线观看| 精品久久人人爽人人玩人人妻| 一区二区午夜| 色哟哟精品无码网站在线播放视频| 国产爽妇精品| 18禁不卡免费网站| 国产在线视频自拍| 99精品在线看| 2021最新国产精品网站| 亚洲国产精品成人久久综合影院| 国产 在线视频无码| 国模沟沟一区二区三区| 精品欧美一区二区三区久久久| 99视频在线免费观看| 国产免费久久精品99re不卡| 国产簧片免费在线播放| 久久国语对白| 青青草原国产一区二区| 日韩一区精品视频一区二区| 亚洲精品天堂自在久久77| 无码视频国产精品一区二区| 高清无码手机在线观看 | 国产精品亚洲αv天堂无码| 欧美无遮挡国产欧美另类| 九九精品在线观看|