999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維度行文風格特征的假新聞檢測方法研究

2022-04-02 08:53:20李小艷
軟件工程 2022年4期
關鍵詞:特征文本檢測

李小艷

(貴州大學計算機科學與技術學院,貴州 貴陽 550000)

946730793@qq.com

1 引言(Introduction)

近年來,互聯網快速發展,在為信息傳遞帶來便利的同時,也成為假新聞傳播的搖籃,如2016 年美國總統大選期間,網站上充斥著各種聳人聽聞的總統大選假新聞。更嚴重的是,由于此類假新聞持續、廣泛地傳播,最終間接影響了總統選舉的結果,因此假新聞檢測開始為人們所重視。

研究表明,社交網絡上的信息快速傳播,導致網絡平臺上的信息存在爆炸性、持續性增長的特點。在這樣的情形下,人工識別和檢測假新聞的方法存在效率低、具有時滯性等問題,往往難以滿足假新聞檢測的時效性及大規模可應用性等需求,更遑論篩選和阻止假新聞的傳播。因此,如何有效的識別和檢測網絡平臺上大量的假新聞成為一個急需解決的難題。如果能研究出一個有效的假新聞檢測方法,不僅能減少相關監管部門的工作量,而且能減少網絡輿論帶來的負面影響,還能增強網絡媒體的社會公信力,從而構建一個更加和諧穩定的網絡生態環境。

目前,對網絡平臺上的假新聞自動檢測研究仍處于起步階段,大部分的研究工作都將這一問題作為分類任務來處理,可分為基于傳統文本分類的假新聞檢測和基于深度學習文本分類的假新聞檢測兩大類方法。

(1)基于傳統文本分類的假新聞檢測方法,主要是將整個文本分類問題拆分成特征工程和分類器兩部分。特征工程可以分為文本預處理、特征提取、文本表示三個部分,最終的目的是要把文本轉換成計算機可理解的格式并封裝。特征工程構造的特征主要包括淺層的統計特征,如假新聞的內容、用戶屬性、傳播方式等,以及深層的文本內容特征,如假新聞事件情感傾向性、事件主題、事件關鍵詞等。在得到特征工程構造的特征后,分類器基于構造的特征來進行文本分類,從而實現假新聞檢測的功能。

(2)基于深度學習文本分類的假新聞檢測方法,主要是通過深層的神經網絡去探索真假新聞之間的差異,從而實現假新聞檢測。典型的方法或模型如O'BRIEN等人利用卷積神經網絡(CNN)從新聞主題的角度檢測假新聞,表明CNN可以捕獲虛假和真實新聞語料在語法修辭上的差異性,從而實現假新聞的識別工作;UMER等人通過使用CNN-LSTM混合神經網絡,在文本特征向量傳遞到分類器之前對其進行降維操作,以此提高假新聞檢測的準確率。目前主流的XLNet、BERT等模型也被用于假新聞檢測。

對假新聞進行檢測主要有四個途徑。(1)基于知識庫的方法:該方法利用已知的信息做一個知識庫,判斷另一個信息的真假。PAN等人使用已有數據集分別構建真假知識圖譜,從而對新聞進行檢測。(2)基于行文風格的方法:該方法通過尋找真假新聞可區分的行文風格特征,判斷新聞的真假。行文風格特征有普通特征(字頻、詞頻、句法和篇章)和聚合特征(普通特征的融合)。PRZYBYLA等人基于行文風格提出Stylometric Classifier模型用于檢測網頁源假新聞。(3)基于信息來源的方法:真假新聞的發布者有著不同的立場,基于用戶對內容的操作(評論、點贊、舉報等)構建矩陣或者圖模型,從而判斷其真假。WANG等人利用信息來源的用戶畫像作為一個特征,用于假新聞檢測。(4)基于傳播途徑的方法:類似PageRank的行為傳遞。假新聞比真新聞傳播速度快,而且傳播的路徑圖也有所差異。因而基于傳播途徑的假新聞檢測常轉化為圖的相似性比較。BIAN等人使用雙向圖卷積神經網絡對社交媒體謠言進行檢測。

研究發現,網絡平臺上的假新聞常為了快速傳播或吸引網民的目光,在行文風格上往往使用不規則字符、煽動性言語等,如圖1所示。因此,針對以上問題,本文聚焦新聞行文風格的分析研究,提出了一種多維度行文風格特征的假新聞檢測方法。該方法主要聚焦行文風格的詞維度、句維度及篇維度來提取文本的特征因子,用于分析真假新聞文本之間存在的潛在關系,從而更加有效地對假新聞進行檢測。

圖1 假新聞行文風格實例Fig.1 Examples of fake news style

2 相關工作(Related work)

2.1 假新聞定義

假新聞檢測是一個新興的問題,目前對假新聞的定義和識別沒有明確的方案和較為嚴謹的說法,常見的定義如表1所示。因此,在研究之前我們必須明確假新聞的定義。在本次研究中,假新聞定義為:故意捏造并被證實為假的信息。

表1 假新聞定義Tab.1 Definition of fake news

2.2 行文風格特征分析

本文從多角度分析行文風格對假新聞檢測的影響力,并根據詞、句、篇的屬性,將這些特征詳細劃分為三個維度,即詞維度、句維度和篇維度,并結合文本的語義信息對假新聞檢測進行研究。多維度行文風格特征的具體分析如下:

(1)詞維度:實詞、情緒詞

詞典是文本分類中經常使用的工具。POTTHAST等人在2017 年使用帶有詞性標簽的詞典用于“超黨派”新聞識別,該工具的缺點在于詞典的大小有限。而在2020 年,PRZYBYLA等人使用Word2vec表示,用相似詞對實詞詞典進行擴展最終得到GI詞典用于網頁源假新聞檢測,并取得一定成果。因此,本文將帶有詞性標簽的實詞劃分為詞維度行文風格特征。為了使GI詞典更加豐富,本文將英文單詞翻譯為中文,并且為了防止原有詞義的丟失,將單詞的全部翻譯結果作為詞典的擴展,得到最終的GI詞典。此外,假新聞常使用夸張的情緒詞來吸引人們的目光,因此情緒詞也被劃分為詞維度的行文風格特征。目前已公開的情緒詞語集有很多,文本選用知網提供的情感分析用詞語集,因為它有著豐富的情感詞類別,分別為:主張、正面情感、負面情感、正面評價、負面評價和程度詞語。

(2)句維度:句長、平均句長、句數

通過對數據集的研究,發現真假新聞文本的句長和平均句長也存在差異。因此,本文將句長、平均句長和句數作為句維度的行文風格特征。

(3)篇維度:符號、虛詞

對于整個篇章,本文關注文本的整體符號使用情況。除文本的語義信息,文章的嘆詞、助詞、介詞等虛詞的使用也是文本的行文風格之一,而且據圖2統計可以看出,在新聞的真假文本中,虛詞的使用有很大的差異性,因此本文將虛詞作為篇維度的行文風格特征。

圖2 常用虛詞使用頻率統計Fig.2 Frequency statistics of common function words

2.3 語義特征及多維度行文風格特征提取方法

語義特征是文本分類的基礎,做好內容理解,準確提取特征是文本分類的基石。卷積神經網絡的核心思想是捕捉局部特征,對于文本來說,局部特征就是由若干單詞組成的滑動窗口,類似于N-gram。卷積神經網絡的優勢在于能夠自動地對N-gram特征進行組合和篩選,獲得不同抽象層次的語義信息。因此本文使用Text_CNN提取文本的語義信息,Text_CNN模型如圖3所示。

圖3 Text_CNN模型Fig.3 Text_CNN model

對于直觀的行文風格特征,如GI詞典、情緒詞、句長、平均句長和句數,本文使用統計學習方法對其進行表示。對于較為復雜的復合特征如虛詞和符號,本文使用詞頻-逆文本頻率指數(TF-IDF)和互信息相結合的推薦算法篩選出特征的最優組合,詳細介紹如下。

(1)TF-IDF

結合TF-IDF的思想,將其類比于符號(虛詞)-新聞真假關系上,確定核心符號(虛詞),從而去掉不必要的噪聲。具體公式如下:

(2)互信息

本文在式(1)的基礎上,進一步挖掘一些深層知識,計算其與新聞真假的互信息,以得到最優的符號(虛詞)組合特征。互信息的基本定義如下:

應用到符號(虛詞)特征選擇:

其中,、都是二值隨機變量,當文檔包含特征時,的取值為e=1,否則e=0;當文檔屬于類別時,的取值為e=1,否則e=0。用最大似然估計時,上面的概率值都是通過統計文檔中特征和類別的數目計算的,因而實際計算公式如下:

其中,N表示=e和=e情況下對應的文檔數目,比如表示包含特征(此時e=1)但不屬于類別(此時e=0);=+表示所有包含特征的文檔數目,=+表示所有屬于類的文檔數目,=+++表示所有文檔的數目。

3 模型構建(Model building)

本文基于行文風格特征的方法,從多維度提取行文風格特征,并結合文本的語義信息對假新聞進行檢測。其中提取的行文風格特征來自不同的維度,若將其放入一個神經網絡進行訓練,會模糊特征之間的潛在關系,因此本文使用CNN模型分別捕獲各特征的高階抽象信息。此外每個維度的特征因為其性質不同,對假新聞檢測的影響力度也不同,而Attention機制可以看成一種自動加權機制,它可以把多個不同模塊通過加權的方式進行關聯,在NLP任務中有著廣泛的應用。因此,本文使用Attention機制突出各維度特征對假新聞檢測的重要程度,從而構建了一個Multi_CNNSA模型,該模型結構圖如圖4所示。

圖4 Multi_CNNSA模型Fig.4 Multi_CNNSA model

3.1 輸入層

令為新聞文本,對文本進行預處理,得到=,,…,其中t表示一個詞。令預處理好的Word2vec詞向量查找表為R,是查找表的大小,是向量矩陣=[,,x],其中xR,為最大文本長度,長度不足的文本補零。根據前文的行文風格特征處理方法得到詞維度特征向量矩陣、句維度特征向量矩陣、篇維度特征向量矩陣。

3.2 Multi_CNNSA層

本文的Multi_CNNSA層一共有三個CNN通道和一個Text_CNN通道,分別用于計算每個特征的高階抽象信息,且每個通道后接一個Attention層,用于計算每個特征對假新聞檢測的影響力度。其中Text_CNN通道接收輸入層的語義信息數據,輸出結果記為',另外三個CNN通道分別接收來自輸入層的三個維度的行文風格特征數據、、,輸出結果記為'、'、'。然后將每個結果作為Attention層的輸入,得到語義特征結果''、詞維度特征結果''、句維度特征結果''、篇維度特征結果''。最后通過特征拼接得到本層的輸出結果,即:

本文中Attention的計算公式如下:

3.3 Softmax層

本層的目的是通過Softmax函數將上層結果進行歸一化,最終實現對新聞的二分類,即將上層的輸出結果作為本層的輸入,通過Softmax函數進行歸一化操作。具體公式如下:

4 實驗與分析(Experiment and analysis)

4.1 數據集

本次實驗聚焦社交媒體的假新聞檢測,使用的是2018 年KDD論文發布的weibo假新聞數據集,該數據集來源于微博,并由人工進行標注,因此其數據的真實性有效。本文將其整理為短文本假新聞二分類數據集。其中假新聞的標簽為“1”,真新聞的標簽為“0”,詳細信息如表2所示。

表2 weibo假新聞數據集詳情Tab.2 Dataset details of weibo fake news

4.2 評價指標

在假新聞檢測的任務中,模型需要盡可能多地檢測出假新聞,避免將真新聞誤判為假新聞,所以為保證實驗的公平性和可對比性,將綜合考慮檢測結果的精確率、召回率以及1值作為模型的評估指標。為使每個類別都得到公平對待,使用宏平均計算最終結果。其混淆矩陣如表3所示,其中TP表示真陽性,即實際為假預測為假;TN表示真陰性,即實際為真預測為真;FP表示假陽性,即實際為真預測為假;FN表示假陰性,即實際為假預測為真。

表3 假新聞檢測混淆矩陣Tab.3 The confusion matrix of fake news detects

指標計算公式如下:

4.3 參數設置

數據預處理時,使用Word2vec方法進行詞向量處理,向量維度為100。其最大文本長度設置為500,長度不足時,在文本后面補零表示。初始學習率為1,使用Adam函數進行優化。批次數為50,迭代數為100。使用的數據集隨機按8∶1∶1比例分為訓練集、驗證集和測試集。

4.4 實驗結果與分析

在本部分中,本文通過四個對比實驗來驗證我們提出的多維度行文風格假新聞檢測方法的可行性和高效性。實驗結果如表4所示。

表4 各模型性能指標結果Tab.4 Performance index results of each model

其中,樸素貝葉斯(Na?ve Bayes)方法是使用最為廣泛的分類模型之一。該方法在貝葉斯算法的基礎上進行簡化,即假定給定目標值時屬性之間相互條件獨立。也就是說沒有哪個屬性變量對于決策結果來說占有較大的比重,也沒有哪個屬性變量對于決策結果占有較小的比重。雖然這個簡化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實際的應用場景中,極大地簡化了貝葉斯方法的復雜性。因此本文將其作為模型的對比實驗之一。

CNN最早用于圖像訓練,如今其變體Text_CNN已應用到文本挖掘任務。除預訓練文本之外,Text_CNN可以通過不同大小的卷積核并行提取文本的高階抽象信息,同時通過最大池化突出關鍵詞信息,最終實現分類任務。而且其訓練過程參數數目少,計算量少,訓練速度快。因此本文將其作為對比實驗之一。

EANN模型是WANG等人在Text_CNN提取文本語義信息的基礎上,加入文本的圖片信息,從而構建多模態假新聞檢測模型。它證明了假新聞檢測任務中,除文本語義信息外,其他輔助特征也可以加入模型,而且可以顯著提高假新聞檢測的效果。作者使用的數據集與本文與我們使用的是同一個weibo數據集,因此我們直接引用其結果,而沒有復現該方法。

為進一步證明本文提出的方法對假新聞檢測的有效性,本文提出一個SCNN模型,該模型只使用多維度行文風格特征對假新聞進行檢測,即去掉本文提出模型的文本語義特征提取部分。為保證實驗的公平性,該模型的參數設置、特征提取和表示方法不變。

從表4可以看出,本文提出的Multi_CNNSA模型優于另外四個模型,其1值達到了86.95%,比另外四個模型都高,這說明本文提出的方法和模型可以更好地表達真假新聞文本行文風格之間的差異性。其中Text_CNN模型優于Na?ve Bayes模型,其精確率和1值都比對方高。EANN是基于Text_CNN模型加入輔助特征提出的模型,其結果比單獨的Text_CNN效果好。這證明了假新聞檢測任務中,除文本的語義特征外,其他輔助特征的重要性。而本文提出的SCNN模型的表現雖沒有Text_CNN表現好,但是其結果卻高于Na?ve Bayes,這從側面證明了輔助特征的重要性。

5 結論(Conclusion)

本文研究真假新聞行文風格之間的差異性,并將這些差異性特征根據詞、句和篇這三個維度對其進行歸類。針對真假新聞的行文風格特征提出一種基于多維度行文風格的假新聞檢測方法,然后使用多通道卷積神經網絡對各維度的行文風格特征進行融合。實驗結果表明,該方法能夠有效提取真假新聞行文風格特征之間的差異性,并利用這些潛在的差異性對假新聞進行檢測。

在文本的句維度行文風格特征中,句子的結構信息在真假新聞文本中也存在一定的差異性,那么如何利用句子的結構信息對假新聞進行檢測將是在未來的工作中會著重思考的問題。

猜你喜歡
特征文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 男女精品视频| 久久国产精品麻豆系列| 99re经典视频在线| 美女国产在线| 亚洲综合极品香蕉久久网| 午夜福利在线观看成人| 国产一级毛片高清完整视频版| 精品国产福利在线| 中文字幕无码中文字幕有码在线| 麻豆精品在线播放| 99人妻碰碰碰久久久久禁片| 人禽伦免费交视频网页播放| 成人a免费α片在线视频网站| 国产菊爆视频在线观看| 国产在线精彩视频论坛| 中文字幕无线码一区| 伊人激情综合| 毛片一级在线| 99精品国产高清一区二区| 无码日韩人妻精品久久蜜桃| 老汉色老汉首页a亚洲| 亚洲国产成人精品青青草原| 国产福利不卡视频| 亚洲色图欧美激情| 在线不卡免费视频| 国产av一码二码三码无码| 亚洲国产中文欧美在线人成大黄瓜 | 精品国产免费观看| 国产欧美视频一区二区三区| 日韩精品无码不卡无码| 欧美丝袜高跟鞋一区二区| 国产精欧美一区二区三区| 91亚洲影院| 国产毛片一区| 国产日韩久久久久无码精品 | 午夜激情婷婷| 国产手机在线观看| 国产欧美一区二区三区视频在线观看| 亚洲V日韩V无码一区二区| 免费一级毛片在线观看| 91精品视频在线播放| 久久久久亚洲AV成人人电影软件 | 依依成人精品无v国产| 亚洲高清无在码在线无弹窗| A级毛片无码久久精品免费| 国产高潮流白浆视频| 高清无码手机在线观看| 亚洲精品777| 国产精品女主播| jizz在线观看| 2018日日摸夜夜添狠狠躁| 亚洲视频欧美不卡| 亚洲国产综合第一精品小说| 手机在线国产精品| 国产成人调教在线视频| 久久久久国产精品嫩草影院| 五月天福利视频| 久久婷婷色综合老司机| 欧美国产综合色视频| 久久人妻xunleige无码| 日本久久久久久免费网络| 亚洲欧美自拍一区| 亚洲男人的天堂在线观看| 午夜国产精品视频| 亚洲天堂在线免费| 成人在线观看不卡| 中文字幕日韩丝袜一区| 伊人久久大香线蕉aⅴ色| 波多野结衣在线se| 亚洲成人网在线观看| 丰满人妻久久中文字幕| 国产成人无码AV在线播放动漫| 思思99思思久久最新精品| 婷婷丁香色| 久久精品91麻豆| 人人澡人人爽欧美一区| 国产美女精品人人做人人爽| 老司国产精品视频91| 久久综合亚洲色一区二区三区| 男女男精品视频| 国产好痛疼轻点好爽的视频| h网站在线播放|