999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)謠言檢測技術(shù)研究

2020-01-04 19:01:41李勝丁振左玲
科學(xué)與信息化 2020年36期
關(guān)鍵詞:檢測信息方法

李勝 丁振 左玲

中南財(cái)經(jīng)政法大學(xué),信息與安全工程學(xué)院 湖北 武漢 430073

引言

現(xiàn)代網(wǎng)絡(luò)技術(shù)的高速發(fā)展使得越來越多的人開始使用諸如微博、微信、twitter、Facebook等通信社交媒體軟件,這也是人們獲取信息和發(fā)布信息的重要平臺(tái)。但是社交媒體的開放性和便捷性給社會(huì)帶來好處的同時(shí)也出現(xiàn)了一些問題,某些營銷號(hào)或者個(gè)體賬號(hào)會(huì)發(fā)布一些未經(jīng)證實(shí)的推斷或者不真實(shí)的信息,這就導(dǎo)致了謠言的產(chǎn)生。于是,在這個(gè)天然大數(shù)據(jù)的環(huán)境下,社交媒體又缺乏有效的信息審核制度,謠言可能會(huì)在網(wǎng)絡(luò)上大量快速地傳播。根據(jù)報(bào)道,微博上超過三分之一的熱點(diǎn)新聞都含有虛假成分信息[1]。謠言在社交媒體的瘋狂傳播會(huì)將不真實(shí)的信息快速在網(wǎng)絡(luò)上發(fā)酵歪曲和誤導(dǎo)群眾,嚴(yán)重影響社會(huì)安定,甚至可能會(huì)影響地區(qū)和國家安全。

鑒于謠言帶來的巨大危害,越來越多的研究人員開始探索謠言檢測技術(shù)。現(xiàn)有謠言檢測技術(shù)主要分為三類:人工檢測方法,基于機(jī)器學(xué)習(xí)的檢測方法和基于深度學(xué)習(xí)的檢測方法。人工檢測方法準(zhǔn)確率高,但具有明顯的滯后性,無法適應(yīng)社會(huì)網(wǎng)絡(luò)中海量數(shù)據(jù)。機(jī)器學(xué)習(xí)方法將社會(huì)網(wǎng)絡(luò)謠言問題看作有監(jiān)督學(xué)習(xí)中的二分類問題,自動(dòng)化程度高,有效地彌補(bǔ)了人工檢測方法的不足,但該類方法依賴于人工提取與選擇特征,且得到的特征向量魯棒性[3]也不夠健壯。深度學(xué)習(xí)方法可以獲得更好、更本質(zhì)的表征性,從而能實(shí)現(xiàn)更好的分類效果。相信經(jīng)過人們不斷的探索和進(jìn)一步研究,謠言能夠快速并準(zhǔn)確的被識(shí)別并給出警告,社會(huì)也會(huì)越來越安定。

1 謠言檢測過程

一般來說,目前我們更習(xí)慣于把謠言檢測類問題看成一個(gè)二分類問題。這個(gè)問題可以被看作為:給出一個(gè)新聞故事或者推文集合,如E = {e1, e2, e3…en},還有一個(gè)判斷是否為謠言的類別標(biāo)簽P = {p1, p2},其中,p1代表是謠言,p2代表不是謠言。我們要做的就是通過大量的數(shù)據(jù)集學(xué)習(xí)出一個(gè)分類模型M出來,使得對(duì)給出任意一條推文,都能預(yù)測出一個(gè)p1或者p2,從而達(dá)到檢測謠言的目的。

社會(huì)網(wǎng)絡(luò)謠言檢測過程通常包含:數(shù)據(jù)處理、特征選擇與提取、模型訓(xùn)練與謠言檢測四個(gè)階段。

數(shù)據(jù)處理包括原始數(shù)據(jù)的收集與數(shù)據(jù)標(biāo)注,數(shù)據(jù)收集的作用主要有兩項(xiàng):第一,用于構(gòu)建模型訓(xùn)練的數(shù) 據(jù)集;第二,對(duì)社會(huì)網(wǎng)絡(luò)進(jìn)行監(jiān)控,獲取待檢測的社會(huì)網(wǎng)絡(luò)信息。數(shù)據(jù)標(biāo)注則是根據(jù)問題及需求的不同對(duì)數(shù)據(jù) 進(jìn)行不同的標(biāo)注。

特征選擇與特征提取是從收集的原始數(shù)據(jù)中選擇與構(gòu)造出最能代表數(shù)據(jù)的特征向量集合。對(duì)于機(jī)器學(xué)習(xí)方法而言,特征選擇與提取的重要程度甚至超過了模型選擇的重要性。因此現(xiàn)有基于機(jī)器學(xué)習(xí)方法的重要工作是以找到更有效的特征作為提升謠言檢測準(zhǔn)確率為主要思路.基于深度學(xué)習(xí)的謠言檢測具有很強(qiáng)的特征學(xué)習(xí)能力,其無需對(duì)特征進(jìn)行人工提取即可得到比傳統(tǒng)機(jī)器學(xué)習(xí)更高維、復(fù)雜、抽象的特征數(shù)據(jù)。模型訓(xùn)練是指根據(jù)具體的問題場景從已有的分類模型中選擇模型,并根據(jù)模型在訓(xùn)練數(shù)據(jù)集上的分類表現(xiàn)調(diào)整參數(shù)以找到一個(gè)最優(yōu)模型的過程.對(duì)于社會(huì)網(wǎng)絡(luò)謠言問題,如何在充滿噪音且不均衡的海量數(shù)據(jù)信息中訓(xùn)練出準(zhǔn)確率高的分類器是當(dāng)前社會(huì)網(wǎng)絡(luò)謠言檢測問題面臨的最大挑戰(zhàn)。

2 數(shù)據(jù)處理

數(shù)據(jù)處理是謠言檢測的一個(gè)非常重要的環(huán)節(jié),數(shù)據(jù)處理包括了數(shù)據(jù)數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注兩個(gè)部分。

2.1 數(shù)據(jù)采集

目前關(guān)于網(wǎng)絡(luò)謠言的數(shù)據(jù)一般分為三種數(shù)據(jù)來源:

(1)通過網(wǎng)絡(luò)平臺(tái)的API接口獲取數(shù)據(jù)

目前,幾乎所有的社會(huì)網(wǎng)絡(luò)平臺(tái)都向用戶提供了完善的RESTAPI接口,REST即表述性狀態(tài)傳遞(Representational State Transfer,簡稱REST)是一套新興的WEB通信協(xié)議[2]。這樣方便用戶從社會(huì)網(wǎng)絡(luò)平臺(tái)中獲取到用戶發(fā)表的微博、好友關(guān)系等社交信息。

(2)利用爬蟲技術(shù)獲取數(shù)據(jù)集

利用網(wǎng)絡(luò)爬蟲技術(shù)可以以更靈活的方式獲取所需的數(shù)據(jù)。如:在Facebook中從某一用戶開始不斷搜尋其好友,對(duì)整個(gè)社交平臺(tái)的數(shù)據(jù)進(jìn)行爬取。

基于爬蟲技術(shù)的獲取數(shù)據(jù)優(yōu)點(diǎn)就是能夠獲取到足夠大的供研究的數(shù)據(jù),但也有兩個(gè)缺點(diǎn)和挑戰(zhàn):①可能會(huì)面臨法律風(fēng)險(xiǎn),如果擅自爬取未經(jīng)授權(quán)的Web數(shù)據(jù),就可能觸犯其所在國家的法律;②面臨的技術(shù)難度大,爬蟲技術(shù)需要編寫者了解網(wǎng)絡(luò)層的各種協(xié)議和技術(shù)。

(3)通過公開數(shù)據(jù)集獲取

利用公開數(shù)據(jù)集可以輕易且合法地獲取標(biāo)準(zhǔn)數(shù)據(jù),例如來自于新浪微博和Twitter兩個(gè)平臺(tái)的公開數(shù)據(jù)集。此外,清華大學(xué)自然語言處理與社會(huì)人文計(jì)算機(jī)實(shí)驗(yàn)室的數(shù)據(jù)集也較為知名,其數(shù)據(jù)來源主要為:中文社交媒體謠言數(shù)據(jù)抓取、中文社交媒體謠言自動(dòng)識(shí)別以及用戶提交,目前仍在不斷更新。

2.2 數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注主要是在進(jìn)行謠言檢測階段的前一個(gè)工作,主要是為了能更好地訓(xùn)練出一個(gè)較優(yōu)的二分類模型,目前大致有兩種數(shù)據(jù)標(biāo)注方式。

(1)人工數(shù)據(jù)標(biāo)注

人工標(biāo)注指的是在獲取到需要的數(shù)據(jù)集后,專門依靠人力去對(duì)初始數(shù)據(jù)集進(jìn)行標(biāo)注工作。該方法簡單方便,但需消耗大量人力和時(shí)間,且人工標(biāo)注也可能會(huì)出錯(cuò),這主要和標(biāo)注者的經(jīng)驗(yàn)水平有關(guān)。

(2)基于半監(jiān)督學(xué)習(xí)的標(biāo)注

由于人工標(biāo)注存在大量人力時(shí)間的消耗,研究人員提出了在謠言檢測問題中引入半監(jiān)督學(xué)習(xí)自動(dòng)標(biāo)注的方法,在僅需要少量的人工標(biāo)注數(shù)據(jù)下,引入了一種CERT框架,該框架聯(lián)合聚類數(shù)據(jù)、選擇特征和訓(xùn)練分類器實(shí)現(xiàn)數(shù)據(jù)的分類。基于半監(jiān)督學(xué)習(xí)的自動(dòng)標(biāo)注方法簡單且易實(shí)現(xiàn),在一定程度上緩解了人工標(biāo)注方法存在的問題,但該方法的先決條件太強(qiáng),需要研究者能準(zhǔn)確地估計(jì)數(shù)據(jù)分布信息。

3 謠言檢測方法

現(xiàn)階段的謠言檢測技術(shù)主要分為三種,即:基于人工的謠言檢測、基于機(jī)器學(xué)習(xí)的謠言檢測和基于深度學(xué)習(xí)的謠言檢測。

3.1 人工謠言檢測

目前在大多數(shù)的社交媒體平臺(tái)上主要還是用的人工謠言檢測,平臺(tái)在用戶或者業(yè)內(nèi)人員的幫助下進(jìn)行信息核實(shí),謠言甄別。

我國主流社交媒體新浪微博設(shè)計(jì)了一個(gè)舉報(bào)處理功能,用戶被鼓勵(lì)舉報(bào)那些有可能是謠言的虛假文章,微博平臺(tái)的專業(yè)人士組成的團(tuán)隊(duì)則會(huì)仔細(xì)做出甄別,并會(huì)定期在“微博辟謠”這個(gè)官方賬號(hào)里公布那些聳人聽聞的謠言。

Facebook的方法是在用戶和外部事實(shí)核查人員的幫助下給假新聞貼標(biāo)簽,用戶會(huì)提醒平臺(tái)可能出現(xiàn)的謠言,平臺(tái)就會(huì)將這些疑似謠言的新聞發(fā)送給管理員進(jìn)行核實(shí)。

Twitter采用的是,在基于用戶們對(duì)每個(gè)推文的真實(shí)度評(píng)價(jià)后,Twitter設(shè)計(jì)了一個(gè)結(jié)合自動(dòng)評(píng)估和眾包注釋的半自動(dòng)策略來自動(dòng)標(biāo)記可能的虛假推文。

人工檢測謠言的方式準(zhǔn)確率較高,但是也存在一些問題:①人工檢測會(huì)耗費(fèi)大量的人力,不斷需要人們?nèi)ド缃幻襟w的信息進(jìn)行甄別判斷;②這種方式的檢測質(zhì)量也直接和判別謠言的人們的學(xué)識(shí),能力等因素掛鉤,存在因個(gè)人原因誤判的可能;③在大數(shù)據(jù)時(shí)代,社交媒體產(chǎn)生的推文多到我們無法想象,無法僅靠人工完成檢測工作。因此研究自動(dòng)識(shí)別謠言的方法已勢在必行。

3.2 基于機(jī)器學(xué)習(xí)的謠言檢測

在早期的謠言檢測階段研究者們就開始了試圖用機(jī)器學(xué)習(xí)的技術(shù)識(shí)別謠言。機(jī)器學(xué)習(xí)技術(shù)檢測謠言通常包含以下三個(gè)部分:①獲取到謠言相關(guān)的數(shù)據(jù)集并劃分訓(xùn)練集和測試集,然后開始進(jìn)行特征工程進(jìn)行特征提取;②利用提取過的特征在訓(xùn)練集上面訓(xùn)練出一個(gè)分類模型;③利用訓(xùn)練好的分類模型,經(jīng)過不斷評(píng)估和優(yōu)化,對(duì)測試集進(jìn)行分類預(yù)測。

在機(jī)器學(xué)習(xí)技術(shù)檢測謠言的過程中,特征工程是極其重要的環(huán)節(jié),其很大程度上決定了機(jī)器學(xué)習(xí)識(shí)別謠言的精度。現(xiàn)有用于檢測網(wǎng)絡(luò)謠言的特征提取方式主要包括:①基于單一信息的特征提取方式,通過提取單條數(shù)據(jù)的特征來處理數(shù)據(jù);②基于事件級(jí)特征提取方式,通過挖掘數(shù)據(jù)之間層次性關(guān)系來提取數(shù)據(jù)之間的潛在聯(lián)系。

3.3 基于深度學(xué)習(xí)的謠言檢測

與傳統(tǒng)分類器相比,深度學(xué)習(xí)在許多機(jī)器學(xué)習(xí)問題(例如,對(duì)象檢測,情感分類和語音識(shí)別)中表現(xiàn)出明顯的優(yōu)勢,于是研究者們開始嘗試了用深度學(xué)習(xí)技術(shù)進(jìn)行謠言識(shí)別。根據(jù)神經(jīng)網(wǎng)絡(luò)的不同結(jié)構(gòu),可以將神經(jīng)網(wǎng)絡(luò)方法進(jìn)一步分為兩類:

(1)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)

基于RNN的結(jié)構(gòu),這種方法將謠言數(shù)據(jù)建模為順序數(shù)。關(guān)鍵是RNN中各個(gè)單元之間的連接形成一個(gè)直接循環(huán)并創(chuàng)建網(wǎng)絡(luò)的內(nèi)部狀態(tài),這可能使它能夠捕獲具有謠言擴(kuò)散特性的動(dòng)態(tài)時(shí)間信號(hào)。

(2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)

CNN由堆疊的卷積和池化層組成,其結(jié)構(gòu)有助于對(duì)重要的語義特征進(jìn)行建模。基于CNN的方法假定CNN不僅可以從輸入實(shí)例中自動(dòng)提取局部全局重要特征,而且可以揭示那些高級(jí)交互。下面將介紹基于這兩種深度神經(jīng)網(wǎng)絡(luò)的謠言檢測方法。

4 結(jié)束語

謠言檢測技術(shù)經(jīng)過多年發(fā)展,目前的檢測效果在不斷提升中,但是也面臨了一些問題和挑戰(zhàn)如下:

(1)早期檢測。在社交網(wǎng)絡(luò)上傳播的故事的生命周期很短,一些研究表明該故事還不到三天。而且,謠言會(huì)在幾秒鐘或幾分鐘之內(nèi)傳播開來。至關(guān)重要的是,要盡早發(fā)現(xiàn)謠言。但是,大多數(shù)現(xiàn)有研究都通過假設(shè)謠言在謠言的整個(gè)生命周期中都具有全部內(nèi)容來對(duì)其進(jìn)行檢測。謠言開始時(shí)的資源非常有限,以至于在早期發(fā)現(xiàn)它非常具有挑戰(zhàn)性。雖然于等。提出一種解決該問題的方法,性能不能滿足早期檢測的需要。

(2)面對(duì)突然的大量數(shù)據(jù)和大量信息的處理效果不夠,目前的方法應(yīng)對(duì)這種多篇數(shù)據(jù)信息的推文和長篇具有豐富語義信息的推文應(yīng)對(duì)能力還是不夠,檢測時(shí)間長,誤差大,會(huì)出現(xiàn)“冷啟動(dòng)”的問題。

(3)在訓(xùn)練集出現(xiàn)了數(shù)據(jù)分布不均衡和小樣本的情況下,現(xiàn)有的謠言檢測方法處理起來誤差也較大。因此面對(duì)這種偏、怪的數(shù)據(jù)時(shí),仍需要研究者們設(shè)計(jì)出一個(gè)更好的策略,以應(yīng)對(duì)網(wǎng)絡(luò)上的各式各樣的數(shù)據(jù)集。

在Web2.0時(shí)代,自動(dòng)謠言檢測技術(shù)已經(jīng)是刻不容緩了。面對(duì)海量數(shù)據(jù)的今天,研究者們?nèi)孕铻楦玫闹{言檢測方法而努力,凈化網(wǎng)絡(luò)里的糟粕垃圾。也希望謠言檢測技術(shù)能不斷更新迭代,實(shí)現(xiàn)更精準(zhǔn)全面的檢測。

猜你喜歡
檢測信息方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應(yīng)用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會(huì)信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲精品在线影院| av在线无码浏览| 国产激爽大片在线播放| 99999久久久久久亚洲| av免费在线观看美女叉开腿| 久久精品一品道久久精品| 婷婷丁香在线观看| 日韩福利视频导航| 国产女人18毛片水真多1| 亚洲免费人成影院| 不卡无码网| 日韩无码真实干出血视频| 日韩久久精品无码aV| 亚洲无码37.| 亚洲第一色视频| 一区二区三区国产精品视频| 人妻精品久久无码区| 一级成人a做片免费| 日韩精品毛片| 欧洲av毛片| 亚洲欧美国产高清va在线播放| 国产精品9| 成人久久精品一区二区三区| 国产亚洲欧美在线人成aaaa| av一区二区三区在线观看| a亚洲天堂| 亚洲av日韩综合一区尤物| 国产免费人成视频网| 欧美日韩亚洲国产| 国产在线98福利播放视频免费| 国产精品短篇二区| 亚洲欧洲日产国产无码AV| 99热这里只有精品久久免费| 成人在线天堂| 欧美一区二区三区欧美日韩亚洲 | 久视频免费精品6| 国产成人调教在线视频| 久久精品无码一区二区日韩免费| 91在线播放国产| 青青草原国产精品啪啪视频| 四虎影视库国产精品一区| 中国成人在线视频| 国产精品无码久久久久久| 欧美成人看片一区二区三区| 一级做a爰片久久毛片毛片| 国产成人免费视频精品一区二区 | 亚洲欧洲日本在线| 日韩a级片视频| 一级毛片在线播放免费观看| 亚洲最新网址| 精品自窥自偷在线看| av色爱 天堂网| 91久久偷偷做嫩草影院精品| 2021天堂在线亚洲精品专区| 欧美日本激情| 欧美在线视频不卡| 香蕉视频国产精品人| 欧美国产日韩在线观看| 国产一级毛片网站| 亚洲欧洲AV一区二区三区| 日韩精品一区二区三区大桥未久 | 亚洲国产成人在线| 99re热精品视频国产免费| 狠狠色狠狠综合久久| 一区二区在线视频免费观看| 色综合综合网| 亚洲欧美不卡视频| 国产精品jizz在线观看软件| 手机精品福利在线观看| 亚洲高清资源| 高清久久精品亚洲日韩Av| 全免费a级毛片免费看不卡| 波多野结衣亚洲一区| 18禁黄无遮挡网站| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产欧美日韩综合一区在线播放| 在线观看亚洲成人| 国产欧美日韩精品综合在线| 日本欧美视频在线观看| 日韩精品免费一线在线观看| 日本人真淫视频一区二区三区| 日韩在线欧美在线|