999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)LSTM算法的社會(huì)網(wǎng)絡(luò)的輿情監(jiān)測(cè)

2021-01-18 04:37:28王民昆王浩蘇博
現(xiàn)代計(jì)算機(jī) 2020年33期
關(guān)鍵詞:單詞信息模型

王民昆,王浩,蘇博

(1.國(guó)家電網(wǎng)公司西南分部,成都610041;2.成都信息工程大學(xué),成都610225)

0 引言

網(wǎng)絡(luò)輿情的定義為在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事項(xiàng)的發(fā)生、發(fā)展和變化,作為輿情主體的民眾對(duì)國(guó)家管理者產(chǎn)生和持有的社會(huì)政治態(tài)度。由于現(xiàn)目前信息化的普及,社交媒體提要、新聞博客、在線(xiàn)報(bào)紙等網(wǎng)絡(luò)信息的大量涌現(xiàn)。網(wǎng)絡(luò)輿情可以在突破空間和時(shí)間和的限制下進(jìn)行高速傳播,進(jìn)而傳播到世界各地,使其具有廣泛的傳播性。這樣的廣泛傳播的民眾意見(jiàn)即會(huì)被視為互聯(lián)網(wǎng)的公眾意見(jiàn)。如果我們能夠動(dòng)態(tài)地發(fā)現(xiàn)社會(huì)網(wǎng)絡(luò)中的熱點(diǎn)網(wǎng)絡(luò)輿論,在高速地向那些尋求者提供有用的信息的同時(shí),并且實(shí)時(shí)地監(jiān)測(cè)這一熱點(diǎn)網(wǎng)絡(luò)輿論的趨勢(shì),就會(huì)對(duì)現(xiàn)實(shí)社會(huì)我的安全產(chǎn)生影響公眾輿論。如果一些具有非真實(shí)性的網(wǎng)絡(luò)輿情未被檢測(cè)出來(lái),就會(huì)對(duì)民眾帶來(lái)極大的負(fù)面態(tài)度以及情緒,以及在認(rèn)識(shí)上和意愿上表現(xiàn)出多重不良影響,這就會(huì)給社交網(wǎng)絡(luò)的安全安全帶來(lái)嚴(yán)重的威脅[1]。因此,及時(shí)掌握網(wǎng)絡(luò)輿情,正確認(rèn)識(shí)其輿情動(dòng)向十分重要。這也極大地推動(dòng)了網(wǎng)絡(luò)輿論檢測(cè)的研究。

例如2013年4月23日,一個(gè)被盜的名為美聯(lián)社的Twitter帳戶(hù)四處報(bào)道白宮發(fā)生兩起爆炸事件并且巴拉克·奧巴馬受傷的假新聞。雖然美聯(lián)社和白宮在幾分鐘后向民眾保證該報(bào)告不真實(shí),但是由于辟謠的滯后性,等到官方辟謠的時(shí)候,數(shù)百萬(wàn)用戶(hù)的快速妄想導(dǎo)致由作者引起的嚴(yán)重的社會(huì)恐慌,直接導(dǎo)致股市損失1365億美元,這是一起虛假信息的網(wǎng)絡(luò)輿情,展示出社交媒體對(duì)虛假信息的脆弱性。突出了網(wǎng)絡(luò)輿情監(jiān)測(cè)準(zhǔn)確性的實(shí)用價(jià)值,而且網(wǎng)絡(luò)輿情的實(shí)時(shí)監(jiān)測(cè)對(duì)早期防范謠言傳播具有重要意義,有助于將謠言傳播的負(fù)面影響降到最低。

1 相關(guān)工作

以前對(duì)網(wǎng)絡(luò)輿論的研究主要是從心理學(xué)或社會(huì)學(xué)的角度,研究網(wǎng)絡(luò)信息中其對(duì)政府或社會(huì)的影響,并分析其活動(dòng)的模式觀(guān)點(diǎn)。但是如果缺少了計(jì)算機(jī)等工學(xué)方面對(duì)其活動(dòng)的量化分析,無(wú)法為互聯(lián)網(wǎng)管理部門(mén)的決策提供更可信的結(jié)果[2]。在當(dāng)今的社會(huì)網(wǎng)絡(luò)輿論的監(jiān)測(cè)中,不僅可以提取文本信息,還能從網(wǎng)絡(luò)中提取出文本的情感。與傳統(tǒng)的文本文檔相比,網(wǎng)頁(yè)包含有已被證明在提取情感方面是有用的額外的信息,如URL、HTML標(biāo)簽等。近年來(lái),工業(yè)界對(duì)網(wǎng)絡(luò)輿情都進(jìn)行了大量研究,。例如Liu等人分析了微內(nèi)容下的網(wǎng)絡(luò)輿論,他們將微內(nèi)容定義為信息本體和信息狀態(tài)的組合,分析了微內(nèi)容的信息特征,觀(guān)點(diǎn)收斂和演化特征。分析出由于微觀(guān)內(nèi)容的融合便利性,易爆炸性和社會(huì)性等特性,造成熱點(diǎn)的形成是網(wǎng)絡(luò)輿論的主要原因[3]。葉平豪等人利用共詞分析和可視化方法,在前沿研究文獻(xiàn)的熱點(diǎn)上利用對(duì)知識(shí)圖譜的知識(shí),進(jìn)行了許多規(guī)模分析和社會(huì)網(wǎng)絡(luò)分析[4]。劉志明等人利用用戶(hù)的影響力和用戶(hù)的積極性,構(gòu)建了輿論領(lǐng)導(dǎo)者的指標(biāo)體系,并運(yùn)用層次分析法對(duì)指標(biāo)的權(quán)重進(jìn)行了分析,明意見(jiàn)領(lǐng)袖是與主題相關(guān)的,只有少數(shù)用戶(hù)可以成為不同主題的意見(jiàn)領(lǐng)袖[5]。黃偉等人將本體和語(yǔ)義計(jì)算的相關(guān)技術(shù)引入網(wǎng)絡(luò)群體事件的主題發(fā)現(xiàn)研究中,并進(jìn)行實(shí)證研究,實(shí)驗(yàn)結(jié)果表明該方法可以有效地獲取主題信息,有助于網(wǎng)絡(luò)群體事件的主題發(fā)現(xiàn)[6]。陳翔等人分析了基于CBR的網(wǎng)絡(luò)輿情輔助決策系統(tǒng)的工作流程,并提出了基于CBR的網(wǎng)絡(luò)輿情輔助決策系統(tǒng)的框架并分析了輔助決策系統(tǒng)的關(guān)鍵要素[7]。而鄭奎等人針對(duì)網(wǎng)絡(luò)輿情研究在公共安全中的需求,運(yùn)用中文分詞技術(shù)在應(yīng)急管理領(lǐng)域,提出了一種基于ICTCLAS的網(wǎng)絡(luò)輿情熱點(diǎn)信息自動(dòng)檢測(cè)方法,并通過(guò)實(shí)例驗(yàn)證了該方法的可靠性與實(shí)用性[8]。

2 網(wǎng)絡(luò)輿情檢測(cè)模型

2.1 問(wèn)題定義

網(wǎng)絡(luò)輿情的監(jiān)測(cè)研究問(wèn)題可以定義如下:對(duì)于一個(gè)給定的關(guān)于特定網(wǎng)絡(luò)信息的文本,當(dāng)前系統(tǒng)的任務(wù)是判斷該信息它是否是輿情。這個(gè)問(wèn)題可以定義為一個(gè)二分類(lèi)問(wèn)題,通過(guò)輸入推文,將該推文分類(lèi)為輿情信息與正常信息。

2.2 模型處理流程

圖1為本文提出的基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情研究的結(jié)構(gòu)與流程,如圖1所示,整個(gè)模型由基于Word2Vec算法中的CBOW模型的但詞向量化處理,與基于LSTM算法的輸出預(yù)測(cè)來(lái)判斷輿情構(gòu)成,大致的處理流程如下:

(1)將要使用的數(shù)據(jù)集進(jìn)行去重,刪除特殊符號(hào),去除表情等去噪聲操作,然后再將文本通過(guò)分詞工具,將句子分為一系列的詞語(yǔ){word(1),word(2),…,word(i)}。

(2)再通過(guò)使用Word2Vec中的CBOW模型,將經(jīng)過(guò)分詞后的詞語(yǔ)向量化,將詞語(yǔ)序列變?yōu)橄蛄啃蛄?。并?jì)算出該模型中的各個(gè)詞的權(quán)重。并計(jì)算一個(gè)總的權(quán)重。

(3)將向量序列的詞語(yǔ)輸入RNN的深度學(xué)習(xí)算法的LSTM模型中,然后將最后一個(gè)時(shí)間步驟上預(yù)測(cè)類(lèi)作為輸出向量。然后輸出的標(biāo)簽結(jié)果判定該網(wǎng)絡(luò)信息為輿論信息還是正常信息。

圖1 輿論監(jiān)測(cè)模型

3 算法介紹

Word2Vec算法:Word2Vec算法是Google公司推出的一個(gè)自然語(yǔ)言處理工具,它能夠?qū)⒁粋€(gè)一個(gè)的單詞轉(zhuǎn)化為向量,這樣就讓詞與詞之間形成定量的去度量他們之間的關(guān)系,從而達(dá)到挖掘詞語(yǔ)之間的聯(lián)系。本文就使用Word2Vec中的CBOW神經(jīng)網(wǎng)絡(luò)模型來(lái)訓(xùn)練以得到合適的詞向量。

3.1 CBOW 模型

(1)輸入層:因?yàn)樯舷挛膯卧~采用的One-Hot編碼來(lái)記錄詞向量,V為詞庫(kù)的單詞個(gè)數(shù),C為上下文的單詞個(gè)數(shù)。假設(shè)上下文的單詞個(gè)數(shù)C=i,那么模型的輸入就是i個(gè)單詞由One-Hot編碼的詞向量。

(2)開(kāi)始初始化權(quán)重矩陣WV×N,使用輸入的One-Hot編碼詞向量乘上該矩陣,所得到向量w1,w2,…,wc,維數(shù)為N。不過(guò)這里的維數(shù)N根據(jù)任務(wù)根據(jù)自己需要設(shè)置。

(3)然后將所得的權(quán)重向量w1,w2,…,wc相加,求得平均數(shù)作為隱藏層的向量h。

(4)上述操作結(jié)束后,就可以初始化另一權(quán)重矩陣W’MxV,將隱藏層向量h乘上W’MxV,再通過(guò)激活函數(shù)的處理得到向量y,維數(shù)為V,向量y中每一個(gè)數(shù)據(jù)代表每個(gè)單詞的概率分布。

(5)向量y中概率最大的概率分布的單詞輸出為預(yù)測(cè)出的中間詞,與真標(biāo)簽的One-Hot編碼的詞向量相互比較,他們之間的誤差越小越好,然后再根據(jù)誤差來(lái)更新兩個(gè)權(quán)重矩陣以達(dá)到權(quán)重更新。

CBOW在訓(xùn)練前需要先定義好交叉熵代價(jià)函數(shù),權(quán)重更新采用梯度下降算法。模型訓(xùn)練完畢后,在輸入層的每個(gè)單詞和輸入層的向量矩陣W相乘得到的數(shù)據(jù)也就是詞向量,因?yàn)樵贠ne-Hot編碼的詞向量中為1元素,只有一個(gè),剩下的都為0,所以會(huì)出現(xiàn)矩陣W乘上第i個(gè)詞向量得到矩陣的第i行,有了該矩陣就可以丟棄模型訓(xùn)練的過(guò)程,直接通過(guò)查表而得到單詞的詞向量。

圖2 CBOW模型原理

3.2 LSTM 算法

LSTM是深度學(xué)習(xí)中一種特定的RNN形式。LSTM的優(yōu)勢(shì)在于增加遺忘門(mén)限,輸入門(mén)限與輸出門(mén)限,從而讓自己具有變化的循環(huán)權(quán)重,這就會(huì)在有參數(shù)固定的情況下,即使在不同時(shí)刻,積分尺度依然可以隨之動(dòng)態(tài)改變,這就解決了梯度膨脹或者梯度消失等問(wèn)題。根據(jù)LSTM網(wǎng)絡(luò)的結(jié)構(gòu),每個(gè)LSTM單元的計(jì)算公式如下所示,其中Ft表示遺忘門(mén)限,It表示輸入門(mén)限,Ct表示前一時(shí)刻cell狀態(tài)、Ct表示cell狀態(tài)(這里就是循環(huán)發(fā)生的地方),Ot表示輸出門(mén)限,Ht表示當(dāng)前單元的輸出,Ht-1表示前一時(shí)刻單元的輸出。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

(1)LIAR數(shù)據(jù)集[9]是用于偽造新聞檢測(cè)的最新基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集由PolitiFact收集了12,836個(gè)現(xiàn)實(shí)世界的短信息,來(lái)自包括辯論、競(jìng)選、Facebook、Twit?ter、訪(fǎng)談、廣告等各種場(chǎng)合。每個(gè)語(yǔ)句都標(biāo)有真實(shí)性的大小。有關(guān)主題的信息、派對(duì)、背景和演講者也在內(nèi)在此數(shù)據(jù)集中。

(2)Vlachos是第一個(gè)研究的人PolitiFact數(shù)據(jù)[10],但LIAR數(shù)據(jù)集的數(shù)量級(jí)更大更全面。但是,請(qǐng)注意該原始LIAR數(shù)據(jù)集不包括編輯的理由或版權(quán)證明問(wèn)題,用戶(hù)將需要獲取理由/證據(jù)分別使用API。

本文用到的數(shù)據(jù)集即為上述兩個(gè)數(shù)據(jù)集的混合,整個(gè)數(shù)據(jù)集上應(yīng)用了10倍的交叉驗(yàn)證,并對(duì)數(shù)據(jù)集中缺失的信息進(jìn)行了填充,以便在不同的場(chǎng)合下信息,而保持特征向量的統(tǒng)一,以便后續(xù)分析及處理。

4.2 實(shí)驗(yàn)設(shè)置

為了模擬出現(xiàn)實(shí)生活中的網(wǎng)絡(luò)輿情的爆發(fā),我們進(jìn)行了5倍的交叉驗(yàn)證。在每次運(yùn)行中,我們使用四分之三的數(shù)據(jù)集來(lái)訓(xùn)練我們的模型以及基線(xiàn)分類(lèi)器。然后使用剩余的四分之一的數(shù)據(jù)集來(lái)評(píng)估這些分類(lèi)器在精度、召回和F1方面的性能。此外,為了確保訓(xùn)練結(jié)果的穩(wěn)定性,并對(duì)分類(lèi)進(jìn)行更穩(wěn)健的估計(jì)。對(duì)于我們的深度學(xué)習(xí)模型,我們對(duì)每個(gè)模型配置重復(fù)了5倍交叉驗(yàn)證的每一次運(yùn)行五次。

基線(xiàn)分類(lèi)器:本文不僅通過(guò)對(duì)比K-means、SVM與樸素貝葉斯等幾種傳統(tǒng)的機(jī)器學(xué)習(xí)方法,還對(duì)比了在網(wǎng)絡(luò)輿情方面先進(jìn)的監(jiān)測(cè)技術(shù)。DTR:一種基于決策規(guī)則的識(shí)別趨勢(shì)謠言的排序方法,它搜索有爭(zhēng)議的事實(shí)索賠的查詢(xún)短語(yǔ)和聚類(lèi),并對(duì)聚類(lèi)結(jié)果進(jìn)行排序關(guān)于統(tǒng)計(jì)特征的SED。SVM-RBF:基于SVM的Twitter信息可信度模型,該模型具有RBF內(nèi)核的模型,使用了基于帖子總體統(tǒng)計(jì)的手工制作的特性。

4.3 結(jié)果分析

表1分別有準(zhǔn)確度、F1值、召回率的平均分?jǐn)?shù),數(shù)字越大,代表模型效果越好,分別在同樣的數(shù)據(jù)集對(duì)比了不同基線(xiàn)模型得出的分?jǐn)?shù)。

表1 不同方法各個(gè)評(píng)價(jià)值

實(shí)驗(yàn)結(jié)果表明,在所有基線(xiàn)分類(lèi)器中,DTC在較其他傳統(tǒng)機(jī)器學(xué)習(xí)在準(zhǔn)確率方面表現(xiàn)較好,而條件隨機(jī)字段(SVM-RBF)在精確度方面表現(xiàn)較好。這和使用該方法的論文結(jié)果一致。從表1可以看出,我們提出的方法明顯在精度、F1值等評(píng)價(jià)指標(biāo)下得出的數(shù)據(jù)都優(yōu)于本數(shù)據(jù)集上的同時(shí)訓(xùn)練的所有基線(xiàn),它實(shí)現(xiàn)了高召回率,能更好地實(shí)現(xiàn)網(wǎng)絡(luò)輿情的監(jiān)測(cè),更加實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè)效果。

5 結(jié)語(yǔ)

我們提出了一種基于CBOW詞向量化,LSTM的深度學(xué)習(xí)算法的新方法來(lái)監(jiān)測(cè)網(wǎng)絡(luò)輿情,使用了liar這種包含各個(gè)場(chǎng)景的信息,并且在數(shù)據(jù)集里面還包含標(biāo)簽,鏈接等額外信息用于輔助判斷輿情的發(fā)展。在模型訓(xùn)練的每個(gè)時(shí)間步驟中,LSTM的上時(shí)間段的輸出被用作下一時(shí)間段的輸入,具有時(shí)效性,能看清輿情的發(fā)展受時(shí)間影響的大小。

這項(xiàng)研究還表明在深度學(xué)習(xí)訓(xùn)練的模型中,RNN和CNN往往都需要更大的數(shù)據(jù)集,雖然本文訓(xùn)練較其他方法有較好的效果,但是效果并沒(méi)有達(dá)到理想狀態(tài)。在某些情況下,需要更多層的神經(jīng)網(wǎng)絡(luò)來(lái)有效地訓(xùn)練它們的模型,從而提高模型性能的魯棒性。

猜你喜歡
單詞信息模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
單詞連一連
看圖填單詞
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會(huì)信息
最難的單詞
單詞拾趣
主站蜘蛛池模板: 幺女国产一级毛片| 欧美特级AAAAAA视频免费观看| 久久久久无码精品| 一级黄色片网| 国产成人狂喷潮在线观看2345| 国产精品熟女亚洲AV麻豆| 亚洲综合18p| 成人免费午间影院在线观看| 国产成人综合亚洲欧美在| 强乱中文字幕在线播放不卡| 亚洲av日韩综合一区尤物| 亚洲男人的天堂在线| 欧美成人二区| 亚洲福利片无码最新在线播放| 澳门av无码| 91午夜福利在线观看| 日韩AV无码免费一二三区| 欲色天天综合网| 亚洲精品777| 久久99久久无码毛片一区二区 | 久久综合伊人 六十路| 久久一本精品久久久ー99| 久久免费精品琪琪| 久久久无码人妻精品无码| 亚洲欧美激情小说另类| 日韩一区二区三免费高清| 99爱在线| 欧美精品成人| 毛片基地视频| 国产精品亚洲αv天堂无码| 福利姬国产精品一区在线| 国产精品亚洲αv天堂无码| 亚洲最大看欧美片网站地址| 亚洲欧美在线综合一区二区三区| 91精品免费高清在线| 中文无码毛片又爽又刺激| 成人福利视频网| 日本欧美中文字幕精品亚洲| 中文字幕天无码久久精品视频免费| www.国产福利| 激情综合网激情综合| 色播五月婷婷| 在线va视频| 日韩a级片视频| 小13箩利洗澡无码视频免费网站| 国产精品亚洲а∨天堂免下载| 欧美专区在线观看| 日本91在线| 亚洲国产精品不卡在线| 欧美一区二区三区欧美日韩亚洲| 麻豆精品在线| 亚洲一区二区日韩欧美gif| 青青草综合网| 97免费在线观看视频| 婷婷六月色| 美女啪啪无遮挡| 91久久青青草原精品国产| 97精品国产高清久久久久蜜芽| 国产亚洲欧美另类一区二区| 成人综合久久综合| 免费A级毛片无码免费视频| 91亚洲国产视频| 制服丝袜一区| 香蕉色综合| 天堂av综合网| 精品一区二区三区自慰喷水| 激情视频综合网| 国产国产人成免费视频77777 | 日本一区二区三区精品视频| 欧美亚洲一二三区| 青青草原国产av福利网站| 在线观看国产一区二区三区99| 五月婷婷综合网| 毛片久久网站小视频| 精品国产免费观看| 在线另类稀缺国产呦| 国产精品性| 亚洲男人天堂久久| 免费欧美一级| 欧美第一页在线| 亚洲一区二区视频在线观看| 狠狠色丁婷婷综合久久|