999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理與智能語義識別的輿情監(jiān)測預(yù)警模型研究

2022-09-14 08:20:06張君第
電子設(shè)計工程 2022年17期
關(guān)鍵詞:分類文本模型

張君第

(陜西鐵路工程職業(yè)技術(shù)學(xué)院,陜西渭南 714000)

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶數(shù)量與日俱增。互聯(lián)網(wǎng)規(guī)模增長的一個重要體現(xiàn)就是社交媒體平臺的增加,互聯(lián)網(wǎng)用戶通過社交媒體平臺發(fā)表自身對某新聞的看法已成為常態(tài),而社交媒體也已成為當(dāng)前最為重要的輿情采集平臺。輿情指的是用戶對另外的人、事件或者物體所持有的態(tài)度、看法和意見[1-2]。

高校學(xué)生為互聯(lián)網(wǎng)用戶的主力,學(xué)生群體活躍度較高,上網(wǎng)時間也更長。高校輿情數(shù)據(jù)具有海量性和突發(fā)性兩大特征,同時,由于部分學(xué)生年齡偏小,心智尚未成熟,而不良信息通常會通過極端主義或者道德綁架等形式散播[3],學(xué)生極易被謠言輿情煽動,更有甚者會受到不良意識形態(tài)的影響走向歧途,這會對學(xué)生的管理和學(xué)校的形象造成負(fù)面影響。因此高校需建立輿情監(jiān)測系統(tǒng)和輿情預(yù)警系統(tǒng),及時發(fā)現(xiàn)偽輿情,并進(jìn)行必要的辟謠和疏導(dǎo),對高校意識形態(tài)的建設(shè)具有重要作用。

1 網(wǎng)絡(luò)輿情分析研究

網(wǎng)絡(luò)輿情的分析是社會各界密切關(guān)注的問題之一。網(wǎng)絡(luò)輿情分析主要是對輿情文本的情感進(jìn)行分析,分析時需要對輿情數(shù)據(jù)進(jìn)行數(shù)學(xué)計算,通過一定的數(shù)值來判斷輿情真?zhèn)巍?/p>

目前常見的輿情分析方法有3 種:

1)傳統(tǒng)方法。傳統(tǒng)的網(wǎng)絡(luò)輿情分析方法依靠人工檢測,大部分算法均是主觀算法,例如文獻(xiàn)[4]中提到的層次分析算法,該算法使用主觀權(quán)重因子對輿情的真?zhèn)芜M(jìn)行分辨,費時費力,僅適用于數(shù)據(jù)量較少的情形。

2)統(tǒng)計學(xué)方法。常見的統(tǒng)計算法為意見領(lǐng)袖模型[5-6],實際為馬爾科夫過程模型。其在所有輿情評論中尋找出影響力最高的用戶,將其權(quán)重調(diào)高,再對所有用戶分類,從而實現(xiàn)輿情的監(jiān)測和預(yù)警。

3)深度學(xué)習(xí)方法。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,互聯(lián)網(wǎng)的海量數(shù)據(jù)已經(jīng)實現(xiàn)了機(jī)器自動化訓(xùn)練,而無需人工干預(yù)。如文獻(xiàn)[7]中構(gòu)建的SVM 模型,使用基于詞向量的神經(jīng)網(wǎng)絡(luò)模型對Twitter 輿情進(jìn)行分析和判斷。

由此看出,傳統(tǒng)方法費時費力且準(zhǔn)確性較低,統(tǒng)計學(xué)方法準(zhǔn)確性較前者有所提高,但無法處理目前的海量數(shù)據(jù)。而深度學(xué)習(xí)方法可對海量的數(shù)據(jù)進(jìn)行訓(xùn)練,更無需人工干預(yù),其準(zhǔn)確性高。因此,該文使用深度學(xué)習(xí)的相關(guān)算法進(jìn)行輿情模型的構(gòu)建。

2 網(wǎng)絡(luò)輿情監(jiān)測預(yù)警模型設(shè)計

2.1 模型總體框架

該文構(gòu)建的網(wǎng)絡(luò)輿情監(jiān)測預(yù)警模型如圖1 所示。整個模型分為3 個模塊:數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析。數(shù)據(jù)爬取模塊使用數(shù)據(jù)爬蟲腳本,對指定網(wǎng)頁的內(nèi)容按照需求進(jìn)行爬取,然后存儲到某文件中供后續(xù)使用;隨后使用預(yù)處理模塊對數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理部分使用詞向量化算法對抓取到的內(nèi)容進(jìn)行歸一化處理,主要是去重和去噪,以保證計算機(jī)可以識別到文本向量;接著將處理好的數(shù)據(jù)文件傳輸至模型分析模塊,使用語義關(guān)聯(lián)特征算法對文本內(nèi)容進(jìn)行分析,并送入至RBF 神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,再對輿情的真?zhèn)芜M(jìn)行判斷;最終,輸出判斷結(jié)果并預(yù)警。

圖1 網(wǎng)絡(luò)輿情監(jiān)測預(yù)警模型

2.2 數(shù)據(jù)爬取模塊

數(shù)據(jù)爬蟲種類繁多,但大部分爬蟲的功能是按照一定的規(guī)則對互聯(lián)網(wǎng)的網(wǎng)頁信息進(jìn)行自動探測,高效率的數(shù)據(jù)爬蟲可以有效地采集目標(biāo)消息。

該文使用的數(shù)據(jù)爬蟲基于Scrapy 框架,由該框架搭建的爬蟲使用Python 語言編寫,可以快速地根據(jù)用戶需求進(jìn)行網(wǎng)站數(shù)據(jù)遍歷。其與傳統(tǒng)爬蟲程序不同的是,Scrapy 爬蟲還可對網(wǎng)站的API 數(shù)據(jù)接口進(jìn)行爬取,從而大幅提高爬取信息的速度[8-10]。

基于Scrapy 框架的爬蟲結(jié)構(gòu)包括爬蟲腳本主體、爬蟲引擎、調(diào)度插件、下載模塊、爬蟲中間件和管道。爬蟲腳本主體的目標(biāo)就是URL 地址,爬蟲將目標(biāo)URL 地址的內(nèi)容送入管道中進(jìn)行存儲;爬蟲引擎負(fù)責(zé)內(nèi)容數(shù)據(jù)在所有模塊中傳遞;調(diào)度插件是將引擎所需的資源請求進(jìn)行調(diào)度;下載模塊受爬蟲腳本的控制,當(dāng)爬蟲需要下載網(wǎng)頁內(nèi)容時,會調(diào)用下載器進(jìn)行下載。

2.3 數(shù)據(jù)預(yù)處理模塊

數(shù)據(jù)預(yù)處理模塊分為3 個部分,分別為數(shù)據(jù)分類模塊、文本分詞模塊以及文本過濾模塊。

數(shù)據(jù)分類模塊即對采集得來的數(shù)據(jù)進(jìn)行標(biāo)注,例如負(fù)面評論標(biāo)注a、中性評論標(biāo)注b、正面評論標(biāo)注c,這種分類數(shù)據(jù)作為驗證數(shù)據(jù)集使用;文本分詞模塊可以使用中文分詞腳本,該文使用Jieba 第三方分詞工具,該工具基于Python 語言開發(fā),可以將文本進(jìn)行準(zhǔn)確的切分。此外,Jieba 有多種模式,文中使用Jieba.lcut 方法,該方法中的cut 和HMM 參數(shù)使用默認(rèn)值。

2.4 數(shù)據(jù)分析模塊

2.4.1 基于TF-IDF的文本特征提取算法

TF-IDF 算法意為詞頻-逆向文本頻率,該算法中的TF 為詞頻,通常用于對某一詞語在整個文本出現(xiàn)的頻率進(jìn)行衡量。算法中的IDF 為逆文本頻率,即在文本中出現(xiàn)次數(shù)的倒數(shù)。該算法可以表示某一詞語在文本中的重要程度[11-12]。TF 的計算公式如式(1)所示:

式中,TF 即為詞頻,ni,j為第i個詞語在第j個文本中出現(xiàn)的次數(shù),分母為第j個文本中所有詞匯的個數(shù)。IDF 的計算公式如式(2)所示:

式中,IDF 為逆向文本頻率,nd為所有文本的個數(shù),df(d,wi)為所有文本中包含有特定單詞的文本個數(shù)。最終的TF-IDF 公式如式(3)所示:

由式(3)可知,TF-IDF 傳統(tǒng)算法只考慮了某一特定單詞在文本中出現(xiàn)的頻率,并未考慮單詞所屬類別問題,由此會導(dǎo)致在模型訓(xùn)練時對某一冷門類別有貢獻(xiàn)的單詞丟失。因此還需在TF-IDF 算法中加入統(tǒng)計學(xué)算法,對單詞所屬類別問題進(jìn)行修正。文中加入方差因子,得到改進(jìn)后的算法如下所示:

式中,γi為方差因子,N為文本的特征種類數(shù)目。可以看到,當(dāng)某一特殊單詞在文本中波動時,γi便會發(fā)生變化。因此,加入方差因子的TF-IDF 算法如下所示:

2.4.2 基于徑向基函數(shù)的神經(jīng)網(wǎng)絡(luò)模型

使用神經(jīng)網(wǎng)絡(luò)模型可對文本特征數(shù)據(jù)進(jìn)行訓(xùn)練。徑向基函數(shù)也被稱為RBF,由該函數(shù)組成的神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層以及輸出層[13-14]。RBF 神經(jīng)網(wǎng)絡(luò)模型如圖2 所示。

圖2 RBF神經(jīng)網(wǎng)絡(luò)模型

由圖2 可知,輸入層X為文本數(shù)據(jù),數(shù)據(jù)向量可表示為:

輸出層Y為模型的預(yù)測結(jié)果,可表示為:

隱藏層函數(shù)可定義為:

式中,Ci為隱藏層中的中心向量;m為隱藏層中神經(jīng)元的個數(shù);δi為隱藏層寬度。

由式(8)可知,輸入層神經(jīng)元和中心向量相隔越遠(yuǎn),隱藏層作用函數(shù)的值就越低。同時還可以觀察出,X和R(X)之間的映射關(guān)系屬于非線性的。而輸出層數(shù)據(jù)和R(X)的關(guān)系是線性的,則有:

式中,wkp為輸出向量權(quán)重值。按照權(quán)重值對輸出數(shù)據(jù)進(jìn)行排序,即可得到輿情數(shù)據(jù)的分析結(jié)果。

2.5 評價指標(biāo)

在機(jī)器學(xué)習(xí)領(lǐng)域,常見的模型精度評價指標(biāo)共有3 種,分別為準(zhǔn)確率P、召回率R以及F1值[15-16]。準(zhǔn)確率是指模型輸出結(jié)果中正確數(shù)據(jù)占總數(shù)據(jù)的比例;召回率是指模型輸出結(jié)果中正確數(shù)據(jù)占實際正確數(shù)據(jù)的比例;而F1 值是準(zhǔn)確率和召回率的綜合計算結(jié)果。評價指標(biāo)的公式如下所示:

3 實驗分析

3.1 數(shù)據(jù)處理與環(huán)境配置

首先使用該文設(shè)計的Scrapy 爬蟲對該校學(xué)生在微博、貼吧等社交平臺的發(fā)言進(jìn)行爬取,此次共爬取了20 000 條學(xué)生對于時事熱點的發(fā)言。其中使用16 000 條作為訓(xùn)練樣本集,使用4 000 條作為測試樣本集合。表1 為此次測試的數(shù)據(jù)環(huán)境配置。

表1 數(shù)據(jù)環(huán)境配置

3.2 數(shù)據(jù)分類

對抓取到的數(shù)據(jù)進(jìn)行預(yù)警監(jiān)控,首先需要對數(shù)據(jù)的主題進(jìn)行分類。分類后對句子的情感進(jìn)行判斷,篩選出負(fù)面消息進(jìn)行輿情真假判別。

對句子的主題情感進(jìn)行分類,共篩選出9 個與政治相關(guān)的輿情話題,按照大類共分為國家安全、政府執(zhí)政以及社會穩(wěn)定3 個主題。對上述話題按照一定次序排列,如表2 所示。

表2 部分?jǐn)?shù)據(jù)分類特征

3.3 算法對比分析

首先對模型的分類能力進(jìn)行測試,分類數(shù)據(jù)集合按照表2 的主題進(jìn)行分類。使用訓(xùn)練數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,然后對可行性進(jìn)行驗證。

例如,爬蟲抓取到的輿情發(fā)言為“臺灣是中國不可分割的一部分”、“今年就業(yè)太難”以及“這項政策對學(xué)生是有利的”,將這3 句話以編號T1、T2、T3 進(jìn)行指代。模型的分類結(jié)果如表3 所示。

由表3 可知,該文的神經(jīng)網(wǎng)絡(luò)模型可以對訓(xùn)練集中的句子進(jìn)行恰當(dāng)?shù)膬?nèi)容分類。下面驗證輿論情感判斷的性能,該文使用其他神經(jīng)網(wǎng)絡(luò)模型進(jìn)行相關(guān)指標(biāo)對比,使用到的對比算法為CNN、KNN 和BP神經(jīng)網(wǎng)絡(luò)模型。評價指標(biāo)為準(zhǔn)確率、召回率以及F1值。對比測試結(jié)果如表4 所示。

表3 分類能力驗證

表4 數(shù)據(jù)集測試結(jié)果

由表4 可知,該文模型的準(zhǔn)確率、召回率以及F1值三項指標(biāo)均為最優(yōu)。在F1 值指標(biāo)中,相較其他算法提高0.077、0.246 以及0.038,說明該文算法在輿情敏感話題中有較大優(yōu)勢。

除了對算法準(zhǔn)確率進(jìn)行對比外,還需對算法的運行時間進(jìn)行分析,進(jìn)而得到算法的效率。該文以算法訓(xùn)練樣本所需時間對算法的效率進(jìn)行判斷,文中訓(xùn)練集合共有16 000 條,不同訓(xùn)練樣本數(shù)量的訓(xùn)練時間如表5 所示。

表5 訓(xùn)練時間對比

由表5 可以看出,該文模型在相同樣本數(shù)量下所需要的訓(xùn)練時間最短,說明該算法同時兼具有高效性。因此,該文模型的綜合性能良好,說明所構(gòu)建的輿情預(yù)警模型可以滿足設(shè)計需求。

4 結(jié)束語

高校輿情數(shù)據(jù)具有海量和突發(fā)兩大特點,學(xué)生極易被謠言輿情所煽動,因此針對高校的輿情管理極為重要。該文針對傳統(tǒng)輿情分析方法的不足,基于自然語言技術(shù)和深度學(xué)習(xí)技術(shù)設(shè)計了高校網(wǎng)絡(luò)輿情分析預(yù)警系統(tǒng)。該系統(tǒng)設(shè)計了TF-IDF 文本分類算法,同時還使用RBF 對數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練測試結(jié)果表明,所設(shè)計模型的準(zhǔn)確率和效率指標(biāo)均優(yōu)于其他對比方法。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品国产自在在线在线观看| 在线精品自拍| 伊伊人成亚洲综合人网7777| av在线人妻熟妇| 成人国产精品2021| 91成人免费观看| 曰韩免费无码AV一区二区| www.亚洲一区| 日韩毛片在线播放| 亚洲天堂777| 色哟哟色院91精品网站| 精品国产黑色丝袜高跟鞋| 一本久道久久综合多人| 99这里只有精品在线| 欧美日韩动态图| 四虎精品国产永久在线观看| 天堂在线www网亚洲| 亚洲国产理论片在线播放| 天堂中文在线资源| 人妻中文字幕无码久久一区| 欧美伊人色综合久久天天| 国产女同自拍视频| 久久黄色视频影| 91视频青青草| 亚洲国产综合精品中文第一| 亚洲欧洲日韩综合色天使| 国产va视频| 国产成人喷潮在线观看| 暴力调教一区二区三区| 日韩精品少妇无码受不了| 在线欧美a| 国产一级α片| 99热亚洲精品6码| 二级特黄绝大片免费视频大片| 国产尤物视频在线| 广东一级毛片| 欧美区在线播放| 国产一区二区福利| 中美日韩在线网免费毛片视频| 全午夜免费一级毛片| 精品人妻一区无码视频| AV片亚洲国产男人的天堂| 日韩av电影一区二区三区四区| 国产成人91精品免费网址在线| 蝌蚪国产精品视频第一页| 1024国产在线| 日韩a级片视频| 全免费a级毛片免费看不卡| 日韩天堂在线观看| 99在线视频网站| 欧美午夜视频在线| 欧美性色综合网| 国产导航在线| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产精品制服| 日本欧美视频在线观看| 特级毛片8级毛片免费观看| 亚洲综合色吧| 天天综合网亚洲网站| 亚洲最黄视频| 久久99热66这里只有精品一| 国产欧美日韩另类精彩视频| 在线五月婷婷| 亚洲AV无码乱码在线观看代蜜桃 | 国产乱人伦AV在线A| 国产人成乱码视频免费观看| 东京热av无码电影一区二区| 国产成人久视频免费| 又污又黄又无遮挡网站| 亚洲视屏在线观看| 四虎成人在线视频| 欧美在线观看不卡| 一级毛片免费不卡在线视频| 久久99国产视频| 国产十八禁在线观看免费| 成人一级免费视频| 免费女人18毛片a级毛片视频| 久久精品国产一区二区小说| 制服丝袜一区二区三区在线| 国产探花在线视频| 久久精品人人做人人综合试看| 国产在线专区|