基于自然語言處理與智能語義識別的輿情監(jiān)測預(yù)警模型研究

2022-09-14 08:20:06張君第

電子設(shè)計工程 2022年17期

張君第

（陜西鐵路工程職業(yè)技術(shù)學(xué)院，陜西渭南 714000）

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，用戶數(shù)量與日俱增。互聯(lián)網(wǎng)規(guī)模增長的一個重要體現(xiàn)就是社交媒體平臺的增加，互聯(lián)網(wǎng)用戶通過社交媒體平臺發(fā)表自身對某新聞的看法已成為常態(tài)，而社交媒體也已成為當(dāng)前最為重要的輿情采集平臺。輿情指的是用戶對另外的人、事件或者物體所持有的態(tài)度、看法和意見[1-2]。

高校學(xué)生為互聯(lián)網(wǎng)用戶的主力，學(xué)生群體活躍度較高，上網(wǎng)時間也更長。高校輿情數(shù)據(jù)具有海量性和突發(fā)性兩大特征，同時，由于部分學(xué)生年齡偏小，心智尚未成熟，而不良信息通常會通過極端主義或者道德綁架等形式散播[3]，學(xué)生極易被謠言輿情煽動，更有甚者會受到不良意識形態(tài)的影響走向歧途，這會對學(xué)生的管理和學(xué)校的形象造成負(fù)面影響。因此高校需建立輿情監(jiān)測系統(tǒng)和輿情預(yù)警系統(tǒng)，及時發(fā)現(xiàn)偽輿情，并進(jìn)行必要的辟謠和疏導(dǎo)，對高校意識形態(tài)的建設(shè)具有重要作用。

1 網(wǎng)絡(luò)輿情分析研究

網(wǎng)絡(luò)輿情的分析是社會各界密切關(guān)注的問題之一。網(wǎng)絡(luò)輿情分析主要是對輿情文本的情感進(jìn)行分析，分析時需要對輿情數(shù)據(jù)進(jìn)行數(shù)學(xué)計算，通過一定的數(shù)值來判斷輿情真?zhèn)巍?/p>

目前常見的輿情分析方法有3 種：

1）傳統(tǒng)方法。傳統(tǒng)的網(wǎng)絡(luò)輿情分析方法依靠人工檢測，大部分算法均是主觀算法，例如文獻(xiàn)[4]中提到的層次分析算法，該算法使用主觀權(quán)重因子對輿情的真?zhèn)芜M(jìn)行分辨，費時費力，僅適用于數(shù)據(jù)量較少的情形。

2）統(tǒng)計學(xué)方法。常見的統(tǒng)計算法為意見領(lǐng)袖模型[5-6]，實際為馬爾科夫過程模型。其在所有輿情評論中尋找出影響力最高的用戶，將其權(quán)重調(diào)高，再對所有用戶分類，從而實現(xiàn)輿情的監(jiān)測和預(yù)警。

3）深度學(xué)習(xí)方法。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展，互聯(lián)網(wǎng)的海量數(shù)據(jù)已經(jīng)實現(xiàn)了機(jī)器自動化訓(xùn)練，而無需人工干預(yù)。如文獻(xiàn)[7]中構(gòu)建的SVM 模型，使用基于詞向量的神經(jīng)網(wǎng)絡(luò)模型對Twitter 輿情進(jìn)行分析和判斷。

由此看出，傳統(tǒng)方法費時費力且準(zhǔn)確性較低，統(tǒng)計學(xué)方法準(zhǔn)確性較前者有所提高，但無法處理目前的海量數(shù)據(jù)。而深度學(xué)習(xí)方法可對海量的數(shù)據(jù)進(jìn)行訓(xùn)練，更無需人工干預(yù)，其準(zhǔn)確性高。因此，該文使用深度學(xué)習(xí)的相關(guān)算法進(jìn)行輿情模型的構(gòu)建。

2 網(wǎng)絡(luò)輿情監(jiān)測預(yù)警模型設(shè)計

2.1 模型總體框架

該文構(gòu)建的網(wǎng)絡(luò)輿情監(jiān)測預(yù)警模型如圖1 所示。整個模型分為3 個模塊：數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析。數(shù)據(jù)爬取模塊使用數(shù)據(jù)爬蟲腳本，對指定網(wǎng)頁的內(nèi)容按照需求進(jìn)行爬取，然后存儲到某文件中供后續(xù)使用；隨后使用預(yù)處理模塊對數(shù)據(jù)進(jìn)行預(yù)處理，預(yù)處理部分使用詞向量化算法對抓取到的內(nèi)容進(jìn)行歸一化處理，主要是去重和去噪，以保證計算機(jī)可以識別到文本向量；接著將處理好的數(shù)據(jù)文件傳輸至模型分析模塊，使用語義關(guān)聯(lián)特征算法對文本內(nèi)容進(jìn)行分析，并送入至RBF 神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練，再對輿情的真?zhèn)芜M(jìn)行判斷；最終，輸出判斷結(jié)果并預(yù)警。

圖1 網(wǎng)絡(luò)輿情監(jiān)測預(yù)警模型

2.2 數(shù)據(jù)爬取模塊

數(shù)據(jù)爬蟲種類繁多，但大部分爬蟲的功能是按照一定的規(guī)則對互聯(lián)網(wǎng)的網(wǎng)頁信息進(jìn)行自動探測，高效率的數(shù)據(jù)爬蟲可以有效地采集目標(biāo)消息。

該文使用的數(shù)據(jù)爬蟲基于Scrapy 框架，由該框架搭建的爬蟲使用Python 語言編寫，可以快速地根據(jù)用戶需求進(jìn)行網(wǎng)站數(shù)據(jù)遍歷。其與傳統(tǒng)爬蟲程序不同的是，Scrapy 爬蟲還可對網(wǎng)站的API 數(shù)據(jù)接口進(jìn)行爬取，從而大幅提高爬取信息的速度[8-10]。

基于Scrapy 框架的爬蟲結(jié)構(gòu)包括爬蟲腳本主體、爬蟲引擎、調(diào)度插件、下載模塊、爬蟲中間件和管道。爬蟲腳本主體的目標(biāo)就是URL 地址，爬蟲將目標(biāo)URL 地址的內(nèi)容送入管道中進(jìn)行存儲；爬蟲引擎負(fù)責(zé)內(nèi)容數(shù)據(jù)在所有模塊中傳遞；調(diào)度插件是將引擎所需的資源請求進(jìn)行調(diào)度；下載模塊受爬蟲腳本的控制，當(dāng)爬蟲需要下載網(wǎng)頁內(nèi)容時，會調(diào)用下載器進(jìn)行下載。

2.3 數(shù)據(jù)預(yù)處理模塊

數(shù)據(jù)預(yù)處理模塊分為3 個部分，分別為數(shù)據(jù)分類模塊、文本分詞模塊以及文本過濾模塊。

數(shù)據(jù)分類模塊即對采集得來的數(shù)據(jù)進(jìn)行標(biāo)注，例如負(fù)面評論標(biāo)注a、中性評論標(biāo)注b、正面評論標(biāo)注c，這種分類數(shù)據(jù)作為驗證數(shù)據(jù)集使用；文本分詞模塊可以使用中文分詞腳本，該文使用Jieba 第三方分詞工具，該工具基于Python 語言開發(fā)，可以將文本進(jìn)行準(zhǔn)確的切分。此外，Jieba 有多種模式，文中使用Jieba.lcut 方法，該方法中的cut 和HMM 參數(shù)使用默認(rèn)值。

2.4 數(shù)據(jù)分析模塊

2.4.1 基于TF-IDF的文本特征提取算法

TF-IDF 算法意為詞頻-逆向文本頻率，該算法中的TF 為詞頻，通常用于對某一詞語在整個文本出現(xiàn)的頻率進(jìn)行衡量。算法中的IDF 為逆文本頻率，即在文本中出現(xiàn)次數(shù)的倒數(shù)。該算法可以表示某一詞語在文本中的重要程度[11-12]。TF 的計算公式如式（1）所示：

式中，TF 即為詞頻，ni，j為第i個詞語在第j個文本中出現(xiàn)的次數(shù)，分母為第j個文本中所有詞匯的個數(shù)。IDF 的計算公式如式（2）所示：

式中，IDF 為逆向文本頻率，nd為所有文本的個數(shù)，df(d，wi)為所有文本中包含有特定單詞的文本個數(shù)。最終的TF-IDF 公式如式（3）所示：

由式（3）可知，TF-IDF 傳統(tǒng)算法只考慮了某一特定單詞在文本中出現(xiàn)的頻率，并未考慮單詞所屬類別問題，由此會導(dǎo)致在模型訓(xùn)練時對某一冷門類別有貢獻(xiàn)的單詞丟失。因此還需在TF-IDF 算法中加入統(tǒng)計學(xué)算法，對單詞所屬類別問題進(jìn)行修正。文中加入方差因子，得到改進(jìn)后的算法如下所示：

式中，γi為方差因子，N為文本的特征種類數(shù)目。可以看到，當(dāng)某一特殊單詞在文本中波動時，γi便會發(fā)生變化。因此，加入方差因子的TF-IDF 算法如下所示：

2.4.2 基于徑向基函數(shù)的神經(jīng)網(wǎng)絡(luò)模型

使用神經(jīng)網(wǎng)絡(luò)模型可對文本特征數(shù)據(jù)進(jìn)行訓(xùn)練。徑向基函數(shù)也被稱為RBF，由該函數(shù)組成的神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層以及輸出層[13-14]。RBF 神經(jīng)網(wǎng)絡(luò)模型如圖2 所示。

圖2 RBF神經(jīng)網(wǎng)絡(luò)模型

由圖2 可知，輸入層X為文本數(shù)據(jù)，數(shù)據(jù)向量可表示為：

輸出層Y為模型的預(yù)測結(jié)果，可表示為：

隱藏層函數(shù)可定義為：

式中，Ci為隱藏層中的中心向量；m為隱藏層中神經(jīng)元的個數(shù)；δi為隱藏層寬度。

由式（8）可知，輸入層神經(jīng)元和中心向量相隔越遠(yuǎn)，隱藏層作用函數(shù)的值就越低。同時還可以觀察出，X和R(X)之間的映射關(guān)系屬于非線性的。而輸出層數(shù)據(jù)和R(X)的關(guān)系是線性的，則有：

式中，wkp為輸出向量權(quán)重值。按照權(quán)重值對輸出數(shù)據(jù)進(jìn)行排序，即可得到輿情數(shù)據(jù)的分析結(jié)果。

2.5 評價指標(biāo)

在機(jī)器學(xué)習(xí)領(lǐng)域，常見的模型精度評價指標(biāo)共有3 種，分別為準(zhǔn)確率P、召回率R以及F1值[15-16]。準(zhǔn)確率是指模型輸出結(jié)果中正確數(shù)據(jù)占總數(shù)據(jù)的比例；召回率是指模型輸出結(jié)果中正確數(shù)據(jù)占實際正確數(shù)據(jù)的比例；而F1 值是準(zhǔn)確率和召回率的綜合計算結(jié)果。評價指標(biāo)的公式如下所示：

3 實驗分析

3.1 數(shù)據(jù)處理與環(huán)境配置

首先使用該文設(shè)計的Scrapy 爬蟲對該校學(xué)生在微博、貼吧等社交平臺的發(fā)言進(jìn)行爬取，此次共爬取了20 000 條學(xué)生對于時事熱點的發(fā)言。其中使用16 000 條作為訓(xùn)練樣本集，使用4 000 條作為測試樣本集合。表1 為此次測試的數(shù)據(jù)環(huán)境配置。

表1 數(shù)據(jù)環(huán)境配置

3.2 數(shù)據(jù)分類

對抓取到的數(shù)據(jù)進(jìn)行預(yù)警監(jiān)控，首先需要對數(shù)據(jù)的主題進(jìn)行分類。分類后對句子的情感進(jìn)行判斷，篩選出負(fù)面消息進(jìn)行輿情真假判別。

對句子的主題情感進(jìn)行分類，共篩選出9 個與政治相關(guān)的輿情話題，按照大類共分為國家安全、政府執(zhí)政以及社會穩(wěn)定3 個主題。對上述話題按照一定次序排列，如表2 所示。

表2 部分?jǐn)?shù)據(jù)分類特征

3.3 算法對比分析

首先對模型的分類能力進(jìn)行測試，分類數(shù)據(jù)集合按照表2 的主題進(jìn)行分類。使用訓(xùn)練數(shù)據(jù)集對模型進(jìn)行訓(xùn)練，然后對可行性進(jìn)行驗證。

例如，爬蟲抓取到的輿情發(fā)言為“臺灣是中國不可分割的一部分”、“今年就業(yè)太難”以及“這項政策對學(xué)生是有利的”，將這3 句話以編號T1、T2、T3 進(jìn)行指代。模型的分類結(jié)果如表3 所示。

由表3 可知，該文的神經(jīng)網(wǎng)絡(luò)模型可以對訓(xùn)練集中的句子進(jìn)行恰當(dāng)?shù)膬?nèi)容分類。下面驗證輿論情感判斷的性能，該文使用其他神經(jīng)網(wǎng)絡(luò)模型進(jìn)行相關(guān)指標(biāo)對比，使用到的對比算法為CNN、KNN 和BP神經(jīng)網(wǎng)絡(luò)模型。評價指標(biāo)為準(zhǔn)確率、召回率以及F1值。對比測試結(jié)果如表4 所示。

表3 分類能力驗證

表4 數(shù)據(jù)集測試結(jié)果

由表4 可知，該文模型的準(zhǔn)確率、召回率以及F1值三項指標(biāo)均為最優(yōu)。在F1 值指標(biāo)中，相較其他算法提高0.077、0.246 以及0.038，說明該文算法在輿情敏感話題中有較大優(yōu)勢。

除了對算法準(zhǔn)確率進(jìn)行對比外，還需對算法的運行時間進(jìn)行分析，進(jìn)而得到算法的效率。該文以算法訓(xùn)練樣本所需時間對算法的效率進(jìn)行判斷，文中訓(xùn)練集合共有16 000 條，不同訓(xùn)練樣本數(shù)量的訓(xùn)練時間如表5 所示。

表5 訓(xùn)練時間對比

由表5 可以看出，該文模型在相同樣本數(shù)量下所需要的訓(xùn)練時間最短，說明該算法同時兼具有高效性。因此，該文模型的綜合性能良好，說明所構(gòu)建的輿情預(yù)警模型可以滿足設(shè)計需求。

4 結(jié)束語

高校輿情數(shù)據(jù)具有海量和突發(fā)兩大特點，學(xué)生極易被謠言輿情所煽動，因此針對高校的輿情管理極為重要。該文針對傳統(tǒng)輿情分析方法的不足，基于自然語言技術(shù)和深度學(xué)習(xí)技術(shù)設(shè)計了高校網(wǎng)絡(luò)輿情分析預(yù)警系統(tǒng)。該系統(tǒng)設(shè)計了TF-IDF 文本分類算法，同時還使用RBF 對數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練測試結(jié)果表明，所設(shè)計模型的準(zhǔn)確率和效率指標(biāo)均優(yōu)于其他對比方法。