面向輿情監(jiān)控的智能化自然語言處理算法設(shè)計

2023-11-10 05:42:40羅濤謝鳳祥李光華

電子設(shè)計工程 2023年21期

羅濤，謝鳳祥，李光華

（國能大渡河流域水電開發(fā)有限公司，四川成都 610000）

隨著互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)信息的規(guī)模和數(shù)量均呈現(xiàn)出爆炸式增長，任何輿情信息通過互聯(lián)網(wǎng)均可在短時間內(nèi)大范圍傳播，從而造成嚴(yán)重的輿情風(fēng)暴[1-2]。而企業(yè)針對網(wǎng)絡(luò)輿情進(jìn)行分析，有利于及時獲取網(wǎng)絡(luò)評價、市場動向、品牌形象及廣告效果等關(guān)鍵信息，并為企業(yè)經(jīng)營決策提供重要參考[3-5]。

自然語言處理（Natural Language Processing，NLP）是一種利用人工智能算法對自然語言進(jìn)行分析處理，從而完成目標(biāo)任務(wù)的技術(shù)。其在智能翻譯、語音識別和人機交互等領(lǐng)域的應(yīng)用較為廣泛[6-9]。傳統(tǒng)輿情監(jiān)控基于詞庫統(tǒng)計分析的方法，但其在數(shù)據(jù)爆炸的互聯(lián)網(wǎng)時代，應(yīng)用效果并不理想。因此將自然語言處理技術(shù)應(yīng)用于網(wǎng)絡(luò)輿情分析，以提高分析效率及準(zhǔn)確性，成為一種前沿研究趨勢。針對此，該文開展了自然語言處理技術(shù)在網(wǎng)絡(luò)輿情智能監(jiān)控中的應(yīng)用研究，實現(xiàn)了對網(wǎng)絡(luò)輿情的準(zhǔn)確分析。

1 智能輿情監(jiān)控技術(shù)框架

1.1 總體技術(shù)框架

基于自然語言處理的智能輿情監(jiān)控框架如圖1所示[10]。該框架各層的主要功能如下：1）數(shù)據(jù)源層是輿情監(jiān)控分析的數(shù)據(jù)來源，承載著眾多網(wǎng)絡(luò)輿情信息。2）數(shù)據(jù)采集層則利用智能網(wǎng)絡(luò)爬蟲技術(shù)來實現(xiàn)輿情信息的采集。3）數(shù)據(jù)處理層實現(xiàn)對獲取頁面信息的預(yù)處理。4）輿情分析應(yīng)用層利用深度學(xué)習(xí)算法對預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘分析，并實現(xiàn)分析結(jié)果的應(yīng)用與可視化。

圖1 智能輿情監(jiān)控技術(shù)框架

1.2 網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲是在互聯(lián)網(wǎng)技術(shù)快速發(fā)展、數(shù)據(jù)規(guī)模急劇增加的背景下，所誕生的一種模擬人類閱讀瀏覽習(xí)慣的互聯(lián)網(wǎng)網(wǎng)頁自動獲取技術(shù)[11-13]。該技術(shù)通過不斷循環(huán)訪問URL 列表來實現(xiàn)頁面信息的獲取與存儲，具體的工作流程如圖2 所示。

圖2 網(wǎng)絡(luò)爬蟲流程

文中采用的網(wǎng)絡(luò)爬蟲軟件為Scrapy 引擎爬蟲框架。該引擎是爬取過程中數(shù)據(jù)和信息交換的核心；調(diào)度器負(fù)責(zé)對待訪問URL 列表進(jìn)行管理維護(hù)，并安排訪問任務(wù)順序；下載器根據(jù)來自調(diào)度器的請求從互聯(lián)網(wǎng)上下載相關(guān)信息，且將應(yīng)答返回給引擎；而爬蟲負(fù)責(zé)對獲取的應(yīng)答內(nèi)容進(jìn)行分析處理，根據(jù)項目需求提取數(shù)據(jù)，再提交新的訪問請求；管道則負(fù)責(zé)管理和處理爬蟲項目數(shù)據(jù)。

2 基于NLP的智能輿情監(jiān)控算法設(shè)計

該文提出基于自然語言處理的智能輿情監(jiān)控算法，如圖3 所示。首先利用網(wǎng)絡(luò)爬蟲技術(shù)獲取與輿情相關(guān)的語料集，并進(jìn)行初步的分詞、標(biāo)注等預(yù)處理操作；然后利用CBOW（Continuous Bag-of-Words）詞向量模型實現(xiàn)文本語料的結(jié)構(gòu)轉(zhuǎn)化；最終將其作為多維注意力機制網(wǎng)絡(luò)（Multi-Dimensional Attention Network，MDAN）的輸入，再經(jīng)過特征學(xué)習(xí)實現(xiàn)輿情風(fēng)險等級劃分。

圖3 智能輿情監(jiān)控算法框架

2.1 CBOW詞向量模型

詞向量模型通過智能算法將文本非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為矩陣等結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的詞向量模型采用獨熱表示法（One-Hot Representation），該方法僅能表示詞語在文本中出現(xiàn)的次數(shù)，而無法保留原始文本結(jié)構(gòu)中所蘊含的信息，且高維度向量的表示方式大幅降低了求解速度。CBOW 模型是一種改進(jìn)的分布式文本表示模式，其利用上下文詞語信息預(yù)測目標(biāo)位置詞語的概率分布，故可較為完整地保留上下文語義。因此，CBOW 模型在繁雜文本的挖掘中應(yīng)用廣泛[14]，其模型如圖4 所示。

圖4 CBOW詞向量模型

假設(shè)i為目標(biāo)位置，b為目標(biāo)詞語，集合Z由b的所有可能取值構(gòu)成。則原始文本前后n個詞語，可表示為：

式中，bi+1為目標(biāo)位置的后一個詞語，其余變量定義同理。則輸入文本向量x為：

式中，e(bj)為詞語bj的詞向量。則目標(biāo)詞語b為b′的概率分布如下：

式中，e(b′)是目標(biāo)詞語b為b′時的詞向量。若整個文本庫表示為A，則CBOW 模型的最終優(yōu)化目標(biāo)G為：

2.2 注意力機制

注意力機制是模擬人類大腦在搜尋信息時聚焦重要的部分，而忽略不重要的部分，從而高效完成任務(wù)的模式[15-16]。其應(yīng)用于自然語言處理中可理解為由n個詞語構(gòu)成的輸入x=[x1,x2,…,xn]，在某個查詢?nèi)蝿?wù)r下，索引位置γ=i分配的注意力系數(shù)，具體可表示為：

式中，f(xi,r)為注意力分配函數(shù)。其可表示如下：

式中，U、V和W為可優(yōu)化的網(wǎng)絡(luò)參數(shù)，q為位置參數(shù)。

進(jìn)一步計算輸入文本x的所有分詞向量加權(quán)和，該權(quán)重即為分詞的注意力系數(shù)：

最后將式（7）作為注意力機制的輸出，可以看到對于查詢?nèi)蝿?wù)r而言，越重要的分詞，權(quán)重系數(shù)越大，其對注意力機制的輸出結(jié)果影響也越大。注意力機制可看成是基于信息選擇機制對輸入文本向量x進(jìn)行的一次編碼。

2.3 融合多維注意力機制的算法

融合多維注意力機制的輿情監(jiān)控算法架構(gòu)，如圖5 所示。輸入文本向量x經(jīng)過多維注意力機制計算，可得到前后向的句子特征ξq(x,xj)、ξh(x,xj)，再通過句子特征獲取層及最后Softmax 層得到輿情風(fēng)險等級。

圖5 輿情監(jiān)控算法設(shè)計

該文在注意力計算中引入位置信息，改進(jìn)后的注意力分配函數(shù)為：

式中，λ為偏置參數(shù)，Q為與位置信息相關(guān)的參數(shù)。

將式（8）代入式（5）和式（7）可計算得到ξq(x,xj)、ξh(x,xj)，并進(jìn)行拼接操作。進(jìn)而獲得總分詞特征向量，其規(guī)格為m行2n列，具體公式為：

句子特征獲取層對拼接后的特征矩陣按列求取平均值，以得到句子特征向量：

式中，si為句子特征向量第i個元素值。故句子特征向量為：

最后，利用Softmax 層計算得到輿情風(fēng)險等級：

式中，y為輿情風(fēng)險等級；Ω為整個模型的網(wǎng)絡(luò)參數(shù)集合；W′和b′分別為Softmax 層的連接權(quán)重與偏置。

上述輿情監(jiān)控算法通過語料集B 進(jìn)行學(xué)習(xí)訓(xùn)練，并利用反向傳播算法（Back Propagation，BP）優(yōu)化網(wǎng)絡(luò)參數(shù)Ω，使得以下?lián)p失函數(shù)最小：

2.4 模型評價指標(biāo)

文中采用F1 值評估輿情風(fēng)險監(jiān)控模型的性能：

式中，P和R分別為準(zhǔn)確率與召回率，α是調(diào)制系數(shù)。

3 算例分析

從互聯(lián)網(wǎng)爬取的正負(fù)向文本各一萬條，并按4∶1的比例劃分為訓(xùn)練集與測試集，再將其作為該實驗數(shù)據(jù)集進(jìn)行仿真驗證。

3.1 CBOW模型性能分析

為了使CBOW 模型的準(zhǔn)確率最高，以不同詞向量維數(shù)進(jìn)行訓(xùn)練，得到的準(zhǔn)確率如圖6 所示，當(dāng)詞向量維數(shù)為200 時，CBOW 模型的準(zhǔn)確率最高，達(dá)到了95.6%。因此，該文所有實驗中的詞向量維數(shù)均取為200。

圖6 不同詞向量維數(shù)的準(zhǔn)確率

CBOW 模型與n元模型（N-Gram）、神經(jīng)網(wǎng)絡(luò)語言模型（Neural Network Language Model，NNLM）的性能對比，如表1所示。由表可知，CBOW 模型在處理網(wǎng)絡(luò)輿情文本信息時，具有更高的計算速度與準(zhǔn)確率。

表1 詞向量模型性能對比

3.2 輿情風(fēng)險識別效果分析

將該文所提MDAN 模型與卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）、長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）進(jìn)行對比驗證，結(jié)果如表2 所示。

表2 算法模型性能對比

從表中可以看出，在網(wǎng)絡(luò)輿情風(fēng)險監(jiān)控方面，CNN 及LSTM 模型的性能相差較小，而文中所提MDAN 模型明顯優(yōu)于二者，且輿情風(fēng)險等級識別的準(zhǔn)確率可達(dá)96.5%。

3.3 應(yīng)用效果分析

將所提算法應(yīng)用于某企業(yè)實際網(wǎng)絡(luò)輿情監(jiān)測，連續(xù)30 天內(nèi)的輿情風(fēng)險等級如圖7 所示。由圖可知，在第9 天時輿情風(fēng)險等級提升至第II 級。這是因為該企業(yè)發(fā)布重大決策引起網(wǎng)絡(luò)輿論關(guān)注，故相應(yīng)輿論風(fēng)險等級得以提升[17-19]。隨著關(guān)注度的下降，風(fēng)險等級也逐漸降低，最后恢復(fù)至正常等級，且因該事件引起網(wǎng)絡(luò)的關(guān)注持續(xù)了約1 周時間。

圖7 輿情風(fēng)險等級評價

4 結(jié)束語

該文利用網(wǎng)絡(luò)爬蟲技術(shù)獲取網(wǎng)絡(luò)輿情信息，并提出了一種融合多注意力機制模型實現(xiàn)對輿情信息的分析處理。通過仿真分析表明，所提的CBOW 模型相比于N-Gram 和NNLM 模型在處理網(wǎng)絡(luò)文本方面具有更高的準(zhǔn)確率及更快的計算速度；而所提的MDAN 模型相比于CNN 與LSTM 模型，在輿情風(fēng)險等級預(yù)測上具有更優(yōu)的準(zhǔn)確度；所提智能輿情監(jiān)控算法則在實際應(yīng)用中能夠準(zhǔn)確監(jiān)測輿情事件，并為企業(yè)的及時應(yīng)對處理提供技術(shù)指導(dǎo)。但文中未能實現(xiàn)輿情風(fēng)險的分類，這將在下一步研究中展開。