曹宜豐
(河海大學商學院,江蘇常州 213000)
網絡輿情主要以網絡為平臺進行信息傳播、討論并產生社會影響。相較于傳統紙媒,網絡媒體是當今的主流,對社會風氣、價值觀、政策法規等都會產生一定影響,因此做好網絡輿情工作至關重要。
文獻[1]基于本體學習方法對網絡輿情分析系統進行設計,從輿情本體出發,提取出其中的關鍵特征和子特征,從概念關系上進行輿情對比分析得到輿情的主要話題,但該方法缺乏數據分析,精準度不高。文獻[2]基于數據挖掘技術對輿情分析系統進行設計,對輿情信息的數據進行挖掘,對大量信息數據進行智能化分析,從中推理歸納出數據特征,但該方法缺乏相關性分析,存在召回率和查準率較低的問題。針對傳統方法的不足,該文設計一個基于演化聚類的網絡輿情數據挖掘系統。
由于互聯網技術的高速發展,傳統的信息檢索技術已無法滿足當前個性化、多樣化的服務需求,綜合目前用戶的普遍需求,網絡信息搜索系統的發展應充分考慮以下方面:
1)精準性。搜索系統要做到精準定位,根據用戶的關鍵詞鎖定用戶真正的搜索需求,真正滿足客戶的信息服務需求。
2)提高召回率。當今社會生活節奏非常快,信息搜索系統要做到及時更新推送實時新聞,吸引用戶關注,增強用戶黏度,提高召回率。
3)提高查全率。系統內的信息應具備真實性、可信性,增強用戶信賴,確保信息的全面性[3-4]。
要實現個性化信息服務需求需要有功能全面的信息檢索系統來支持,系統功能需求主要有以下幾點:
1)個性識別。針對用戶的搜索信息識別其個性偏好,有針對性地對用戶搜索信息進行整理分類,從而挖掘其興趣點,實現個性化信息服務。
2)信息采集。網絡信息數量龐大,需要由搜索范圍廣、檢索速度快、識別能力強的信息采集系統對海量數據進行高效抓取[5-6]。
3)輿情分析。在基于信息采集功能的基礎上對信息進行分類,精準識別關鍵詞,使用戶能夠根據個別詞匯獲取重要的輿情信息。
為了實現個性化搜索需求,系統設計要對用戶的信息進行收集、分析、提取,基于演化聚類設計思路,系統總體設計為垂直化結構,從下至上依次是支撐層、數據層、服務層、功能層[7-8]。
系統總體結構如圖1 所示。

圖1 系統總體結構
1)支撐層。主要包括系統的軟件、硬件,以及信息采集器、傳感器、儲存器和基本網絡資源等。
2)數據層。基于系統網絡條件,包括網絡的覆蓋范圍、網關規則、信息訪問接口、數據庫資源、資源分享平臺等。
3)服務層。服務層主要面向客戶,基于系統主要的軟件應用和數據信息,向用戶提供海量的數據搜索、資源獲取、信息儲存、權限維護等多樣化服務,并針對用戶的搜索偏好向其推薦個性化的服務內容。
4)功能層。是系統運行的主要層面,接收用戶的搜索需求進行分析處理,滿足其服務需求,同時還包括網頁維護、資源控制、信息訪問等多方面運行功能[9-10]。
該文引入演化聚類方法設計挖掘系統,選用演化聚類方法進行優化完善。演化聚類是將輸入數據進行排序,針對數據特征設置閾值,通過多次迭代演化得到目標結果的一種自適應學習演化算法[11-12]。
在輿情信息采集功能的基礎上,采用演化聚類方法優化信息過濾與抓取功能。首先設定輿情信息抓取關鍵詞詞庫,基于系統網頁范圍采用優先抓取策略進行信息過濾。過濾主要考慮關鍵詞和點擊量,基于關鍵詞篩選符合搜索目標的網頁信息,再根據點擊量和搜索歷史選擇更為可靠的信息資源[13-14]。這一過程需要系統運算程序對網站的更新頻率和點擊量進行計算。網絡輿情抓取流程如圖2 所示。

圖2 網絡輿情抓取流程
演化聚類算法主要通過對數據進行編碼,采用適當的演化方案進行演化操作,在對應的概率規則內根據一個或多個目標函數進行優化。
該文主要采取差分進化算法,隨機演化初始向量可表示為:
其中,Xa(n) 為數據算子樣本,a表示算子所屬樣本組序,n表示運算的迭代次數。根據演化結果進行演化運算,隨機抽取三組其他樣本組中的算子,分別計算他們的差再將結果進行求和,得到實驗向量如下:
其中,β為誤差縮放因子。下一步進行演化交叉運算,選擇一個[0,1]之間的隨機參數,與交叉因子進行比較得出差值α,演化出不同維度的目標向量Za(n):
根據式(3)分別進行運算比較,依照演化聚類的基本規則優勝劣汰,進入下一輪演化:
至此,差分進化算法完成了一輪迭代進化,根據運算結果是否符合目標要求決定是否再次重復迭代,直至結果達到預期標準,終止運算。
演化聚類方法能夠很好地預測數據的演化方向,但由于數據漂移和時間問題可能會導致聚類偏差,因此需要完善預警聚類分析功能。
選擇[0,1]之間的任意參數λ作為預警聚類的權重系數,tn表示算子對應的時刻,wn表示該時刻算子數據的誤差范圍,則適值函數Hx(n)可表示為:
至此,糾正了時間偏差對演化聚類的影響,預警聚類分析功能能夠得到相對準確的數據分析結果,能夠滿足輿情挖掘系統對準確度的要求[15-16]。
為了驗證該文提出的基于演化聚類的網絡輿情數據挖掘系統的實際應用效果,設定實驗。同時選用基于本體學習方法的網絡輿情分析系統和基于數據挖掘技術的輿情分析系統進行實驗對比,分別驗證挖掘系統的召回率、查準率和準確率。
召回率計算過程如式(6)所示:
其中,RECALL 表示召回率;TP 表示檢測到且歸類正確的網絡輿情文檔數據;FP 表示檢測到卻歸類錯誤的文檔數據。
查準率計算過程如式(7)所示:
其中,PRECISION 表示查準率;TN 表示檢測錯誤卻被歸類到正確檢測類別的網絡輿情數據信息。
精度(準確率)計算過程如式(8)所示:
其中,ACCURACY 表示得到的輿情信息準確率;FP表示為檢測到且未正確歸類的輿情信息數據。
設定挖掘時間為40 s,分別選用該本文系統和傳統系統進行實驗對比,對比不同指標實驗結果,判定方法的效果。
召回率實驗結果如圖3 所示。

圖3 召回率實驗結果
觀察圖3 可知,該文提出的基于演化聚類網絡輿情數據挖掘系統的挖掘召回率最高,當挖掘時間為5 s 時,召回率就已經達到90%以上,當挖掘時間接近于40 s 時,召回率已經接近100%。數據挖掘技術的挖掘效果相對較好,當挖掘時間接近于40 s 時,召回率已經接近90%,本體學習方法的挖掘效果最差,當挖掘時間為40 s時,挖掘召回率剛剛超過85%。
查準率實驗結果如圖4 所示。

圖4 查準率實驗結果
觀察圖4 可知,在查準率方面,該文提出的方法具有明顯的優勢,傳統方法的查準率始終低于90%,而該文提出的系統查準率最高值達到了99%,具有極高的挖掘能力。
準確率實驗結果如圖5 所示。

圖5 準確率實驗結果
準確率是衡量挖掘效果的重要指標,觀察圖5可知,本體學習方法的挖掘準確率極低,在后期準確率仍然低于80%,無法實現精準挖掘,數據挖掘技術在后期雖然也能接近于90%,但是挖掘效果相對較差,而演化聚類方法的挖掘準確率最高。
綜上所述,該文提出的挖掘系統具有極強的挖掘能力,具有較高的召回率和精度,確保二者都保持在90%以上,從而保證數據挖掘效果。
基于演化聚類方法對網絡輿情數據挖掘系統進行了研究設計,該文方法的主要創新點如下:
1)改進預警聚類分析功能,降低時間偏差對演化聚類的影響,得到相對準確的數據分析結果,以此滿足輿情挖掘系統對準確度的要求。
2)通過演化聚類方法對輿情信息熱點進行挖掘抓取,相比于傳統的網絡輿情獲取方法具有更高的精準性、實時性和可用性,能夠滿足當前對于個性化信息服務的需求。
通過實驗驗證,得出該文所設計系統的應用功能遠優于傳統系統,其有利于推動未來云計算環境中個性化網絡服務的發展創新。