白黎
(寶雞文理學院 黨政辦公室, 寶雞 721013)
當今社會,互聯網技術發展迅猛,社交媒體對網絡輿情傳播方式產生了很大影響,其中微信、微博、QQ群、論壇是典型的代表,傳統的輿情傳播方式發生了很大變化。不容置疑,互聯網等新興技術的出現和發展徹底改變了人們的生產生活和傳統表達方式。隨著移動寬帶互聯網的普及,特別是未來5G技術的廣泛應用,每天都會有相當多的網絡輿情數據產生并影響著人們的生活。新形勢下迫切需要運用大數據技術構建網絡輿情[1]監督機制,合理引導網絡輿情,打造健康網絡,控制網絡輿情,維護社會穩定。
通過相關研究,分析了大數據背景下網絡輿情所呈現的特征規律[2],探討了大數據技術在網絡輿情監督過程的運用,行測了網絡輿情監督概念模型,并嘗試建立網絡輿情監督系統[3],為提高輿情監督效率,及時解決群眾問題,發揮了重要作用。

圖1 網絡輿情監督過程
基于大數據的網絡輿情監督過程如下:
(1) 數據采集階段
根據有關法律法規,網絡輿情征收部門,組織團隊制定網上輿論收集方式和手段,確定收集的信息來源,收集范圍,主要集中網站,通過遍歷用戶關注的網站列表,抓取網站內容,收集網民,教育和醫療系統,環境污染,重大競爭等提及的關鍵信息,滿足對網絡輿情信息[4]的全面掌握,并根據源文件生成下級URL列表,并將內容捕獲放入集合庫中。采集要有深度和廣度,深度包括按需采集到的新聞評論、轉發數、粉絲數、回帖數,廣度包括監測重點板塊、監測熱門重點網站、擴展輿情廣度等,來源上包括文本采集和音視頻采集等。
(2) 數據分析階段
對于收集的網絡數據,將原始數據發送到文本分析平臺進行分析,可以根據各種指標綜合計算熱點,負面信息和主題分析。語義是由逐個使用規則驅動的。使用句法分析的結果作為語義分析的輸入,交叉比較一些關鍵詞以提取可能是歌詞信息的單詞和事件,將一系列結果存儲到數據庫中。
(3) 輿情監督階段
根據數據的積累以及運用大數據技術對數據進行處理,將輿情分析結果制成輿情監督產品。支持基于云平臺架構的分布式部署支持大規模云監控系統,整理輿論傳播時間、傳播節點,并根據影響程度、影響范圍、熱點信息等級,發生時間等因素進行綜合排序。最后,生成分析報告,幫助相關部門掌握相關輿情信息,控制輿情發展。
(4) 數據服務階段
本階段是相關部門利用分析過后的信息產品做出相關決策,防止輿論危機的發生,及時防止突發事件發生,采取相應對策,遏止不良后果的過程。
根據分析,構建的網絡輿情監督機制概念模型,由以下4個模塊構成,具體內容如圖2所示。

圖2 網絡輿情監督機制概念模型
解釋如下:
(1) 采集模塊
對于指定的網站、微博等,根據人信息的點擊次數進行排序,保存相關內容,記錄真實IP,并索引其他IP地址網絡,進行交叉檢查。對于新聞頁面,微博微信的收集,主要關鍵詞內容等,通過大數據挖掘技術和網絡爬行[5]技術索引到,不斷擴展直到整個互聯網。
(2) 預處理模塊
在對提取的相應信息進行文本排序、整合、清理和轉換之后,將數據存儲在數據庫中,確定輿情信息的類型和等級并根據等級存儲關鍵字,形成統一的格式化信息。
(3) 分析模塊
通過提取文本摘要、聚合類似句子、分析抒情情感、排序敏感度等,分析預處理模塊所獲取信息,分析話題熱度和持有的不同觀點和各自比例,確定關注度和發展趨勢預測,生成輿情事件的相關指標比例,形成輿情分析報告。
(4) 決策支持模塊
通過對網絡輿情信息的監測[5]分析,繼續傳播健康信息,合理解釋或引導不合理信息。提前向有關部門報告可能會引起強烈反應的不合理信息,以便領導做出正確決策。在決策過程中,會考慮到輿情信息的現狀,進一步完善處理輿情調整機制。
建立輿情事件分析模版,搭建動態化、可視化、實時性的輿情監督平臺。 主要包括:
本文基于Nutch開源框架實現信息獲取。如圖3所示。
Nutch有兩個版本可供選擇,1.X版本內容由1.X抓取,直接存儲在HDFS文件系統中,2.X版本需要提前部署HBase數據庫[6],并且已爬網內容存儲在HBase中??紤]到版本和使用要求的不同,本文選擇NutchV2.2.1版本,方便添加標簽和讀取存儲內容。抓取的內容包括網站主頁,微博和論壇。主要步驟如下。
(1) 初始化抓取數據庫
抓取數據庫的初始化過程如下:
(2) 根據爬行數據庫生成預取列表并寫入相應的段;
(3) 根據預取鏈接獲取網頁文件;
(4) 解析獲取的頁面,并更新數據庫;

圖3 采集流程圖
(5) 重復上述步驟,達到指定深度后停止抓取;
(6) 從爬行數據庫中獲取頁面重要性分數,同時更新分段;
(7) 對獲取的頁面進行反轉處理,建立索引數據庫;
(8) 刪除重復的頁面并合并段中的索引;
(9) 生成最終提供系統查詢的索引文件
在HBase中完成信息存儲功能[7]。直接使用HBase自己的ZooKeeper模塊進行分布式管理和協調。ZooKeeper是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要組件。它是一種為分布式應用程序提供一致服務的軟件,具有以下功能:配置維護,組服務,分布式同步,域名服務等。
下一步需要向已爬網頁面添加屬性,將Nutch標記配置為LDA特定標記,使用LDA算法進行聚類分析,并在HBase數據庫中編寫LDA標記。LDA作為一種非監督機器學習技術,可以用來識別大規模文檔集和語料庫中隱含的主題信息[8]。它使用單詞bag方法,將每個文檔視為單詞頻率向量,可以將文本信息轉換為易于建模的數字信息。
根據LDA算法分析輿論信息,這是對概率潛在語義分析(pLSA)的改進。在對語料庫進行訓練之后,pLSA模型將獲得記錄主題和單詞的相關性的矩陣,以及記錄文檔與文檔主題的相關性的主題向量[9]。LDA模型基于pLSA將受試者的先驗分布設置為Dirichlet分布?;谶@些訓練的參數,LDA可以確定新文章的新主題向量,使得每個文檔可以被映射到坐標(主題向量)。
使用LDA算法對新獲取的頁面進行聚類[10],并根據單詞在文檔中出現的概率生成熱詞。輿情監測系統對熱詞數據進行分析,生成包含熱詞最多的文檔的報告,并將報告讀給管理人員,使管理人員及時掌握輿情動態。管理者可以標記對輿論監督有價值的熱詞,形成敏感的詞匯,選定的熱詞成為監控的焦點。在輿情監督系統中,受監控的熱詞也被視為LDA聚類的方向并被指導形成一個主題。輿情監督系統采用主題表達方法自動生成熱門話題,并推薦給網絡管理員進行審核,形成有效,可用的輿情監督機制。
面對網絡輿情的異?,F象,如何智能、科學地處理網絡輿情,是政府輿情決策的重要組成部分,也是把握網絡輿情演變、程度和有效性的必由之路。在此基礎上,設計了基于大數據技術的網絡輿情監督機制模型,并通過理論和實證研究驗證了模型的可行性,最后設計了網絡輿情監督機制模型的系統實現。然而,由于篇幅的限制,本文只解決了機制和宏觀異常監測的一些問題,而復雜環境下的異常監測與預測,需要進一步的研究。