?
基于Hadoop的網絡輿情監控平臺的研究
史玉珍,單冬紅
(平頂山學院軟件學院,河南平頂山,467002)
摘要:根據信息時代輿情管理的要求,利用云計算的高效的分布式運算能力,本文構建了基于云平臺的網絡輿情監控系統。首先介紹了輿情監控與Hadoop技術,結合輿情監控工作流程,重點闡述了輿情監控系統的架構及關鍵算法的MapReduce實現,最終驗證了基于Hadoop的輿情分析處理的高效性。
關鍵詞:云計算;Hadoop;輿情監控;熱點話題;社會網絡分析
網絡作為信息傳播的載體,因為信息內容多樣,具有實時快捷傳播的特點,已成為當前四大傳播媒體之一。互聯網開放、虛擬的特性讓言論達到了前所未有的活躍程度。網絡傳播中的各類信息,既有積極的、正面的,也有虛假的、反動的不良言論。人們可以隨時運用數字設備將發送信息至網上,部分社會矛盾在網民的關注下,會急劇放大、集聚、引爆,嚴重時可演變成突發公共事件,一旦失去將進一步危害國家安全和社會穩定。因此針對網絡輿論的管理及監控,政府部門需要進行有效的引導和治理,實現對網絡輿情的實時監控,防止事態惡化。
利用當前流行的云計算技術,可開發高性能應用程序,完成海量數據的存儲及高效的數據挖掘。傳統的輿情監控系統需要昂貴工作站或服務器集群,處理海量數據時存在成本高、通信維護困難、系統的擴展性差等弊端,同時需要處理海量數據時存在傳統數據庫難以維護管理的困難,基于此提出采用分布式文件系統和并行云計算進行海量輿情信息處理,設計開發基于Hadoop的輿情監控系統。
1.1輿情監控系統
網絡輿情監測系統主要通過在線收集定位網絡信息,識別有害消息,利用統計分析進行輿情識別發現,然后發布預警公告。該類系統一般具有信息采集、信息預處理和分析與輿情服務三大功能。信息采集部分實現自動抓取數據源(論壇、博客、網站等)上新聞、帖子發布及回復、聊天記錄等信息;通過網頁去重、標準化、關鍵詞篩選、主題分析等工作對信息預處理后進行數據分析評測輿情情況;然后實現輿情趨勢分析、輿情正負面分析和預警等輿情預報服務工作。
1.2Hadoop技術
云計算,將網絡大量不同類型的存儲設備集合起來,對外提供數據存儲和業務訪問的功能。云計算可提供更加彈性、更加安全的存儲,以及更低的成本。當前國內外許多機構開展了關于云計算技術的研究,其中最為著名的是由Apache 開發,基于Google 文件系統設計思想的 Hadoop 開源框架。Hadoop 是當前較為流行的分布式計算框架,它為處理海量數據,充分發揮集群的處理能力以及存儲能力提供了方案。Hadoop平臺基礎架構由三大核心組件組成,分別是MapReduce、HDFS、HBase。
2.1系統總體結構
輿情監控系統共分為五層,具體為分布式存儲層、分布式計算層、數據采集層、輿情分析層及用戶交
互層。基于前兩層的技術支撐,重點實現信息采集、存儲、分析與輿情信息展示模塊。基于Hadoop的網絡輿情監控系統架構設計如下圖1所示。
(1)信息采集模塊是利用云計算技術的Nutch 框架設置網絡爬取設置規則,依據輿情搜索爬取規則對所收集的網站、微信、微博、論壇等 URL 地址分析,建立白名單和黑名單,完成輿情信息的采集。
(2)信息存儲模塊提供對Hadoop 分布式數據(索引庫、HBase 庫、分析庫)的操作接口;主要實現已爬取輿情信息的源數據本地存儲、已經機器學習數據源的 HDFS分布式存儲和分析結果的數據庫存儲。
(3)輿情監控分析模塊利用聚類分析和分類預測處理,根據專家庫中建立的輿情搜索規則及存儲的URL地址,識別發現熱點輿情信息。也可利用對輿情信息的情感偏好分析,標記出信息的情感屬性,統計分析輿情情感歸屬類別,進行詞性(正面、負面、中立)的判斷,然后預測輿情未來的發展形勢及走向趨勢。
(4)輿情信息展示模塊將從輿情數據中分析出的熱點信息、情感偏好及輿情發展態勢,通過形式多樣的圖表形式發布展示到用戶界面。
2.2系統工作流程
輿情監控系統首先是通過數據采集模塊將定向的數據采集到本地;接著將采集回來的原始數據進行清洗加工,即去除垃圾數據并將數據格式規范,建立數據索引;然后根據輿情監控專業需求特點對數據進行分析,包括語義分析、聚類分析、網絡社會關系分析;最后通過客戶端調用數據進行呈現。
3.1輿情信息采集

圖1 輿情監控系統架構圖
將來自于網站、微博、論壇等國內外著名網站的輿情數據,采用網頁抽取技術,可進行關鍵詞采集、語義話題采集,通過關鍵詞管理、URL管理、過濾詞典及分類管理等系統管理配置,進行輿情信息分類管理工作,將數據保存在HBase數據庫中。在采集輿情信息過程中同時進行網頁解析,利用Dom 解析html 和抽取信息;通過分布式爬蟲方法抓取網頁內容,利用多個獲取器和爬蟲器分布運行在多個slaver機器上,在master 機器上進行總調度。
3.2輿情信息存儲
Hadoop平臺上,通過HDFS就能實現文件的讀寫,但為了使數據更清晰、程序更簡便,選擇將數據寫入HBase。完全分布模式下HBase的運行基于HDFS文件系統,HBase處在HDFS和MapReduce的中間,可通過MapReduce實現算法對HBase進行操作,系統將經過預處理的用戶數據上傳到 HBase 分布式數據庫中。
3.3輿情監控分析
輿情監控分析是系統的關鍵模塊, 主要完成最新消息、熱點話題、活躍人物追蹤、熱點區域追蹤、傳播途徑分析、走勢分析、網絡社會關系分析等功能。利用Hadoop框架中的HDFS 分布式文件系統和 Map/Reduce 編程模型進行開發,實現抓取的新輿情信息分類,對熱點話題追蹤,并進行情感偏好分析,預測出輿情發展的趨勢。因篇幅有限,本文僅介紹熱點話題發現、社會網絡分析的MapReduce設計。
為檢驗輿情監控云模型的性能和效率,本文利用3臺CnetOS服務器搭建Hadoop集群,硬件配置為主頻2.93 GHz;內存4GB;500 G 硬盤;1 000 Mbps 網卡。軟件環境為Linux Fedora21;JDK1.7;Hadoop 2.2.0。
4.1實驗數據分析
利用網絡爬取論壇數據集,分別在單機與云計算集群運行,經多次運行并對性能進行分析,得出如下結論如下:當處理數據量較少時,Hadoop的信息處理速度不如單機,因為如果數據量太少,很多時間用于系統的初始化和通信,集群不能發揮自身優勢。當數據量增大時,單機處理時間增長幅度明顯增大,集群優越性顯形發揮。因此在海量數據處理時,隨著數據的增加,以及集群機器數量的增多,Hadoop大數據處理優勢顯而易見。
本文利用Hadoop 分布式存儲和MapReduce 并行計算模對輿情監控平臺研究分析,構建了基于HBase 的輿情信息監控系統,介紹了輿情監控系統設計中關鍵技術及設計過程。通過仿真實驗分析,利用Hadoop可有效地對大規模輿情數據進行分析、預測,提升了大數據運算分析的速度。今后可結合網絡輿情的特點,探索云模型中聚群設置規則,進一步提高輿情識別的精準度。
參考文獻
[1] 賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013,02:69-72.
[2] 陳彥舟,曹金璇.基于Hadoop的微博輿情監控系統[J].計算機系統應用,2013,04:18-22+9.
[3] 洑云龍.云計算平臺下的數據挖掘研究[D].南京郵電大學,2013.
[4] 吳健.基于Hadoop的上市公司輿情挖掘系統的研究與實現[D].電子科技大學,2013.
史玉珍(1975-),女,河南舞陽人,碩士,平頂山學院軟件學院,副教授,研究方向web數據挖掘。
單冬紅(1976-),女,河南鄧州人,碩士,平頂山學院軟件學院,副教授,研究方向數據挖掘。
Research on Monitoring Public Opinio System Based on Hadoop
Shi Yuzhen,Shan Donghong
(College of Software,Pingdingshan University,Pingdingshan Henan,467002)
Abstract:Based on the management of public opinion with the needs of the information age, high performance distributed computing features using cloud computing technology,the construction of network public opinion monitoring system based on cloud platform.This paper firstly introduced the public opinion monitoring and Hadoop technology,according to a public opinion monitoring work flow,constructed the network public opinion monitoring system based on Hadoop framework;focused on the key algorithm of public opinion monitoring system MapReduce implementation.The system is finally verified using experimental platform,the efficiency of Hadoop public opinion analysis processing based on.
Keywords:Cloud computing;Hadoop;Public opinion supervision;Topic;Social network analysis
作者簡介
課題來源:河南省科技攻關項目(KJT142102210226)基于云計算的網絡輿情監控平臺研究,2011年度河南省高等學校青年骨干教師資助計劃資助項目(183) :網絡下犯罪社團的識別與發現研究
中圖分類號:TP393.08
文獻標志碼:A