齊鋼雷 潘堅



摘 要:大數據時代,輿情監測和分析越發重要。針對單機爬蟲效率低、可擴展性差、存儲管理困難及信息展示不友好等問題,設計并實現了一套基于Hadoop的航天網絡輿情監測系統,系統首先利用基于MapReduce的分布式網絡爬蟲進行數據抓取,以HDFS作為底層存儲系統,在其上構建基于HBase的分布式數據庫對輿情信息進行統一存儲管理;通過提供定制化查詢功能及相關輔助功能協助輿情分析人員實時監測輿情。測試結果表明,系統可以有效地實現對網絡輿情的監測并實現定制化展示,達到了設計要求。
關鍵詞:輿情監測 數據挖掘 航天 Hadoop
中圖分類號:TP311.52 文獻標識碼:A 文章編號:1674-098X(2017)6(a)-0181-04
Abstract:In the era of large data, public opinion monitoring and analysis is becoming more and more important. Aiming at solving low efficiency for stand-alone reptiles, poor scalability, poor storage management, unfriendly information display and other problems, a set of Hadoop-based space network public opinion monitoring system is designed and implemented. The system first uses the distributed web crawler based on MapReduce to carry out data crawling, and HDFS is used as the underlying storage system to build a distributed database based on HBase. Through the provision of customized query function and related auxiliary functions to assist public opinion analysts to monitor public opinion in real time. The test results showed that the system can effectively realize the monitoring of the network public opinion and realize the customized display, and meet the design requirements.
Key Words:Public opinion monitoring;Data mining;Aerospace;Hadoop
大數據時代,網絡輿情極強的傳播力和影響力越發受到社會各界重視。因此,及時發現和掌握網絡輿情的發展動向,有針對性地提出解決方案、消除負面影響,對政府機關和企事業單位意義重大[1-2]。
針對以上問題,該文設計并實現了一個基于Hadoop的航天網絡輿情監測系統。該系統采用分布并行方式對互聯網信息進行采集[3-4],分析挖掘輿情信息的內在聯系,為政府機關和企事業單位第一時間了解自身相關輿情并進行及時預警、形成輿情分析報告并為領導決策提供智力支持。
1 相關理論研究
1.1 網絡輿情概念
網絡輿情是指民眾通過互聯網圍繞著特定社會事件產生的對事件及領導者所持有的態度、情緒以及意見等的集合。網絡輿情特別是一些負面輿情的形成和傳播通常會十分迅速并且在極短時間內發展到相當大的規模。如果不能對此進行監測和預警,會給涉事主體帶來難以估量的損失。另外隨著大數據時代的到來,如何對海量的輿情信息進行搜集、處理并挖掘信息成了擺在輿情分析人員面前的一個亟待解決的問題[5]。
網絡輿情監測系統的出現為輿情分析人員的分析工作提高了巨大便利,它利用自然語言處理技術以及數據挖掘技術通過對互聯網信息的采集、預處理、分析來滿足用戶對網絡輿情監測的各種需求,并可形成統計性圖表、報告等,使用戶能夠及時發現輿情突發事件,并且第一時間做出針對性反應,進而為高層決策提供支持,是大數據技術在輿情分析領域的典型應用[6]。
1.2 Hadoop
Hadoop可以歸類成一個完整的生態系統,包含從數據存儲到集成、數據處理及數據分析等大量組件,可以使用戶在不了解分布式底層細節的情況下開發分布式程序。HDFS作為Hadoop生態系統的基礎組件可以將海量數據分布到計算機集群之上,實現一次寫入,多次讀取。Hadoop的主要執行框架是MapReduce,它是一個用于分布式并行數據處理的編程模型。HBase是一個構建于HDFS之上的面向列的NoSQL數據庫,提供對海量數據的快速讀寫能力,它利用Zookeeper作為自己的分布式協調工具[7]。利用Hadoop組件可以實現功能強大的大數據支撐平臺。
2 系統的設計與實現
2.1 總體架構設計
該文設計的基于Hadoop的航天網絡輿情監測系統主要包括三個子系統:互聯網信息監控子系統、輿情數據分析子系統和輿情服務子系統。其中輿情數據分析子系統功能結構最為復雜,該文將給出詳細設計說明。
互聯網信息監控子系統的主要工作是抓取互聯網信息,對抓取的互聯網信息進行處理、存儲,為上層分析提供數據支持。系統采用HDFS作為底層數據存儲介質,在其之上構建更高層次的HBase和Hive進行數據管理[8]。輿情數據分析子系統采用分布式編程設計對原始網頁信息進行處理,包括文本預處理、文本聚類、摘要提取和話題發現等。輿情服務子系統為用戶提供功能豐富的輿情信息展示功能,包括多種輿情信息的查看和多種統計輔助工具的使用?;贖adoop的航天網絡輿情監測系統總體架構如圖1所示。
系統總體架構分為四層,分別為展現層、共性服務層、存儲層和數據聚合層。
展現層為用戶提供訪問系統途徑,考慮到輿情信息的保密相關要求,可根據實際情況只設置為輿情分析師操作用的輿情數據操作平臺和為高層領導用的手機APP軟件。該文將采用這種設計方式。
共性服務層提供輿情信息展現所需要的共性服務,包括標引服務、關鍵詞服務、摘要服務、自動分類、聚類服務、自動情感分析、涉事主體識別、敏感信息識別等。
存儲層包括輿情監控數據緩存服務器和輿情分析數據服務器,用于數據的存儲。
數據聚合層通過網絡信息獲取技術獲取輿情資源,并通過排重、去噪、提取、索引、整合等技術手段處理信息并存入數據庫。
2.2 功能設計
該文設計的輿情監測系統是一套可提供輿情監測、輿情分析和輿情服務的軟件系統,系統通過監控國內互聯網獲取輿情數據,并經過自動處理后,提供給輿情分析師再進行更細致的人工處理。系統具體功能結構如圖2所示。
2.3 輿情信息分析子系統
輿情數據分析子系統運行在輿情分析數據服務器上,它包含一系列的智能化語義分析工具、輔助研判評估模型和統計圖表制作工具等,以提高分析人員的工作效率,加強輿情工作的快速反應能力;系統同時提供多種情報簡報、專報的輔助制作功能和輿情數據推送管理功能。下面將對“智能化語義分析工具集”和“輿情分析平臺”做詳細設計和介紹。
2.3.1 智能化語義分析工具集
智能化語義分析工具集融合最新的人工智能、信息檢索、數據挖掘等研究成果,通過信息檢索、提取、處理及信息模塊拼裝技術,以用戶的需求為中心,將數據處理結果結構化的呈現給用戶。
該功能模塊主要實現如下功能。
標引服務:從文本中識別文章標題、作者、來源、發布時間、正文內容等。
關鍵詞服務:從正文里面把跟這篇文章意義最相關的一些詞抽取出來,為確保關鍵詞抽取的維數不至于太高,只選取和航天緊密相關的名詞、動詞。
摘要服務:利用中文分詞技術等自動地從原始文獻中提取能夠全面準確地反映某一文獻中心內容的簡單連貫的短文。
聚類服務:將數據集中的所有數據,按照相似性劃分為多個類別,結合人工研判,得出熱點話題,達到熱點話題發現、實現輿情預警功能。
自動分類:按照事先設定的輿情事件類型,如:貪污腐敗、生活作風、上訪、四風等建立自動分類模型,實現信息的自動分類功能,便于相關話題、事件的后續追蹤。
自動情感分析:識別出信息中蘊含的正負面信息,對文本信息進行情感分析,進而判斷文本的情感正負屬性。
涉事主體識別:按照預設的監控體系,自動識別信息關聯的相關企業、產品、重大項目、人員等。
2.3.2 輿情分析平臺
輿情分析平臺是輿情分析師查看、分析、統計輿情數據的操作平臺,其利用構建的輿情分析數學模型來輔助輿情分析師發現和分析輿情事件,并提供一系列功能支撐輿情分析師對輿情事件做出更準確的判斷,提高工作效率。
該功能模塊主要實現如下功能。
重大事件輿情分析:針對影響力較大的已知事件、提前部署的監控事件設定專用識別模型進行監控和識別分析,實時監測相關動態。
主要企業輿情分析:將集團公司的多級企業與監控的信息進行識別和關聯,選中具體企業名稱,則檢索出和該企業相關的輿情信息。
重點產品輿情分析:針對主要的航天產品如長征火箭、遙感衛星、北斗衛星、彩虹無人機等,設定專用識別模型,實時監測相關的輿情信息,達到分類跟蹤的目的。
重大工程輿情分析:針對航天領域重大工程,如探月工程、載人航天工程、深空探測工程等,分別設定專用識別模型,實時監控相關領域的輿情信息,達到分類跟蹤的目的。
重點人員輿情分析:針對集團公司及下屬各單位的重點人員(領導、總師、重要技術人員等),設定專用識別模型,實時監控相關輿情信息,達到分類跟蹤的目的。
數據統計分析:根據用戶需求建立統計分析模型和搭建圖表表示模型,根據用戶需求分析特定條件下的統計信息,為用戶提供圖表化的統計信息展示。
輿情報告制作:根據相關分析數據自動生成輿情簡報摘要,輔助輿情分析人員撰寫輿情報告。
輿情信息推送:輿情分析人員將第一時間發現的敏感輿情信息通過人工判研推送到手機APP,使輿情分析小組成員及時收到輿情提醒,及時參與討論。
輿情數據分析子系統業務流程圖如圖3所示。
3 系統測試
考慮到系統信息的敏感性,系統設置要求只有當用戶正確輸入用戶名和密碼及驗證碼后才能登錄系統,否則系統提示相關錯誤信息。用戶成功登錄系統后,進入首頁的輿情信息展示頁面。
輿情信息展示頁面展示的是最新抓取到的符合要求的輿情信息,每條輿情信息包括抓取時間、輿情主題、輿情正負面標識、命中的關鍵詞組和輿情信息摘要。輿情分析人員可點擊輿情主題或輿情信息摘要查看詳細信息。當點擊“推送”后,會彈出針對本條輿情信息的推送設置信息,輿情分析師可把該條輿情信息通過手機APP推送給主管領導或輿情分析小組,達到快速商議和溝通目的。
當點擊“任務跟蹤”、“事件跟蹤”、“企業輿情”、“人員輿情”、“產品工程輿情”、“行為特征”、“統計分析”功能選項時,系統則自動從數據庫中按以上查詢條件查詢并顯示,達到按指定條件查詢并顯示的目的。
當點擊“簡報制作編輯”功能選項時,則進入輿情簡報編輯頁面,輿情分析工作人員可選取系統提供的編輯模板來輔助編輯,編輯完畢后可保存為word文檔格式留檔存用。
4 結語
信息時代自媒體等網絡載體成了人們發表言論的“主戰場”,由于自媒體傳播信息有著傳播速度快、影響范圍廣等特點,及時對相關言論進行監測,在發生重要輿情事件時有針對性地提出解決方案、消除負面影響,對涉事主體意義重大。
該文分析了輿情和Hadoop的基本概念,針對輿情監測系統中存在的問題進行了說明,并設計實現了一套基于Hadoop的航天網絡輿情監測系統。系統能全天候對指定網絡資源進行監控,并提供了定制查詢、統計分析及輿情簡報輔助等功能,測試結果表明,系統運行穩定,達到了設計要求。
參考文獻
[1] 張薇.網絡輿情對國家安全影響分析[J].信息工程大學理學院,2016,11(13):244-245.
[2] 李振江.航天網絡輿情監測系統框架研究[J].中國管理信息化,2015,11(13):193-195.
[3] 張小明,李舟軍,巢文涵.基于增量型聚類的自動話題檢測研究[J].軟件學報,2012,23(6):1578-1587.
[4] 劉霽,周亞東,高峰,等.一種基于文本語義的網絡敏感話題識別方法[J].深圳信息職業技術學院學報,2012,9(3):33-37.
[5] 賀靈,蔡易超.數據挖掘中的聚類算法綜述[J].計算機應用研究,2013,24(1):10-13.
[6] 劉宏偉.分布式海量數據存儲檢索系統設計與實現[D].西安電子科技大學,2012.
[7] 陳彥舟,曹金璇.基于Hadoop的微博輿情監控系統[J].計算機系統應用,2013,22(4):18-22.
[8] 鄒鴻程.微博話題檢測與追蹤技術研究[D].鄭州:解放軍信息工程大學,2012.