吳新勇 邱吉剛 李汶隆

摘要 為解決互聯網輿情轉播速度快、分布廣、不易監測及預警的問題,本文提出了一種基于機器學習的網情監測及預警系統,通過采用自動采集、自然語言處理、數據挖掘等關鍵技術,實現海量網絡輿情的實時監測、態勢感知、專題分析等特殊功能,提供自動預警和輔助決策等智能服務。文章首先對網絡輿情的現狀及行業痛點進行分析;然后逐一介紹了系統的整體架構以及數據采集、挖掘分析及應用服務等核心子系統;最后介紹了該系統在不同領域的應用效果。
【關鍵詞】網情監測 自動采集 自然語言處理機器學習 態勢感知
1 引言
隨著移動互聯網的普及,網民的數量日益龐大,網民發表的信息沒有門檻,且傳播便捷,其形成的輿論力量正深刻改變著中國的思想形態和社會面貌。一些負面網絡信息一旦被網評關注后,呈現圍觀者眾多、轉載傳播速度極快的特點,由此引發的群體性事件、企業聲譽受損等案例層出不窮,網情監測與預警系統已經成為政府及相關行業必備的信息化工具。
國內外已有網情監控系統以監測分析為主,缺乏不同輿情之間的關聯、縱向和演化分析,缺乏線上數據與線下數據的整合研究,缺乏社會輿情事件的溯源、風險評估、預警等方面的系統化研究,很難滿足行業客戶實戰型應用需要。
為此,本文介紹了一種基于機器學習的網情監測及預警系統,采用基于機器學習的自適應數據采集、語義分析、情感分析、溯源等技術,實現互聯網輿情定點采集與離線/實時分析,對網絡媒體中反映的熱點、焦點信息進行自動分類與聚類,并通過直觀、可視化的界面對網絡輿情進行展示,提供及時有效的管理和決策支持手段。
2 系統架構
系統由基礎設施層、數據采集層、數據存儲層、數據分析層、應用服務層及
安全與運維保障體系組成,如圖1所示。
其中,基礎設施層是平臺運行的基礎物理設施,包括網絡設備、安全設備、存儲設備、服務器和容災備份等相關設備。
數據采集層采用定向采集、全向采集等技術實現對互聯網不同媒體類型、不同網頁風格和實現技術網站的按需式、定向式、精確化數據采集。
數據存儲層采用分布式非關系型/關系型數據庫、分布式緩存、分布式搜索引擎等技術以滿足平臺對海量非結構化、結構化數據的高效快速存取。
數據分析層實現對原始采集數據的處理分析,挖掘“輿情價值信息”,為應用服務層提供基礎服務數據。
應用服務層面向各類用戶,提供平臺業務功能,提供統- Web服務接口,支持用戶并發訪問。
3 核心系統設計與實現
整個系統由自動輿情采集子系統、智能輿情分析子系統和輿情服務子系統組成。
3.1 自動輿情采集子系統
自動輿情數據采集子系統采用分布式框架,能夠快速自定義采集數據需要的各個模塊,依據輿情來源的方式采取主動方式和被動方式進行數據爬取,主要由分布式采集器、日志管理和異常數據預警等核心模塊組成。其中采集器負責對互聯網數據進行下載和存儲;日志管理負責存儲和展示采集系統各個階段的日志信懇異常數據預警用于監測采集數據是否正常,數據是否完整可靠,出現異常能夠迅速進行排查和修復。
3.2 智能輿情分析子系統
智能輿情分析子系統以Spring boot作為核心框架,采用NLP自然語言處理包實現基礎的詞法分析、句法分析、語義理解處理流程,結合輿情平臺配置將數據處理后寫入數據庫。
用戶通過瀏覽器訪問實時輿情服務系統,可做相關配置。用戶設置的正/負面詞和預警詞可通過接口通知給智能輿情分析系統,智能輿情分析系統分析Redis中的數據存入到MySQL中,數據再通過搜索優化引擎ElasticSearch提供給用戶所需的功能。
3.3 輿情服務子系統
實時網絡輿情服務系統主要由綜合展示模塊、輿情服務模塊和運維管理模塊三部分組成。其中,展示模塊采用Bootstrap、HTML5、CSS. JavaScript、JQuery. ECharts和AJAX等技術實現了動態輿情展示Web頁面。
綜合輿情服務模塊通過大屏界面為用戶呈現地域輿情動態、輿情預警動態、網絡輿情熱詞、負面輿情、情感趨勢等輿情信息的圖文情況,讓用戶對當前的輿情態勢有直觀的了解。
運維管理模塊實現主題管理、預警管理、網站管理、輿情管理、用戶管理和日志管理等功能。
3.4 基于機器學習的分析處理技術
系統采用業界典型的機器學習模型,重點對主題分析、輿情溯源、情感分析等關鍵技術進行研發和優化。
3.4.1 基于LDA的主題分析
為克服了傳統信息檢索中文檔相似度計算難以及LSA的過度擬合的缺點,系統采用LDA模型,基于貝葉斯概率的非監督機器學習方法,進行主題關鍵詞預處理,自動地從多個文本中抽取隱含的語義主題。系統首先對原始網頁文本進行分詞、去噪、去除停用詞等預處理,放入原始語料庫中;然后,統計原始語料庫中的關鍵詞項,利用LDA生成模型計算“文檔.主題”分布和“主題.關鍵詞”分布;最終從“主題.關鍵詞”分布中提取部分關鍵詞生成主題集,并從“文檔.主題”分布中提取部分主題生成網頁主題列表。
3.4.2 基于多維分析的輿情溯源
系統主要從屬性維度、結構維度、行為維度分析找出輿情的源頭及散布途徑.降低了計算復雜度,提高了溯源準確度。屬性維度計算主要圍繞時間和作者進行分析計算;結構維度主要圍繞內容相似度做分析;行為維度主要圍繞文章是直接轉發行還是隱含式轉發進行分析。
3.4.3 基于樸素貝葉斯訓練器的情感分析
為實現輿情情感分析,首先需要導入情感分析訓練語料(分為正面和負面),然后利用情感分析工具創建樸素貝葉斯訓練器進行訓練,再用訓練好的模型對輸入的文章進行分類,得到正面或者負面的結果。
4 系統應用實踐
本系統已經成功部署應用于公安、政務、教育等行業。在公共安全領域,系統通過爬取微博、微信等社交媒體數據,分析挖掘網情數據的情報價值,為重點人員管控,警情預警預防、網上最陶、案件偵破等提供研判依據,有效提升公安機關反恐防暴、治安防控、偵查破案的能力。在政務領域,系統通過對各部門政務信息發布、解讀、回應、實施、反饋的全流程監測,通過網情分析獲取施政情況反饋及處置建議,幫助政府部門提升治理能力及服務能力。
5 結語
本文介紹了一種基于機器學習的網情監測及預警系統,通過采用自適應采集、自然語言處理等關鍵技術,實現了對海量網絡輿情的實時監測、關聯分析、溯源、風險評估、預警等功能,可廣泛應用于互聯網數據的實時采集、分析研判、預警處理等應用場景。
參考文獻
[1]陳必坤,王日芬等,大數據時代社會輿情分析與決策支持研究的現狀及其發展趨勢[J].情報科學,2016.
[2]李廣建,楊林.大數據視角下的情報研究與情報研究技術[J],圖書與情報,2012.
[3]Blei D M.Probabilistic TopicModels[I].Communications of theACM.2002.
[4]石晶,李萬龍.基于LDA模型的話題詞抽取方法[J].計算機工程,2010.
[5]柯贊,基于動態貝葉斯網絡的輿情預測模型研究[J].統計與決策,2016.
[6]周杰,林琛等.基于機器學習的網絡新聞評論情感分類研究[J].計算機應用,2010.