肖卓明,吳 嫻
(南方報業傳媒集團 南方輿情數據研究院,廣東 廣州 510601)
輿情監測分析系統關鍵技術實現方案
肖卓明,吳 嫻
(南方報業傳媒集團 南方輿情數據研究院,廣東 廣州 510601)
隨著互聯網技術的飛速發展,人們獲取信息和相互交流的渠道與之前相比發生了根本性的變化。突發事件比以往更容易傳播,并引起了激烈的討論,進而發展為輿情事件。網絡輿情的監控和分析受到了前所未有的關注。輿情監測分析系統涉及互聯網信息采集、海量數據分析、可視化展示等,其中,涉及的技術細節較為復雜,應用環境多變,對系統的穩定性、安全性、可靠性有較高的要求。簡要分析了輿情監測分析系統中需要使用到的通用關鍵技術,以期為日后相關工作的順利進行提供參考。
輿情監測;大數據;信息采集;語義識別
穩定性、安全性、可靠性有較高的要求。
隨著互聯網技術的飛速發展,越來越多的人通過網絡媒體獲取信息,并通過社交媒體發表言論,信息傳播的路徑和人們相互交流的渠道與之前有了根本性的變化。一些突發事件比以往更容易傳播,并會引起人們激烈的討論,經過網絡發酵后,成為重要的新聞熱點,甚至可以產生巨大的社會影響。對網絡輿情進行適當的監測和引導,防止突發事件持續惡化,已經成為當前相關部門面臨的重要挑戰之一。各級政府希望通過對互聯網輿情的有效監控和分析,快速發現相關的熱點事件,進而有效引導網絡輿論,實現對社會的綜合治理,提高維護社會穩定的能力。
傳統媒體作為新聞事件的發現者和傳播者,對熱點事件有極強的敏感性。又因為對傳播機制的熟悉,傳統媒體在熱點發現、輿論引導、輿情處置上有天然的優勢;再加上媒體傳統業務的下滑,尋求新的利潤增長點和媒體融合發展雙動力驅使,越來越多的傳統媒體開始在新型輿情智庫上展開探索,以期開辟一條媒體轉型的有效路徑。網絡輿情的監控和分析涉及互聯網信息采集、海量數據分析、可視化展示等,其中,涉及的技術細節較為復雜,應用環境多變,對系統的
輿情監測分析系統一般由信源層、采集處理層、業務處理層和應用層組成,每一層包括不同的功能模塊,涉及多種關鍵技術。輿情監測分析系統總體架構如圖1所示。
信源層負責解釋和獲取互聯網原始數據,完成對原始網頁的數據抓取,網頁抓取是基于HTTP協議的。信源層的資源包括媒體數據、社交網站數據、博客數據、微博數據、微信公眾號數據、新聞客戶端數據、視音頻數據和搜索引擎數據等。信源層的數據被獲取后,會被傳輸到采集處理層進行進一步的存儲、分析和處理。信源層是整個系統的數據來源,提供大量豐富的原始數據。
信源層獲取到的原始數據來源多樣,格式復雜,且包含了大量無用冗余的垃圾信息,并不能被系統直接使用,因此,需要在采集處理層有效處理這些原始數據,使之變成系統能夠識別的數據。采集處理層是整個系統的重要環節,為系統提供穩定的數據支撐。采集處理層主要分為采集架構、云存儲體系、數據處理中心、采集數據庫、新聞快照庫、業務數據庫和擴展信源通道等7個部分。
業務處理層主要建設分析處理引擎,包括各個應用系統需要建設的業務處理部分,需要進行全面的考量和建設,設計出穩定的業務處理支撐層,并為最上端的應用層打下堅實的基礎。
應用層基于業務處理層提供的框架、平臺和工具,訪問各類主題數據資源層的數據庫,構建面向用戶各環節的分析應用。應用層主要由一系列已經封裝好的數據服務組成,整合不同來源的新聞數據,借助平臺的大數據處理和指揮調度能力,完成一系列的數據分析輸出功能,為用戶提供一體化的監測分析服務。

圖1 輿情監測分析系統總體架構
輿情監測分析系統網絡規模大,運行環境復雜,數據量龐大,涉及多系統、多數據庫和多應用平臺?;ヂ摼W上采集的數據類型多樣,同時存在垃圾數據,海量的數據信息需要通過聚類、分類、可視化才能直觀地表現出來。信息采集、信息處理、信息分析、信息檢索、文本分詞、文本分類聚類、系統的穩定性和大數據的可讀性,等等,都需要采用特定的關鍵技術來解決實現。
輿情監測分析系統的首要特點就是數據體量大、數據流量高、數據類型繁多,因此,海量的互聯網數據采集和處理是整個系統建設的基石,互聯網數據的快速、全面采集是決定輿情監測工作成效的最直接因素。只有采集及時,才能第一時間捕捉線索苗頭,不漏失重要信息,避免貽誤處理時機;只有數據全面,才能充分發揮大數據挖掘的優勢,避免不同平臺的群體差異性帶來的抽樣偏頗,導致分析結果出現偏差。
當系統出錯時,如何才能保證數據的完整性和一致性,同時,互聯網上的數據無時無刻不在更新,如何采用冗余機制建立備份系統,在系統發生故障時保證系統的不間斷運行,互聯網海量信息的采集、處理、展示,對系統的穩定性提出了更高的要求。
互聯網上采集的絕大部分數據都是文本信息,需要對海量信息進行自動聚類分析,自動根據信息主體所屬的領域判斷,對不同語種的內容進行自動轉譯后分解,對主題事件的語義情緒傾向性進行分析。這時,人機語義的識別問題就顯得尤為重要。
輿情大數據,絕大部分都是非結構化處理后形成的結構化數據,體量達到PB級。面對如此龐大的數據,需要進行數據元素分解,才能在業務層面進行歸納,進而對數據進行深入透視,進一步滿足日常的研判工作。如何將隱含在大數據中的輿情信息通過可被用戶簡單閱讀和理解的方式表現出來,是實現數據可閱讀性、可視化不得不考慮的問題。
采用分布式多線程并發指令執行體系結構、增量實時索引、智能分詞等先進技術,基于爬蟲機制,對Web頁面信息進行智能識別和資源抓取,能夠實現網頁排重、垃圾過濾等預處理,實現分頁內容自動合并、動態信息增量采集。另外,依托云計算平臺,建立有效的采集調度規則,采用自適應帶寬設計,能夠達到分鐘級的實時采集效率和多個網站同時并發訪問,達到多點負載均衡的效果,提高信息抓取的效率和性能。
在做互聯網數據的采集時,因為采集數據量大,需要進行大量的I/O操作,如果按照常規串聯I/O讀取和分析,容易出現任務死鎖等假死狀況。采用分布式多任務并行處理技術,是為了讓一份文件同時被多臺機器或進程讀取計算,將2條或多條指令并行執行,同時處理多個任務。這樣做,可以在提高運算速率的基礎上保證采集系統的穩定性。
高速度網頁實時增量采集技術實現分秒監測網站信息變化動態,同時,增量實時索引技術保證信息即時采集即時檢索,可以采集到最新的網站信息。另外,以先進搜索技術為核心,可實現亞秒級的檢索速度和每秒上百次的并發檢索支持,保證全面快速的響應用戶檢索需求。
如何發揮集群的最大效用,保證集群的整體穩定性,是分布式計算中必須考慮的重要環節之一。采用集群性能均衡器技術,即集群調度器定時掃描服務器節點性能占用情況、I/O負荷情況等,并調用操作系統日志進行性能日志審計,對異常節點進行告警,將任務調度重新進行哈希分配,重新平衡各任務節點的計算任務分配,可以極大地提高系統整體集群的工作效率和穩定性。
用Rocchio算法可以解決文本分類問題,將一個類別里的樣本文本各項取個平均值,可以得到一個新的向量,可以將其稱之為“質心”,而“質心”就成了這個類別最具代表性的向量表示。再有新文本需要判斷的時候,比較新文本與“質心”相似度,就可以確定新文本屬不屬于這個類別。稍微改進一點的Rocchio算法不僅考慮了屬于這個類別的文本(稱為正樣本),也考慮了不屬于這個類別的文本數據(稱為負樣本),計算出來的質心盡量靠近正樣本,盡量遠離負樣本。
貝葉斯算法解決的是文本屬于某類別的概率。文本屬于某個類別的概率等于文本中每個詞屬于該類別的概率的綜合表達式。而每個詞屬于該類別的概率又在一定程度上可以用這個詞在該類別訓練文本中出現的次數(詞頻信息)來粗略估計,因而使得整個計算過程變得可行。使用樸素貝葉斯算法時,訓練階段的主要任務就是估計這些值。
在kNN算法里,訓練樣本代表了類別的準確信息,而不管樣本是使用什么特征表示的。在給定新文本后,計算新文本特征向量和訓練文本集中各個文本向量的相似度,得到K篇與該新文本距離最近、最相似的文本,根據這K篇文本所屬的類別判定新文本所屬的類別。這種判斷方法很好地克服了Rocchio算法中無法處理線性不可分問題的缺陷,也適用于分類標準隨時會變化的需求——只要刪除舊訓練文本,添加新訓練文本,就改變了分類準則。
SVM訓練的本質是解決一個二次規劃問題(Quadruple Programming,指目標函數為二次函數,約束條件為線性約束的最優化問題),得到的是全局最優解,這使它有著其他統計學習技術難以比擬的優越性。SVM分類器的文本分類效果很好,是最好的分類器之一。同時,使用核函數將原始的樣本空間向高維空間變換,能夠解決原始樣本線性不可分的問題。
數據可視化技術主要包括5種,分別是標準2D/3D顯示技術、基于幾何的技術、基于圖標的技術、基于層次的可視化技術和面向像素的可視化技術。運用可視化技術能夠將新聞熱度、事件發展趨勢、數據統計、傳播路徑、人物關系等通過圖形顯示出來,以便人們更加直觀地了解輿情發展態勢。同時,可以利用多種形式的圖表,包括全國地圖、曲線趨勢圖、樹狀圖、餅圖、柱形圖和星狀圖等,基于HTML5技術展現數據分析結果,呈現出更好的交互能力。
網絡輿情監測分析系統具有復雜性,它涉及大數據、云計算、數據挖掘等多個技術領域,每一個技術細節都值得深入研究。本文簡要分析了輿情監測分析系統中使用到的通用關鍵技術,拋磚引玉,以期為同行提供參考。
[1]周寶曜,范承工,劉偉.大數據:戰略·技術·實踐[M].北京:電子工業出版社,2013.
[2]Anand Rajaraman,Jeffrey David Ullman.大數據:互聯網大規模數據挖掘與分布式處理[M].北京:人民郵電出版社,2012.
[3]劉毅.網絡輿情研究概論[M].天津:天津人民出版社,2007.
[4]馬明建.數據采集與處理技術[M].西安:西安交通大學出版社,2005.
TP393.09
A
10.15913/j.cnki.kjycx.2018.02.016
2095-6835(2018)02-0016-03
肖卓明(1981—),男,主要從事數據庫設計、網絡應用方面的研究。吳嫻(1985—),女,主要從事自然語言處理、文本挖掘和模式識別方面的研究。
白潔〕