輿情監(jiān)測(cè)分析系統(tǒng)關(guān)鍵技術(shù)實(shí)現(xiàn)方案

2018-01-09 07:55:11肖卓明

科技與創(chuàng)新 2018年2期

關(guān)鍵詞：可視化文本分析

肖卓明，吳嫻

（南方報(bào)業(yè)傳媒集團(tuán) 南方輿情數(shù)據(jù)研究院，廣東廣州 510601）

輿情監(jiān)測(cè)分析系統(tǒng)關(guān)鍵技術(shù)實(shí)現(xiàn)方案

肖卓明，吳嫻

（南方報(bào)業(yè)傳媒集團(tuán) 南方輿情數(shù)據(jù)研究院，廣東廣州 510601）

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，人們獲取信息和相互交流的渠道與之前相比發(fā)生了根本性的變化。突發(fā)事件比以往更容易傳播，并引起了激烈的討論，進(jìn)而發(fā)展為輿情事件。網(wǎng)絡(luò)輿情的監(jiān)控和分析受到了前所未有的關(guān)注。輿情監(jiān)測(cè)分析系統(tǒng)涉及互聯(lián)網(wǎng)信息采集、海量數(shù)據(jù)分析、可視化展示等，其中，涉及的技術(shù)細(xì)節(jié)較為復(fù)雜，應(yīng)用環(huán)境多變，對(duì)系統(tǒng)的穩(wěn)定性、安全性、可靠性有較高的要求。簡(jiǎn)要分析了輿情監(jiān)測(cè)分析系統(tǒng)中需要使用到的通用關(guān)鍵技術(shù)，以期為日后相關(guān)工作的順利進(jìn)行提供參考。

輿情監(jiān)測(cè)；大數(shù)據(jù)；信息采集；語(yǔ)義識(shí)別

1 概述

穩(wěn)定性、安全性、可靠性有較高的要求。

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，越來(lái)越多的人通過網(wǎng)絡(luò)媒體獲取信息，并通過社交媒體發(fā)表言論，信息傳播的路徑和人們相互交流的渠道與之前有了根本性的變化。一些突發(fā)事件比以往更容易傳播，并會(huì)引起人們激烈的討論，經(jīng)過網(wǎng)絡(luò)發(fā)酵后，成為重要的新聞熱點(diǎn)，甚至可以產(chǎn)生巨大的社會(huì)影響。對(duì)網(wǎng)絡(luò)輿情進(jìn)行適當(dāng)?shù)谋O(jiān)測(cè)和引導(dǎo)，防止突發(fā)事件持續(xù)惡化，已經(jīng)成為當(dāng)前相關(guān)部門面臨的重要挑戰(zhàn)之一。各級(jí)政府希望通過對(duì)互聯(lián)網(wǎng)輿情的有效監(jiān)控和分析，快速發(fā)現(xiàn)相關(guān)的熱點(diǎn)事件，進(jìn)而有效引導(dǎo)網(wǎng)絡(luò)輿論，實(shí)現(xiàn)對(duì)社會(huì)的綜合治理，提高維護(hù)社會(huì)穩(wěn)定的能力。

傳統(tǒng)媒體作為新聞事件的發(fā)現(xiàn)者和傳播者，對(duì)熱點(diǎn)事件有極強(qiáng)的敏感性。又因?yàn)閷?duì)傳播機(jī)制的熟悉，傳統(tǒng)媒體在熱點(diǎn)發(fā)現(xiàn)、輿論引導(dǎo)、輿情處置上有天然的優(yōu)勢(shì)；再加上媒體傳統(tǒng)業(yè)務(wù)的下滑，尋求新的利潤(rùn)增長(zhǎng)點(diǎn)和媒體融合發(fā)展雙動(dòng)力驅(qū)使，越來(lái)越多的傳統(tǒng)媒體開始在新型輿情智庫(kù)上展開探索，以期開辟一條媒體轉(zhuǎn)型的有效路徑。網(wǎng)絡(luò)輿情的監(jiān)控和分析涉及互聯(lián)網(wǎng)信息采集、海量數(shù)據(jù)分析、可視化展示等，其中，涉及的技術(shù)細(xì)節(jié)較為復(fù)雜，應(yīng)用環(huán)境多變，對(duì)系統(tǒng)的

2 輿情監(jiān)測(cè)分析系統(tǒng)總體架構(gòu)

輿情監(jiān)測(cè)分析系統(tǒng)一般由信源層、采集處理層、業(yè)務(wù)處理層和應(yīng)用層組成，每一層包括不同的功能模塊，涉及多種關(guān)鍵技術(shù)。輿情監(jiān)測(cè)分析系統(tǒng)總體架構(gòu)如圖1所示。

2.1 信源層

信源層負(fù)責(zé)解釋和獲取互聯(lián)網(wǎng)原始數(shù)據(jù)，完成對(duì)原始網(wǎng)頁(yè)的數(shù)據(jù)抓取，網(wǎng)頁(yè)抓取是基于HTTP協(xié)議的。信源層的資源包括媒體數(shù)據(jù)、社交網(wǎng)站數(shù)據(jù)、博客數(shù)據(jù)、微博數(shù)據(jù)、微信公眾號(hào)數(shù)據(jù)、新聞客戶端數(shù)據(jù)、視音頻數(shù)據(jù)和搜索引擎數(shù)據(jù)等。信源層的數(shù)據(jù)被獲取后，會(huì)被傳輸?shù)讲杉幚韺舆M(jìn)行進(jìn)一步的存儲(chǔ)、分析和處理。信源層是整個(gè)系統(tǒng)的數(shù)據(jù)來(lái)源，提供大量豐富的原始數(shù)據(jù)。

2.2 采集處理層

信源層獲取到的原始數(shù)據(jù)來(lái)源多樣，格式復(fù)雜，且包含了大量無(wú)用冗余的垃圾信息，并不能被系統(tǒng)直接使用，因此，需要在采集處理層有效處理這些原始數(shù)據(jù)，使之變成系統(tǒng)能夠識(shí)別的數(shù)據(jù)。采集處理層是整個(gè)系統(tǒng)的重要環(huán)節(jié)，為系統(tǒng)提供穩(wěn)定的數(shù)據(jù)支撐。采集處理層主要分為采集架構(gòu)、云存儲(chǔ)體系、數(shù)據(jù)處理中心、采集數(shù)據(jù)庫(kù)、新聞快照庫(kù)、業(yè)務(wù)數(shù)據(jù)庫(kù)和擴(kuò)展信源通道等7個(gè)部分。

2.3 業(yè)務(wù)處理層

業(yè)務(wù)處理層主要建設(shè)分析處理引擎，包括各個(gè)應(yīng)用系統(tǒng)需要建設(shè)的業(yè)務(wù)處理部分，需要進(jìn)行全面的考量和建設(shè)，設(shè)計(jì)出穩(wěn)定的業(yè)務(wù)處理支撐層，并為最上端的應(yīng)用層打下堅(jiān)實(shí)的基礎(chǔ)。

2.4 應(yīng)用層

應(yīng)用層基于業(yè)務(wù)處理層提供的框架、平臺(tái)和工具，訪問各類主題數(shù)據(jù)資源層的數(shù)據(jù)庫(kù)，構(gòu)建面向用戶各環(huán)節(jié)的分析應(yīng)用。應(yīng)用層主要由一系列已經(jīng)封裝好的數(shù)據(jù)服務(wù)組成，整合不同來(lái)源的新聞數(shù)據(jù)，借助平臺(tái)的大數(shù)據(jù)處理和指揮調(diào)度能力，完成一系列的數(shù)據(jù)分析輸出功能，為用戶提供一體化的監(jiān)測(cè)分析服務(wù)。

圖1 輿情監(jiān)測(cè)分析系統(tǒng)總體架構(gòu)

3 輿情監(jiān)測(cè)分析系統(tǒng)關(guān)鍵技術(shù)說(shuō)明

輿情監(jiān)測(cè)分析系統(tǒng)網(wǎng)絡(luò)規(guī)模大，運(yùn)行環(huán)境復(fù)雜，數(shù)據(jù)量龐大，涉及多系統(tǒng)、多數(shù)據(jù)庫(kù)和多應(yīng)用平臺(tái)。互聯(lián)網(wǎng)上采集的數(shù)據(jù)類型多樣，同時(shí)存在垃圾數(shù)據(jù)，海量的數(shù)據(jù)信息需要通過聚類、分類、可視化才能直觀地表現(xiàn)出來(lái)。信息采集、信息處理、信息分析、信息檢索、文本分詞、文本分類聚類、系統(tǒng)的穩(wěn)定性和大數(shù)據(jù)的可讀性，等等，都需要采用特定的關(guān)鍵技術(shù)來(lái)解決實(shí)現(xiàn)。

3.1 如何保證數(shù)據(jù)的全面性和及時(shí)性

輿情監(jiān)測(cè)分析系統(tǒng)的首要特點(diǎn)就是數(shù)據(jù)體量大、數(shù)據(jù)流量高、數(shù)據(jù)類型繁多，因此，海量的互聯(lián)網(wǎng)數(shù)據(jù)采集和處理是整個(gè)系統(tǒng)建設(shè)的基石，互聯(lián)網(wǎng)數(shù)據(jù)的快速、全面采集是決定輿情監(jiān)測(cè)工作成效的最直接因素。只有采集及時(shí)，才能第一時(shí)間捕捉線索苗頭，不漏失重要信息，避免貽誤處理時(shí)機(jī)；只有數(shù)據(jù)全面，才能充分發(fā)揮大數(shù)據(jù)挖掘的優(yōu)勢(shì)，避免不同平臺(tái)的群體差異性帶來(lái)的抽樣偏頗，導(dǎo)致分析結(jié)果出現(xiàn)偏差。

3.2 如何保證系統(tǒng)穩(wěn)定性

當(dāng)系統(tǒng)出錯(cuò)時(shí)，如何才能保證數(shù)據(jù)的完整性和一致性，同時(shí)，互聯(lián)網(wǎng)上的數(shù)據(jù)無(wú)時(shí)無(wú)刻不在更新，如何采用冗余機(jī)制建立備份系統(tǒng)，在系統(tǒng)發(fā)生故障時(shí)保證系統(tǒng)的不間斷運(yùn)行，互聯(lián)網(wǎng)海量信息的采集、處理、展示，對(duì)系統(tǒng)的穩(wěn)定性提出了更高的要求。

3.3 如何解決人機(jī)語(yǔ)義識(shí)別問題

互聯(lián)網(wǎng)上采集的絕大部分?jǐn)?shù)據(jù)都是文本信息，需要對(duì)海量信息進(jìn)行自動(dòng)聚類分析，自動(dòng)根據(jù)信息主體所屬的領(lǐng)域判斷，對(duì)不同語(yǔ)種的內(nèi)容進(jìn)行自動(dòng)轉(zhuǎn)譯后分解，對(duì)主題事件的語(yǔ)義情緒傾向性進(jìn)行分析。這時(shí)，人機(jī)語(yǔ)義的識(shí)別問題就顯得尤為重要。

3.4 如何提高大數(shù)據(jù)的可讀性

輿情大數(shù)據(jù)，絕大部分都是非結(jié)構(gòu)化處理后形成的結(jié)構(gòu)化數(shù)據(jù)，體量達(dá)到PB級(jí)。面對(duì)如此龐大的數(shù)據(jù)，需要進(jìn)行數(shù)據(jù)元素分解，才能在業(yè)務(wù)層面進(jìn)行歸納，進(jìn)而對(duì)數(shù)據(jù)進(jìn)行深入透視，進(jìn)一步滿足日常的研判工作。如何將隱含在大數(shù)據(jù)中的輿情信息通過可被用戶簡(jiǎn)單閱讀和理解的方式表現(xiàn)出來(lái)，是實(shí)現(xiàn)數(shù)據(jù)可閱讀性、可視化不得不考慮的問題。

4 關(guān)鍵技術(shù)的實(shí)現(xiàn)方案

4.1 分布式蜘蛛實(shí)現(xiàn)海量輿情數(shù)據(jù)的抓取

采用分布式多線程并發(fā)指令執(zhí)行體系結(jié)構(gòu)、增量實(shí)時(shí)索引、智能分詞等先進(jìn)技術(shù)，基于爬蟲機(jī)制，對(duì)Web頁(yè)面信息進(jìn)行智能識(shí)別和資源抓取，能夠?qū)崿F(xiàn)網(wǎng)頁(yè)排重、垃圾過濾等預(yù)處理，實(shí)現(xiàn)分頁(yè)內(nèi)容自動(dòng)合并、動(dòng)態(tài)信息增量采集。另外，依托云計(jì)算平臺(tái)，建立有效的采集調(diào)度規(guī)則，采用自適應(yīng)帶寬設(shè)計(jì)，能夠達(dá)到分鐘級(jí)的實(shí)時(shí)采集效率和多個(gè)網(wǎng)站同時(shí)并發(fā)訪問，達(dá)到多點(diǎn)負(fù)載均衡的效果，提高信息抓取的效率和性能。

4.2 多任務(wù)并行處理技術(shù)提高采集并發(fā)性

在做互聯(lián)網(wǎng)數(shù)據(jù)的采集時(shí)，因?yàn)椴杉瘮?shù)據(jù)量大，需要進(jìn)行大量的I/O操作，如果按照常規(guī)串聯(lián)I/O讀取和分析，容易出現(xiàn)任務(wù)死鎖等假死狀況。采用分布式多任務(wù)并行處理技術(shù)，是為了讓一份文件同時(shí)被多臺(tái)機(jī)器或進(jìn)程讀取計(jì)算，將2條或多條指令并行執(zhí)行，同時(shí)處理多個(gè)任務(wù)。這樣做，可以在提高運(yùn)算速率的基礎(chǔ)上保證采集系統(tǒng)的穩(wěn)定性。

4.3 實(shí)時(shí)信息檢索技術(shù)實(shí)現(xiàn)數(shù)據(jù)高效處理

高速度網(wǎng)頁(yè)實(shí)時(shí)增量采集技術(shù)實(shí)現(xiàn)分秒監(jiān)測(cè)網(wǎng)站信息變化動(dòng)態(tài)，同時(shí)，增量實(shí)時(shí)索引技術(shù)保證信息即時(shí)采集即時(shí)檢索，可以采集到最新的網(wǎng)站信息。另外，以先進(jìn)搜索技術(shù)為核心，可實(shí)現(xiàn)亞秒級(jí)的檢索速度和每秒上百次的并發(fā)檢索支持，保證全面快速的響應(yīng)用戶檢索需求。

4.4 集群性能均衡技術(shù)保障采集系統(tǒng)穩(wěn)定性

如何發(fā)揮集群的最大效用，保證集群的整體穩(wěn)定性，是分布式計(jì)算中必須考慮的重要環(huán)節(jié)之一。采用集群性能均衡器技術(shù)，即集群調(diào)度器定時(shí)掃描服務(wù)器節(jié)點(diǎn)性能占用情況、I/O負(fù)荷情況等，并調(diào)用操作系統(tǒng)日志進(jìn)行性能日志審計(jì)，對(duì)異常節(jié)點(diǎn)進(jìn)行告警，將任務(wù)調(diào)度重新進(jìn)行哈希分配，重新平衡各任務(wù)節(jié)點(diǎn)的計(jì)算任務(wù)分配，可以極大地提高系統(tǒng)整體集群的工作效率和穩(wěn)定性。

4.5 Rocchio算法解決涉敏感輿情分類問題

用Rocchio算法可以解決文本分類問題，將一個(gè)類別里的樣本文本各項(xiàng)取個(gè)平均值，可以得到一個(gè)新的向量，可以將其稱之為“質(zhì)心”，而“質(zhì)心”就成了這個(gè)類別最具代表性的向量表示。再有新文本需要判斷的時(shí)候，比較新文本與“質(zhì)心”相似度，就可以確定新文本屬不屬于這個(gè)類別。稍微改進(jìn)一點(diǎn)的Rocchio算法不僅考慮了屬于這個(gè)類別的文本（稱為正樣本），也考慮了不屬于這個(gè)類別的文本數(shù)據(jù)（稱為負(fù)樣本），計(jì)算出來(lái)的質(zhì)心盡量靠近正樣本，盡量遠(yuǎn)離負(fù)樣本。

4.6 樸素貝葉斯算法處理數(shù)據(jù)整合匹配問題

貝葉斯算法解決的是文本屬于某類別的概率。文本屬于某個(gè)類別的概率等于文本中每個(gè)詞屬于該類別的概率的綜合表達(dá)式。而每個(gè)詞屬于該類別的概率又在一定程度上可以用這個(gè)詞在該類別訓(xùn)練文本中出現(xiàn)的次數(shù)（詞頻信息）來(lái)粗略估計(jì)，因而使得整個(gè)計(jì)算過程變得可行。使用樸素貝葉斯算法時(shí)，訓(xùn)練階段的主要任務(wù)就是估計(jì)這些值。

4.7 kNN算法提高情報(bào)數(shù)據(jù)分類精準(zhǔn)性

在kNN算法里，訓(xùn)練樣本代表了類別的準(zhǔn)確信息，而不管樣本是使用什么特征表示的。在給定新文本后，計(jì)算新文本特征向量和訓(xùn)練文本集中各個(gè)文本向量的相似度，得到K篇與該新文本距離最近、最相似的文本，根據(jù)這K篇文本所屬的類別判定新文本所屬的類別。這種判斷方法很好地克服了Rocchio算法中無(wú)法處理線性不可分問題的缺陷，也適用于分類標(biāo)準(zhǔn)隨時(shí)會(huì)變化的需求——只要?jiǎng)h除舊訓(xùn)練文本，添加新訓(xùn)練文本，就改變了分類準(zhǔn)則。

4.8 SVM算法處理輿情線索識(shí)別

SVM訓(xùn)練的本質(zhì)是解決一個(gè)二次規(guī)劃問題（Quadruple Programming，指目標(biāo)函數(shù)為二次函數(shù)，約束條件為線性約束的最優(yōu)化問題），得到的是全局最優(yōu)解，這使它有著其他統(tǒng)計(jì)學(xué)習(xí)技術(shù)難以比擬的優(yōu)越性。SVM分類器的文本分類效果很好，是最好的分類器之一。同時(shí)，使用核函數(shù)將原始的樣本空間向高維空間變換，能夠解決原始樣本線性不可分的問題。

4.9 數(shù)據(jù)可視化技術(shù)提高可讀性

數(shù)據(jù)可視化技術(shù)主要包括5種，分別是標(biāo)準(zhǔn)2D/3D顯示技術(shù)、基于幾何的技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的可視化技術(shù)和面向像素的可視化技術(shù)。運(yùn)用可視化技術(shù)能夠?qū)⑿侣劅岫取⑹录l(fā)展趨勢(shì)、數(shù)據(jù)統(tǒng)計(jì)、傳播路徑、人物關(guān)系等通過圖形顯示出來(lái)，以便人們更加直觀地了解輿情發(fā)展態(tài)勢(shì)。同時(shí)，可以利用多種形式的圖表，包括全國(guó)地圖、曲線趨勢(shì)圖、樹狀圖、餅圖、柱形圖和星狀圖等，基于HTML5技術(shù)展現(xiàn)數(shù)據(jù)分析結(jié)果，呈現(xiàn)出更好的交互能力。

5 結(jié)束語(yǔ)

網(wǎng)絡(luò)輿情監(jiān)測(cè)分析系統(tǒng)具有復(fù)雜性，它涉及大數(shù)據(jù)、云計(jì)算、數(shù)據(jù)挖掘等多個(gè)技術(shù)領(lǐng)域，每一個(gè)技術(shù)細(xì)節(jié)都值得深入研究。本文簡(jiǎn)要分析了輿情監(jiān)測(cè)分析系統(tǒng)中使用到的通用關(guān)鍵技術(shù)，拋磚引玉，以期為同行提供參考。

［1］周寶曜，范承工，劉偉.大數(shù)據(jù)：戰(zhàn)略·技術(shù)·實(shí)踐［M］.北京：電子工業(yè)出版社，2013.

［2］Anand Rajaraman，Jeffrey David Ullman.大數(shù)據(jù)：互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理［M］.北京：人民郵電出版社，2012.

［3］劉毅.網(wǎng)絡(luò)輿情研究概論［M］.天津：天津人民出版社，2007.

［4］馬明建.數(shù)據(jù)采集與處理技術(shù)［M］.西安：西安交通大學(xué)出版社，2005.

TP393.09

10.15913/j.cnki.kjycx.2018.02.016

2095－6835（2018）02－0016－03

肖卓明（1981—），男，主要從事數(shù)據(jù)庫(kù)設(shè)計(jì)、網(wǎng)絡(luò)應(yīng)用方面的研究。吳嫻（1985—），女，主要從事自然語(yǔ)言處理、文本挖掘和模式識(shí)別方面的研究。

白潔〕