□唐錦源 吳 越 任 亮
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的構(gòu)建能夠幫助政府部門實(shí)時(shí)監(jiān)測輿論話題發(fā)展動向,為可能發(fā)生的熱點(diǎn)話題、敏感話題提供預(yù)警機(jī)制,能夠?yàn)檎{(diào)控網(wǎng)絡(luò)輿論朝良性方向發(fā)展提供充足的時(shí)間。企業(yè)化的網(wǎng)絡(luò)輿情監(jiān)測,能夠有效地了解用戶當(dāng)前感興趣的產(chǎn)品和內(nèi)容,預(yù)測未來一段時(shí)間內(nèi)可能感興趣的產(chǎn)品和內(nèi)容,為企業(yè)推廣策略的制定以及發(fā)展方向的決策提供參考。可見,網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)可以幫助政府和企事業(yè)單位及時(shí)發(fā)現(xiàn)輿情,并在輿情發(fā)展初期應(yīng)對和處理好輿情事件。
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的研究對于社會穩(wěn)定,經(jīng)濟(jì)領(lǐng)域和企業(yè)具有重要意義。截至2017年12月對中國學(xué)術(shù)期刊網(wǎng)CNKI,以“網(wǎng)絡(luò)輿情”為關(guān)鍵詞搜索到相關(guān)文獻(xiàn)8,494條,以“網(wǎng)絡(luò)輿情監(jiān)測”為關(guān)鍵詞搜索到相關(guān)文獻(xiàn)377條,其中涉及到“網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)”的相關(guān)文獻(xiàn)57條。數(shù)據(jù)顯示從2011~2017年,網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)研究的相關(guān)文獻(xiàn)逐年增多,特別是2015年后數(shù)量激增。網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的研究主要涉及到系統(tǒng)架構(gòu)、系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)、系統(tǒng)應(yīng)用的關(guān)鍵技術(shù)。
目前,國內(nèi)外網(wǎng)絡(luò)輿論監(jiān)測系統(tǒng)理論研究主要集中在熱點(diǎn)話題發(fā)現(xiàn)、輿論情感傾向判別和輿論意見領(lǐng)袖識別三個方面。
(一)智能識別熱點(diǎn)話題。熱點(diǎn)話題的智能識別和建模作為網(wǎng)絡(luò)輿情監(jiān)測的基礎(chǔ),實(shí)現(xiàn)了從人工到自動化,從文字表達(dá)到數(shù)字信息的抽象,使得人們可以利用數(shù)學(xué)工具對文檔進(jìn)行話題提取和話題聚類。根據(jù)話題構(gòu)建方法,可分為向量空間模型和概率話題模型兩類。
1.向量空間模型。向量空間模型是TDT中最常使用的話題模型,一般以文檔中的詞語為向量特征,并由TF*IDF方法計(jì)算特征權(quán)重。考慮到話題與事件的關(guān)系,利用事件的時(shí)間、地點(diǎn)和人物所構(gòu)建的基于向量空間的話題模型得到了廣泛關(guān)注。
2.概率話題模型。概率話題模型的思想源于Hofmann在LSI(Latent Semantic Indexing)基礎(chǔ)上提出的pLSI模型(probabilistic Latent Semantic Indexing)。pLSI假設(shè)每個文檔由話題的多項(xiàng)式分布隨機(jī)而成,文檔中每個詞由話題生成,不同話題產(chǎn)生不同的詞。為解決pLSI對參數(shù)求解計(jì)算復(fù)雜、模型過度擬合等問題,Blei提出了LDA(Latent Dirichlet Allocation)模型。LDA模型的參數(shù)不會隨著文集增長而線性增長,有很好的泛化能力,是目前機(jī)器學(xué)習(xí)、信息檢索等領(lǐng)域很常用的模型。
(二)智能識別輿論情感傾向。由于網(wǎng)絡(luò)短文本具有網(wǎng)絡(luò)新詞、表情符號多、噪聲大、情感特征稀疏等特點(diǎn),其情感傾向識別的難度更大。特別是,情感傾向識別不僅要提取喜怒哀樂等情緒情感,還要識別情感所涉及的話題。近年來相繼出現(xiàn)了一些有針對性的研究方法以解決這些問題。
1.針對網(wǎng)絡(luò)新詞、符號層出不窮,普通情感詞典難以識別的問題。Pandarachalil提出一種無度的情感分析方法,該方法利用Senticnet,SentiWordNet和SentilangNet三種情感詞典分析網(wǎng)絡(luò)輿論文本的情感極性,其中SentilangNet情感詞典搜集了微博俚語和縮略詞,該方法對大規(guī)模網(wǎng)絡(luò)文本情感分析具有良好效果。Yamamoto考慮了符號對于文本情感的影響,提出了基于表情符號的微博多維度情感計(jì)算方法。
2.針對網(wǎng)絡(luò)文本短小,特征稀疏的問題。Zhou利用社會關(guān)系信息判斷用戶觀點(diǎn),從而達(dá)到提升準(zhǔn)確率的目的。楊等面對微博短文本特征稀疏和上下文缺失的情況,借由時(shí)間、空間、聯(lián)系等要素挖掘文本間隱含的關(guān)聯(lián)關(guān)系,重構(gòu)文本上下文范疇,以提升情感極性分類的有效性。
3.為實(shí)現(xiàn)話題與情感的同步提取,Tan在潛在狄利克雷分布模型的基礎(chǔ)上,提出了前景和背景LDA模型,用于提取顯著的話題并過濾長期存在的背景話題。Ren提出一種結(jié)合社交網(wǎng)絡(luò)文本和話題文本的矩陣因子分解框架,利用可觀測的微博知識,預(yù)測用戶對某一具體話題的觀點(diǎn)。馬提出一個話題情感混合最大熵LDA模型對網(wǎng)絡(luò)文本進(jìn)行細(xì)粒度觀點(diǎn)挖掘。
(三)智能識別輿論意見領(lǐng)袖。網(wǎng)絡(luò)輿論意見領(lǐng)袖是指在網(wǎng)絡(luò)中對其他人產(chǎn)生影響的個體。根據(jù)分析數(shù)據(jù)對象的不同,網(wǎng)絡(luò)輿論意見領(lǐng)袖識別方法大致可以分為基于網(wǎng)絡(luò)結(jié)構(gòu)的方法、基于交互信息的方法和基于綜合特征的方法。
1.社交網(wǎng)絡(luò)結(jié)構(gòu)能在很大程度上反映某個節(jié)點(diǎn)在網(wǎng)絡(luò)中所處位置的重要程度。如果用戶在社交網(wǎng)絡(luò)中的位置能夠如實(shí)體現(xiàn)他在社交活動中的領(lǐng)袖地位,利用基于PageRank算法的排名方法就能對其進(jìn)行度量。Tang把PageRank算法打分最高的1%的用戶看作關(guān)鍵節(jié)點(diǎn)人物。
2.分析用戶所發(fā)信息的影響力和傳播特性,能夠更客觀準(zhǔn)確地發(fā)現(xiàn)網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)人物。Goyal認(rèn)為社團(tuán)關(guān)鍵節(jié)點(diǎn)人物發(fā)起的行為能在特定時(shí)間段內(nèi)對一定數(shù)量的用戶產(chǎn)生影響,并據(jù)此使用頻繁模式挖掘方法識別社交網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)人物。
3.網(wǎng)絡(luò)用戶具有許多特征信息,一些研究者綜合各種特征建立模型來識別網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)人物。Li通過分析文本內(nèi)容、用戶行為和時(shí)間設(shè)計(jì)了網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)人物識別的混合框架,框架融合了經(jīng)驗(yàn)值、新穎度、影響力和活躍度特征。Ellero從關(guān)鍵節(jié)點(diǎn)人物能夠打破多數(shù)規(guī)則,加速信息傳播速率的角度進(jìn)行關(guān)鍵節(jié)點(diǎn)人物識別和網(wǎng)絡(luò)輿論演化仿真,實(shí)驗(yàn)結(jié)果表明,少量的關(guān)鍵節(jié)點(diǎn)人物不僅能加快網(wǎng)絡(luò)輿論的形成,而且可能使整個網(wǎng)絡(luò)輿論發(fā)生逆轉(zhuǎn)。
國內(nèi)外研發(fā)了許多網(wǎng)絡(luò)輿情監(jiān)測相關(guān)的系統(tǒng)。國內(nèi)包括方正智思——網(wǎng)絡(luò)輿情互聯(lián)網(wǎng)信息監(jiān)控分析系統(tǒng)及輿情預(yù)警輔助決策支持系統(tǒng)、復(fù)旦大學(xué)C_Analysis輿情分析系統(tǒng)等,這些系統(tǒng)基本上都對網(wǎng)絡(luò)輿情的數(shù)據(jù)進(jìn)行了采集和分類,并提供了一些統(tǒng)計(jì)學(xué)分析的輔助功能。國外相關(guān)系統(tǒng)有:Autonomy公司發(fā)布的三大系列專門針對中國市場的應(yīng)用產(chǎn)品,分別是面向企業(yè)的“企業(yè)競爭情報(bào)智能分析系統(tǒng)”、面向政府部門的“互聯(lián)網(wǎng)輿情監(jiān)控分析系統(tǒng)”等。
隨著網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的相關(guān)研究不斷深入,學(xué)術(shù)成果不斷呈現(xiàn)。方法的創(chuàng)新和智能識別技術(shù)的發(fā)展為網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)研究注入了新的活力,但相關(guān)研究還存在問題:一是研究成果的內(nèi)容主要集中在理論研究,實(shí)踐應(yīng)用研究較薄弱。二是基于不同目標(biāo)對象和不同行業(yè)的特定社會領(lǐng)域,構(gòu)建的網(wǎng)絡(luò)輿情監(jiān)測指標(biāo)體系和系統(tǒng)同質(zhì)化現(xiàn)象較明顯,指標(biāo)的選取和設(shè)計(jì)上區(qū)分度較低。三是熱點(diǎn)話題發(fā)現(xiàn)技術(shù)的研究較多,輿論情感傾向識別技術(shù)和輿論意見領(lǐng)袖識別技術(shù)的研究太少。
在綜合國內(nèi)外主流理論、方法、模型以及實(shí)際輿論數(shù)據(jù)的基礎(chǔ)上,本文認(rèn)為接下來可以重點(diǎn)研究智能識別技術(shù)在網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)中的應(yīng)用:一是輿情監(jiān)測系統(tǒng)自動發(fā)現(xiàn)網(wǎng)絡(luò)輿論熱點(diǎn)話題,進(jìn)行及時(shí)的輿情等級預(yù)警;二是智能分析和展示網(wǎng)民對于網(wǎng)絡(luò)輿論話題的情感傾向分布,幫助有關(guān)部門把握輿論脈搏;三是構(gòu)建意見領(lǐng)袖綜合評價(jià)指標(biāo),有效識別在網(wǎng)絡(luò)輿論發(fā)生、發(fā)展過程中起到重要作用的意見領(lǐng)袖,為輿論引導(dǎo)策略的有效制定提供重要依據(jù)。