文/陳海郎
互聯網能夠不受時間和空間的限制,民眾通過互聯網能夠非常便捷、自由地進行民意表達。尤其是在“人人都有麥克風,人人都是傳播者” 自媒體時代,互聯網能夠大力提升民意傳播的自由度。各種輿論事件引起的社會效應,在互聯網上有了更為寬敞的傳播空間和更為迅速的傳播速度,進而導致網絡輿情所引起的社會矛盾頻發。2016年7月30日,國務院發布《關于在政務公開工作中進一步做好政務輿情回應的通知》明確指出,各級政府及其部門需要加強輿情監測與研判處置能力,積極做好輿情回應措施,促進政府有效施政。

圖1:網絡爬蟲的原理以及數據抓取過程
互聯網已成為各級政府或單位了解民眾需求的重要渠道。在網絡大環境下,每項輿情背后都會經歷一次產生、發展、高潮、減弱、消退的動態過程。在輿情事件發生后,迅速通過互聯網收集有關輿情信息,及時跟蹤輿情最新發展動態,并對輿情的傳播路徑、爆發點和事態等進行深入、詳細的了解,有助于指導有關管理部門或企業開展輿情引導和采取措施的決策。

圖2:基于主題事件的輿情監測架構圖

圖3:主題事件發展趨勢圖例

圖4:主題事件情感趨勢分析圖例
網絡爬蟲,也稱蜘蛛。在輿情監測過程中,網絡爬蟲主要作用是完成對網絡大數據進行爬取、篩選和存儲。如圖1所示,首先從論壇、報刊、微博和APP等網絡平臺進行種子URL挑選與設定。網絡爬蟲根據用戶設定的種子URL,能夠會自動識別并獲得整個種子URL所對應的網頁URL,并生成待抓取的網頁URL隊列。然后,依據既定的網頁檢索策略,對待抓取的URL進行訪問,并對URL所對應的網頁數據進行采集和存儲。最后,不斷重復上述的數據抓取過程,直到滿足系統設定的終止條件后停止數據抓取。
文本情感分析又稱之為意見挖掘(Opinion Mining),是指對帶有情感色彩的文本,進行采集、處理、分析和推理的過程。從情感色彩分類層面看,網絡輿情可分為正面、中性和負面三種類型。正面輿情往往能夠給政府或單位形象帶來積極的宣傳效果,而面對負面輿情時,倘若未能及時加以控制或引導,很有可能會帶來嚴重、不可逆的負面影響。例如,針對政府議案或新政策的出臺,通過對相關微信、微博和論壇等言論進行采集與分析,能夠為政府決策提供依據。因此,通過對輿情有關文章或評論所秉持的觀點進行情感分析判斷,及時獲得網民對事件的整體情感,對準確的掌控輿情的動態發展趨勢起到了關鍵作用。
文本情感分析是當前比較熱門的研究方向。眾多學者對文本情感分析進行了一系列的探索。Zhang等通過建立情感詞典、情感系數計算,實現了微博主題情感分類。孫建旺等通過提取微博中的動詞和形容詞為作特征向量,并借助支持向量機(Support Vector Machine)實現了正面、中性和負面三種微博文本情感分類。本文觀察分析網絡文本的特點,設計了一種基于分詞的網絡文本情感分析方法。該方法具體實現過程如下:
假設網絡文本T由句子Si構成,則句子Si的情感值f(Si)和網絡文本T的情感值f(S)可表示為:

其中,Swi為句子中詞wi的情感值。如果f(T)>0 ,表示為正面情感文本。如果f(T)<0,表現為負面情感文本。如果f(T)=0,表示為中立情感文本。
基于網絡大數據的輿情監測系統分為數據采集模塊、數據處理模塊、數據管理和存儲模塊、數據展現四個模塊。實現將互聯網數據采集后,進行數據分析和管理,實現數據可視化。詳情如2圖所示。
數據采集模塊由爬蟲服務器、爬蟲任務調度服務器、爬蟲監控服務器、爬蟲日志服務器、數據去重服務器以及自然人行為服務器組成。數據采集是通過爬蟲服務器集群協作完成的。數據采集面向互聯網新聞、論壇、微博、微信等海量數據進行采集,篩選出有用的數據信息。
數據處理模塊由用戶專題實時計算服務器、實體抽取服務器、地域識別服務器、數據清洗服務器、流傳輸服務器、情感識別服務器組成。數據處理服務器對數據進行基礎數據處理和輿情信息處理,利用先進的數據分析處理方法對獲取到的數據進行分析、處理,得出相關熱點、正負面新聞等信息。數據存儲管理模塊由大數據分布式存儲服務器、用戶數據分布式存儲服務器、流式處理分布式日志存儲服務器、Web服務器、發布服務器、管理服務器等組成。數據存儲管理模塊負責數據的存儲、檢索以及發布。最終通過數據展現模塊,將分析處理過的輿情信息通過圖表等可視化形式展示給用戶。
本文選用2019年5月29日某師范大二學生自述遭受 “校園暴力”輿情事件為例。通過對該事件的新聞、博客、微博、論壇等互聯網數據持續監測和采集,從時間、空間兩個維度,全面、動態展示信息的變化情況,對基于網絡大數據的輿情監測具體實現過程進行論述。
發展趨勢監測是通過對事件輿情的網絡數據來源、數量和時間三個維度進行趨勢分析。該分析結果,能夠直觀展示輿情各大網絡媒體的傳播情況。如圖3所示,該輿情信息在2019-05-31達到了最大值,當日共產生67248條輿情信息,其中微博平臺的傳播量最大,最高達到了65243條,成為該事件的主要傳播媒體。
輿情情感趨勢分析是通過對輿情有關網絡文本進行情感分析,以充分了解廣大民眾對輿情所持的態度。如圖4所示,在該輿情事件的發展過程中,負面的態度信息一直居高不下,幾乎占據了整個輿論陣營。
傳播途徑分析是對該輿情去向、數量和范圍進行可視化分析。傳播途徑監測分析有助于管理者更為直觀地了解到整個輿情事件的傳播路徑以及事態演變過程,特別是輿情起源于哪里,又往何處發展,都有軌跡可尋。具體效果如圖5所示,其中,最大的中間圓點為該輿情的起源;圓點圖標越大表示輿情的影響力越大、傳播范圍越廣,圓點圖標數量越多,表示該輿情事件得到了越多網民轉發關注;點與點之間的連接表示傳播途徑。在該事件輿情中,最大的信息層達到了11級,總轉發人數超過106916人次,覆蓋微博用戶達945630798人。
輿情媒體數量監測分析是對參與輿情的各大媒體所發表的輿論數量進行監測分析。如圖6所示,從網媒、論壇、博客和報刊等媒體報道的采集的169370個網絡文本中,其中微博文本數量占比為97.64%,在所有媒體文本中占比最高。導致這一結果的最主要原因是因為該事件本身是在微博平臺中發起的,并且微博平臺具有非常便捷的媒體轉發功能。
互聯網已經逐漸成為民眾參與輿論的首先渠道。在萬物互聯互通的網絡時代,加強網絡輿情監測與引導,對維持國家穩定、促進社會和諧發展具有重要的現實意義。本文基于網絡爬蟲和文本情感分析等信息技術,提出并設計了一種基于主題事件的網絡輿情監測框架。然后,以某師范大二學生自述遭受 “校園暴力”輿情事件為例,對輿情發展趨勢、情感趨勢、傳播途徑和媒體數量等輿情監測分析的實現進行了實證論述。

圖5:主題事件傳播途徑分析圖例

圖6:主題事件媒體數量監測分析圖例