董堅峰



〔摘 要〕當前網絡突發事件頻發,網絡輿情與突發事件的相互作用增加了輿情分析和預警的難度,現有輿情預警系統無法滿足需求。將Web挖掘技術引入到突發事件網絡輿情預警中,構建了包括輿情采集層、輿情挖掘層、輿情分析層、預警研判層的基于Web挖掘的突發事件網絡輿情預警系統模型,集成和整合了突發事件網絡輿情預警全過程的重要功能,實現突發事件網絡輿情采集、分析處理、危機預警的自動化、智能化和實時化。
〔關鍵詞〕Web挖掘;突發事件;網絡輿情預警;系統模型
DOI:10.3969/j.issn.1008-0821.2014.02.009
〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2014)02-0043-05
近年來,隨著我國改革開放與社會轉型的推進,互聯網上突發事件和公共危機話題不斷凸現,網絡逐步取代傳統媒體成為新的社會輿論場,基于互聯網的社會輿情生態環境逐步形成。據CNNIC《第32次中國互聯網絡發展狀況統計報告》統計,截至2013年6月,我國網民規模達到5.91億,網站和網絡論壇達到294萬個,手機上網用戶4.64億,全民網絡普及率高達44.1%,其中博客、論壇、微博使用人數分別為4.01億、1.41億、3.31億[1]。網絡在為社會公眾提供信息獲取、訴求表達、情緒宣泄、社會參與平臺的同時,也成為社會突發事件和群體性事件策源、醞釀的重要場域。網絡輿情熱點一方面直接發展、醞釀成為群體性事件,引發社會公共危機;另一方面,網絡輿情的非理性化、情緒化傾向加速突發事件的惡性發展,增加了突發事件的預警和處理難度。在這種背景下,如何利用現代技術手段和管理手段精確研判并有效應對突發事件網絡輿情,避免突發事件危機產生或者提供危機預警,是當前的一項重要工作。
1 突發事件網絡輿情分析和預警面臨的困難
1.1 網絡輿情與突發事件的相互作用增加了預警分析處理的難度 根據《中華人民共和國突發事件應對法》的界定,突發事件是指突然發生,造成或者可能造成嚴重社會危害,需要采取應急處置措施予以應對的自然災害、事故災難、公共衛生事件和社會安全事件[2]。與一般事件不同,突發事件具有較強的突發性、破壞性、公共性、復雜性、持續性,并可能在一定情勢下轉化為公共危機。在突發事件的發生發展過程中,媒體和網民通過各種渠道發表各自的意見和看法,匯集而成的網絡輿情經常會發展為突發事件,并左右突發事件的演變進程,同時對某些事件的演變起到了推波助瀾的作用。一方面,互聯網擁有自由民主、快速即時、便捷多向等優勢,使其更易聚焦各類社會熱點問題,尤其是那些涉及群體利益、社會公平、貧富差距的話題極易激起大規模討論熱潮,導致網絡熱點直接發展、醞釀為突發事件,且發展迅速,影響極大;另一方面,由于網絡的匿名隱身、跨地域、無國界限制等特點,網絡輿情的非理性、情緒化特點明顯,導致一旦某個突發事件被網絡聚焦,一些不適當的、歪曲的、情緒化的、偏激的言論甚至謠言即迅速傳播,從而加速突發事件的惡性發展。在突發事件爆發過程中,強大的網絡輿情與突發事件即時互動、互相強化、交流融合,使原本為時較短的突發事件成為持續時間較長的公共危機,從而大大增加了事件處理難度和處理成本。尤其是在網絡輿情的推動下,突發事件更加動態化、反復化、持久化,相關輿情信息無規律化程度加劇,任何組織和個人都無法完全決定和控制網絡輿情信息的內容,網絡輿情監控和預警面臨極大的挑戰[3]。
2 現有輿情系統對突發事件輿情分析預警支持不足 網絡輿情的分析預警是一個融匯計算機網絡、人工智能、數據挖掘、自然語言處理等多學科知識的前沿領域,涉及網絡輿情信息采集、分析、處理、分類、監測和預警的全過程。近年來,國內外眾多學者和研究機構對此從不同領域和多個角度開展了探討,并研發了各種軟件產品或系統來自動或者輔助政府輿情工作人員進行輿情信息的分析和監控,如國內的谷尼、方正、TRS和國外的Review See、StatPac、Opinion Finder等系統。這些系統功能多樣,圍繞網絡輿情分析和預警提供了多種支持(如表1所示)。
表1 國內外網絡輿情預警分析系統的比較[4-8]
輿情預警分析系統研發企業主 要 功 能方正智思輿情預警輔助決策支持系統北大方正網絡輿情的全文檢索、自動分類、自動聚類、主題監測/追蹤、相關推薦與消重、關聯分析與趨勢分析、自動摘要與自動關鍵詞提取、突發事件分析、生成統計報表等功能谷尼輿情監控分析系統谷尼國際軟件公司輿情信息自動獲取、自動聚類、敏感話題識別、熱點話題識別、輿情主題監測與跟蹤、自動摘要、輿情趨勢分析、突發事件分析、輿情報警、輿情統計報告等功能TRS互聯網輿情信息監控系統北京拓爾思信息技術股份有限公司網絡輿情實時監測、輿情熱點發現和熱點跟蹤、敏感信息監控、輔助決策支持、輿情預警等多種功能Beehoo3.0互聯網輿情監測系統中科院計算所輿情信息的采集、熱點分析、重點話題檢測、輿情熱點的預警等樂思網絡輿情預警系統深圳市樂思軟件技術有限公司信息采集、信息處理(自動分類聚類、主題檢測、專題聚焦等)、信息服務(如自動生成輿情信息簡報、追蹤輿論焦點、趨勢分析,預警、決策支持等)Cision美國Cision公司博客、論壇、富媒體等網站的網絡輿情實時監測,實時輿情報表生成,行業動態的趨勢分析和發展預測,一站式輿情綜合資訊,企業公關和媒體監測等功能Review Seer多種評論性網站的輿情信息采集、網絡評論詞條的語義傾向性判斷、自動文摘和輿情報告生成等功能StatPacStatPac Inc支持互聯網、電子郵件、平板電腦、智能手機等多種網絡信息源的調查統計分析;自動生成輿情信息報告Opinion Finder匹茲堡大學、康奈爾大學、猶他大學自動分析網絡語句中那些含主觀性成分的內容,并針對這些主觀性的關鍵字檢測其來源與傳播途徑
從表1可以看出,這些系統基本上都提供了網絡輿情分析和預警功能,能幫助政府或企業把握網絡輿情信息、預警可能發生的輿情危機。各個軟件在輿情分析和預警上各有優勢,比如在輿情采集階段使用自動搜索技術,在輿情分析階段綜合使用文本挖掘、自動摘要、主題聚類等技術,在輿情預警階段提供了多種預警途徑等。但總體來看,單個軟件的功能還遠未達到真正的網絡輿情分析的智能化要求,都存在這樣或那樣的不足,暫時沒有一個整體功能完備的系統。具體如下:
1.2.1 輿情信息源整合不夠,信息采集質量不高對于輿情預警系統來說,其信息源來源多樣,尤其是在Web2.0環境下,以微博、社交網絡、即時通訊為載體的“微內容”更成為主要信息來源,而現有的輿情預警系統支持信息源明顯不夠,對各類信息源的整合力度也不大,不能實現全網采集,從而制約了輿情預警的效果。另外,目前輿情預警系統大多數是借助搜索引擎等爬蟲工具進行信息采集,采集算法簡單,信息采集呈重復性、非相關性和表層化,導致檢索結果數量大且多為重復的、非相關的、淺層的,甚至是虛假的信息;采集過程也缺乏跟蹤和監測,采集效率不高。
1.2.2 輿情分析過程缺乏智能性,信息分析深度不夠現有輿情預警系統在信息處理方面,要么是將收集的信息經過簡單整理后交給工作人員進行人工定性分析和經驗判斷,要么是借助輿情字典和統計學進行分析判斷,信息僅僅停留在相關數據的統計層面,沒有深入挖掘數據背后隱含的深層知識,更無法涉及輿情信息的語義層次,系統智能化程度不高。
1.2.3 輿情預警研判功能偏弱,無法滿足決策支持現有的輿情系統進行預警時多為自動輿情分析報告和人工經驗相結合的方式,鮮有設置科學系統的預警研判指標體系,從而導致提供的預警結果無法滿足決策支持的需要。有鑒于此,本文結合突發事件網絡輿情預警的現實需求和現有的輿情分析預警系統的不足,將Web挖掘技術引入到突發事件網絡輿情信息分析和預警中,提出了基于Web挖掘的網絡輿情預警的思路和系統模型,以期為政府公共管理部門開展網絡輿情預警提供一些借鑒。
2 基于Web挖掘的網絡輿情預警
2.1 Web挖掘Web挖掘是數據挖掘在Web上的應用,它綜合使用數據挖掘、機器學習、自然語言處理和人工智能等智能信息處理技術從WWW的資源(Web文檔)和行為(Web服務)中自動發現并提取人們感興趣的、有用的模式和隱含的信息。根據挖掘對象的不同,Web挖掘可以分為Web內容挖掘、Web結構挖掘和Web使用挖掘。與傳統的網絡輿情分析方法,例如抽象分析、比較分析、相關分析和內容分析法等相比,Web挖掘可以得到指定時間段內網絡輿情的狀況和走向以及與之關聯的熱點問題,為網絡輿情的深層次分析和智能化預警提供了技術支持和解決方案[9]。
2.1.1 Web內容挖掘Web內容挖掘是從Web文檔本身的內容或者Web搜索的結果中抽取知識的過程,它可以對大量的Web文本集合進行分類、聚類、關聯分析,以及利用Web內容進行趨勢預測。在網絡輿情分析中,Web內容挖掘可以發現與突發事件主題相關的知識內容和語義關聯模式。
2.1.2 Web使用挖掘Web使用挖掘是通過挖掘Web使用數據或者訪問日志來提取瀏覽者的行為模式,獲取有價值的信息的過程。它通過挖掘用戶上網時產生的網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶登錄和注冊記錄、用戶對話或交易信息、用戶提問等交互式信息發現用戶的瀏覽習慣、相似用戶群體、Web頁面的訪問頻率等知識模式,從而更好地理解用戶行為和提供智能化的服務。通過Web使用挖掘,可以確定輿情熱點和焦點、預測網民行為。
2.1.3 Web結構挖掘Web結構挖掘就是對WWW的組織結構、Web頁面的超鏈結構等進行挖掘并從中提取出隱藏的有價值的知識的過程。大量的Web鏈接信息提供了豐富的關于Web內容相關性、質量和結構方面的信息,是進行網絡輿情站點分析的重要資源[10]。通過Web結構挖掘,可以獲得與輿情主題高度相關的鏈接以及鏈接邏輯結構的語義知識,從而幫助輿情分析人員確定重要輿情源和中心頁面。
2.2 基于Web挖掘的網絡輿情預警流程一般來說,采用Web挖掘方法進行網絡輿情預警的處理流程包括輿情主題規劃、輿情信息采集、輿情信息預處理、輿情信息分析、輿情危機預警處理5個步驟(如圖1所示)[11]。(1)輿情主題規劃。根據輿情預警需求,設定輿情主題目標,同時確定輿情分析的對象(來源)、關鍵詞、主題等,并在實施過程中根據實際需求調整采集主題。(2)輿情信息采集。根據輿情主題規劃任務從多個信息源中提取相關數據,并對目標Web數據進行網頁的特征提取、基于內容的網頁聚類、網頁間內容的關聯規則發現等,從中得到和挖掘目的相關的數據。圖1 基于Web挖掘的網絡輿情危機預警流程圖
(3)輿情信息預處理。將先前獲取的網頁源碼作進一步的信息處理,包括網頁凈化、文本分詞、特征向量表示、停用詞及虛詞凈化、詞頻統計、降維處理等,最終為輿情分析做好充分的數據準備。(4)輿情信息分析。利用Web挖掘算法對輿情信息進行分析,挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的信息分析技術包括:文本挖掘、事件識別、主題發現、熱點跟蹤、關聯分析、趨勢分析、傾向性分析等。(5)危機預警處理。對挖掘出來的輿情信息進行分析、解釋,生成輿情分析報告,并根據分析結果對網絡輿情進行危機預警。
3 基于Web挖掘的突發事件網絡輿情預警系統模型
3.1 模型概述針對現有網絡輿情預警系統普遍存在的突出問題,根據Web數據挖掘在信息分析和知識發現中的優勢,本文綜合應用Web挖掘、語義分析、信息集成等技術,構建了基于Web挖掘的突發事件網絡輿情預警系統模型,如圖2所示。本模型包括輿情采集層、輿情挖掘層、輿情分析層和預警應用層等4層,集成和整合了突發事件網絡輿情預警全過程的重要功能,實現突發事件網絡輿情采集、分析處理、危機預警的自動化、智能化和實時化。
3.1.1 輿情采集層輿情采集層是本模型的最底層,主要負責完成網絡輿情信息的采集和預處理,為輿情挖掘和分析提供所需的數據。在采集時,一方面可以利用聚集爬蟲對各主要門戶網站、新聞網站、時事論壇、微博和博客、BBS論壇進行信息抓取,獲取最新動態;另一方面,可以結合近年來突發事件輿情多發主題,對網絡曝光率和點擊率較高的微博/QQ
圖2 基于Web挖掘的突發事件網絡輿情預警系統模型
空間、主流論壇/BBS、知名門戶網站、各大網絡媒體、知名人士博客/空間、主流搜索工具、國外媒體等網絡新媒體上的信息進行實時監測,及時采集敏感信息。采集回來的輿情信息網頁進行URL抽取、網頁解析、關鍵內容提取等處理后整理存儲到輿情信息庫中。
3.1.2 輿情挖掘層輿情挖掘層主要完成對輿情信息庫中內容的多維挖掘和處理,利用Web挖掘技術對網絡輿情的內容、結構和使用記錄進行挖掘。為了更好地實現對網絡輿情突發事件的監控和預警,在本層需要綜合采用多種Web挖掘方法,除前文提到了的Web使用挖掘、Web結構挖掘和Web內容挖掘外,還需要采用以下兩類挖掘技術:(1)Web數據流挖掘。突發事件網絡輿情在網絡上的發生和演變具有極強的時空演化性,可以看成是一種連續不斷到達的、時變的、有序的且快速流動的數據元素組成的文本數據流,利用頻繁項挖掘或突變檢測等數據流挖掘方法可以快速獲取敏感網頁和話題。(2)Web語義挖掘。利用XML-Ontology技術對輿情信息庫中的數據進行語義抽取、標注和描述,在此基礎上建立與突發事件相關領域的語義知識庫,并利用工具挖掘輿情規律。
3.1.3 輿情分析層輿情分析層是本模型的核心層,也是實現突發事件輿情預警的前提。本層主要從輿情信息內容和輿情演變態勢兩個方面分析突發事件網絡輿情的內容和發展趨勢,并生成輿情分析報告。(1)輿情信息內容分析。主要實現網絡突發事件的分類、應用語義分析對文本的分類、對論壇及評論中的輿情情感傾向性分析、對構成危害的敏感信息的監控和不良信息的過濾等功能。(2)輿情趨勢演化分析。主要根據突發事件體現出的網頁數量的變化、詞頻的變化、轉載及擴散的變化建立合適的統計模型來分析演變態勢和波動性,實現輿情演變的趨勢監測功能[12]。
3.1.4 預警研判層本層主要根據在輿情分析層所得到的輿情分析報告,從輿情熱度、特性、危險性等指標進行輿情信息評測,研判是否發布輿情預警信號,并提供輿情信息摘要、輿情簡報等信息內容展示,為相關職能部門快速了解輿情動態、掌握熱點事件突發事件的來龍去脈提供決策依據。(1)熱度研判。主要從報道量、點擊量、評論量、發帖/發文量、轉載/轉播量和搜索量等多個數據指標來判斷當前網民和媒體對事件或信息的關注度,判斷是否可能形成并爆發網絡輿情突發事件。通常,關注度或熱度越高,越容易形成和爆發網絡輿情,朝著存在安全隱患和不安全的路徑演變;反之亦然。(2)特性研判。主要從事件或信息的主題敏感程度、內容真偽性和來源的權威性3個角度來判斷其自身特性。其中,涉及公共安全、貧富差距、國計民生、公平公正等主題為敏感主題,關注程度較高;內容真偽性主要是甄別信息內容的虛假和失真性,避免被個別人或團體非法利用和轉播,以謠言和訛傳詆毀政府形象;來源的權威性主要是從信息發布者的知名度、活躍度、信息質量等角度研判,越是權威的信息越容易成為網絡熱點。因此,輿情特性越明顯,隱含的不安全因素就越高,越容易向不安全和危險性路徑發展演變[13]。(3)危險性研判。主要從網絡覆蓋度、地域覆蓋度、網民情緒、網民態度和行為等5個角度進行網絡輿情的危險性研判。一般來說,網絡和地域覆蓋度越大,網民情緒越激動和憤怒,態度越負面,網絡行為越偏激,危險性則越大,突發事件越容易產生或者激化。
3.2 突發事件監控與預警分析上述模型介紹了各功能層能完成的對網絡輿情突發事件從資源采集到事件預警的功能和流程,下面重點對突發事件監控與預警實現的一些關鍵環節進行分析。(1)突發事件分類。由突發事件引發的網絡輿情信息,從內容形式來看主要為文本,因此,突發事件分類可以轉化為文本分類問題。在具體實施時,可以通過網頁內容的分類分析將相關主題網頁都劃分到同一個類別,并通過關聯分析和序列分析追蹤輿情源頭,有效地輔助發現并預警不良信息,及時制止輿情的進一步突變,起到輔助決策支持的作用。(2)文本數據流突發檢測。文本流突發檢測主要是借助Kleinberg方法來實現:在文本分類的基礎上,針對某一特定主題的輿情文本,按照其到來的時間順序定義為文本序列,利用形式化方法的無窮狀態自動機對文本流進行建模。若{t1,t2,…,tn,tn+1,…}為文本序列,兩文本的時間間隔為xt,xt隨著單位時間內的文本數量的變化而變化。如果有突發事件,短時間內與此事件相關的文本增多,導致xt變短,就將此時的狀態定義為突發狀態Sb(Burst State),如果沒有突發即為普通狀態Sn(Normal State)。從普通狀態到突發狀態的轉換則可以通過時間間隔xt的變化帶來的改變檢測到。(3)趨勢預測分析。通過對某個與突發事件相關的主題在不同的時間段內被關注的程度進行跟蹤,從而獲取輿情隨時間的發展變化趨勢或規律,實現對輿情環境的監控和預警,進行適時控制和疏導。(4)敏感話題監控。借助敏感詞典等工具對突發事件、涉及內容安全的話題尤其是敏感話題進行有效監控和預警。一方面,根據輿情分析結果對用戶關注的輿情內容進行有效分類,從中找出與突發事件主題相關的敏感話題;另一方面,根據分類結果評估分析突發事件網絡輿情發展態勢并給出預警信息。(5)情感傾向分析。對網民發布的與突發事件主題相關的話題進行情感傾向性分析,了解和歸納網民的主流觀點和情感趨勢——贊同、反對、高興或者悲傷,識別和統計其情感傾向及隨時間的演化規律,從中獲取與突發事件相關的各類征兆。
4 結束語實踐證明,Web挖掘是一種自動化的信息分析與知識發現的方法和技術。將Web挖掘融入突發事件網絡輿情分析與預警之中,可以充分發揮Web挖掘技術在處理海量網絡數據和發現隱含知識規律的優勢,實現網絡輿情信息的自動化、智能化獲取和深層次、多維化分析,達到突發事件網絡輿情動態預警和輔助決策的目的。在網絡輿情預警中應用Web挖掘的技術和方法,將是提高網絡輿情預警監控系統智能性的有效途徑,也是其未來的發展方向,相關研究仍需進一步的探索和證明。
參考文獻
[1]中國互聯網絡信息中心.第32次中國互聯網絡發展狀況統計報告[R].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201307/t2013071740664.htm,2013-07-17.
[2]中華人民共和國突發事件應對法[EB/OL].http:∥www.gov.cn/ziliao/flfg/2007-08/30/content732593.htm,2007-08-30.
[3]曲淑華,劉.群體性事件網絡輿情應對策略研究[J].長春工業大學學報:社會科學版,2013,(5):146-148.
[4]丁菊玲,勒中堅,王根生.我國網絡輿情危機預警研究探討[J].情報雜志,2010,(10):5-8.
[5]董楊.中美兩國網絡輿情監管體系比較研究[D].長春:吉林大學碩士學位論文,2013.
[6]www.founder.com.cn[EB].
[7]http:∥us.cision.com/[EB].
[8]http:∥www.statpac.com/[EB].
[9]張玉峰,何超.基于Web挖掘的網絡輿情智能分析研究[J].情報科學,2011,(4):64-68.
[10]周君.Web文本挖掘關鍵技術的研究與實現[D].西安:西安電子科技大學碩士學位論文,2009.
[11]梅中嶺.基于Web信息挖掘的網絡輿情分析技術[J].中國人民公安大學學報:自然科學版,2007,(4):85-88.
[12]萬源.基于語義統計分析的網絡輿情挖掘技術研究[D].武漢:武漢理工大學博士學位論文,2012.
[13]劉金榮.基于動態演變路徑的網絡輿情研判體系構建[J].圖書館學研究,2013,(5):32-35,97.
(本文責任編輯:馬 卓)