摘 要: 大數據背景下,傳統網絡輿情預警技術已經表現出不能適應大數據4V特性的局限性,基于Web挖掘的網絡輿情分析和預警技術可以有效的解決這一問題,Web挖掘憑借在內容挖掘、結構挖掘和使用挖掘的信息分析優勢,是構建及時、高效、全面和動態的網絡輿情預警系統的路徑選擇。
關鍵詞:大數據 網絡輿情 信息分析
中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082(2016)08-0013-02
一、大數據及網絡輿情概述
所謂大數據(Big date),是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。大數據堪稱是一座有待挖掘的數字金山,因為根據研究機構Gaetner的定義:“大數據”是需要新處理模式才能具有更強決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據的技術的戰略意義不僅在于對龐大信息量的掌握,而且在于對這些含有意義的數據進行專業、有效的處理。換句話說,如果把大數據比毛胚,經過專業加工后的大數據成品,其市場價值和應用價值獲得了增值,而且這種增值的市場前景是不可限量的。
網絡輿情就是人類在互聯網上所產生的原創數據,對網絡輿情的有效治理離不開對大數據的挖掘和應用。當前我國網絡輿情數據愈來愈呈現出大數據的特征,形成了體量巨大(Volume)、類型繁多(Variety)、價值低密度(Value)、處理快速(Velocity)的4V特點。[1]
如果說以往是抽樣數據分析計算的話,那么大數據為人們帶來的是信息全覆蓋的相對全體數據的計算。社會信息化的這種發展將給人類社會帶來諸多的變化。在小數據時代,相關關系也是有用的,但在大數據的背景下,相關關系大放異彩。通過相關關系,我們可以比以前更容易、更快捷、更清楚地分析事物,而且不易受偏見的影響。[2]“大數據時代將推動我們從根本上改變企業的運作方式,以及我們宰社會中的生活方式。”[3]大數據不僅對互聯網的規模、性能、能耗和安全等有著巨大影響,同時也對人類的思維方式具有顛覆性作用,尤其對政府的信息公開和決策構成了新的挑戰。
傳統的政府信息采集、分析、公開和決策是建立在有限、少量、二維、靜態的數據基礎上,依賴采樣和精確的方式獲得數據。而大數據時代的到來,將改變政府的這一數據獲取方式,代之以在宏觀、碎片化、模糊、多維的數據上,通過微觀洞察、定量分析、挖掘有效數據和尋找“相關性”,從而作出高效率和高質量的決策。
在信息時代,如何在海量、雜亂以基于互聯網的網絡媒體數據中進行科學、有效的信息分析,為政府決策提供智力支持和權威數據,有賴于在大數據背景下建立和完善網絡輿情預警機制。美國學者馬丁——哈利森分析了在社交情報的大數據中如何進行引導決策的信息分析,他認為可以從識別數據到劃分組群和交談信息、從數據收集到預設和跟蹤、從分析和整合到建構和挖掘、從報道到管理和嵌入等方法和路徑入手。[4]本文就是從馬丁——哈利森的社交情報信息分析方法和路徑入手探討在數據背景下網絡輿情預警機制的建立。
二、大數據背景下傳統網絡輿情分析和預警機制存在的問題
在大數據背景下,傳統的基于小樣本和定性分析的輿情分析技術在海量的數據面前愈發體現出局限性,其存在的問題主要體現在以下三點:
1.數字信息的海量和高分散度增大了網絡輿情分析和預警的困難
據CNNIC《第32次互聯網絡發展狀況統計報告》統計,我國網民規模達5.91億,網站和網絡論壇達294萬個,手機上網用戶4.64億,全民網絡普及率達44.1%,其中博客、論壇和微博使用人數分別為4.01億、1.41億和3.31億。如此數量巨大的網民和網絡媒體勢必會產生海量的數字信息,而且這些數字信息呈現高分散度,固定互聯網(以電腦為載體的互聯網)和移動互聯網(以智能手機為載體的互聯網)使得數字信息的產生源呈現高度分散分布的特征。這些大大增加了研究者收集和采集信息的難度。結果就囿于信息數量以及信息搜集難度的極度擴張和研究手段的相對萎縮,使得研究者得出結論愈發帶有主觀性、片面性、臨時性、階段性、閃爍性,從而使得輿情分析的質量呈現相對下降的趨勢,借助這樣的輿情分析帶來形勢誤判的風險呈現不斷加大的趨勢,從而也就增大了網絡輿情分析和預警的困難。[5]
2.傳統網絡輿情分析方法的局限性
傳統的網絡輿情分析方法主要有網絡調查方法、基于統計規則的模式識別方法、基于內容挖掘的主題監測方法。這些傳統網絡輿情分析方法在大數據背景下存在著不足和問題。
2.1網絡調查方法是基于采樣分析的調查方法,其有效性主要與樣本的隨機性和樣本數量有關,而受制于大數據背景下的海量和復雜,基于小樣本和“最優抽樣”的網絡調查方法其信度和效度都值得商榷。
2.2基于統計規則的模式識別方法其有效性囿于特定對象,而大數據的信息源廣泛、多元、分散和復雜,基于統計規則的模式識別方法表現出很大的局限性。
2.3基于內容挖掘的主題監測方法雖然能突破傳統網絡輿情分析的技術窠臼,主要體現在當前語義分析技術的準確度和效率在面對復雜的人類語言和快速發展的網絡語言時,顯得滯后和不足,主要體現為精確度不高以及大量的人工分析所帶來的主觀誤差問題,因此這一方法在大數據背景下也顯得差強人意。
3.傳統網絡輿情信息分析研判和預警能力不足
傳統網絡輿情信息分析研判能力不足主要體現在以下幾點:一是信息來源較為單一,整合力度不夠。目前網絡輿情分析的信息源主要來源于搜索數據、點擊數據、關鍵詞頻率、網民個人身份數據等,但是信息源一般是來源其中的一部分或幾部分,囿于技術、成本限制,很少有全網采集數據并進行整體關聯性分析,也就難以深度挖掘有價值的信息,從而制約了網絡輿情分析的研判能力。二是現有網落輿情信息分析人工智能程度不高,主要還是依靠人工和統計學的手段進行信息分析,未能深入挖掘信息“隱性”的深層含義。三是預警判斷能力弱,現有的網絡輿情體系缺乏科學的預警指標體系,主要依靠人工智能與人工相結合的方式,一定程度上導致預警缺乏客觀性、科學性,不能及時滿足決策需要。
鑒于在大數據背景下現有網絡輿情分析和預警系統已不能滿足網絡輿情預警的現實需要,本文提出以基于Web挖掘的網絡輿情信息分析和預警技術。
三、大數據背景下網絡輿情預警機制的建立——基于Web挖掘的網絡輿情信息分析和預警
1.Web挖掘簡介
Web挖掘是數字挖掘在Web?的應用,它綜合使用數字挖掘、機器學習、自然語言處理和人工智能等智能信息處理技術從WWW的資源、Web 文檔和行為、Web 服務中自動發現并提取人們感興趣的、有用的模式和隱含的信息。根據挖掘對象的不同,Web?挖掘可以分為Web 內容挖掘、Web 結構挖掘和Web使用挖掘。與傳統的網絡輿情分析方法(抽象分析、比較分析、相關分析和內容分析法)相比,Web挖掘可以得到指定時間段內網絡輿情的狀況和走向以及與之關聯的熱點,為網絡輿情的狀況和走向以及與之相關聯的熱點問題,為網絡輿情的深層次分析和智能化預警提供了技術支持和解決方案。[6]
2.大數據背景下Web挖掘的優勢
大數據背景下,基于Web挖掘的網絡輿情分析可以突破傳統網絡輿情分析技術小樣本、精確性低、維度單一、偏重靜態分析等局限性,發揮其從內容挖掘、結構挖掘到使用挖掘全方位、多維度、全時性和動態追蹤的優勢,能完全適應大數據背景下信息體量巨大(Volume)、類型繁多(Variety)、價值低密度(Value)、處理快速(Velocity)的4V特點,能有效地解決傳統網絡輿情分析技術滯后和落后的問題,能充分滿足大數據背景下網絡輿情預警及時、高效、全面和動態的要求。
3.Web挖掘內容簡介
依據在挖掘過程中使用的數據類別,Web挖掘任務可以被劃分為三種主要類型:Web結構挖掘、Web內容挖掘和Web使用挖掘:
3.1Web內容挖掘:Web內容挖掘是指對Web頁面內容及后臺交易數據庫進行挖掘,從Web文檔內容及其描述中的內容信息中獲取有用知識的過程。同時還可以對Web的組織結構和鏈接關系進行挖掘,從人為的鏈接結構中獲取有用的知識。由于文檔之間的互連,WWW能夠提供除文檔內容之外的有用信息。利用這些信息,可以對頁面進行排序,發現重要的頁面。
3.2Web內容挖掘:Web內容挖掘從網頁內容中抽取有用的信息和知識。例如:根據網頁的主題,可以進行自動的聚類和分類。雖然這些任務與傳統數據挖掘的任務相似,但是依然可以為了各種不同的目的從網頁中根據模式抽取有用的信息,例如商品描述、論壇回帖等。而這些信息可以被用作進一步分析來挖掘用戶態度。這些任務也不是傳統的數據挖掘任務。
3.3Web使用挖掘:Web使用挖掘從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。這項任務也使用了許多數據挖掘的算法。其中一項重要的議題是點擊流數據的預處理,以便生成可以用來挖掘的合適數據。
Web挖掘的目標是從Web的超鏈接結構、網頁內容和使用日志中探尋有用的信息。雖然Web挖掘使用了許多數據挖掘技術,但它并不僅僅是傳統數據挖掘的一個簡單應用。[7]
3.4Web挖掘預警的流程
Web挖掘預警流程是對以上Web挖掘技術的綜合使用,Web挖掘預警的流程一般包含以下五個步驟:
①設定輿情預警主題: 根據網絡輿情預警需求設定主題目標,并根據主題目標設定所要采集的信息源和主題。
②輿情信息采集:根據主題從目標Web文檔中獲得要采集的輿情數據,對Web上的數據進行信息檢索和信息抽取。挖掘Web上的超鏈接結構,挖掘超文本結構中的信息。通過Web使用挖掘獲取一切用戶與站點之間可能的交互記錄。
③輿情信息預處理:利用基于Robot的檢索模型,掃描Web上的所有文檔,并建立索引,從檢索后的Web文檔中剔除無用和不相關的輿情信息和將信息進行必要的整理。
④輿情信息分析:用Web挖掘算法對預處理后的網絡輿情數據進行分析,挖掘有價值的信息。
⑤輿情信息預警:對挖掘出的輿情信息進行最終處理,并參照網絡輿情預警等級分類指標,生成網絡輿情預警報告。
3.5 Web挖掘網絡輿情預警模型策略簡介
Web挖掘網絡輿情預警模型主要包括輿情采集層、輿情挖掘層、輿情分析層和輿情研判層。限于篇幅本文僅Web挖掘網絡輿情預警模型的策略進行簡介。
①輿情采集層
輿情采集層是網絡輿情預警的模型的最底層,主要任務是負責網絡輿情信息的采集和預處理。Web挖掘可以使輿情信息源突破Web文本的局限,深入到Web網絡結構和Web用戶偏好中,并在整合的基礎尋找其中隱藏的關聯,從而能挖掘出深度和有價值的信息。
②輿情挖掘層
輿情挖掘層是利用Web內容挖掘、Web結構挖掘和Web使用挖掘對已建構的輿情信息庫進行多維挖掘和處理。綜合使用Web文本挖掘、Web多媒體挖掘、PAGERANK、ClEVER、挖掘算法等技術對信息庫進行深度挖掘,以更好對網絡輿情進行監控和預警。
③輿情分析層
輿情分析層是網絡輿情預警系統中的關鍵層。網絡輿情分析層包含著靜態分析和動態分析兩個方面。輿情靜態分析包含對網絡輿情高頻詞匯聚類、輿情情感傾向、敏感信息關聯等分析。網絡輿情動態分析包含著實體數據態勢、引用關系變化、用戶聚類模式等動態數據。靜態分析與動態分析相結合從而預測網絡輿情現狀發展和趨勢進行分析和預測。
④輿情研判層
輿情研判層主要是根據輿情分析層所生成的輿情分析報告進行綜合輿情研判和預警。主要是根據網絡輿情的熱度、特性、敏感性、危險性,并參照網絡輿情預警級別分類指標決定是否發布網絡輿情預警以及所發布的網絡輿情預警的層級。
參考文獻
[1]朱曉明.“大、云、平、移”助力上海創新[N].解放日報,2013-3-10(9)
[2]盛楊,周濤,譯.維克多-邁爾-舍恩伯格,肯尼斯-庫克耶著.大數據時代[M].杭州:浙江人民出版社,2013:71,75
[3]維克多-邁爾-舍恩伯格.大數據時代停業帶來更理性、更可靠的決策[N].文匯報,20213-3-11
[4]唐濤:網絡輿情治理研究[M]上海:上海社會科學出版社,2014.9:10
[5]唐濤:網絡輿情治理研究[M]上海:上海社會科學出版社,2014.9:184.
[6]張玉峰、何超:基于Web挖掘的網絡輿情智能分析研究[J]情報科學,2011.4:64-68.
[7]什么是Web挖掘?[EB/OL]http://server.zzidc.com/fwqcjwt/web/633.html
作者簡介:1季英偉:(1980-)吉林大學行政管理博士,廣東海洋大學政治與行政學院講師。
2援引維基百科對“大數據”的定義