□文娜
隨著移動互聯網、物聯網等新技術的迅速發展,人類進入數據時代。大數據帶來的信息風暴正深刻改變我們的生活、工作和思維方式,對網絡輿情管理也帶來深刻影響。近年來,互聯網輿情分析已逐漸投入商用,國內較著名的機構(企業)包括人民網、騰訊、百度、天涯論壇等,均在互聯網輿情大數據分析藍海留下了足跡。
互聯網大數據分析是基于最新的大數據理論和技術,分析、發現其中存在的統計規律,從而為政府、企業、消費者等主體提供現狀研判、形勢預測、對策參考等服務。本文僅介紹其中的一個分支——互聯網輿情大數據分析。顧名思義,輿情大數據分析是以大數據采集為核心技術支撐,通過網絡爬蟲程序抓取新聞網站、博客、微博、微信等渠道輿情信息,運用數據挖掘、可視化分析等技術,提供輿情監測、事件追蹤、民意調查、危機預警等一站式服務。
綜觀國內輿情分析供應商,其服務呈現出幾大特點:一是數據為王。大部分輿情供應商基于自有搜索引擎(新聞平臺)或抓取網絡數據,如百度指數、人民網輿情監測室、騰訊移動分析、天涯輿情等,自有或數據抓取技術在其輿情服務鏈條里占據舉足輕重的地位。二是產品偏軟。供應商以為用戶提供軟件定制和報告服務為主。前者根據用戶需求開發輿情定制頁面,用戶通過賬號登錄即可實現輿情速覽、報告制作等一鍵式服務;后者則基于供應商輿情分析系統,輿情分析員通過應用統計分析、可視化操作等技術完成輿情報告。三是實時監測。市面上的輿情監測軟件都可以做到7×24小時監測、采集互聯網信息,并對獲取的信息進行全面檢索及自動消重,從而實現主題演化、時間趨勢、話題傳播等分析。四是“私人定制”。根據用戶提供的關鍵詞即可實現對指定受監控信息源(新聞、論壇、博客、微博、貼吧、RSS、WAP、電子報、境外網站等)進行定時采集,并對采集時間密度、采集內容、采集方式進行配置管理。
與廣泛應用大數據分析的美國等發達國家相比,國內互聯網輿情大數據分析尚處于起步階段,仍存在一些難以回避的程序性缺陷和問題。
一是信度和效度難以驗證。由于各大新聞網站、自媒體平臺均有獨立的生態系統,如微信對數據開放就比較保守,數據采集的廣度和深度受到掣肘,有效數據不能代表“大數據”,難免有“盲人摸象”之虞。以至于部分基層網絡管理(宣傳)部門通過搜索引擎輸入縣名等關鍵詞即可完成每日“輿情監測”。二是智能化水平有限。雖然計算機在信息抓取和呈現方面大大解放了人力資源,但由于智能爬蟲、神經網絡分析等技術短期內難有突破,在爬蟲模板管理、報道消重聚合、評論聚類分析、網民情感傾向、各渠道信息影響力權重等方面,系統維護和分析人員仍無法缺位。三是預警“有名無實”。一方面,現階段監測是對以往信息流橫斷面的局部展示,而對于事件的未來走勢和影響力難以有準確的預測;另一方面,互聯網是現實生活的“鏡像”,網絡社會與現實社會融為一體,輿情預警對線下活動難免“鞭長莫及”。換句話說,目前輿情監測只能做到特定關鍵詞和信息的實時預警,而事件時刻在變化,未來事件發生的概率和嚴重程度還在“黑匣子”里,而這恰恰是輿情監測最有“市場”的目標。四是“點”無法成“面”。隨著微信、微博等自媒體的發展,性別、年齡等屬性數據逐漸虛化,朋友圈、同事網等關系數據的價值凸顯。關系成為對輿情事件進行大數據分析的關鍵。由于技術瓶頸和資本、人才等要素有限,目前的輿情研判仍側重于對“點”的線性研究,尚未完成向關系網研究的轉化。
浙江信息經濟發展為全國矚目,而大數據產業前景廣闊,藍海市場顯現。大數據時代數據量的增加和對技術繁雜程度的要求永無止境,互聯網輿情大數據分析的門檻將進一步提高,傳統的輿情分析中小作坊式運作模式將進一步被顛覆,與之相應的產業扶持、人才培養、監管措施、資金保障則需“有為政府”和“有心企業”共同發力,才能在大數據時代真正“破局稱王”。