徐科++康健++劉進
摘 要:世紀之初,輿情服務行業在國內興起。十數年時間里,輿情服務從數據監測服務階段,發展到風險預測服務階段,“數據”的核心地位日益凸顯,快速有效地挖掘出“數據”的價值也成為輿情服務人員的必備技能。隨著信息通訊技術的發展,“數據”量幾何式爆炸增長,大數據時代來臨。這給輿情服務工作帶來新的挑戰,諸多基于“大數據”應用的課題亟待研究。本文即以“大數據時代”為背景,著重闡述輿情服務領域如何運用大數據挖掘技術。
關鍵詞:輿情;網絡輿情;大數據;數據挖掘;精準價值
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1671-2064(2017)01-0050-02
世紀之初,輿情服務行業在國內興起。十數年時間里,輿情服務從數據監測服務階段,發展到風險預測服務階段,“數據”的核心地位日益凸顯,快速有效地挖掘出“數據”的價值也成為輿情服務人員的必備技能。隨著信息通訊技術的發展,“數據”量幾何式爆炸增長,大數據時代來臨。這給輿情服務工作帶來新的挑戰,諸多基于“大數據”應用的課題亟待研究。本文即以“大數據時代”為背景,著重闡述輿情服務領域如何運用大數據挖掘技術,以饗大方。
1 認識輿情“數據”
1.1 “輿情”再定義
中正輿情機構認為,“輿情”是生產關系與生產力相互作用過程中產生的社會意見的總和。也即是說,“輿情”是一種信息集合體(社會意見),它包含態度、意見、情緒等多元的符號。根據傳播信息的載體的不同,“輿情”可分為傳統輿情與網絡輿情。本文主要針對網絡輿情進行研究,這也是目前輿情服務行業主要關注的領域[1]。
1.2 輿情的“數據”特點
大數據時代,輿情服務作為基礎應用,其使用的“數據”具有四大特點。第一,高容量(Volume),即數據巨大,從TB級別躍升到PB級別;第二,多類型(Variety),即數據類型繁多,不僅包括傳統的格式化數據,還包括來自互聯網的網絡日志、視頻、圖片、地理位置信息等;第三,高速度變量(Velocity),即增長、處理速度快;第四,準確性(Veracity),即追求高質量的數據,只有真實而準確的數據才能讓對數據的管控和治理真正有意義。輿情的這4個“數據”特點,既為我們展示了輿情所蘊藏的寶貴財富,也為我們設置了通向財富的“路障”。輿情服務人員需要排除噪聲和干擾,對龐大、無序(非結構化)且多變的“數據”進行科學的采集、過濾和分析,這對我們建立科學的“數據挖掘模型”提出了更高的要求。
1.3 輿情“數據”的價值
當前,輿情“數據”已成為機構決策最為重要的參考依據。輿情“數據”的價值并不在于數據本身,而是在于通過分析數據的關聯性來指導決策及預測未來。譬如在電商行業,電商平臺不僅記錄消費者的日常交易信息,還記錄消費者每一次探索瀏覽的過程,經過數據分析處理,可以適時地推送給用戶最想要的商品,或者給商家提供各式各樣的“情報”、銷售建議。從價值的角度來說,輿情管理的核心同樣在于“分析過去和當下,預測未來”。
2 讓“數據”說話
輿情“數據”要體現其價值,關鍵是要“讓數據說話”。這包含四個重要步驟:數據采集、數據處理、數據分析、數據決策[2]。當前,針對輿情事件的處置工作,皆應遵循閉環式的處理模式,即從采集數據開始,進行分析、研判、應對等步驟,最終這一系列行為也會成為會說話的、新的決策數據如圖1所示。
2.1 輿情工作基礎:采集并處理數據
因輿情“數據”的4V特點,采集到的“數據”數量龐大、內容繁雜,如果這些采集到的數據不經過初步處理,那么進行后續的輿情分析工作將會十分不便。因此,我們需要對基礎數據進行過濾、篩選、整理歸類并“去噪”,將這些復雜的非結構化數據轉換為便于處理的較為單一結構的數據,同時保證數據的有效性和可靠度。
2.2 輿情工作價值體現:讓數據說話
“數據”自身是不會說話的,我們需要對已經處理成結構化的數據進行分析和解讀,挖掘其中蘊含的隱性信息,從而幫助政府機構、企業機構進行決策,比如政策制定、危機處置、市場拓展、新市場發現、競爭威脅應對等。機構決策依賴于數據,這要求我們的數據必須“精準”,包括數據采集的精準和數據分析的精準。中正輿情機構認為,在數據大爆炸的今天,以現有的科學技術僅靠軟件系統來實現準確的數據采集和分析是不可能的。同時,針對采集到的海量的輿情數據,計算機思維目前也不可能像真正的專家一樣,根據每位用戶的實際情況來做出精準的定制化分析,故而還需要組建專業的輿情分析團隊,“人機并行”分析標簽數據,才能有助于機構的數據決策。
3 如何做到“精準”
“及時、有效”,這是體現數據“精準”性的兩項重要指標。要做到這兩點,就必須建立起一套科學的數據采集、處理與分析模型,從而精確地把握輿情動向,并可大大減少分析工作量。
3.1 數據采集
(1)確定采集任務。針對互聯網上的輿情數據,采集工作主要由軟件技術完成,人工輔助。采集工作開始之前,需要由輿情服務人員根據“相關性”原則,確定服務對象的輿情需求,從而制定相應的數據采集任務。(2)確定數據來源。選擇合適的數據來源,生成采集任務種子集合,這對高質量完成輿情數據采集任務起著至關重要的作用。研究發現,自媒體平臺是輿情信息傳播的主要渠道,應作為重點采集來源。另外,新聞網站上的網民互動窗口也可以作為輿情數據采集的重要補充來源。(3)確定采集內容。確定數據來源時,可同步確定需要獲取的數據內容,即確定一定數量的采集任務“關鍵詞”集群。根據數據獲取的難易度,需要分別采取不同的方式進行采集。特別是微信、即時互動等平臺,其數據的保密性更強,采集其數據就需要采用一些其他手段,或迂回、或協商等。(4)開始采集數據。網絡輿情數據的采集流程主要分為三步:一是指定目標,即找到采集入口,確定采集的數據地址;二是數據下載,下載指定目標數據;三是數據分析,分析采集回來的數據,主要是排重、濾除無關內容、格式化信息。如此形成數據采集的閉環,調整與重復即可完成輿情數據采集。
3.2 數據挖掘(處理、分析)
數據挖掘就是輿情數據的價值過濾與定性。此階段工作,需要以人工為主,機器為輔。
(1)機器分析。語言表達的意思和表達者的語境相關性很大,對于輿情的分析需要考慮使用接近自然語言的智能分析方法,比如全文檢索這種以信息內容為主要研究對象的非關系型數據分析系統,或社會網絡檢索這種以信息節點為主要研究對象的關系型數據分析系統。(2)人工分析。以上的初步分析工作可由軟件完成,其主要目的是將采集到的非結構化數據處理成可以進行人工分析的結構化數據。在人工處理階段,可以借助一些分析工具,來對已經經過初步處理的數據進行定性、定量分析。
各個輿情研究機構的分析工具各有不同,本文以中正輿情機構為例,簡單介紹一種定量分析工具和一種定性分析工具。對于一起輿情事件,我們需要知道它的相關輿情當前處于什么樣的狀態(輿情發展階段),破壞力(風險程度)有多大等。對于這些問題,我們可以借助一些指標來進行量化分析,比如中正輿情網絡輿情管理指數體系(PUZI)圖2所示。
根據軟件處理之后的結構化數據,分析人員可以確定出每個KPI關鍵指標的具體取值,結合各項指標對應的參數,通過數理演算公式計算,即可獲得具體輿情事件的當前分值,該數值可以幫助分析人員準確判斷輿情事件的發展階段、風險程度等。決策者可根據輿情發展階段和風險程度的不同,采取不同的處置方式應對輿情。
一起輿情事件中,往往會涉及到各種不同的個人、群體或機構等,關系復雜難辨,此時我們可以使用一種中正輿情機構輿情定性分析工具——“輿情三體解構工具”圖3所示。
“輿情三體解構工具”將輿情事件中的人群或機構分為三大類:第一類是輿情主體,即輿情事件中矛頭指向的一方;第二類是輿情客體,即輿情事件中的爆料者或爆料單位;輿情關聯體,即輿情事件的相關群體,根據利益相關的程度不同,又可分為強關聯體和弱關聯體。輿情的發展是變化的,因此,三類群體的身份有可能出現更替交互的情況。借助“輿情解構工具”,我們可以根據這些人或機構在輿情事件中所處的位置和具體表現,厘清他們之間的復雜關系,從眾多的矛盾中挖掘出主要矛盾,并根據主要矛盾找出有效的輿情應對方法。
4 結語
輿情服務的價值,在于向服務對象提供大數據的“精準”價值,整個大數據價值的挖掘過程中,軟件技術和數據處理模型至關重要。隨著“數據社會”的繼續膨脹,軟件技術和數據處理模型也需要不斷發展進步,才能跟得上“大數據”的步伐。
參考文獻:
[1]肖江蘇.大數據的概念、特征及其應用探究[J].電腦編程技巧與維護,2016(3):57-58.
[2]謝樹云,全曉松,申云成.大數據環境下網絡輿情評估模型的構建[J].貴陽學院學報(自然科學版),2016(1):54-57.