趙立芳
摘 要 文章主要從大數(shù)據(jù)時代,如何對網(wǎng)絡(luò)數(shù)據(jù)進行分析并建立輿情監(jiān)控和引導(dǎo)機制,找出了集中分析處理方法,并預(yù)測了未來大數(shù)據(jù)輿情研究方向及存在的問題。
關(guān)鍵詞 大數(shù)據(jù);網(wǎng)絡(luò)輿情;發(fā)展;分析;機制
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2016)08-0035-02
隨著數(shù)據(jù)統(tǒng)計和采集的發(fā)展以及網(wǎng)絡(luò)背景下結(jié)構(gòu)化數(shù)據(jù)的普及,“大數(shù)據(jù)”作為這一背景下新生的要素,給社會的各方面帶來了深遠的影響。輿情分析,是社會科學(xué)中一項較為經(jīng)典的研究領(lǐng)域,對輿情分析的概念的劃分可以分為傳統(tǒng)輿情分析與網(wǎng)絡(luò)輿情分析兩個方面。傳統(tǒng)社會輿情分析立足于經(jīng)典的方式方法與傳統(tǒng)信息傳播媒介,致力于研究社會熱點事件、新頒布的政策及法律條文對于社會輿論的影響,并試圖探索社會輿論與這些“關(guān)鍵事件”之間的關(guān)系;網(wǎng)絡(luò)輿情的研究則立足于計算機網(wǎng)絡(luò)這一個新生的信息傳播媒介下展開,其早期因為網(wǎng)絡(luò)普及度相對較低等原因,在研究中相對簡單粗放,而隨著網(wǎng)絡(luò)普及程度的提高,尤其是在類似于推特(Twitter)、飯否、Facebook、新浪微博、人人網(wǎng)等具有方便于海量個人用戶快速發(fā)布信息的功能的“自媒體(owned media)”平臺的建立與推廣,當前的研究轉(zhuǎn)向應(yīng)對海量網(wǎng)絡(luò)數(shù)據(jù)下的輿情研究。
1 自媒體與社科研究
自媒體的普及與運用改變了人們的信息處理行為,將個體塑造成為傳播的核心。在這種根本性的轉(zhuǎn)變中,自媒體成為大數(shù)據(jù)時代自主生成優(yōu)質(zhì)數(shù)據(jù)的重要平臺,同時成為大數(shù)據(jù)運用的關(guān)鍵陣地,它具有以下2個較為突出的特點。
1)數(shù)據(jù)數(shù)量大,來源廣泛。大數(shù)據(jù)之所以被稱之為“大”,源于他的數(shù)量相對以前的研究數(shù)據(jù)來說較大,數(shù)據(jù)量大的結(jié)果便是數(shù)據(jù)加工與分析的難度遠遠大于以前的有限數(shù)量下的數(shù)據(jù)研究工作;而來源廣泛則是指的用來調(diào)查的數(shù)據(jù)不是從單一的某一個點進行獲取,而且擴大到面。
2)數(shù)據(jù)整體價值高,但單個數(shù)據(jù)有待進一步規(guī)范。在大數(shù)據(jù)時代,以微博、微信等為代表的“自媒體”中蘊含了大量的、具有不同的知識背景獨立個體,而相對“匿名”和不限定格式的表達方式,使得用戶得以很方便的表達出自己內(nèi)心的實際
觀點。
2 基于自媒體的網(wǎng)絡(luò)輿情分析關(guān)鍵技術(shù)
如前所述,當前在社會科學(xué)領(lǐng)域?qū)Υ髷?shù)據(jù)的應(yīng)用最為成功的即為網(wǎng)絡(luò)輿情分析研究。與傳統(tǒng)的基于調(diào)查等手段的社會輿情分析不同,大數(shù)據(jù)背景下所進行的網(wǎng)絡(luò)輿情調(diào)查因為網(wǎng)絡(luò)的普及等原因,所獲取的范圍更加廣闊,從而大大降低了傳統(tǒng)的基于調(diào)查的社會輿情分析中因為調(diào)查不全而造成的結(jié)論不準的情況,使研究成果更能反映真實的社會輿論情況。
當前基于自媒體網(wǎng)絡(luò)輿情分析的關(guān)鍵技術(shù)主要有以下幾種。
2.1 信息采集技術(shù)
進行網(wǎng)絡(luò)輿情分析,首要的工作就是進行信息采集。常見的信息采集流程包含數(shù)據(jù)的爬取、清洗與存儲等步驟。
所謂數(shù)據(jù)爬取,即通過網(wǎng)絡(luò)爬蟲(如比較著名的火車頭采集器)或是通過網(wǎng)站API接口獲取研究數(shù)據(jù),當然如果數(shù)據(jù)相對較小且人員充足的話,也可以利用人工手動采集的原始方法。但是相比之下機器爬取的準確率和效率較高,可以有效縮短研究的時間,而且現(xiàn)在有足夠的開源爬蟲軟件可以輔助相關(guān)的數(shù)據(jù)抓取工作,因此在現(xiàn)有的研究中提倡使用程序自動爬取。
所謂數(shù)據(jù)清洗,即對所采集數(shù)據(jù)進行精簡處理,去除與研究無關(guān)或重復(fù)的數(shù)據(jù)。對于數(shù)據(jù)清洗,大致可以分為以下2個階段。
1)數(shù)據(jù)采集時期的一次清洗。主要的清除對象是無效鏈接、重復(fù)和無關(guān)數(shù)據(jù)。
2)數(shù)據(jù)分析時期的二次清洗。主要的清除對象是停用詞。
通過爬取所獲得的數(shù)據(jù)中含有大量的諸如HTML語言字段等對于研究來說是無效的數(shù)據(jù),如不將其過濾將會因為其較高的重復(fù)率影響最終的分析結(jié)果。因此需要進行數(shù)據(jù)清洗工作來去除這些無效
數(shù)據(jù)。
2.2 網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)技術(shù)
所謂網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn),即通過對新聞與目標話題的識別與跟蹤,分析并繪制其發(fā)展軌跡,最終利用聚類的方式將結(jié)果推送給用戶。
該技術(shù)的技術(shù)依據(jù)為對關(guān)鍵詞或話題(標識標注為“#”號,英文稱為hash tag)的統(tǒng)計數(shù)量隨時間的變動情況,需要大量的數(shù)據(jù)進行支撐。
2.3 熱點評估與跟蹤技術(shù)
所謂“熱點評估與跟蹤”,即根據(jù)某一特定熱點事件中公眾的情感和行為反應(yīng),分析其對公眾輿論的影響,建立一套針對輿情變化的評分方案,并設(shè)定其中的各狀態(tài)極值。在這種研究中,常用的研究手段有詞頻統(tǒng)計與情感分類。詞頻統(tǒng)計,即對所采集并清洗后信息進行統(tǒng)計,然后對統(tǒng)計結(jié)果進行分析,從而得出結(jié)論的方法。情感分類,與前述的“數(shù)據(jù)清洗”方法類似,將數(shù)據(jù)與人工編輯成的情感詞詞典進行相似性比對,然后進行分類統(tǒng)計。
2.4 網(wǎng)絡(luò)輿情的分析處理技術(shù)
網(wǎng)絡(luò)輿情的分析處理技術(shù),是大數(shù)據(jù)背景下社會科學(xué)領(lǐng)域的服務(wù)于決策管理層的技術(shù)。該技術(shù)包含針對網(wǎng)絡(luò)輿情事件的早期預(yù)警、現(xiàn)場引導(dǎo)、實際反饋以及評估與自我完善機制等諸多方面。
3 結(jié)束語
目前,大數(shù)據(jù)時代社會輿情的研究還處于探索中。在處理技術(shù)、分析構(gòu)架等領(lǐng)域上還存在著很多的問題,具體體現(xiàn)在以下幾個方面。
1)針對海量非結(jié)構(gòu)數(shù)據(jù)處理技術(shù)尚不夠成熟。
2)研究方向相對分散,缺乏協(xié)作。
3)輿情監(jiān)控對決策支持相對簡單,時效性
不高。
結(jié)合當前研究,大數(shù)據(jù)背景下的公眾輿情研究將會有如下的發(fā)展。
1)行為分析與數(shù)據(jù)分析交叉驗證。
2)人工智能(AI)與心智模型相結(jié)合。
3)基于已有的研究成果構(gòu)建具有學(xué)習(xí)功能的決策支持平臺。
參考文獻
[1]楊海龍.論大數(shù)據(jù)背景下的網(wǎng)絡(luò)輿情監(jiān)測[J].情報探索,2015(10):132-135.
[2]張寧熙.大數(shù)據(jù)在突發(fā)公共事件網(wǎng)絡(luò)輿情信息工作中的應(yīng)用[J].現(xiàn)代情報,2015,35(6):38-42.
[3]郭躍軍.論大數(shù)據(jù)時代網(wǎng)絡(luò)輿情監(jiān)管機制的構(gòu)建[J].山西農(nóng)業(yè)大學(xué)學(xué)報,2015,14(6):640-644.