梁翠萍++胡慶寶
摘 要:2011年麥肯錫發布了《大數據,下一個創新、競爭和生產力的前沿》研究報告之后,大數據概念開始風靡全球。近年來,隨著國內微博、微信、娛樂網站等新媒體的興起和發展,越來越多的民眾通過互聯網參與到熱點話題和熱門事件中。所以,通過大數據對網絡輿情進行監測和分析,并對民眾的態度和傾向做出準確的定位顯得非常重要。該文主要通過對大數據論述、網絡輿情篩選、輿情捕獲存儲以及數據分析,來探究大數據在輿情分析中的應用及其價值。
關鍵詞:大數據 網絡輿情 數據抓取 數據存儲 輿情分析
中圖分類號:G206 文獻標識碼:A 文章編號:1674-098X(2017)01(c)-0108-02
隨著新興媒體的發展,互聯網輿情已經在社會發展中扮演著重要的角色,它已不僅僅局限于個別范圍的使用和拓展,而是演變為全民互動型的參與和討論,所以如何在眾多信息中獲取最全面的輿情數據,并將輿情數據以最快的速度和最靈活的方式展現出來,使輿情在可控的范圍內實現最大的社會和商業價值,顯得尤為重要。
1 網絡輿情
網絡輿情不同于傳統輿情,傳統輿情是民意理論中的一個概念,是民意的一種綜合反映。該文所提到的網絡輿情,是未經任何中介包裝和驗證,直接發布于網上的社會輿情,并以互聯網為載體,以輿論事件為核心,集民眾情感、態度、意見、建議、傳播互動和影響力于一身的集合。
因為網絡輿情的傳播介質是網絡,網絡既具有公開性又具有隱蔽性,同時需要事件、網民、網民情感,以及通過網絡介質的傳播和互動,所以在既公開又隱蔽的環境中,從眾多的信息中捕獲并抽取出復雜的網民情緒和態度非常重要。
2 輿情捕獲
由于輿情具有自由性、交互性、多元性、偏差性和突發性,所以如何從眾多輿情中獲取實時數據并服務于大眾,是新興媒體所面臨的嚴峻挑戰和考驗。
2.1 關鍵詞確定
在互聯網上傳播的信息可以用海量來形容,如果針對輿情盲目進行檢索,猶如大海撈針,不僅得不到我們想要的數據,還會浪費大量的人力、物力和財力來投入到數據的分析中。所以如何在海量的信息中獲取用戶想要的數據,“關鍵詞”就顯得非常重要,它不僅可以讓我們精確地捕獲到想要的數據,而且還可以減少臟數據的捕獲,大大縮短了輿情分析的時間,提升了輿情分析的反應速率,下面就介紹幾種關鍵詞確定的方法。
(1)定制關鍵詞。關鍵詞的確定可以從輿情分析的發出者來反向提出,輿情分析的發出者一定是希望從網絡輿情中得到某種相關信息,那么我們可以從需求提出者和需求分析者的角度來確定關鍵詞,即關鍵詞由用戶提出,并通過需求分析將用戶的表述發展為定制詞語,并將其定義為用戶定制關鍵詞。根據用戶定制的關鍵詞來捕獲數據,是最直接明了的數據捕獲方式。
(2)熱門輿情關鍵詞。很多網站如百度、搜狐、Facebook、新浪等幾乎所有的交互網站都會有熱門指數,我們可以借助這些網站自身攜帶的熱門指數,來確定關鍵詞。因為通過熱門輿情關鍵詞來捕獲數據,一定是網站熱門數據,這樣不僅可以節省我們分析確定關鍵詞的時間,而且還可以用最短的時間獲取最多的分析數據,提高大數據在輿情分析中的反應速率。
(3)熱搜輿情關鍵詞。熱搜輿情關鍵詞不同于熱門關鍵詞,由于輿情具有廣泛傳播性,很多人參與到輿情探討中,都是通過網絡搜索并定位的,所以熱搜關鍵詞就是根據搜索引擎的熱搜排行榜,來確定輿情關鍵詞,通過熱搜排行榜,我們可以第一時間知道并了解網民想要了解的輿論事件。
(4)參考輿情發布網站。想要找到網絡事件的發展狀況和原由,最簡單也是最直接的方式,就是找到輿情發布的網站,很多網站就是網絡輿情事件的源泉。
2.2 數據抓取
當我們通過各種方式獲取并確定了關鍵詞之后,如何把關鍵詞變成我們想要的精確數據,就顯得非常重要。我們可以通過網絡爬蟲技術來獲取輿情數據。
當前主流的數據抓取模式主要包含4個主要部分:網絡爬蟲技術(Spider)、數據處理技術(Data Process)、爬取URL隊列(URL Queue)和數據。爬蟲主要是從互聯網上捕捉網頁內容,并從中抽取出需要的內容。數據處理:對爬蟲抓取的內容進行處理。URL隊列:為爬蟲提供需要抓取數據網站的URL。數據包含3個方面:(1)Site URL:需要抓取數據網站的URL信息;(2)Spider Data:爬蟲從網頁中抽取出來的數據;(3)Dp Data:經過dp處理之后的數據。
2.3 數據存儲
因為網絡輿情具有及時更新和海量的特性,所以我們如何將抓取到的數據實時保存起來,是非常關鍵的,它決定了最后輿情分析的全面性和精確性。一般通過IT技術可以將數據存儲到數據庫中,下面介紹一下當前主流的3種數據庫及其區別。
Oracle數據文件都是采用二進制編碼的文件,而且它可以對SQL在執行過程中的解析和優化指定統一標準,其中包括RBO、CBO以及HTNT規則,這些都會使在Oracle數據庫中執行的SQL擁有極大的優化自由,同時也對CPU、內存、IO資源方面進行優化。
MySQL最大的特點應該屬自由選擇存儲引擎。它的每一個表都是一個文件,都可以選擇合適的存儲引擎。但由于它的存儲引擎是開放式的插件引擎,所以文件的一致性大大降低,并且在SQL優化方面,也會有一些不可避免的瓶頸,例如多表關聯、子查詢優化、統計函數等都是它的弱項,并且MySQL只支持極簡單的HINT。
SQL Server的數據架構基本是縱向劃分,分為:Protocol Layer、Relational Engine、Storage Engine、SQLOS。SQL執行都是逐層,其中Relational Engine中的優化器,是基于成本的,其工作過程跟Oracle是非常相似的。同時它也支持豐富的HINT,包括:連接提示、查詢提示、表提示。
雖然,這3個數據庫各具特色,但是,如果對數據安全、存儲等特性沒有特殊要求,通常我們會選取MySQL數據庫,因為開源而且操作相對簡單。
3 輿情分析
如果說輿情數據的抓取和存儲目的是在數據獲取方面下工夫,那么輿情分析就是通過比較、論證等方法把數據通過圖形報表等更加簡潔的方式呈獻給用戶。
每一個輿情事件的本身都有自己的特點,分析設計人員可以根據不同的特點選擇輿情分析的方法或報表。通常輿情分析方法有連續接近法、舉例說明法、比較分析法和流程圖法等。通常圖形報表也有很多種,如趨勢圖、比例餅圖、百分比柱圖、流程圖、表格等,分析設計人員根據輿情的特點選擇合適的圖形呈獻給用戶。
4 結語
通過大數據相關技術對輿情進行全方位收集、存儲和分析的過程中,我們既不修飾、篡改輿情事件的真實性,也不隱藏輿情事件的丑陋性,大數據的智能捕獲分析,只是將網絡輿情更加清晰形象地呈現給用戶,使用戶在第一時間獲取民眾態度,掌握民眾意見或建議,并根據輿情報告的精準分析反饋,及時對輿情事件做出相應的政策,調整相關的策略,實現商業和政治利益最大化,創造更多的社會價值,并使網絡輿情健康良性發展。
參考文獻
[1] 王博.大數據時代網絡輿情與社會治理研究[D].云南財經大學,2016.
[2] 楊旭東.網絡輿情監控系統關鍵技術研究[J].信息網絡安全,2016(9):251-256.
[3] 李麗清.網絡輿情監控與分析系統的設計與實現[D].西安電子科技大學,2014.
[4] 唐勇.互聯網輿情監控系統的設計與實現[D].北京郵電大學,2013.