柳源


摘要:隨著互聯(lián)網(wǎng)在全球范圍內的快速發(fā)展,人們的行為、交流方式發(fā)生了深刻的變化。社會上一些的熱點、焦點問題通過互聯(lián)網(wǎng)傳播、碰撞和整合,形成網(wǎng)絡輿論,對社會經濟的發(fā)展產生重大影響。數(shù)據(jù)挖掘技術對網(wǎng)絡輿情信息獲取、內容分析、研判與預警等多方面都有極其重要的指導意義。該文提出基于數(shù)據(jù)挖掘技術設計網(wǎng)絡輿情分析系統(tǒng),引導輿論向著積極的方向發(fā)展,從而推進社會的穩(wěn)定發(fā)展。
關鍵詞:數(shù)據(jù)挖掘;輿情分析;網(wǎng)絡爬蟲
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)20-0009-02
開放科學(資源服務)標識碼(OSID):
1 概述
隨著互聯(lián)網(wǎng)在全球范圍內的迅速發(fā)展,網(wǎng)絡已經成為社會輿論傳播的主要載體之一。網(wǎng)絡與人們的工作和生活息息相關,它在給人們帶來便利的同時,也給社會管理工作帶來諸多挑戰(zhàn)。大量網(wǎng)民通過網(wǎng)絡社交平臺評論、轉發(fā)社會突發(fā)事件,這些事件在網(wǎng)絡傳播的過程中很容易偏離事件性質本身,影響了事件的公正處理。網(wǎng)絡輿論對社會經濟的發(fā)展和個體聲譽都將會產生一定的影響,如果不加以適當干預,對輿論的方向起誤導作用。網(wǎng)絡傳播媒介多元化的今天,使得輿論的信息源呈現(xiàn)出多樣性,同樣實時有效地對網(wǎng)絡輿論進行監(jiān)測分析也變得越發(fā)困難。因此,本文將設計一個基于數(shù)據(jù)挖掘的輿情分析系統(tǒng),采用分布式并行方法收集、處理數(shù)據(jù),它能有效地對網(wǎng)絡輿論進行預警和響應,在一定程度上減輕網(wǎng)絡輿論的負面影響,盡量把輿論維持在一個可控的范圍內,提高政府的公信力。
2 相關理論
2.1 網(wǎng)絡輿情
網(wǎng)絡輿情信息,是指人們借助互聯(lián)網(wǎng),對社會公共事務,特別是社會熱點和熱點問題,發(fā)表有影響力、有偏見的意見和言論。是人們社會中各種現(xiàn)象、問題所表達認知、態(tài)度、情感和行為傾向的集合。
網(wǎng)絡輿情是社會輿情在互聯(lián)網(wǎng)空間上的一種映射,是社會輿情的直接反映。2019年2月28日,中國互聯(lián)網(wǎng)信息中心(CNNIC)在北京發(fā)布了第43期中國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告。截至2018年12月,全國互聯(lián)網(wǎng)用戶數(shù)為8.29億,全年新增網(wǎng)民5653萬人,互聯(lián)網(wǎng)普及率達59.6%,較2017年底提升3.8%。由于網(wǎng)絡是一個開放的環(huán)境,因此它是匿名的,分散的,難以控制的。網(wǎng)絡輿論表達迅速、信息多元化、互動性強,傳播范圍更加廣泛,有著巨大的社會影響力。
2.2 數(shù)據(jù)挖掘
所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
3 輿情分析系統(tǒng)的設計
為了及時、準確地掌握網(wǎng)絡輿論的導向,發(fā)揮政府的輿論監(jiān)督作用,利用數(shù)據(jù)挖掘技術建立輿情分析系統(tǒng)勢在必行。一個完整的輿論分析系統(tǒng)由數(shù)據(jù)模塊、分析模塊和評價模塊組成,主要包括以下四個功能組件:數(shù)據(jù)收據(jù)、數(shù)據(jù)預處理、數(shù)據(jù)分析、預測評價。
1)數(shù)據(jù)收集。數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析內容,收集相關數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供了素材和依據(jù)。根據(jù)所得的數(shù)據(jù),抽象出數(shù)據(jù)的特征信息,將收集到的信息存入數(shù)據(jù)庫。選擇一種合適的數(shù)據(jù)存儲和管理的數(shù)據(jù)倉庫類型數(shù)據(jù)集的選取對數(shù)據(jù)挖掘模式是否有趣起決定作用。網(wǎng)絡輿情信息搜集可以從一個URL集合開始,通過與敏感關鍵字集合進行比對,過濾無關選項,把有用的信息加入數(shù)據(jù)隊列。
2)數(shù)據(jù)預處理。從對不同的源數(shù)據(jù)進行預處理的功能來分,數(shù)據(jù)預處理主要包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)規(guī)約等四個基本的功能。在數(shù)據(jù)挖掘整體過程中,海量的原始數(shù)據(jù)中存在這大量復雜的,重復的,不完整的數(shù)據(jù),嚴重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率,甚至可能導致挖掘結果的偏差,為此,在數(shù)據(jù)挖掘算法執(zhí)行之前,必須對收集到的原始數(shù)據(jù)進行預處理,以改進數(shù)據(jù)的質量,提高數(shù)據(jù)挖掘過程的效率,精度,性能。數(shù)據(jù)預處理主要包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換與數(shù)據(jù)規(guī)約等技術。數(shù)據(jù)預處理技術可以改進數(shù)據(jù)的質量,從而有助于提高其后的挖掘過程的準確率和效率。
3)數(shù)據(jù)分析。網(wǎng)絡輿情分析系統(tǒng)充分利用數(shù)據(jù)挖掘分析工具,從海量的、不完整的、復雜多變的網(wǎng)絡輿論信息中,我們可以找到輿論演變的內在原因和規(guī)律,并分析其內在因素之間的關系,準確地把握可以預見的輿情發(fā)展方向。數(shù)據(jù)分析是一個十分復雜的過程,首先需要對收集的數(shù)據(jù)做清洗工作,排除異常值、空白值、無效值、重復值等,然后進行加工、分析和轉化,從中獲得有效的數(shù)據(jù)內容。
4)預測評價。評估和分析是指根據(jù)可用信息,按照特定方法和法律衡量未來趨勢或事物的可能結果,以便事先了解事物發(fā)展的過程和結果。網(wǎng)絡輿情分析系統(tǒng)充分應用現(xiàn)有的關鍵字詞云技術,對分析的結果可視化地表示,向管理者提供有針對性、可行性的評估報告。
4 總結
社會在發(fā)展,時代在進步,輿論網(wǎng)絡也變得錯綜復雜,很多原有的數(shù)據(jù)挖掘技術難以達到預期的效果。本文結合數(shù)據(jù)挖掘最新技術和熱門事件評價模型,通過網(wǎng)絡爬蟲原理實現(xiàn)數(shù)據(jù)的自動化采集工作,實現(xiàn)對網(wǎng)絡輿論的精準分析、研判和引導,讓社會管理部門能夠及時、高效地處理突發(fā)輿情,為維護社會秩序的穩(wěn)定奠定堅實的基礎。
參考文獻:
[1] 段淑敏. 網(wǎng)絡輿情監(jiān)測引導系統(tǒng)研究[J]. 經濟研究導刊, 2012(28): 227.
[2] 余宏, 洪如霞, 史文津. 基于大數(shù)據(jù)的企業(yè)主題網(wǎng)絡輿情分析系統(tǒng)模型研究[J]. 現(xiàn)代計算機: 專業(yè)版, 2018(13): 17.
[3] 高濤濤, 匡芳君. 基于大數(shù)據(jù)的高校網(wǎng)絡輿情分析研究[J]. 電腦與電信, 2017(10): 16.
[4] 段淑敏. 基于WUM的Web輿情監(jiān)測引導系統(tǒng)研究[J]. 計算機光盤軟件與應用, 2012(14): 45-46.
[5] 潘大慶. 基于數(shù)據(jù)挖掘的輿情監(jiān)測系統(tǒng)設計[J]. 大眾科技, 2014(11): 1.
[6] 張治斌, 劉威. 淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預處理技術[J]. 數(shù)字技術與應用, 2017(10): 115.
【通聯(lián)編輯:謝媛媛】