易珩+馬琪琪+朱璽諭+顧振宇
摘要:梳理現有網絡輿情文獻研究,基于云計算爬蟲技術獲取微博API開放平臺大數據,量化影響網絡輿情傳播三大主要因素,利用SPSS統計學軟件針對大數據進行數據挖掘,構建散點圖、直方圖、折線圖等描述性統計量,進而利用R語言構建線性回歸方程,并針對數據處理結果進行分析,揭示網絡輿情傳播特點,就網絡輿情監管、處理、預防過程中的缺失提出建議,為現存網絡輿情傳播提供新的研究工具。
關鍵詞:網絡輿情;云計算;數據挖掘;描述統計學;線性回歸
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)01-0032-03
1 社會背景
我們已邁入大數據時代,數據挖掘技術與云處理技術的融合運用于多方問題的解決,具有廣泛應用性。作為網絡輿情這一愈發突出的網絡社會問題,我國此類研究仍處于初級階段,停留在簡單的理論分析層面。面對問題的發生,政府部門的解決方案仍多處于隱瞞、躲避等低效處理手段,往往治理效果不佳。現如今,計算機網絡與云計算技術的發展與運用可有效地達到“事前預防,事中控制,事候安置”的效果,更好地解決輿情問題,保持社會的和諧安定。
1.2 研究現狀
網絡輿情現主要存在于中國,屬于網絡發展中的突出問題。國內現研究主要集中于基于社會學與管理學研究,主要探討公眾對于政府行政工作、社會矛盾等事件的態度與反應,多基于某一特定事件進行具體研究,利用問卷調查或理論描述分析,雖具有一定的現實意義,但是由于網絡輿情其突發性、不穩定性與復雜性,事件涉及各方人員較為復雜,事件性質各不統一,研究缺乏基于大數據對于網絡輿情的整體發展情況與影響因素進行廣泛性研究。故本文將結合數據挖掘技術與云計算處理技術針對網絡輿情大數據進行分析討論,更具代表性與適用性。
2 相關理論
2.1 網絡輿情
網絡輿情是對社會輿情的反映,也是輿情在互聯網上的映射[1]。隨著現如今互聯網已全面普及,據截至2017年6月中國互聯網絡信息中心(CNNIC)發布的2017年度《中國互聯網絡發展狀況統計報告》,我國網民規模達到7.51億。中國網民、新媒體更多地利用互聯網平臺進行發聲,使得網絡輿情的傳播范圍更加廣泛,傳播速度更加快速。
2.2 云計算
現如今,對于云計算沒有確切的定義,在本文中,我們引用認可度較廣的NIST定義。NIST 認為云計算是一種模式,能泛在地、便利地、按需地通過網絡訪問可配置的計算資源,如網絡、服務器、存儲器、應用和服務等,這些資源可實現快速部署與發布,并且只需要極少的管理成本或服務提供商的干預[2]。合理地運用云計算技術可以更為高效地預防、處理、監控網絡輿情發展情況。
2.3 數據挖掘
所謂數據挖掘, 就是從大量無序的數據中發現隱含的、有效的、有價值的、可理解的模式, 進而發現有用的知識, 并得出時間的趨向和關聯, 為用戶提供問題求解層次的決策支持能力[3]。利用數據挖掘技術可以將輿情進行精準分類、特定分析、數據擬合,建立高效的數據庫,實現快速準確的信息檢索。
3 應用過程
3.1 數據選取
新浪微博以其會員人數眾多、信息量較大、結合移動與PC端等優勢,在網絡信息的傳播過程中成為主流平臺,本次我們選取新浪微博作為數據源進行分析。
網絡輿情按其政府在網絡輿情應對中的角色,可分為涉及政府事件,政府作為當事方與非政府事件,政府作為社會管理者角色[4]。政府事件包含城管暴力執法等事件,非政府事件包含娛樂新聞等事件。近些年,網絡輿情情況愈發突出,例2017年8月日,魏凱揚陪同學鄧某某、唐某飲酒,導致下午開庭不能正常進行等涉及政府部門事件頻發。政府由于其特殊地位,作為敏感性問題更易引起社會關注并造成社會動蕩與政府公信力下降等嚴重后果,成為社會治安的又一不穩定因素。因此,本次將重點分析涉及政府類信息,討論政府在輿情處理方面存在的缺失環節并加以改進分析。
3.1 數據收集
我們利用Python的爬蟲技術編寫代碼用于搜集微博平臺移動端與PC端涉及“政府”、“城管”、“法官”等敏感性字樣的輿情數據,獲取以下信息:①微博發表時間;②微博的內容;③發微博的工具(手機類型或者平臺);④微博被轉發的數量,以此作為本次研究的數據基礎。
3.2 數據分析
首先探討網絡輿情傳播程度與事件發布時間之間的關系。
將自變量定義為發表時間(以微博輿情事件發表時間表示),我們構建散點圖將微博平臺近3個月內343件轉發數量大于500的涉及“政府事件”在時間軸中標出,分析輿情發生時間主要集中的時間段進行分析。利用SPSS軟件進行描述性統計學分析,得出結果如下:
我們發現近3個月內343件“政府事件”發布時間多集中6:00至11:00白天的時間段,在夜間17:00以后呈明顯下降趨勢。
接著探討網絡輿情傳播程度與輿情內容敏感字段個數之間的關系。
利用統計學多元線性回歸知識,將定義為輿情內容(以內容涉及“政府”、“城管”等敏感字段個數表示),利用SPSS軟件對于所選取數據構建散點圖,得出結果如下:
通過圖我們發現輿情數量與敏感詞條個數存在正相關的線性關系,即敏感詞條個數越多,轉發數量越多,為進一步分析兩者之間具體量化關系,我們利R語言構建一元線性回歸,得出結果如下:
根據表1分析,二者所構建回歸方程為: 即平均每增長一條敏感性詞條,轉發數量會平均增加710條轉發數量,為此,得以證明敏感性詞條個數對于最終輿情的傳播效果有著重大的影響。
接著探討網絡輿情傳播程度與傳播設備端之間的關系。
利用SPSS軟件繪制描述統計學直方圖分析因變量與自變量:傳播方式(以傳播方式是否利用移動端設備/PC端設備傳播表示)之間的關系,得出結果如下:endprint
由圖可知,所獲取的數據中消息發布者與轉發者使用移動端設備傳播的人數占絕大多數,大約占據所有轉發數量的,由此可見移動設備端的傳播對于輿情傳播起更大程度的影響作用。
3.3 討論和分析
根據網絡輿情傳播程度與事件發布時間所作折線圖分析,微博發表時間多集中于6:00至11:00白天的時間段,在夜間17:00以后呈明顯下降趨勢,由此分析其成因有①涉及政府事件的網絡輿情發生時間多集中于白天,且由于現如今移動設備的普及,導致社會實踐可以在第一時間發布與傳播;②涉及政府類事件的曝光可以有效達到輿論監督的效果,在白天有關責任部門可第一時間進行核實,確保事件的真實性并及時做出應對與措施,減少事件所造成的不良影響;③夜間多集中娛樂性等非政府類事件的傳播,政府類消息的關注度有所下降,傳播效果不佳,故各媒體人為新聞關注度擇時而發。
根據網絡輿情傳播程度與輿情內容敏感字段個數所作散點圖與一元線性回歸所作結論,敏感性詞條的個數會大大影響輿情傳播的程度,由此分析其成因有①敏感性詞條數量增多,反應此事件涉及多方矛盾,影響人群范圍更加廣,社會關注度更高,輿論監督力度更大,更易導致輿情的快速傳播②基于微博等互聯網平臺信息檢索功能,敏感性詞條數量增多可以增強微博詞條的搜索效果,其信息檢索效果更佳,更易被搜索,可吸引更多網民關注。
根據網絡輿情傳播程度與傳播設備端所作消息發布者與轉發者使用移動端與PC端設備傳播的直方圖所示,移動端設備較PC端設備對于輿情的傳播擁有更重要的地位,我們分析其成因有:①現如今,移動端設備普及度較高,據工信部公布《2017年第1季度通信水平分省情況》,報告顯示我國,移動電話普及率為97.9部/百人,“移動網民”也成了網絡安全中又一股重要的人群。②由于移動端設備其便捷性與實時性的特點,“移動網民”可以達到“隨時發布、隨時查看、隨時評論”的便利,其便捷性也客觀上增強了輿情傳播的程度。
3.4 改進建議
針對網絡輿情傳播程度與事件發布時間問題,官方政府機構開通各類大型平臺官方賬號,開通便民反饋通道,加強平臺監督與信息的實時反饋,白天進行具體事項的處理與監控,確保其面對突發的網絡輿情可以及時接收、及時核實、及時處理,避免引起不良影響。
針對網絡輿情傳播程度與輿情內容敏感字段個數問題,面對敏感詞條數對于輿情傳播的巨大影響力,增設敏感性詞條監控手段,網絡安全部門設定敏感詞條數警戒線,對于不當內容及時發現、核實、處理,減少網絡輿論的不當引導與不良謠言的散播。
針對網絡輿情傳播程度與傳播設備端問題,面對現如今移動端設備作為網絡輿情傳播中重要的用戶使用工具,需要更加關注移動端設備信息的監控,完善網絡實名制與網絡信息的管理制度,關注“移動網民”的實時動態。
4 結論
本文以網絡輿情中政府部門在網絡輿情應對中所處角色,將其分為以政府作為當事方的政府事件與政府作為監管方的非政府事件。以政府其特殊性地位與其所易造成的公信力下降等嚴重影響,本文主要針對政府類實踐研究。
通過Python網絡爬蟲技術獲取微博平臺所需信息,分別給予描述統計學與線性回歸基礎,利用SPSS與R語言軟件構建散點圖、直方圖、線性回歸,具體分析網絡輿情傳播程度與事件發布時間、輿情內容敏感字段個數、傳播設備端三大影響因素之間的關系。分析得出事件發布時間多集中于6:00至11:00白天的時間段,在夜間17:00以后呈明顯下降趨勢;輿情內容敏感字段個數與輿情傳播程度存在顯著的正相關關系,平均每增長一條敏感性詞條,轉發數量會平均增加710條轉發數量;消息發布者與轉發者使用移動端設備傳播的人數占絕大多數,大約占據所有轉發數量的,對于輿情的傳播起主導作用。后基于以上分析,并結合政府先行輿情管理模式提出針對性解決方案,旨在加強網絡輿情的監督、預防與處理,確保網絡社會的和諧。
本文主要利用統計學與計算機知識,利用現有的新型大數據處理工具,以獨特的視角分析輿情事件其特征與傳播過程中各因素影響情況。在之后的研究中,將研究范圍拓展至非政府事件的研究,以更大的數據量使結論更具代表性。
參考文獻:
[1] 曾潤喜.網絡輿情管控工作機制研究[J].圖書情報工作,2009,53(18):79-8.
[2] Peter M, Timothy G. The NIST Definition of Cloud Computing[011-9-1]. http://csrc.nist.gov/publications/ nistpubs/800-145/SP800-145.pdf.
[3] 賀玲,吳玲達,蔡益朝. 數據挖掘中的聚類算法綜述[J]. 計算機應用研究,007,(01):10-13.
[4] 王晰巍,邢云菲,趙丹,等. 基于社會網絡分析的移動環境下網絡輿情信息傳播研究——以新浪微博“霧霾”話題為例[J]. 圖書情報工作,2015,59(07):14-22.
[5] 余江,萬勁波,張越.推動中國云計算技術與產業創新發展的戰略思考[J].中國科學院院刊,2015,30(02):181-186.
[6] 王國華,馮偉,王雅蕾.基于網絡輿情分類的輿情應對研究[J].廉政文化研究,2013,4(4):92.
[7] 梁俊山.基于云計算的政府網絡輿情治理研究[A].燕山大學文法學院.學習十八大精神與河北沿海地區發展論壇論文集[C].燕山大學文法學院,2012:7.
[8] 丁勝鋒,楊紹輝.數據挖掘技術在網絡輿情管理中的研究[J].大學教育,2016(11):173-174.
[9] 何雅琴,朱葛俊,張飛.基于云計算的常州本地網絡輿情特點與對策研究[J].常州信息職業技術學院學報,2013,12(1):92-94.endprint