◆張黎明 趙麗娟
基于SPSS Modeler的涉警網絡輿情預警研究
◆張黎明1趙麗娟2
(1.中國人民警察大學(廊坊) 河北 065000;2.中國人民警察大學(廊坊) 河北 065000)
網絡的飛速發展徹底改變了當下輿論傳播方式,促使更多的個人、組織以不同的身份參與到網絡輿論中,使網絡輿情的發展更具多樣性。近些年來涉警網絡輿情態勢愈加嚴峻,一方面是因為警察這一職業的特殊性,另一方面是對網絡輿情評估的不準確和不全面,導致輿情管理部門不能采取有效的預警和疏導措施,甚至危及社會安全的網絡輿情事例頻發。本文通過利用爬取的涉警網絡輿情數據,分析涉警網絡輿情事件的相關維度,利用人工神經網絡算法,構建涉警網絡輿情熱度預測模型,以期為公安機關早期處置輿情事件提供強有力的方法指引和技術支撐。
網絡輿情;涉警輿情;SPSS;神經網絡模型
隨著新浪微博、今日頭條等等網絡媒介的高速發展,網絡傳播路徑呈現裂變式擴散。網絡輿情事件頻繁發生,如若應對不當,極有可能對當事方以及社會產生重大負面影響。2016年2月份,習近平總書記在召開的新聞輿論工作座談會上,將輿情引導、輿情管理上升到黨和國家的戰略層面。在這樣的情形之下,及時展開對相關網絡輿情風險的評估,進一步來加強網絡輿情的監督和管理就顯得非常必要。
根據CNNIC(中國互聯網信息中心)發布的《中國互聯網絡發展狀況統計報告》顯示,截至2018年12月底,我國網民的用戶規模約8.29億,2018年全年新增網民數量5653萬,互聯網的普及率高達59.6%,較2017年底提升了3.8%。我國手機網民規模達8.17億,2018年全年新增手機網民約6433萬;網民中使用手機上網的比例由2017年年底的97.5%提升至2018年年底的98.6%,根據以上統計信息,我們不難看出,目前手機上網已經成了網民最受歡迎的、最常用的上網渠道之一。據調查統計,僅僅以2019年至2020年為例,互聯網上僅百度一家公司的有關警察的咨詢指數即達到了2,358,673。據調查統計,2016年熱度排名前60名的熱點輿情事件中,涉警輿情占17個,前十名中,涉警輿情占3個。司法部門的輿情中,負面輿情占比高達 67.7%。違紀違規、違法犯罪類事件的輿情占比高達23.3%,在各類事件中比例最高。數據表明涉警輿情的現狀是受到重點關注,且形勢不容樂觀。因此,基于涉警網絡輿情的特征,進一步研究和構建涉警網絡輿情熱度評估模型,加強網絡輿情的管理工作,是有效防范和抵御各類重大社會風險的迫切需要。
涉警網絡輿情一般是指以網絡為載體,個人用戶或者組織群體對公安機關或者警察個人的執法、管理、服務等活動,對公安機關出臺的政策措施,對現實公安形象與警察隊伍形象,以及對非現實公安機關與警察等主體與其他能夠映射到現實公安機關、警察等主體所持有的情緒、態度、意見的總和。
涉警網絡輿情的客體多為現實生活中的突發性事件,其具體可表現為突然發生并在網絡上引起迅速關注且能夠影響警察公信力、警察執法、警民關系的事件。事件的標簽大多為公安機關暴力執法、執法不當、消極執法、不作為、侵犯公民個人合法利益或損害公民人身權利等;相關人員帶有明顯標簽,如案件當事人雙方地位懸殊,涉嫌利用職權關系以強凌弱等等,諸如此類事件都很容易發酵成為輿論焦點,引起網民大規模的過度關注與不理智討論。
筆者首先通過中國知網數據庫,以“涉警輿情”為檢索關鍵詞來進行搜索,結果如下圖圖1所示。通過分析下圖我們不難看出,首篇涉警輿情相關研究文獻發表于2008年,明顯反映了我國針對涉警輿情領域研究的起步相對較晚的實情。截至2020年年底,相關主題文獻發表數量合計為433篇,通過文獻數量可知國內學者對于涉警網絡輿情的研究關注度不是很高,文獻研究數量也較為匱乏。在對相關文獻的內容進行分析得出目前的研究主要集中于理論研究,缺乏對涉警網絡輿情預測的相關技術研究。綜上所述,及時地開展對涉警網絡輿情預警的模型構建和預警研究,具有至關重要的現實需求和實際應用價值。
通過對近幾年涉警網絡輿情案例的分析發現,警察的執法行為往往成為網民熱議的一個話題,網民普法意識得到提升對執法行為的關注與重視使得當他們面對一個涉警事件時往往從規范程度、道德、細節等各個方面檢查警察的執法行為是否規范,這種對立的立場對涉警網絡輿情處置產生較大的考驗。若警察執法全都合乎規矩可能在網絡上引不起較大波瀾,但若警察在執法過程中存在不符合法律規范的行為則會引發網民對該事件更大的爭議并由此引發更大范圍的發酵。所以將警察執法維度作為分析涉警輿情事件的一個分析維度具有重要意義。
在面對涉警網絡輿情事件的時候,網民或者網絡主體,往往會不由自主地產生一種貼靠心理狀態或者是共情的心理狀態,即指心理換位、將心比心。主要體現在情緒自控、換位思考、傾聽能力、情感共鳴以及表達尊重等等與情商相關的方面。又因為生命安全是人們在社會上生存的最為重要的因素之一,其重要程度也就決定了,在有關生命安全的網絡輿情事件爆發時,尤其是再加上警察這一標簽時,輿情事件的關注度就會更上一個臺階,這時難免會不同程度的引發網民高度甚至過度的關注。由此我們可以得出,可以把傷亡維度作為涉警網絡輿情事件分析的一個重要維度。
人們的固化思維一旦被標簽化,極容易輕率地根據某個人所具有的群體身份而妄下定論,這種刻板印象使得認知與現實產生偏差。對待事件的標簽化處理,也同樣是當前網絡輿情事件中存在的重要問題。在涉警網絡輿情中,由于警察本身已是一種備受關注的社會標簽,如果這個時候,再出現其他類型的顯著標簽,或者是表示當事人身份的其他標簽等,這都將影響涉警網絡輿情的引導與管控,所以重視涉警網絡輿情事件中的標簽維度是引導與處置該類事件中不可忽視的一個重要環節。

圖1 中國知網近幾年涉警網絡輿情文獻
當前,微博作為人們日常生活中使用最頻繁的網絡社交平臺之一,為網絡輿情的產生、發展、演化提供了充分的環境。據調查統計數據表明,微博已經成為目前民眾獲取信息的重要渠道。與其他信息傳播媒介相比,其事件搜索熱度(均值107333,第二名)、事件首曝量(17.4%,第三名)、用戶規模(3.16億,第八名)、網民使用率(40.9%,第八名)等都處于較高水平。同時,微博以其信息包容的特性,為從其他傳播媒介中轉載信息提供了重要的渠道。也就是說,對于信息傳播與網絡輿情發展,微博實際中的價值與地位,要比統計結果表現得更為重要。對于信息的傳播與網絡輿情的生成微博都起著至關重要的作用,所以此次實驗數據通過利用新浪微博平臺進行爬取。
3.1.1采集范圍
在數據范圍的選擇時用到了新浪微博的高級搜索功能來進一步精確數據范圍。在高級搜索面板上選取了關鍵詞為警察的信息,微博發文時間為2020年上半年,即2020年1月1日至2020年7月1日的全部微博,如圖2所示。

圖2 微博高級搜索涉警輿情信息
3.1.2數據爬取
利用Python爬蟲技術對確定好范圍的頁面進行內容的爬取,爬取的信息分別為:發文的用戶、發文內容、點贊數、轉發數、評論數。通過Python爬蟲抓取關鍵詞等限定的頁面信息,爬取建模所需的原始數據。如圖3所示,本次涉警網絡輿情的關鍵詞限定為“警察”,時間為2020年1月1日至2020年6月1日,原始數據總量為7萬1538條。當然,這里面有很多次要數據,還需要對數據進行清洗和整理。

圖3 涉警信息數總數
通過對數據進行進一步的清洗和整理,我們選中該數據庫中前一百名數據進行分析處理。另外,我們也不難看出,熱門數據的點贊數量,遠遠大于其評論數量和轉發數量二者之和,因此,在下一步的人工神經算法分析過程中,就會舍棄評論數和轉發數這兩個次要變量。
如圖4所示,紅色區域數據為境外涉警輿情信息,因此此類數據應該舍棄,以保證數據分析結果的精度和準確性。

圖4 涉警信息原始數據
然后再選取排名前100條的有效數據進行編排分析。利用維度分析法,再次對爬取的數據進行逐條分析,每條數據都從結合自身信息內容出發通過執法維度(根據熱搜案例分析,總共分為以下四種情況:暴力執法、消極執法、執法不當、正常執法)、傷亡維度(分為有人傷亡和無人傷亡)以及標簽維度(是否為標簽化人群)這三個維度進行確立。為了便于將爬取的信息進行建模并用于機器學習,在確立各個信息的維度時,以數字“1”代表符合該種情況,數字“0”代表與該種情況不符合。數據處理結果如圖5所示(數據總量較多,此處只展示小部分數據量)。
3.2.1數據篩選
人工神經網絡是由大量處理單元互聯組成的非線性、自適應信息處理系統。它是在現代神經科學研究成果的基礎上提出的,試圖通過模擬大腦神經網絡處理、記憶信息的方式為參考,來進一步進行數據信息的處理。在人工神經網絡中,輸入變量的取值范圍一般要求是在0~1,否則輸入變量的不同數量級別會直接影響權值的確定、加法器的計算結果,以及最終的分類預測結果。因此,在SPSS Modeler的系統之中,對數值型變量進行數據的標準化處理采用的是極差法。對分類型輸入變量:對具有k個類別的分類型變量轉化成k個取值為0或1的數值型變量后再處理。
3.2.2數據編碼
基于此對數據分析得出,傷亡維度規定為有人傷亡為A、否為B;執法維度為暴力執法為1、消極執法為2、執法不當為3、正常執法為4 ;標簽化維度為事件中存在標簽化人員為1、否則為0,具體分類情況如下圖圖6所示。

圖5 涉警網絡輿情原始數據分組

圖6 涉警網絡輿情事件編碼
基于SPSS Modeler的各項內置算法建立預測涉警網絡輿情發展態勢是一種較好的數據統計分析方法。把海量數據中的各因素各維度相關聯,對數據進行訓練學習,挖掘出數據的關聯程度,是一種定量分析與定性分析相結合的有效方法。
人工神經網絡其實就是一種類似于人腦的抽象計算模型。神經網絡是由大量的、簡單的處理單元和神經元,以此來廣泛地互相連接從而形成的一個復雜網絡計算系統,它反映出人腦功能的許多基本的特征,可以理解為是一個高度復雜的非線性的動力學習系統。神經網絡具有大規模并行、分布式存儲和處理、自組織、自適應和自學能力,特別適合處理需要同時考慮許多因素和條件的、不精確和模糊的信息處理問題。由于涉警網絡輿情事件的相關輸入變量多樣且輸出變量并不是二分類型數值,所以此次涉警網絡輿情模型的搭建選擇SPSS Modeler中的類神經網絡算法進行。
在SPSS Modeler中通過Source選項卡中的Excel節點實現對預先整理的涉警事件信息進行讀取。點贊數不僅能夠高效簡便的反映網民對相關事件的關注度,更由于其數據本身代表的數量優勢有利于提升數據模型的準確性,所以這里我們可以將點贊數作為衡量涉警網絡輿情熱度的唯一指標。把整理好的數據導入軟件SPSS Modeler之中,將傷亡維度、執法維度、標簽化作為輸入變量,點贊數作為目標變量,如圖7所示。
把導入好的數據進行分區處理,數據整體的90%來進行培訓,數據整體的10%來進行測試,設置內容如圖8所示。
在人工神經網絡模型建立的過程中,是通過選擇恰當的網絡結構,來探索輸入和輸出變量間復雜關系的過程,這是實現對數據分類預測的必要前提。這樣的神經網絡,可以通過對已有的樣本進行反復數據分析和模擬訓練,以此來掌握輸入變量與輸出變量之間的數量關系規律,最終將數量關系規律體現在權計算中。通過可視化模型可以明顯看出得到三個維度對預測變量影響值所占的權重比重,標簽化維度對點贊數的影響最顯著,權重比值約為0.7。其次是執法維度權重比值接近0.3.對點贊數的影響最不顯著的為傷亡維度,其權重比值約為0.05,如圖9所示。這也側面反映出,我們警察在日常接處警和執行勤務期間,務必合乎法律要求,不僅做到依法依規還要做到程序正義與實體正義并行,只有這樣,在受到廣大人民群眾實行監督權的同時,也不會給那些“鍵盤俠”和無良媒體等不速之客留有可乘之機。

圖7 涉警網絡輿情數據導入

圖8 涉警網絡輿情數據分區

圖9 模型預測變量重要性
分析圖10內容,我們得出關于該涉警網絡輿情模型構建的準確度約為83.7%。以下數據說明了該模型可以較好預測涉警輿情事件發展進程,可以通過點贊數來預測出該涉警網絡輿情事件的熱度,模型擬合情況較好,也就是表明為公安機關早期介入涉警輿情事件提供可靠的指引與決策幫助。

圖10 模型準確度檢驗
文章主要著眼于涉警網絡輿情事件,先是從網絡輿情治理現實迫切的需求出發,分析了涉警網絡輿情事件的傳播特點以及自身屬性,剝離出其所具有的三個重要維度,初步研究了涉警網絡輿情事件中具有的要素,最后嘗試構建涉警網絡輿情熱度的發展模型,通過SPSS Modeler之中的類神經網絡數據分析模型,為公安機關在面對網絡上出現的信息是否會發展成輿情事件的研判提供強有力的數據支撐和技術支持,加速公安機關對網絡輿情事件的處理,為涉警網絡輿情事件的處理提強有力的著手點。
[1]謝耕耘.中國社會輿情與危機管理報告(2017)[M].北京:社會科學文獻出版社,2017:25-27.
[2]杜琳.公安機關應對涉警網絡輿情的策略研究[D].山東師范學院,2019.
[3]袁野,蘭月新,夏一雪.大數據環境下涉警網絡輿情風險建模與實證研究[J].新媒體研究,2018(5).
[4]姜勝洪.網絡輿情熱點的形成與發展、現狀及輿論引導[J].學術論壇理論月談,2008(4).
[5]梁冠華,鞠玉梅.新媒體給現代輿情管控帶來的挑戰——基于反沉默螺旋理論[J].情報科學,2018,36(4):155-159.
[6]孫錦露,李玫瑾.涉警事件的網絡輿情形成機制與應對策略[J].中國人民公安大學學報(社會科學版),2018,34(1):112-121.
[7]歐陽茗薈.法律視野下的網絡輿情規制[J]. 遼寧警察學院報,2020,22(02):79-84.