中圖分類號:D917.6 文獻標識碼:A 文章編號:2095-6916(2025)15-0060-04
Risk Analysis of Help-Seeking Police Alerts Based on Machine Learning
Du Hao
(Zhejiang Police College,Hangzhou 310053)
Abstract:Trough heriskanalysisofhelp-seekingpolicealerts,riskpredictionandfeatureanalysiscanbeachieved,providingdecision-makingsupportforpublicsecurityorgans.Acomparativestudyisconductedontwodiferentappoachesforriskanalysisofhelpsekingpolicealerts:textbasednds-based.Intetetasedanalsismetod,Word2vcisusdtoextracttextalaturesofpoe alerts,andarndomforestparticlesaoptizatiomodelisusedfotrainngIntheisk-basedanalysisetodarissest indexsystemforelpseekingpolicealertsisonstructedfromfourdimensios:subjectriskhavioralisk,venueriskandeyfactor risk.BERT-MCisusedtoextractriskelatedfeaturesofpolicealerts,andaandomforestpartcleswaroptizationmodelisld fortraining.Experimentalresultsshowthattherandomforest-particleswarmoptimizationmodelbasedonriskfeaturescanbasicalachieve risk prediction and feature weight analysis,demonstrating practical significance.
Keywords:policealerts;help-seeking;risk analysis;artificial intelligence
面對日趨復雜的社會形勢,公安機關需要接受處理的警情愈發繁雜,基層往往出現警力資源供求匹配程度不足、供不應求的現象。把握大數據這一重要抓手,依靠人工智能分析處理海量數據,提前預測警情風險等級,能充分利用警情數據資源,是開展預防警務、推進數字化賦能實戰的一項重要舉措。本文以求助類警情為研究對象,期望通過算法對求助類警情進行分析,發現求助類警情風險特征和發生規律,初步劃分求助類警情風險等級,以期為民警履職提供參考。
一、研究現狀
當前,國內外警情分析主要有四種方法。一是基于統計學方法的熱點分析。JaredWarner利用該方法,研究了警務的破窗理論以及種族、警務和刑事司法的相關問題。美國加利福尼亞大學的有關研究結果提供了關于預測性警務的隨機對照現場試驗的統計,得出結論:“針對ETAS犯罪預測的動態警察巡邏可以破壞犯罪機會,導致真正的犯罪減少”[2]。AlbertJ.Meehan3探討了在一個被稱為Bigcity的特定社區中,“幫派”問題的構建及其產生的“幫派統計”與當地政治背景和警察對政治利益的容納之間的關系。但是,這種基于歷史數據靜態建模的方式無法很好地捕捉到犯罪事件的動態變化和發展趨勢。
二是應用深度學習的視頻監控分析。胡麗軍[4]基于時空—圖卷積網絡(ST-GCN)和OpenPose算法的融合,設計了警用巡邏機器人警情識別系統。但其算法復雜性和計算成本較大,準確性受環境影響大,在警情風險分析領域的應用仍較少。
三是基于大數據的警情趨勢分析。二十世紀七十年代左右美國開始使用GIS對犯罪數據進行空間分析。在中國,2009年,警用地理信息系統項目建設及投入使用被列入當年重點工作[5]。但是大數據分析涉及大量個人隱私數據,可能牽涉一系列的隱私保護問題。
四是基于機器學習的犯罪預測。2020年,胡向陽和丁寒提出利用人工智能進行犯罪熱點預測、特定人群犯罪概率預測、犯罪線索識別。同年,趙傳鑫[7]采用時空分析可視化技術和DBSCAN算法構建犯罪預測模型。2022年,朱小波、栗赫遙[8結合大量犯罪數據特征和行為特征,優化了盜竊犯罪預測模型性能。2023年,王勛、董齊芬等人9采用深度時空三維卷積神經網絡(ST-3DNet)對時空特征進行充分捕捉,解決了現階段時空細粒度條件下的犯罪預測面臨犯罪數據稀疏、時空特征難以充分捕獲的問題。但基于機器學習的犯罪預測由于“黑箱”特性,難以解釋決策過程,其不透明性可能使警方難以理解模型的預測結果。2023年,米夏埃爾·黑格曼斯等人[1提到人類運用者對被開發的人工智能系統始終理解甚少。
相關風險分析傾向于輿論風險等。2022年,楊柳等人[]建立了高校網絡輿情風險評估指標體系,劃分高校網絡輿情風險評估預警等級。2023年,程瑞嘉[結合自然語言處理技術和風險分析方法,實現經濟合同風險分析。從自前筆者掌握的情況看,針對求助類警情和警情風險分析的研究較為匱乏。
二、相關理論基礎和技術
(一)機器學習
機器學習是人工智能的一個分支,通過讓計算機系統從數據中學習模式和規律,而不是通過顯式的編程來完成任務。本課題使用隨機森林一粒子群優化訓練模型,BERT-MRC語言模型進行命名實體識別。
隨機森林算法是決策樹的一種集成算法。決策樹的基本原理是通過對一系列問題進行if/else的推導,最終實現相關決策。隨機森林就是通過集成學習的思想將多棵樹集成的一種算法。直觀地講,由多棵決策樹組成一個隨機森林,森林中每棵樹都可以進行投票,對于一個分類問題,N棵樹就會給出N個結果,最后森林集成所有的分類投票結果,將投票次數最多的類別指定為最終的輸出。
隨機森林算法的優勢,一是每棵樹都選擇部分樣本及部分特征,一定程度避免過擬合;二是每棵樹隨機選擇樣本并隨機選擇特征,具有很好的抗噪能力,性能穩定;三是能處理很高維度的數據;四是實現比較簡單。
(二)BERT-MRC語言模型
BERT-MRC語言模型是一種基于BERT(Bidirec-tionalEncoderRepresentationsfromTransformers)架構的機器閱讀理解模型。與傳統的基于序列標注或分類的模型不同,BERT-MRC模型能夠根據輸入的問題和上下文信息,直接生成答案。在實體識別領域,當數據量較少時,BERT-MRC模型是同類模型中的翹楚。相較于其他方案,這一模型能夠充分利用先驗知識,因其通過提出問題的方式,有助于緩解因數據不足所帶來的困境。實踐證明,相較于其他模型,BERT-MRC模型在小數據集下表現更為出色,這種靈活性使得它特別適用于標注數據匱乏的場景。
(三)粒子群優化算法(PSO)
粒子群算法,也稱粒子群優化算法或鳥群覓食算法(ParticleSwarmOptimization),通過初始化一些隨機的粒子,定義其初始位置、速度等有關參數,尋找全局最優位置或者最優解。在PSO算法中,影響算法最重要的要素是其適應度函數,該函數決定了對隨機粒子位置是否為最優解的評價標準。本課題模型適應度函數的目標是最大化分類器的準確率。
三、模型設計研究
傳統文本分析一般借助Word2vec等技術提取文字特征,再借助TextCNN等深度神經網絡模型進行訓練。該思路的弊端在于文字特征反映的是詞頻、詞句、句句之間的關系,無法直接反映風險特征。由于文字特征和警情風險的關聯度較低,在求助類警情風險分析上可能效果不佳,不僅準確率低,擬合效果也很差。本文提出一種新的思路,通過建立求助類警情風險指標體系,再使用BERT-MRC模型預提取警情風險特征,最后使用機器學習模型進行訓練。
由于警情數據多為短文本,數據規模大,數據完整性差,數據分布不均勻,筆者選取隨機森林算法開展研究,并使用兩種不同的特征輸人進行模型訓練,作為比較。第一種是基于文字特征的模型預測,直接輸人警情文本,使用Word2vec_model提取文本特征并形成特征向量,作為隨機森林模型的訓練輸入;第二種是基于風險特征的模型預測,先建立求助類警情風險指標體系,再使用BERT語言模型根據風險指標提取風險特征,最后用這些特征訓練隨機森林模型。
本文在警情概念解析[13]和警情文本處理[14]等文獻的基礎上,結合求助類警情影響因素和發展規律,構建主體風險、行為風險、場所風險、要素風險四個一級指標。由于求助類警情數據中,不同類型的警情風險特征差距過大,現以自殺類求助警情為例,將二級指標分為年齡、性別、精神智力情況、前科情況、情緒狀況、動機、表現、危險物品、發生時間、場景、地點,見圖1。
圖1求助類警情風險指標體系

由于警情數據為文本類型,整合警單數據,參考求助類警情風險評估指標體系,利用BERT-MRC模型提取相應的風險特征關鍵詞并形成數據集。作為隨機森林算法的輸入,風險特征只能為數值型、類別型。本課題以01分類的形式量化提取到的求助類警情風險指標特征,不同風險指標對應特征含義如表1所示。
表1風險指標特征含義

四、實驗與分析
本課題使用的數據為2017年4月至2023年4月臺州市公安局的部分接報警數據,初始數據共3659428條,使用關鍵詞匹配到走失警情23308條、自殺類警情18474條,去重后剩余有效警情9407條。篩選部分優質數據后,剩余有效警情6593條。對每條數據進行關鍵詞匹配:出現人員死亡,認定高等風險;出現人員被困或因受傷嚴重需要到醫院救治,認定中等風險;未出現人員死亡、被困或受傷,認定低等風險。“高等風險”“中等風險”“低等風險”分別對應label值3、2、1,將所得label和數據合并得到訓練集。
利用已構建的風險體系進行特征提取,選取Git-Hub上已訓練好的BERT-MRC模型提取警情風險特征。以問答的形式匹配文本內容并給出對應的結果和置信度。隨機森林算法智能預設score分界為0.1,作為回答是否存在的依據,結合人工處理,得到基于風險特征的隨機森林模型訓練集。由于警情的特殊性,生成的數據集非常不均衡。課題形成的訓練集中,對label進行篩選發現,高風險的樣本數量明顯少于其他類別,這可能導致隨機森林模型對于高風險類別的預測性能較差,甚至出現預測不到的情況。本文采用隨機采樣的方法增加少數類別的樣本數量,以平衡各個類別之間的樣本分布,從而提高模型的性能。采樣比例sam-pling_strategy ={1:5600,2:5300,3:5000} 。
(一)基于文字特征的隨機森林模型
在進行隨機森林訓練前需要提取文本特征形成特征向量。初始直接使用詞袋模型提取特征,模型準確率為0.32。使用Word2Vec模型替代詞袋模型,設置參數vector
,window =5 ,
workers =4 ;使用粒子群優化算法(PSO)迭代,得到隨機森林參數n_estimators、max_depth、min_samples_split
samples_leaf的最優值,提升模型準確率至0.45。
(二)基于風險特征的隨機森林模型
該模型同樣使用PSO算法進行優化,優化隨機森林參數n_estimators =118.255 ,max_depth=18.821 9,min_samples_split =3.67493 ,min_samples
1.51442,算法參數上下界分別為 |b|=[50,1,2,1] ub=[200,30,10,4] ,局部加速系數 ?cl=0.5 ,全局加速系數 c2=0.5 ,粒子群大小swarmsize =10 。優化前,準確率為0.50。優化后,準確率為0.72。目標函數圖象初始震蕩較大,在進行150次左右的迭代后趨于穩定,算法收斂較快。使用準確率、精準率、召回率、F1分數作為模型的評價指標,通過兩個模型對比,反映模型的效果,見表2。
表2基于不同特征的隨機森林模型評估指標對比(優化前)

可以看到,基于文字特征的隨機森林模型在優化前的準確率只有0.32,近似于隨機分類,即使優化后準確率也只有0.45,效果不佳;基于風險特征的隨機森林模型,在優化后可以達到0.72的準確率,效果基本滿足需求。
對比兩個模型的訓練開銷和時間效率,第一個模型提取9672條數據特征花費了0.7s,但1000次迭代訓練時間花費25917s,第二個模型特征提取共花費 29763s ,但1000次迭代訓練時間只用了 642s 綜合數據預處理和迭代訓練所需時間成本可知,基于風險特征的隨機森林模型的訓練效率比基于文字特征的隨機模型慢約 14% ,應對大量數據時性能略差。
綜上分析,基于風險特征的隨機森林模型綜合性能遠超基于文字特征的隨機森林模型,分類性能更好,在預測準確率上具有巨大優勢。
五、結語
本文針對當下求助類風險分析領域的研究空缺,提出基于文字、風險兩種不同特征的求助類警情風險分析方式,并進行對比研究。經有關數據實驗驗證,以自殺類警情為例,基于文字特征的求助類警情分析模型效果不佳,而基于風險特征的求助類警情分析模型能基本實現風險預測和特征權重分析功能。
參考文獻:
[1]WARNER J.The Brokenness of Broken Windows:An Intro·ductory StatisticsProject on Race,Policing,and Criminal Jus-tice[J]. Primus,2019(3/4) :281-299.
[2]MOHLERGO,SHORTMB,MALINOWSKIS,etal.Random-ized Controlled Field Trials of Predictive Policing[J]. Journal ofthe American Statistical Association,2015(512) :1399-1411.
[3]MEEHAN A J. The Organizational Career of Gang Statistics :The Politics of Policing Gangs[J].The Sociological Quarterly,2000(3) :337-370.
[4]胡麗軍.基于警用巡邏機器人的警情識別與警情等級劃分系統研究[D].合肥:安徽大學,2022.
[5]胡啟勝,付逸飛,吳士兵.位置大數據警務地理信息系統對警務工作及警察教育影響探究[C]//中國國際科技促進會國際院士聯合體工作委員會.教育科學發展科研學術國際論壇論文集:3.北京:中國國際科技促進會國際院士聯合體工作委員會,2022:4.
[6]胡向陽,丁寒.人工智能犯罪預測[J].中國刑警學院學報,2020(6) :5-11.
[7]趙傳鑫.基于DBSCAN算法的A區犯罪預測[J].信息技術與網絡安全,2020(7):72-77.
[8]朱小波,栗赫遙.基于PCA-XGBoost聯合算法的盜竊犯罪預測模型[J].計算機應用與軟件,2022(5):98-103.
[9]王勛,董齊芬,李玉.基于深度時空三維卷積神經網絡的短時犯罪預測研究[J].浙江警察學院學報,2023(1):90-103.
[10]米夏埃爾·黑格曼斯,王德政.刑事訴訟中的人工智能:以犯罪預測為例[J].上海師范大學學報(哲學社會科學版),2023(5):106-114.
[11]楊柳,徐宇昭,鄧春林.高校網絡輿情風險評估及預警研究[J].情報科學,2022(5):65-72,83.
[12]程瑞嘉.基于文本循環神經網絡模型的經濟合同風險分析[D].成都:西南財經大學,2023.
[13]孟義南.論治安警情公開范圍的界定[J].安徽警官職業學院學報,2021(1):75-80,85.
[14]章磊,王攀,何芬.自然語言處理在警情智能分析中的應用[J].警察技術,2021(5):39-43.
作者簡介:杜鎬(1995—),男,漢族,浙江紹興人,浙江警察學院助教,研究方向為人工智能。
(責任編輯:王寶林)