基于機(jī)器學(xué)習(xí)的故意傷害案件風(fēng)險(xiǎn)分析

2020-06-08 08:04:24曾祺

現(xiàn)代計(jì)算機(jī) 2020年12期

曾祺

（中國(guó)人民公安大學(xué)警務(wù)信息與網(wǎng)絡(luò)安全學(xué)院，北京100032）

0 引言

自中共中央、國(guó)務(wù)院發(fā)出《關(guān)于開展掃黑除惡專項(xiàng)斗爭(zhēng)的通知》[1]以來，公安部號(hào)召各地方單位開展大量掃黑除惡行動(dòng)，堅(jiān)持依法嚴(yán)懲、打早打小、除惡務(wù)盡，始終保持對(duì)各類黑惡勢(shì)力違法犯罪的嚴(yán)打高壓態(tài)勢(shì)。一個(gè)區(qū)域內(nèi)故意傷害案件的發(fā)生數(shù)量和嚴(yán)重程度能夠反映該區(qū)域內(nèi)的治安狀況與社會(huì)穩(wěn)定度。故意傷害案件背后往往涉及到相關(guān)黑惡勢(shì)力，進(jìn)而反映出該區(qū)域掃黑除惡行動(dòng)的打擊力度和效果。對(duì)故意傷害案件進(jìn)行風(fēng)險(xiǎn)分析不僅可以預(yù)測(cè)一起案件發(fā)生的危害后果還能夠探測(cè)其風(fēng)險(xiǎn)因素，從而給公安機(jī)關(guān)打擊黑惡勢(shì)力，加強(qiáng)社會(huì)治安提供決策幫助。

隨著公安信息化建設(shè)的不斷推進(jìn)，公安部門內(nèi)部積累了海量的犯罪歷史與實(shí)時(shí)數(shù)據(jù)[2]。許多專家學(xué)者利用機(jī)器學(xué)習(xí)方法挖掘犯罪數(shù)據(jù)中的線性或非線性關(guān)系，通過對(duì)比算法，優(yōu)化參數(shù)，得到最優(yōu)模型，進(jìn)而利用最優(yōu)模型能夠?qū)Ψ缸锇l(fā)生的風(fēng)險(xiǎn)以及影響因素進(jìn)行分析。Mehent 等人[3]利用貝葉斯方法，研究發(fā)案的日期和地點(diǎn)，犯罪類型，罪犯ID 和熟人等特征預(yù)測(cè)嫌疑人犯罪風(fēng)險(xiǎn)。陳鵬等人[4]利用犯罪嫌疑人的生物信息、社會(huì)信息和行為信息作為基本特征，基于二項(xiàng)邏輯回歸算法構(gòu)建了慣犯身份分類預(yù)測(cè)模型，通過某市街面盜竊、扒竊、入室盜竊三類案件數(shù)據(jù)進(jìn)行分類預(yù)測(cè)驗(yàn)證，模型能夠有效進(jìn)行身份預(yù)測(cè)。邱凌峰等人[5]以實(shí)際盜竊犯罪數(shù)據(jù)為基礎(chǔ)，采用數(shù)據(jù)預(yù)處理、特征分類等特征工程，利用隨機(jī)深林算法訓(xùn)練得到了效果較優(yōu)的前科人員身份預(yù)測(cè)模型。綜上可以看出，該方法的研究對(duì)象多為盜竊、扒竊等侵財(cái)類案件，針對(duì)暴力類犯罪的研究相對(duì)較少，缺少對(duì)某一類案件精細(xì)地特征挖掘和分析；同時(shí)機(jī)器學(xué)習(xí)過程中數(shù)據(jù)量越大，模型越準(zhǔn)確[6]。

本文針對(duì)上述情況，利用A 市2014-2016 年故意傷害案件近2 萬條真實(shí)數(shù)據(jù)。通過分詞抽取、機(jī)器與人工比對(duì)方法將受害人的受害程度確定為模型目標(biāo)值，進(jìn)行數(shù)據(jù)預(yù)處理與特征分類，對(duì)比決策樹、隨機(jī)深林、SVM 等5 種機(jī)器學(xué)習(xí)算法，構(gòu)建故意傷害案件的后果預(yù)測(cè)模型進(jìn)行風(fēng)險(xiǎn)分析。

1 數(shù)據(jù)與方法

1.1 實(shí)驗(yàn)數(shù)據(jù)

本節(jié)利用A 市重點(diǎn)人員數(shù)據(jù)庫中的2015-2016 年故意傷害案件中前科人員的11467 條和受害人的16793 條真實(shí)數(shù)據(jù)。兩組數(shù)據(jù)通過案件編號(hào)進(jìn)行關(guān)聯(lián)，數(shù)據(jù)中枚舉型特征居多，除了案件編號(hào)、發(fā)案時(shí)間、年齡為連續(xù)型特征，簡(jiǎn)要案情、詳細(xì)發(fā)案地址為文本型特征外，其他特征均為枚舉型。對(duì)數(shù)據(jù)初步分析并結(jié)合實(shí)際公安經(jīng)驗(yàn)，去除空缺值超過90%、特征值唯一以及與案件分析無關(guān)的特征數(shù)據(jù)。最后篩選得到數(shù)據(jù)如表1 和2 所示。

表1 受害人數(shù)據(jù)

表2 前科人員數(shù)據(jù)

1.2 實(shí)驗(yàn)方法

依據(jù)原始數(shù)據(jù)資源的狀況、機(jī)器學(xué)習(xí)分類預(yù)測(cè)的基本原理[7]以及風(fēng)險(xiǎn)分析的目標(biāo)對(duì)象，本文提出了如下圖1 所示的基于機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)分析方法流程。其中原始數(shù)據(jù)中特征信息豐富、多為枚舉型特征，但與目標(biāo)值關(guān)聯(lián)度不確定，需通過卡方檢驗(yàn)來進(jìn)行篩選；特征工程主要包括目標(biāo)值選取、特征分類、特征編碼等方法；選取邏輯回歸、支持向量機(jī)、k-鄰近、決策樹、隨機(jī)森林等算法[8]進(jìn)行比對(duì)，對(duì)隨機(jī)森林算法進(jìn)行調(diào)參優(yōu)化；最后得到最優(yōu)模型進(jìn)行風(fēng)險(xiǎn)后果預(yù)測(cè)和風(fēng)險(xiǎn)要素排序。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 目標(biāo)值選取

本研究采用受害人數(shù)據(jù)中的‘受害程度’特征作為目標(biāo)值來表示故意傷害案件的后果程度。受害人數(shù)據(jù)中的受害程度分為：‘輕微傷’、‘輕傷二級(jí)’、‘輕傷一級(jí)’、‘重傷二級(jí)’、‘重傷一級(jí)’、‘傷害致人死亡’、‘不低于輕傷’、‘不低于重傷’、‘輕傷’、‘重傷’、‘不構(gòu)成輕微傷’共11 種類別。將上述類別按照嚴(yán)重程度進(jìn)行歸類，把‘輕微傷’、‘不構(gòu)成輕微傷’歸為輕微；把‘不低于輕傷’、‘輕傷二級(jí)’、‘輕傷一級(jí)’，‘輕傷’歸為一般；把‘不低于重傷’、‘重傷一級(jí)’、‘重傷二級(jí)’、死亡歸為嚴(yán)重，最后得到分為‘輕微’、‘一般’、‘嚴(yán)重’的三分類目標(biāo)值。數(shù)據(jù)中三種類別占比如圖2 所示。

圖1 基于機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)分析流程

圖2 受害程度劃分

2.2 特征衍生、篩選與分類

特征衍生[9]是指從原始數(shù)據(jù)中構(gòu)建新的特征，本實(shí)驗(yàn)中對(duì)一名前科人員對(duì)應(yīng)的多名受害人數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，從而得到一起故意傷害案件中的涉案人數(shù)，以此作為衍生得到的新特征。

特征選擇[10]是從給定的特征集合中選擇出相關(guān)特征子集的過程，其去除掉無關(guān)特征后將會(huì)降低學(xué)習(xí)任務(wù)的難度，提高機(jī)器學(xué)習(xí)效率。卡方檢驗(yàn)是檢測(cè)離散型自變量與因變量之間相關(guān)性的經(jīng)典方法，將數(shù)據(jù)中11 種離散型特征分別與目標(biāo)值做卡方檢驗(yàn)，得到的Z與p 值（特征與目標(biāo)值無關(guān)的概率）如表3 所示。

數(shù)據(jù)中選擇處所、實(shí)施手段、被害人身份、來京時(shí)間等四個(gè)特征的類型較多，且少數(shù)類型樣本數(shù)量多，多數(shù)類型樣本數(shù)量少，這樣會(huì)導(dǎo)致訓(xùn)練集和測(cè)試集中大量特征信息不一致，嚴(yán)重降低模型的準(zhǔn)確性[11]。按照如下四則原則對(duì)上述特征進(jìn)行分類：一、盡可能保證各分類的樣本量平衡，且高于測(cè)試集的樣本量；二、盡可能保證每類特征之間沒有重復(fù)；三、類別應(yīng)具備較好的擴(kuò)展性；四：盡可能依據(jù)數(shù)據(jù)分布規(guī)律，結(jié)合業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行合理分類。身份特征分為“低收入人群類”、“普通收入人群類”、“學(xué)生和退休人員類”、“其他類”；選擇處所特征分為：“餐飲娛樂區(qū)”、“露天地段區(qū)”、“住所區(qū)”、“一般公共場(chǎng)所”；實(shí)施手段特征分為：“持器傷人類”、“徒手傷人類”、“其他類”。

表3 離散型特征的卡方檢驗(yàn)

2.3 實(shí)驗(yàn)結(jié)果分析

綜合數(shù)據(jù)集中受害程度的三類樣本比例約為2:7:1，為了解決數(shù)據(jù)集不平衡問題，采用SMOTE 過采樣處理后得到9253 條數(shù)據(jù)，其中“嚴(yán)重”程度2732 條，“一般”程度4211 條，“輕微”程度2310 條。利用Python3.6 中Scikit-learn 機(jī)器學(xué)習(xí)模型庫建立SVM、邏輯回歸、K-臨近、決策樹、隨機(jī)深林等5 種機(jī)器學(xué)習(xí)模型，并將過采樣處理后的數(shù)據(jù)帶入訓(xùn)練，通過10 折交叉驗(yàn)證評(píng)估各模型的結(jié)果。

根據(jù)表4 可知，在查準(zhǔn)率上隨機(jī)森林0.74、決策樹0.70、支持向量機(jī)0.56 效果較好，在查全率上隨機(jī)森林0.69、決策樹0.64、邏輯回歸0.53 效果較優(yōu)。決策樹與隨機(jī)森林算法在查全率和查準(zhǔn)率上都要優(yōu)于其他三種算，從F1值也能看出來，隨機(jī)森林0.72 最優(yōu)，決策樹0.67 次之，邏輯回歸0.51 效果一般，支持向量機(jī)和k-近鄰均在0.5 以下效果較差。

依據(jù)表5 可知，在特征工程中對(duì)“受害人身份”、“來京時(shí)間”、“實(shí)施手段”、“選擇處所”進(jìn)行歸類后，隨機(jī)森林模型對(duì)一般級(jí)別案件分類效果提升0.42（一倍），對(duì)嚴(yán)重級(jí)別案件分類效果提升0.3、對(duì)輕微級(jí)別案件分類效果提升0.36，總體上都得到了大幅度提高，因此可以說明特征工程中的歸類思想是合理的。

從表6 可知，“涉案人數(shù)”特征重要性最高（0.7864），“實(shí)施手段”次之（0.5762），“熱點(diǎn)時(shí)段”排名第三（0.4867），“選擇處所”排名第四（0.3987），其他特征重要度評(píng)分均在0.1 之下，對(duì)模型影響程度較低。因此可以得出涉案人數(shù)、實(shí)施手段、是否為熱點(diǎn)時(shí)段以及案件發(fā)生處所是能夠影響一起故意傷害案件后果的重大風(fēng)險(xiǎn)因素。

表4 不同模型精度比對(duì)

表5 隨機(jī)森林在特征歸類前后結(jié)果比對(duì)

表6 特征重要性度量

3 結(jié)語

本文基于機(jī)器學(xué)習(xí)方法對(duì)故意傷害案件進(jìn)行風(fēng)險(xiǎn)分析，利用故意傷害案件的前科人員數(shù)據(jù)與受害人數(shù)據(jù)構(gòu)建一個(gè)能夠準(zhǔn)確評(píng)估案件后果嚴(yán)重程度的機(jī)器學(xué)習(xí)模型，并通過對(duì)模型中的特征進(jìn)行重要度排序來分析故意傷害案件的風(fēng)險(xiǎn)要素。

通過上述實(shí)驗(yàn)可以看出，一起故意傷害案件的涉案人數(shù)、作案手段以及案發(fā)位置的周邊環(huán)境對(duì)于案件后果有顯著影響。涉案人數(shù)越多，作案人若使用武器、發(fā)案地點(diǎn)為餐飲區(qū)域，則案件后果越嚴(yán)重，因此當(dāng)公安機(jī)關(guān)接到符合上述特征的警情時(shí)應(yīng)增加派出警力和警用裝備，及時(shí)到達(dá)現(xiàn)場(chǎng)控制局面，防止危害增大。