曾祺
(中國(guó)人民公安大學(xué)警務(wù)信息與網(wǎng)絡(luò)安全學(xué)院,北京100032)
自中共中央、國(guó)務(wù)院發(fā)出《關(guān)于開展掃黑除惡專項(xiàng)斗爭(zhēng)的通知》[1]以來,公安部號(hào)召各地方單位開展大量掃黑除惡行動(dòng),堅(jiān)持依法嚴(yán)懲、打早打小、除惡務(wù)盡,始終保持對(duì)各類黑惡勢(shì)力違法犯罪的嚴(yán)打高壓態(tài)勢(shì)。一個(gè)區(qū)域內(nèi)故意傷害案件的發(fā)生數(shù)量和嚴(yán)重程度能夠反映該區(qū)域內(nèi)的治安狀況與社會(huì)穩(wěn)定度。故意傷害案件背后往往涉及到相關(guān)黑惡勢(shì)力,進(jìn)而反映出該區(qū)域掃黑除惡行動(dòng)的打擊力度和效果。對(duì)故意傷害案件進(jìn)行風(fēng)險(xiǎn)分析不僅可以預(yù)測(cè)一起案件發(fā)生的危害后果還能夠探測(cè)其風(fēng)險(xiǎn)因素,從而給公安機(jī)關(guān)打擊黑惡勢(shì)力,加強(qiáng)社會(huì)治安提供決策幫助。
隨著公安信息化建設(shè)的不斷推進(jìn),公安部門內(nèi)部積累了海量的犯罪歷史與實(shí)時(shí)數(shù)據(jù)[2]。許多專家學(xué)者利用機(jī)器學(xué)習(xí)方法挖掘犯罪數(shù)據(jù)中的線性或非線性關(guān)系,通過對(duì)比算法,優(yōu)化參數(shù),得到最優(yōu)模型,進(jìn)而利用最優(yōu)模型能夠?qū)Ψ缸锇l(fā)生的風(fēng)險(xiǎn)以及影響因素進(jìn)行分析。Mehent 等人[3]利用貝葉斯方法,研究發(fā)案的日期和地點(diǎn),犯罪類型,罪犯ID 和熟人等特征預(yù)測(cè)嫌疑人犯罪風(fēng)險(xiǎn)。陳鵬等人[4]利用犯罪嫌疑人的生物信息、社會(huì)信息和行為信息作為基本特征,基于二項(xiàng)邏輯回歸算法構(gòu)建了慣犯身份分類預(yù)測(cè)模型,通過某市街面盜竊、扒竊、入室盜竊三類案件數(shù)據(jù)進(jìn)行分類預(yù)測(cè)驗(yàn)證,模型能夠有效進(jìn)行身份預(yù)測(cè)。邱凌峰等人[5]以實(shí)際盜竊犯罪數(shù)據(jù)為基礎(chǔ),采用數(shù)據(jù)預(yù)處理、特征分類等特征工程,利用隨機(jī)深林算法訓(xùn)練得到了效果較優(yōu)的前科人員身份預(yù)測(cè)模型。綜上可以看出,該方法的研究對(duì)象多為盜竊、扒竊等侵財(cái)類案件,針對(duì)暴力類犯罪的研究相對(duì)較少,缺少對(duì)某一類案件精細(xì)地特征挖掘和分析;同時(shí)機(jī)器學(xué)習(xí)過程中數(shù)據(jù)量越大,模型越準(zhǔn)確[6]。
本文針對(duì)上述情況,利用A 市2014-2016 年故意傷害案件近2 萬條真實(shí)數(shù)據(jù)。通過分詞抽取、機(jī)器與人工比對(duì)方法將受害人的受害程度確定為模型目標(biāo)值,進(jìn)行數(shù)據(jù)預(yù)處理與特征分類,對(duì)比決策樹、隨機(jī)深林、SVM 等5 種機(jī)器學(xué)習(xí)算法,構(gòu)建故意傷害案件的后果預(yù)測(cè)模型進(jìn)行風(fēng)險(xiǎn)分析。
本節(jié)利用A 市重點(diǎn)人員數(shù)據(jù)庫中的2015-2016 年故意傷害案件中前科人員的11467 條和受害人的16793 條真實(shí)數(shù)據(jù)。兩組數(shù)據(jù)通過案件編號(hào)進(jìn)行關(guān)聯(lián),數(shù)據(jù)中枚舉型特征居多,除了案件編號(hào)、發(fā)案時(shí)間、年齡為連續(xù)型特征,簡(jiǎn)要案情、詳細(xì)發(fā)案地址為文本型特征外,其他特征均為枚舉型。對(duì)數(shù)據(jù)初步分析并結(jié)合實(shí)際公安經(jīng)驗(yàn),去除空缺值超過90%、特征值唯一以及與案件分析無關(guān)的特征數(shù)據(jù)。最后篩選得到數(shù)據(jù)如表1 和2 所示。

表1 受害人數(shù)據(jù)

表2 前科人員數(shù)據(jù)
依據(jù)原始數(shù)據(jù)資源的狀況、機(jī)器學(xué)習(xí)分類預(yù)測(cè)的基本原理[7]以及風(fēng)險(xiǎn)分析的目標(biāo)對(duì)象,本文提出了如下圖1 所示的基于機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)分析方法流程。其中原始數(shù)據(jù)中特征信息豐富、多為枚舉型特征,但與目標(biāo)值關(guān)聯(lián)度不確定,需通過卡方檢驗(yàn)來進(jìn)行篩選;特征工程主要包括目標(biāo)值選取、特征分類、特征編碼等方法;選取邏輯回歸、支持向量機(jī)、k-鄰近、決策樹、隨機(jī)森林等算法[8]進(jìn)行比對(duì),對(duì)隨機(jī)森林算法進(jìn)行調(diào)參優(yōu)化;最后得到最優(yōu)模型進(jìn)行風(fēng)險(xiǎn)后果預(yù)測(cè)和風(fēng)險(xiǎn)要素排序。
本研究采用受害人數(shù)據(jù)中的‘受害程度’特征作為目標(biāo)值來表示故意傷害案件的后果程度。受害人數(shù)據(jù)中的受害程度分為:‘輕微傷’、‘輕傷二級(jí)’、‘輕傷一級(jí)’、‘重傷二級(jí)’、‘重傷一級(jí)’、‘傷害致人死亡’、‘不低于輕傷’、‘不低于重傷’、‘輕傷’、‘重傷’、‘不構(gòu)成輕微傷’共11 種類別。將上述類別按照嚴(yán)重程度進(jìn)行歸類,把‘輕微傷’、‘不構(gòu)成輕微傷’歸為輕微;把‘不低于輕傷’、‘輕傷二級(jí)’、‘輕傷一級(jí)’,‘輕傷’歸為一般;把‘不低于重傷’、‘重傷一級(jí)’、‘重傷二級(jí)’、死亡歸為嚴(yán)重,最后得到分為‘輕微’、‘一般’、‘嚴(yán)重’的三分類目標(biāo)值。數(shù)據(jù)中三種類別占比如圖2 所示。

圖1 基于機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)分析流程

圖2 受害程度劃分
特征衍生[9]是指從原始數(shù)據(jù)中構(gòu)建新的特征,本實(shí)驗(yàn)中對(duì)一名前科人員對(duì)應(yīng)的多名受害人數(shù)據(jù)進(jìn)行統(tǒng)計(jì),從而得到一起故意傷害案件中的涉案人數(shù),以此作為衍生得到的新特征。
特征選擇[10]是從給定的特征集合中選擇出相關(guān)特征子集的過程,其去除掉無關(guān)特征后將會(huì)降低學(xué)習(xí)任務(wù)的難度,提高機(jī)器學(xué)習(xí)效率。卡方檢驗(yàn)是檢測(cè)離散型自變量與因變量之間相關(guān)性的經(jīng)典方法,將數(shù)據(jù)中11 種離散型特征分別與目標(biāo)值做卡方檢驗(yàn),得到的Z與p 值(特征與目標(biāo)值無關(guān)的概率)如表3 所示。
數(shù)據(jù)中選擇處所、實(shí)施手段、被害人身份、來京時(shí)間等四個(gè)特征的類型較多,且少數(shù)類型樣本數(shù)量多,多數(shù)類型樣本數(shù)量少,這樣會(huì)導(dǎo)致訓(xùn)練集和測(cè)試集中大量特征信息不一致,嚴(yán)重降低模型的準(zhǔn)確性[11]。按照如下四則原則對(duì)上述特征進(jìn)行分類:一、盡可能保證各分類的樣本量平衡,且高于測(cè)試集的樣本量;二、盡可能保證每類特征之間沒有重復(fù);三、類別應(yīng)具備較好的擴(kuò)展性;四:盡可能依據(jù)數(shù)據(jù)分布規(guī)律,結(jié)合業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行合理分類。身份特征分為“低收入人群類”、“普通收入人群類”、“學(xué)生和退休人員類”、“其他類”;選擇處所特征分為:“餐飲娛樂區(qū)”、“露天地段區(qū)”、“住所區(qū)”、“一般公共場(chǎng)所”;實(shí)施手段特征分為:“持器傷人類”、“徒手傷人類”、“其他類”。

表3 離散型特征的卡方檢驗(yàn)
綜合數(shù)據(jù)集中受害程度的三類樣本比例約為2:7:1,為了解決數(shù)據(jù)集不平衡問題,采用SMOTE 過采樣處理后得到9253 條數(shù)據(jù),其中“嚴(yán)重”程度2732 條,“一般”程度4211 條,“輕微”程度2310 條。利用Python3.6 中Scikit-learn 機(jī)器學(xué)習(xí)模型庫建立SVM、邏輯回歸、K-臨近、決策樹、隨機(jī)深林等5 種機(jī)器學(xué)習(xí)模型,并將過采樣處理后的數(shù)據(jù)帶入訓(xùn)練,通過10 折交叉驗(yàn)證評(píng)估各模型的結(jié)果。
根據(jù)表4 可知,在查準(zhǔn)率上隨機(jī)森林0.74、決策樹0.70、支持向量機(jī)0.56 效果較好,在查全率上隨機(jī)森林0.69、決策樹0.64、邏輯回歸0.53 效果較優(yōu)。決策樹與隨機(jī)森林算法在查全率和查準(zhǔn)率上都要優(yōu)于其他三種算,從F1值也能看出來,隨機(jī)森林0.72 最優(yōu),決策樹0.67 次之,邏輯回歸0.51 效果一般,支持向量機(jī)和k-近鄰均在0.5 以下效果較差。
依據(jù)表5 可知,在特征工程中對(duì)“受害人身份”、“來京時(shí)間”、“實(shí)施手段”、“選擇處所”進(jìn)行歸類后,隨機(jī)森林模型對(duì)一般級(jí)別案件分類效果提升0.42(一倍),對(duì)嚴(yán)重級(jí)別案件分類效果提升0.3、對(duì)輕微級(jí)別案件分類效果提升0.36,總體上都得到了大幅度提高,因此可以說明特征工程中的歸類思想是合理的。
從表6 可知,“涉案人數(shù)”特征重要性最高(0.7864),“實(shí)施手段”次之(0.5762),“熱點(diǎn)時(shí)段”排名第三(0.4867),“選擇處所”排名第四(0.3987),其他特征重要度評(píng)分均在0.1 之下,對(duì)模型影響程度較低。因此可以得出涉案人數(shù)、實(shí)施手段、是否為熱點(diǎn)時(shí)段以及案件發(fā)生處所是能夠影響一起故意傷害案件后果的重大風(fēng)險(xiǎn)因素。

表4 不同模型精度比對(duì)

表5 隨機(jī)森林在特征歸類前后結(jié)果比對(duì)

表6 特征重要性度量
本文基于機(jī)器學(xué)習(xí)方法對(duì)故意傷害案件進(jìn)行風(fēng)險(xiǎn)分析,利用故意傷害案件的前科人員數(shù)據(jù)與受害人數(shù)據(jù)構(gòu)建一個(gè)能夠準(zhǔn)確評(píng)估案件后果嚴(yán)重程度的機(jī)器學(xué)習(xí)模型,并通過對(duì)模型中的特征進(jìn)行重要度排序來分析故意傷害案件的風(fēng)險(xiǎn)要素。
通過上述實(shí)驗(yàn)可以看出,一起故意傷害案件的涉案人數(shù)、作案手段以及案發(fā)位置的周邊環(huán)境對(duì)于案件后果有顯著影響。涉案人數(shù)越多,作案人若使用武器、發(fā)案地點(diǎn)為餐飲區(qū)域,則案件后果越嚴(yán)重,因此當(dāng)公安機(jī)關(guān)接到符合上述特征的警情時(shí)應(yīng)增加派出警力和警用裝備,及時(shí)到達(dá)現(xiàn)場(chǎng)控制局面,防止危害增大。