盧子涵,胡嘯峰,邱凌峰
( 1.中國人民公安大學 信息技術與網(wǎng)絡安全學院,北京 102623;2.安全防范技術與風險評估公安部重點實驗室,北京 102623;3.上海云從企業(yè)發(fā)展有限公司 中臺產(chǎn)品中心-公共事業(yè)組,上海200120)
我國正處在經(jīng)濟發(fā)展和社會轉(zhuǎn)型的關鍵時期,侵財類案件數(shù)量居高不下,實際破案率卻低于15%[1],嚴重威脅著公民的財產(chǎn)安全,對社會穩(wěn)定有一定程度影響。隨著命案數(shù)量的逐年降低,人民群眾轉(zhuǎn)而對公安機關針對侵財類刑事案件的打擊工作提出了更高的要求。侵財類案件的預測、預警、預防、打擊是立體化治安防控體系中的重要環(huán)節(jié)。
在國內(nèi)外相關研究中,文獻[2]提出了一種基于自回歸模型和空間分析的預測方法,可以預測犯罪趨勢并檢測城市的高風險犯罪區(qū)域;文獻[3]基于人工神經(jīng)網(wǎng)絡模型對搶劫犯罪的種類進行預測分析;文獻[4]建立了犯罪預測模型,可以預測特定時空節(jié)點的特殊人群容易遭受的犯罪類型;文獻[5]利用改進的BP神經(jīng)網(wǎng)絡模型自動學習、訓練各因子與侵財類犯罪的非線性關系,建立了侵財類犯罪預測模型;文獻[6]提出一種基于隨機森林的改進分類算法,利用案件中犯罪人員的特征,預測重點人員的犯罪傾向;文獻[7]提出一種基于Bagging和特征選擇差異性的集成學習算法,進行犯罪預測;文獻[8]針對雄安新區(qū)的治安防控需求,提出了基于機器學習的社會安全事件預測分析方法;文獻[9-11]探究了熱應力與暴力犯罪案件、侵財類案件之間的相關關系,研究了熱應力與犯罪率的關系。
犯罪風險通常包括犯罪發(fā)生概率和后果2個部分,對侵財類案件的風險防控及預防打擊需要首先對該類案件的發(fā)生概率和后果進行預測分析,然而當前大部分研究主要關注對犯罪發(fā)生概率的預測,對犯罪后果或危害程度的預測研究則較少。對犯罪危害程度的預測研究能幫助公安機關預測判斷某個時空節(jié)點的侵財類案件危害程度,合理有效地配置警力資源、劃分治安巡邏范圍,及時制止危害性極大的犯罪發(fā)生。本文利用實際數(shù)據(jù),綜合運用多種機器學習方法,對以盜竊、搶劫及搶奪為代表的侵財類案件的危害程度進行預測,從而為針對性地開展預防與管控工作、優(yōu)化警力資源配置提供支持。
本文所選取的數(shù)據(jù)來源于ZS市2008—2014年的實際侵財類案件。ZS市位于我國南部平原地帶,交通便利,人口眾多,氣候適宜居住,對我國南部同等規(guī)模的大型城市具有一定程度的代表性。
數(shù)據(jù)集共包含111 579條犯罪案件數(shù)據(jù),經(jīng)過初步提取后,共得到盜竊案件數(shù)據(jù)32 560條、搶奪案件數(shù)據(jù)3 218條、搶劫案件數(shù)據(jù)2 140條。其中每條數(shù)據(jù)均包含詳細的犯罪信息和案件的危害程度分級。
提取的特征經(jīng)過計算Pearson相關系數(shù)、去除取值變化較小的特征等操作后,最后選取的特征包括“發(fā)案時間”“發(fā)案地域”“選擇時機”“選擇處所”“選擇對象”,以及ZS市統(tǒng)計局提供的2008—2014年“人均地區(qū)生產(chǎn)總值”“職工月平均工資”。
“發(fā)案時間”指的是案件發(fā)生的具體時間,如“2010-10-14 20∶00”;“發(fā)案地域”指的是案件發(fā)生的地址,如“某省某市某區(qū)SJ街道107國道旁某郵政局門口”;“選擇時機”指的是案件發(fā)生的時間為工作日還是假期,如“工作日,上旬,晝,上午”;“選擇處所”指的是案件發(fā)生的地點屬于什么樣的地段,如“其他繁華地段”;“選擇對象”指的是受害人的基本屬性,如“外地人,中年男子”;“人均地區(qū)生產(chǎn)總值”指的是按照街道劃分地域的每人每月的平均生產(chǎn)總值;“職工月平均工資”指的是按街道劃分地域的每人每月的平均工資。
案件的危害程度作為標簽分為:一般、重大和特大3級。綜合危害程度的級別由原始數(shù)據(jù)集提供(在原始數(shù)據(jù)生成時,相關司法人員結(jié)合專業(yè)的法律知識,綜合案件的財產(chǎn)損失、造成的影響等要素進行判斷)。
研究方案如圖1所示。首先進行提取關鍵字、處理時間特征等數(shù)據(jù)處理工作,其次將數(shù)據(jù)集按照一定的比例隨機分為訓練集和測試集,運用多種機器學習方法對訓練集進行分類計算和交叉驗證,然后用測試集進行準確性檢驗、提出最優(yōu)模式,最后使用Apriori算法挖掘關聯(lián)規(guī)則。
圖1 研究方案Fig.1 Research scheme
將“發(fā)案時間”“選擇時機”“選擇處所”“選擇對象”轉(zhuǎn)換為整型數(shù)據(jù),從“選擇地域”中提取關鍵字并轉(zhuǎn)換為整型數(shù)據(jù),將“一般”“重大”“特大”3種危害程度等級分別標記為0,1,2。最終的數(shù)據(jù)樣式如表1所示。
表1 數(shù)據(jù)樣式Table 1 Data pattern
1.2.1 關鍵特征提取
如表2所示,通過關鍵字提取4個特征。
表2 特征提取Table 2 Features extraction
1)案發(fā)的地點在“發(fā)案詳細地址”中通過關鍵字提取得到。原始分類中地址種類包含上萬種,種類過多影響分類的精度。本文將發(fā)案地址按照街道劃分為7類。
2)罪犯選擇的犯罪時機可以在“選擇時機”中通過關鍵字提取得到。原始數(shù)據(jù)包含的部分特征例如“上旬”“晝”“上午”等,可以通過“發(fā)案時間”中提取到的“月份”“小時”體現(xiàn)出來。所以本文只提取其中的相應字段作為特征,從而判定是否是工作日。
3)侵財類案件發(fā)生的處所可以在“選擇處所”中通過關鍵字提取得到。原始數(shù)據(jù)中的處所包含486種類型,根據(jù)實際業(yè)務工作經(jīng)驗以及對數(shù)據(jù)數(shù)量的統(tǒng)計,本文對數(shù)量最多的前5種地名進行提取,其中包含“繁華、偏僻、公路、其他處所、住宅”。
4)“性別”和“是否是本地人”可以在“選擇對象”特征中通過關鍵字提取得到。經(jīng)過統(tǒng)計,“選擇對象”特征中有235種類型。“選擇對象”的原始數(shù)據(jù)樣式如“外地人,中年男子”。本文根據(jù)數(shù)據(jù)特點,從中提取出“性別”和“是否是本地人”2個特征。“性別”中包括“男”和“女”,“是否是本地人”中包括“外地人”和“非外地人”。
1.2.2 處理空值
由于部分數(shù)據(jù)中并不存在要提取的關鍵字信息,數(shù)據(jù)集中出現(xiàn)了大量的空值。統(tǒng)計發(fā)現(xiàn),“選擇時機”中的“工作日”,“選擇處所”中的“其他處所”,“選擇對象”中的“其他”占據(jù)了此類數(shù)據(jù)中的大部分。這些占比較大的數(shù)據(jù)是大概率出現(xiàn)的情況,所以將各個特征中數(shù)量最多的作為填充數(shù)據(jù),即將“選擇時機”中的空值填充為“工作日”,將“選擇處所”中的空值填充為“其他處所”,將“選擇對象”中的空值填充為“其他”。
另外由于統(tǒng)計局提供數(shù)據(jù)的缺失,在“人均地區(qū)生產(chǎn)總值”“職工月平均工資”2個特征中均出現(xiàn)了不同程度的空值。本文由于數(shù)據(jù)量較大,因此采用欠采樣的方式處理“人均地區(qū)生產(chǎn)總值”“職工月平均工資”中的空值。
1.2.3 處理時間特征
原始數(shù)據(jù)中的時間格式按照“2010-10-14 20∶00”形式存儲,種類達到了上萬種,采用原始分類會導致分類器的分類精度嚴重下降。在真實的案件中,往往受害人在受到侵害后很難準確地將受害時間敘述出來,所以本文進行了時間的分割、統(tǒng)計及分段。在統(tǒng)計的過程中,發(fā)現(xiàn)每個月除31號外,每日發(fā)生的案件數(shù)量接近,根據(jù)業(yè)務工作經(jīng)驗,將每天時間劃分為6個階段:1)0點至4點標為“1”;2)5點至6點標為“2”;3)7點至11點標為“3”;4)12點至13點標為“4”;5)14點至17點標為“5”;6)18點至24點標為“6”。
1.2.4 處理數(shù)據(jù)共線性問題
通過相關性系數(shù)的熱圖分析,發(fā)現(xiàn)特征之間存在不同程度的共線性問題。共線性對各個機器學習結(jié)果均有不同程度的影響。本文采用主成分分析法(Principal Component Analysis,PCA)消除共線性的影響。
PCA是一種實現(xiàn)數(shù)據(jù)降維的技術[12],能處理變量間的共線問題。其核心思想是通過旋轉(zhuǎn)坐標將數(shù)據(jù)投影到新的坐標軸上,使數(shù)據(jù)方差最大化,得到在新空間表示的數(shù)據(jù)。這些新得到的數(shù)據(jù)可以消除原數(shù)據(jù)空間的多重共線性[13]。
由于特征變量經(jīng)過關鍵特征提取和時間特征提取后出現(xiàn)了新的特征,并且在上述熱圖分析中出現(xiàn)共線現(xiàn)象,所以本文將上述處理后的數(shù)據(jù)進行降維處理。降維處理的結(jié)果作為新的特征列。對這些新的特征列進行相關性系數(shù)的熱圖分析,確保消除共線性,提高預測精度。
1.2.5 數(shù)據(jù)不平衡處理
經(jīng)數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),在3類侵財類案件中,盜竊類案件和搶奪類案件的數(shù)據(jù)存在數(shù)據(jù)不平衡現(xiàn)象,即危害程度為一般的案件數(shù)量遠多于危害程度為重大和特大的案件數(shù)量。不平衡的數(shù)據(jù)集會影響分類器的性能[14],因此,本文利用SMOTEENN算法對搶奪案、盜竊案樣本進行采樣處理。
SMOTEENN算法是SMOTE算法和ENN算法的集成算法。SMOTE合成少數(shù)過采樣技術[15],是一種過采樣方法,其主要思想是通過插值形成新的少數(shù)類例子[16]。ENN算法[16]主要思想是刪除不滿足標準的相鄰數(shù)據(jù)。
經(jīng)過SMOTEENN算法處理后,不平衡數(shù)據(jù)的現(xiàn)象得到解決。
數(shù)據(jù)集中頻繁出現(xiàn)的數(shù)據(jù)稱為頻繁數(shù)據(jù)集[17]。頻繁數(shù)據(jù)集之間聯(lián)系構(gòu)成的規(guī)則能體現(xiàn)特征之間某些關聯(lián)性。
為挖掘侵財類案件特征屬性之間的關聯(lián)性,掌握案件的發(fā)生規(guī)律,本文利用Apriori算法進行關聯(lián)規(guī)則分析。Apriori算法是一種挖掘關聯(lián)規(guī)則頻繁項集的算法,其實質(zhì)是一個逐層迭代搜索的方法,利用K項集探索K+1項集[18]。
本文在構(gòu)建預測分類模型時所使用的訓練集是從全部數(shù)據(jù)集中隨機抽取的數(shù)據(jù)集(占比70%),采用準確率和F1-macro值對模型的性能進行評估。準確率越高、F1-macro值越高,說明模型的泛化能力越好。如式(1)~(4)所示。預測結(jié)果如圖2所示。
Accuracy=(TP+TN)/(TP+FN+FP+TN)
(1)
Precision=TP/(TP+FP)
(2)
Recall=TP/(TP+FN)
(3)
(4)
式中:n表示多標簽分類任務中類的數(shù)量;TP表示被正確分類的正樣本數(shù);FP表示被錯誤分類的負樣本數(shù);FN表示被錯誤分類的正樣本數(shù);TN表示被正確分類的負樣本數(shù)。F1-macro是分別計算每個類別的F1,然后做平均(各類別F1的權重相同)。利用python3.6中的Scikit-learn開源機器學習模型庫建立模型。
圖2 模型評估結(jié)果Fig.2 Evaluation results of model
由圖2可知,在3種案例中,搶劫案利用邏輯斯蒂算法預測的準確率最高達到0.61,F(xiàn)1-macro的值為0.6;搶奪案利用GBDT算法預測的準確率最高達到0.66,F(xiàn)1-macro的值為0.56;盜竊案利用GBDT算法預測的準確率最高達到0.88,F(xiàn)1-macro的值為0.85。由此可知,盜竊案的預測精度明顯高于搶劫案和搶奪案的預測精度。本文分析出現(xiàn)此類情況的原因與搶劫案和搶奪案樣本不平衡且發(fā)案不規(guī)律有關。
表3所示為特征重要度排序。通過重要度排序,可以發(fā)現(xiàn)3種案件類型的“發(fā)案時間”和“選擇處所”特征重要度之和均超過70%,即在對侵財類案件的預測過程中,時空因素對預測結(jié)果的影響占比較大。
表3 特征重要度排序Table 3 Ranking of features' importance
因此,為探究搶劫案和搶奪案的樣本及發(fā)生規(guī)律,本文將處理完成的數(shù)據(jù)進行時空統(tǒng)計分析。圖3為搶劫、搶奪發(fā)生時空規(guī)律統(tǒng)計。
由圖3可知,危害程度為一般的搶劫案在2008—2011年間的發(fā)案量有上升趨勢,在2011年之后發(fā)案量大幅度下降,其中在2009年之后的搶劫案更容易發(fā)生在繁華地帶(商業(yè)區(qū)等);危害程度為重大的搶劫案在2008年至2011年間趨于穩(wěn)定,在2011年之后發(fā)案量大幅度下降,其中在2011年繁華地帶的發(fā)案量已經(jīng)遠遠超出其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)的發(fā)案量;危害程度為特大的搶劫案數(shù)量在2009年發(fā)案量達到最大值,之后便大幅度下降,其中危害程度特大的搶劫案幾乎都發(fā)生在其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)。危害程度為一般的搶奪案數(shù)量在2012年之前呈波動狀態(tài),2012年之后發(fā)案數(shù)量大幅度下降,其中在2010年之前案件大多發(fā)生在其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域),2010年之后案件大多發(fā)生在繁華的地帶(商業(yè)區(qū)等);危害程度為重大的搶奪案數(shù)量在2010年開始大幅度下降,由原本大多發(fā)生在其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)轉(zhuǎn)變?yōu)榇蠖喟l(fā)生在繁華地帶(商業(yè)區(qū)等);危害程度為特大的搶奪案數(shù)量在2010年開始大幅度下降。本文推測,2010年和2011年案件數(shù)量下降的原因可能與ZS市在2011年舉辦了大運會有關,相關的活動促使警方推出了一系列“群防群治”、“平安大運”的有關打擊犯罪政策;犯罪人選擇犯罪地域由零散的其他處所變?yōu)榉比A地帶表明犯罪人更加青睞高犯罪所得,符合理性選擇理論。搶劫案和搶奪案的發(fā)案量都是“由低到高、再到低”的過程,發(fā)案率逐年下降[19],尤其是2013—2014年2種案件的總體數(shù)量保持較低的水平,危害程度為重大和特大的案件幾乎沒有,使得樣本數(shù)據(jù)在時間維度上不平衡。同時,犯罪人員在2010年前后犯罪地域的選擇上的變化使得樣本在空間維度上沒有規(guī)律性。因此,近幾年來“兩搶”案件的低發(fā)以及2011年前后的發(fā)案規(guī)律變化較大正是分類結(jié)果不完全準確的原因。
圖3 搶劫、搶奪發(fā)生時空規(guī)律統(tǒng)計Fig.3 Statistics on incidence temporal and spatial laws of robbery and forcible seizure
犯罪案件的各個特征屬性之間存在一定的關聯(lián)性。通過對關聯(lián)規(guī)則進行分析,不僅能掌握犯罪分子實施侵財類犯罪的選擇偏好,對預測結(jié)果作出解釋,而且能在一定程度彌補上文搶劫、搶奪類案件預測準確度相對偏低的缺陷,探究案件特征和危害程度之間的關系。
分析得到的關聯(lián)規(guī)則如表4所示,由表4可知:1)搶劫案發(fā)生時,在工作日中城區(qū)發(fā)生案件的置信度為0.91;在城區(qū)中發(fā)生危害程度為一般的案件的置信度為0.7。2)搶奪案發(fā)生時,在工作日的城區(qū)中發(fā)生案件的置信度為0.95;在工作日中發(fā)生危害程度為一般的案件的置信度為0.7;在工作日的城區(qū)中發(fā)生危害程度為一般的案件置信度為0.8。3)盜竊案發(fā)生時,在工作日的城區(qū)中發(fā)生危害程度為一般的案件置信度為0.8;在工作日的城區(qū)中發(fā)生案件的置信度為0.9。
表4 關聯(lián)規(guī)則結(jié)果Table 4 Results of association rules
通過分析可知,3種不同的侵財類案件特征屬性之間的關聯(lián)特點基本相同,3種侵財類案件的犯罪時間基本都為工作日期間,犯罪地點基本選擇在城區(qū)當中,并且發(fā)生案件的危害程度大多數(shù)為一般。在工作日中,住宅中缺少居住人監(jiān)管并且在公共場所中上下班時間節(jié)點人流量巨大,給犯罪人員帶來了犯罪的契機,促使犯罪人員進行犯罪活動。在城區(qū)中,犯罪人員能獲得更高的犯罪利益所得。由此可見,侵財類犯罪在宏觀的時空上具有一定的共性。
1)針對近年來侵財類案件發(fā)案數(shù)量多、頻次高、破案率低、危害程度差異大、消耗警力資源嚴重的現(xiàn)狀,本文利用ZS市2008—2014年實際搶劫、搶奪和盜竊的數(shù)據(jù),提出基于多種機器學習模型的分類預測方法,提高對盜竊案件危害程度的預測準確率。提供針對侵財類案件的規(guī)律挖掘框架,為自動挖掘侵財類案件的發(fā)生規(guī)律及實現(xiàn)警務資源的合理配置提供方法支持,提高出警效率。
2)根據(jù)數(shù)據(jù)挖掘的結(jié)果,搶劫案和搶奪案的發(fā)案量都是由低到高再到低的過程,發(fā)案率逐年下降。在搶劫案和搶奪案中,危害程度為一般和重大的案件高發(fā)地由其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)轉(zhuǎn)移到繁華地帶(商業(yè)區(qū)等),危害程度為特大的案件高發(fā)地為其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)。侵財類案件更傾向于在工作日的城區(qū)中發(fā)生,發(fā)生的危害程度大都為一般。以上結(jié)論可以為針對“兩搶一盜”案件的安全防范提供策略支持。