999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的侵財類案件危害程度分析*

2020-01-13 02:58:36盧子涵胡嘯峰邱凌峰
中國安全生產(chǎn)科學技術 2019年12期
關鍵詞:危害特征

盧子涵,胡嘯峰,邱凌峰

( 1.中國人民公安大學 信息技術與網(wǎng)絡安全學院,北京 102623;2.安全防范技術與風險評估公安部重點實驗室,北京 102623;3.上海云從企業(yè)發(fā)展有限公司 中臺產(chǎn)品中心-公共事業(yè)組,上海200120)

0 引言

我國正處在經(jīng)濟發(fā)展和社會轉(zhuǎn)型的關鍵時期,侵財類案件數(shù)量居高不下,實際破案率卻低于15%[1],嚴重威脅著公民的財產(chǎn)安全,對社會穩(wěn)定有一定程度影響。隨著命案數(shù)量的逐年降低,人民群眾轉(zhuǎn)而對公安機關針對侵財類刑事案件的打擊工作提出了更高的要求。侵財類案件的預測、預警、預防、打擊是立體化治安防控體系中的重要環(huán)節(jié)。

在國內(nèi)外相關研究中,文獻[2]提出了一種基于自回歸模型和空間分析的預測方法,可以預測犯罪趨勢并檢測城市的高風險犯罪區(qū)域;文獻[3]基于人工神經(jīng)網(wǎng)絡模型對搶劫犯罪的種類進行預測分析;文獻[4]建立了犯罪預測模型,可以預測特定時空節(jié)點的特殊人群容易遭受的犯罪類型;文獻[5]利用改進的BP神經(jīng)網(wǎng)絡模型自動學習、訓練各因子與侵財類犯罪的非線性關系,建立了侵財類犯罪預測模型;文獻[6]提出一種基于隨機森林的改進分類算法,利用案件中犯罪人員的特征,預測重點人員的犯罪傾向;文獻[7]提出一種基于Bagging和特征選擇差異性的集成學習算法,進行犯罪預測;文獻[8]針對雄安新區(qū)的治安防控需求,提出了基于機器學習的社會安全事件預測分析方法;文獻[9-11]探究了熱應力與暴力犯罪案件、侵財類案件之間的相關關系,研究了熱應力與犯罪率的關系。

犯罪風險通常包括犯罪發(fā)生概率和后果2個部分,對侵財類案件的風險防控及預防打擊需要首先對該類案件的發(fā)生概率和后果進行預測分析,然而當前大部分研究主要關注對犯罪發(fā)生概率的預測,對犯罪后果或危害程度的預測研究則較少。對犯罪危害程度的預測研究能幫助公安機關預測判斷某個時空節(jié)點的侵財類案件危害程度,合理有效地配置警力資源、劃分治安巡邏范圍,及時制止危害性極大的犯罪發(fā)生。本文利用實際數(shù)據(jù),綜合運用多種機器學習方法,對以盜竊、搶劫及搶奪為代表的侵財類案件的危害程度進行預測,從而為針對性地開展預防與管控工作、優(yōu)化警力資源配置提供支持。

1 數(shù)據(jù)及研究方法

1.1 數(shù)據(jù)集與研究方案概述

本文所選取的數(shù)據(jù)來源于ZS市2008—2014年的實際侵財類案件。ZS市位于我國南部平原地帶,交通便利,人口眾多,氣候適宜居住,對我國南部同等規(guī)模的大型城市具有一定程度的代表性。

數(shù)據(jù)集共包含111 579條犯罪案件數(shù)據(jù),經(jīng)過初步提取后,共得到盜竊案件數(shù)據(jù)32 560條、搶奪案件數(shù)據(jù)3 218條、搶劫案件數(shù)據(jù)2 140條。其中每條數(shù)據(jù)均包含詳細的犯罪信息和案件的危害程度分級。

提取的特征經(jīng)過計算Pearson相關系數(shù)、去除取值變化較小的特征等操作后,最后選取的特征包括“發(fā)案時間”“發(fā)案地域”“選擇時機”“選擇處所”“選擇對象”,以及ZS市統(tǒng)計局提供的2008—2014年“人均地區(qū)生產(chǎn)總值”“職工月平均工資”。

“發(fā)案時間”指的是案件發(fā)生的具體時間,如“2010-10-14 20∶00”;“發(fā)案地域”指的是案件發(fā)生的地址,如“某省某市某區(qū)SJ街道107國道旁某郵政局門口”;“選擇時機”指的是案件發(fā)生的時間為工作日還是假期,如“工作日,上旬,晝,上午”;“選擇處所”指的是案件發(fā)生的地點屬于什么樣的地段,如“其他繁華地段”;“選擇對象”指的是受害人的基本屬性,如“外地人,中年男子”;“人均地區(qū)生產(chǎn)總值”指的是按照街道劃分地域的每人每月的平均生產(chǎn)總值;“職工月平均工資”指的是按街道劃分地域的每人每月的平均工資。

案件的危害程度作為標簽分為:一般、重大和特大3級。綜合危害程度的級別由原始數(shù)據(jù)集提供(在原始數(shù)據(jù)生成時,相關司法人員結(jié)合專業(yè)的法律知識,綜合案件的財產(chǎn)損失、造成的影響等要素進行判斷)。

研究方案如圖1所示。首先進行提取關鍵字、處理時間特征等數(shù)據(jù)處理工作,其次將數(shù)據(jù)集按照一定的比例隨機分為訓練集和測試集,運用多種機器學習方法對訓練集進行分類計算和交叉驗證,然后用測試集進行準確性檢驗、提出最優(yōu)模式,最后使用Apriori算法挖掘關聯(lián)規(guī)則。

圖1 研究方案Fig.1 Research scheme

1.2 數(shù)據(jù)預處理

將“發(fā)案時間”“選擇時機”“選擇處所”“選擇對象”轉(zhuǎn)換為整型數(shù)據(jù),從“選擇地域”中提取關鍵字并轉(zhuǎn)換為整型數(shù)據(jù),將“一般”“重大”“特大”3種危害程度等級分別標記為0,1,2。最終的數(shù)據(jù)樣式如表1所示。

表1 數(shù)據(jù)樣式Table 1 Data pattern

1.2.1 關鍵特征提取

如表2所示,通過關鍵字提取4個特征。

表2 特征提取Table 2 Features extraction

1)案發(fā)的地點在“發(fā)案詳細地址”中通過關鍵字提取得到。原始分類中地址種類包含上萬種,種類過多影響分類的精度。本文將發(fā)案地址按照街道劃分為7類。

2)罪犯選擇的犯罪時機可以在“選擇時機”中通過關鍵字提取得到。原始數(shù)據(jù)包含的部分特征例如“上旬”“晝”“上午”等,可以通過“發(fā)案時間”中提取到的“月份”“小時”體現(xiàn)出來。所以本文只提取其中的相應字段作為特征,從而判定是否是工作日。

3)侵財類案件發(fā)生的處所可以在“選擇處所”中通過關鍵字提取得到。原始數(shù)據(jù)中的處所包含486種類型,根據(jù)實際業(yè)務工作經(jīng)驗以及對數(shù)據(jù)數(shù)量的統(tǒng)計,本文對數(shù)量最多的前5種地名進行提取,其中包含“繁華、偏僻、公路、其他處所、住宅”。

4)“性別”和“是否是本地人”可以在“選擇對象”特征中通過關鍵字提取得到。經(jīng)過統(tǒng)計,“選擇對象”特征中有235種類型。“選擇對象”的原始數(shù)據(jù)樣式如“外地人,中年男子”。本文根據(jù)數(shù)據(jù)特點,從中提取出“性別”和“是否是本地人”2個特征。“性別”中包括“男”和“女”,“是否是本地人”中包括“外地人”和“非外地人”。

1.2.2 處理空值

由于部分數(shù)據(jù)中并不存在要提取的關鍵字信息,數(shù)據(jù)集中出現(xiàn)了大量的空值。統(tǒng)計發(fā)現(xiàn),“選擇時機”中的“工作日”,“選擇處所”中的“其他處所”,“選擇對象”中的“其他”占據(jù)了此類數(shù)據(jù)中的大部分。這些占比較大的數(shù)據(jù)是大概率出現(xiàn)的情況,所以將各個特征中數(shù)量最多的作為填充數(shù)據(jù),即將“選擇時機”中的空值填充為“工作日”,將“選擇處所”中的空值填充為“其他處所”,將“選擇對象”中的空值填充為“其他”。

另外由于統(tǒng)計局提供數(shù)據(jù)的缺失,在“人均地區(qū)生產(chǎn)總值”“職工月平均工資”2個特征中均出現(xiàn)了不同程度的空值。本文由于數(shù)據(jù)量較大,因此采用欠采樣的方式處理“人均地區(qū)生產(chǎn)總值”“職工月平均工資”中的空值。

1.2.3 處理時間特征

原始數(shù)據(jù)中的時間格式按照“2010-10-14 20∶00”形式存儲,種類達到了上萬種,采用原始分類會導致分類器的分類精度嚴重下降。在真實的案件中,往往受害人在受到侵害后很難準確地將受害時間敘述出來,所以本文進行了時間的分割、統(tǒng)計及分段。在統(tǒng)計的過程中,發(fā)現(xiàn)每個月除31號外,每日發(fā)生的案件數(shù)量接近,根據(jù)業(yè)務工作經(jīng)驗,將每天時間劃分為6個階段:1)0點至4點標為“1”;2)5點至6點標為“2”;3)7點至11點標為“3”;4)12點至13點標為“4”;5)14點至17點標為“5”;6)18點至24點標為“6”。

1.2.4 處理數(shù)據(jù)共線性問題

通過相關性系數(shù)的熱圖分析,發(fā)現(xiàn)特征之間存在不同程度的共線性問題。共線性對各個機器學習結(jié)果均有不同程度的影響。本文采用主成分分析法(Principal Component Analysis,PCA)消除共線性的影響。

PCA是一種實現(xiàn)數(shù)據(jù)降維的技術[12],能處理變量間的共線問題。其核心思想是通過旋轉(zhuǎn)坐標將數(shù)據(jù)投影到新的坐標軸上,使數(shù)據(jù)方差最大化,得到在新空間表示的數(shù)據(jù)。這些新得到的數(shù)據(jù)可以消除原數(shù)據(jù)空間的多重共線性[13]。

由于特征變量經(jīng)過關鍵特征提取和時間特征提取后出現(xiàn)了新的特征,并且在上述熱圖分析中出現(xiàn)共線現(xiàn)象,所以本文將上述處理后的數(shù)據(jù)進行降維處理。降維處理的結(jié)果作為新的特征列。對這些新的特征列進行相關性系數(shù)的熱圖分析,確保消除共線性,提高預測精度。

1.2.5 數(shù)據(jù)不平衡處理

經(jīng)數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),在3類侵財類案件中,盜竊類案件和搶奪類案件的數(shù)據(jù)存在數(shù)據(jù)不平衡現(xiàn)象,即危害程度為一般的案件數(shù)量遠多于危害程度為重大和特大的案件數(shù)量。不平衡的數(shù)據(jù)集會影響分類器的性能[14],因此,本文利用SMOTEENN算法對搶奪案、盜竊案樣本進行采樣處理。

SMOTEENN算法是SMOTE算法和ENN算法的集成算法。SMOTE合成少數(shù)過采樣技術[15],是一種過采樣方法,其主要思想是通過插值形成新的少數(shù)類例子[16]。ENN算法[16]主要思想是刪除不滿足標準的相鄰數(shù)據(jù)。

經(jīng)過SMOTEENN算法處理后,不平衡數(shù)據(jù)的現(xiàn)象得到解決。

1.3 特征規(guī)則關聯(lián)

數(shù)據(jù)集中頻繁出現(xiàn)的數(shù)據(jù)稱為頻繁數(shù)據(jù)集[17]。頻繁數(shù)據(jù)集之間聯(lián)系構(gòu)成的規(guī)則能體現(xiàn)特征之間某些關聯(lián)性。

為挖掘侵財類案件特征屬性之間的關聯(lián)性,掌握案件的發(fā)生規(guī)律,本文利用Apriori算法進行關聯(lián)規(guī)則分析。Apriori算法是一種挖掘關聯(lián)規(guī)則頻繁項集的算法,其實質(zhì)是一個逐層迭代搜索的方法,利用K項集探索K+1項集[18]。

2 結(jié)果分析

2.1 不同機器學習方法上的分類性能比較

本文在構(gòu)建預測分類模型時所使用的訓練集是從全部數(shù)據(jù)集中隨機抽取的數(shù)據(jù)集(占比70%),采用準確率和F1-macro值對模型的性能進行評估。準確率越高、F1-macro值越高,說明模型的泛化能力越好。如式(1)~(4)所示。預測結(jié)果如圖2所示。

Accuracy=(TP+TN)/(TP+FN+FP+TN)

(1)

Precision=TP/(TP+FP)

(2)

Recall=TP/(TP+FN)

(3)

(4)

式中:n表示多標簽分類任務中類的數(shù)量;TP表示被正確分類的正樣本數(shù);FP表示被錯誤分類的負樣本數(shù);FN表示被錯誤分類的正樣本數(shù);TN表示被正確分類的負樣本數(shù)。F1-macro是分別計算每個類別的F1,然后做平均(各類別F1的權重相同)。利用python3.6中的Scikit-learn開源機器學習模型庫建立模型。

圖2 模型評估結(jié)果Fig.2 Evaluation results of model

由圖2可知,在3種案例中,搶劫案利用邏輯斯蒂算法預測的準確率最高達到0.61,F(xiàn)1-macro的值為0.6;搶奪案利用GBDT算法預測的準確率最高達到0.66,F(xiàn)1-macro的值為0.56;盜竊案利用GBDT算法預測的準確率最高達到0.88,F(xiàn)1-macro的值為0.85。由此可知,盜竊案的預測精度明顯高于搶劫案和搶奪案的預測精度。本文分析出現(xiàn)此類情況的原因與搶劫案和搶奪案樣本不平衡且發(fā)案不規(guī)律有關。

表3所示為特征重要度排序。通過重要度排序,可以發(fā)現(xiàn)3種案件類型的“發(fā)案時間”和“選擇處所”特征重要度之和均超過70%,即在對侵財類案件的預測過程中,時空因素對預測結(jié)果的影響占比較大。

表3 特征重要度排序Table 3 Ranking of features' importance

因此,為探究搶劫案和搶奪案的樣本及發(fā)生規(guī)律,本文將處理完成的數(shù)據(jù)進行時空統(tǒng)計分析。圖3為搶劫、搶奪發(fā)生時空規(guī)律統(tǒng)計。

由圖3可知,危害程度為一般的搶劫案在2008—2011年間的發(fā)案量有上升趨勢,在2011年之后發(fā)案量大幅度下降,其中在2009年之后的搶劫案更容易發(fā)生在繁華地帶(商業(yè)區(qū)等);危害程度為重大的搶劫案在2008年至2011年間趨于穩(wěn)定,在2011年之后發(fā)案量大幅度下降,其中在2011年繁華地帶的發(fā)案量已經(jīng)遠遠超出其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)的發(fā)案量;危害程度為特大的搶劫案數(shù)量在2009年發(fā)案量達到最大值,之后便大幅度下降,其中危害程度特大的搶劫案幾乎都發(fā)生在其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)。危害程度為一般的搶奪案數(shù)量在2012年之前呈波動狀態(tài),2012年之后發(fā)案數(shù)量大幅度下降,其中在2010年之前案件大多發(fā)生在其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域),2010年之后案件大多發(fā)生在繁華的地帶(商業(yè)區(qū)等);危害程度為重大的搶奪案數(shù)量在2010年開始大幅度下降,由原本大多發(fā)生在其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)轉(zhuǎn)變?yōu)榇蠖喟l(fā)生在繁華地帶(商業(yè)區(qū)等);危害程度為特大的搶奪案數(shù)量在2010年開始大幅度下降。本文推測,2010年和2011年案件數(shù)量下降的原因可能與ZS市在2011年舉辦了大運會有關,相關的活動促使警方推出了一系列“群防群治”、“平安大運”的有關打擊犯罪政策;犯罪人選擇犯罪地域由零散的其他處所變?yōu)榉比A地帶表明犯罪人更加青睞高犯罪所得,符合理性選擇理論。搶劫案和搶奪案的發(fā)案量都是“由低到高、再到低”的過程,發(fā)案率逐年下降[19],尤其是2013—2014年2種案件的總體數(shù)量保持較低的水平,危害程度為重大和特大的案件幾乎沒有,使得樣本數(shù)據(jù)在時間維度上不平衡。同時,犯罪人員在2010年前后犯罪地域的選擇上的變化使得樣本在空間維度上沒有規(guī)律性。因此,近幾年來“兩搶”案件的低發(fā)以及2011年前后的發(fā)案規(guī)律變化較大正是分類結(jié)果不完全準確的原因。

圖3 搶劫、搶奪發(fā)生時空規(guī)律統(tǒng)計Fig.3 Statistics on incidence temporal and spatial laws of robbery and forcible seizure

2.2 關聯(lián)規(guī)則分析

犯罪案件的各個特征屬性之間存在一定的關聯(lián)性。通過對關聯(lián)規(guī)則進行分析,不僅能掌握犯罪分子實施侵財類犯罪的選擇偏好,對預測結(jié)果作出解釋,而且能在一定程度彌補上文搶劫、搶奪類案件預測準確度相對偏低的缺陷,探究案件特征和危害程度之間的關系。

分析得到的關聯(lián)規(guī)則如表4所示,由表4可知:1)搶劫案發(fā)生時,在工作日中城區(qū)發(fā)生案件的置信度為0.91;在城區(qū)中發(fā)生危害程度為一般的案件的置信度為0.7。2)搶奪案發(fā)生時,在工作日的城區(qū)中發(fā)生案件的置信度為0.95;在工作日中發(fā)生危害程度為一般的案件的置信度為0.7;在工作日的城區(qū)中發(fā)生危害程度為一般的案件置信度為0.8。3)盜竊案發(fā)生時,在工作日的城區(qū)中發(fā)生危害程度為一般的案件置信度為0.8;在工作日的城區(qū)中發(fā)生案件的置信度為0.9。

表4 關聯(lián)規(guī)則結(jié)果Table 4 Results of association rules

通過分析可知,3種不同的侵財類案件特征屬性之間的關聯(lián)特點基本相同,3種侵財類案件的犯罪時間基本都為工作日期間,犯罪地點基本選擇在城區(qū)當中,并且發(fā)生案件的危害程度大多數(shù)為一般。在工作日中,住宅中缺少居住人監(jiān)管并且在公共場所中上下班時間節(jié)點人流量巨大,給犯罪人員帶來了犯罪的契機,促使犯罪人員進行犯罪活動。在城區(qū)中,犯罪人員能獲得更高的犯罪利益所得。由此可見,侵財類犯罪在宏觀的時空上具有一定的共性。

3 結(jié)論

1)針對近年來侵財類案件發(fā)案數(shù)量多、頻次高、破案率低、危害程度差異大、消耗警力資源嚴重的現(xiàn)狀,本文利用ZS市2008—2014年實際搶劫、搶奪和盜竊的數(shù)據(jù),提出基于多種機器學習模型的分類預測方法,提高對盜竊案件危害程度的預測準確率。提供針對侵財類案件的規(guī)律挖掘框架,為自動挖掘侵財類案件的發(fā)生規(guī)律及實現(xiàn)警務資源的合理配置提供方法支持,提高出警效率。

2)根據(jù)數(shù)據(jù)挖掘的結(jié)果,搶劫案和搶奪案的發(fā)案量都是由低到高再到低的過程,發(fā)案率逐年下降。在搶劫案和搶奪案中,危害程度為一般和重大的案件高發(fā)地由其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)轉(zhuǎn)移到繁華地帶(商業(yè)區(qū)等),危害程度為特大的案件高發(fā)地為其他處所(除住宅地、偏僻地區(qū)、公路地區(qū)和繁華地帶的零散區(qū)域)。侵財類案件更傾向于在工作日的城區(qū)中發(fā)生,發(fā)生的危害程度大都為一般。以上結(jié)論可以為針對“兩搶一盜”案件的安全防范提供策略支持。

猜你喜歡
危害特征
抓住特征巧觀察
降低燒烤帶來的危害
肥胖危害知多少
藥+酒 危害大
海峽姐妹(2020年12期)2021-01-18 05:53:26
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
酗酒的危害
“久坐”的危害有多大你知道嗎?
民生周刊(2016年9期)2016-05-21 12:11:19
主站蜘蛛池模板: 狼友视频一区二区三区| 国产午夜不卡| 91福利免费视频| 欧美一区精品| 国产中文一区二区苍井空| 91精品国产自产在线老师啪l| 欧美无专区| 青草娱乐极品免费视频| 伊人丁香五月天久久综合| 999国产精品| 成人蜜桃网| 日本国产一区在线观看| 久久精品波多野结衣| 在线无码九区| 亚洲三级电影在线播放| 网久久综合| 亚洲全网成人资源在线观看| 青青青视频91在线 | 日本人妻一区二区三区不卡影院| 毛片一级在线| 欧美激情综合一区二区| 久久香蕉国产线看观看精品蕉| 欧美亚洲欧美区| 中文字幕66页| 五月婷婷导航| 免费又黄又爽又猛大片午夜| 亚洲高清中文字幕| 72种姿势欧美久久久久大黄蕉| A级毛片高清免费视频就| 国产精品手机在线播放| 国产福利微拍精品一区二区| 国产97视频在线| 成人噜噜噜视频在线观看| 国产视频 第一页| 国产成人精品18| 人妻无码一区二区视频| 日本一区二区三区精品国产| 久青草网站| 狠狠色狠狠色综合久久第一次 | 自慰高潮喷白浆在线观看| 日本亚洲成高清一区二区三区| 亚洲欧美日韩另类| 久久综合色视频| 99精品免费欧美成人小视频 | 久久国产亚洲偷自| 欧美亚洲欧美区| 91九色国产porny| 91免费观看视频| 思思热在线视频精品| 国产精品一老牛影视频| 久996视频精品免费观看| 就去色综合| A级毛片高清免费视频就| 97se亚洲综合在线韩国专区福利| 久久久精品国产亚洲AV日韩| 国产精品亚洲五月天高清| 亚洲va精品中文字幕| 亚洲美女久久| 成年人视频一区二区| 亚洲人成网站色7777| 91娇喘视频| 成人字幕网视频在线观看| 尤物特级无码毛片免费| 国产精品久久久久久久久久98| 手机成人午夜在线视频| 国产日韩丝袜一二三区| yjizz视频最新网站在线| 亚洲区第一页| 午夜三级在线| 国产白浆一区二区三区视频在线| 成人福利免费在线观看| 国产精品性| 在线欧美国产| 无码国产伊人| 欧美一区二区丝袜高跟鞋| 一级毛片在线播放免费观看| 国产福利小视频高清在线观看| 成人精品视频一区二区在线| 制服丝袜亚洲| 天堂在线亚洲| 欧美亚洲另类在线观看| 免费一级毛片不卡在线播放|