999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的故意傷害案件風(fēng)險(xiǎn)分析

2020-06-08 08:04:24曾祺
現(xiàn)代計(jì)算機(jī) 2020年12期
關(guān)鍵詞:分類特征模型

曾祺

(中國(guó)人民公安大學(xué)警務(wù)信息與網(wǎng)絡(luò)安全學(xué)院,北京100032)

0 引言

自中共中央、國(guó)務(wù)院發(fā)出《關(guān)于開展掃黑除惡專項(xiàng)斗爭(zhēng)的通知》[1]以來,公安部號(hào)召各地方單位開展大量掃黑除惡行動(dòng),堅(jiān)持依法嚴(yán)懲、打早打小、除惡務(wù)盡,始終保持對(duì)各類黑惡勢(shì)力違法犯罪的嚴(yán)打高壓態(tài)勢(shì)。一個(gè)區(qū)域內(nèi)故意傷害案件的發(fā)生數(shù)量和嚴(yán)重程度能夠反映該區(qū)域內(nèi)的治安狀況與社會(huì)穩(wěn)定度。故意傷害案件背后往往涉及到相關(guān)黑惡勢(shì)力,進(jìn)而反映出該區(qū)域掃黑除惡行動(dòng)的打擊力度和效果。對(duì)故意傷害案件進(jìn)行風(fēng)險(xiǎn)分析不僅可以預(yù)測(cè)一起案件發(fā)生的危害后果還能夠探測(cè)其風(fēng)險(xiǎn)因素,從而給公安機(jī)關(guān)打擊黑惡勢(shì)力,加強(qiáng)社會(huì)治安提供決策幫助。

隨著公安信息化建設(shè)的不斷推進(jìn),公安部門內(nèi)部積累了海量的犯罪歷史與實(shí)時(shí)數(shù)據(jù)[2]。許多專家學(xué)者利用機(jī)器學(xué)習(xí)方法挖掘犯罪數(shù)據(jù)中的線性或非線性關(guān)系,通過對(duì)比算法,優(yōu)化參數(shù),得到最優(yōu)模型,進(jìn)而利用最優(yōu)模型能夠?qū)Ψ缸锇l(fā)生的風(fēng)險(xiǎn)以及影響因素進(jìn)行分析。Mehent 等人[3]利用貝葉斯方法,研究發(fā)案的日期和地點(diǎn),犯罪類型,罪犯ID 和熟人等特征預(yù)測(cè)嫌疑人犯罪風(fēng)險(xiǎn)。陳鵬等人[4]利用犯罪嫌疑人的生物信息、社會(huì)信息和行為信息作為基本特征,基于二項(xiàng)邏輯回歸算法構(gòu)建了慣犯身份分類預(yù)測(cè)模型,通過某市街面盜竊、扒竊、入室盜竊三類案件數(shù)據(jù)進(jìn)行分類預(yù)測(cè)驗(yàn)證,模型能夠有效進(jìn)行身份預(yù)測(cè)。邱凌峰等人[5]以實(shí)際盜竊犯罪數(shù)據(jù)為基礎(chǔ),采用數(shù)據(jù)預(yù)處理、特征分類等特征工程,利用隨機(jī)深林算法訓(xùn)練得到了效果較優(yōu)的前科人員身份預(yù)測(cè)模型。綜上可以看出,該方法的研究對(duì)象多為盜竊、扒竊等侵財(cái)類案件,針對(duì)暴力類犯罪的研究相對(duì)較少,缺少對(duì)某一類案件精細(xì)地特征挖掘和分析;同時(shí)機(jī)器學(xué)習(xí)過程中數(shù)據(jù)量越大,模型越準(zhǔn)確[6]。

本文針對(duì)上述情況,利用A 市2014-2016 年故意傷害案件近2 萬條真實(shí)數(shù)據(jù)。通過分詞抽取、機(jī)器與人工比對(duì)方法將受害人的受害程度確定為模型目標(biāo)值,進(jìn)行數(shù)據(jù)預(yù)處理與特征分類,對(duì)比決策樹、隨機(jī)深林、SVM 等5 種機(jī)器學(xué)習(xí)算法,構(gòu)建故意傷害案件的后果預(yù)測(cè)模型進(jìn)行風(fēng)險(xiǎn)分析。

1 數(shù)據(jù)與方法

1.1 實(shí)驗(yàn)數(shù)據(jù)

本節(jié)利用A 市重點(diǎn)人員數(shù)據(jù)庫中的2015-2016 年故意傷害案件中前科人員的11467 條和受害人的16793 條真實(shí)數(shù)據(jù)。兩組數(shù)據(jù)通過案件編號(hào)進(jìn)行關(guān)聯(lián),數(shù)據(jù)中枚舉型特征居多,除了案件編號(hào)、發(fā)案時(shí)間、年齡為連續(xù)型特征,簡(jiǎn)要案情、詳細(xì)發(fā)案地址為文本型特征外,其他特征均為枚舉型。對(duì)數(shù)據(jù)初步分析并結(jié)合實(shí)際公安經(jīng)驗(yàn),去除空缺值超過90%、特征值唯一以及與案件分析無關(guān)的特征數(shù)據(jù)。最后篩選得到數(shù)據(jù)如表1 和2 所示。

表1 受害人數(shù)據(jù)

表2 前科人員數(shù)據(jù)

1.2 實(shí)驗(yàn)方法

依據(jù)原始數(shù)據(jù)資源的狀況、機(jī)器學(xué)習(xí)分類預(yù)測(cè)的基本原理[7]以及風(fēng)險(xiǎn)分析的目標(biāo)對(duì)象,本文提出了如下圖1 所示的基于機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)分析方法流程。其中原始數(shù)據(jù)中特征信息豐富、多為枚舉型特征,但與目標(biāo)值關(guān)聯(lián)度不確定,需通過卡方檢驗(yàn)來進(jìn)行篩選;特征工程主要包括目標(biāo)值選取、特征分類、特征編碼等方法;選取邏輯回歸、支持向量機(jī)、k-鄰近、決策樹、隨機(jī)森林等算法[8]進(jìn)行比對(duì),對(duì)隨機(jī)森林算法進(jìn)行調(diào)參優(yōu)化;最后得到最優(yōu)模型進(jìn)行風(fēng)險(xiǎn)后果預(yù)測(cè)和風(fēng)險(xiǎn)要素排序。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 目標(biāo)值選取

本研究采用受害人數(shù)據(jù)中的‘受害程度’特征作為目標(biāo)值來表示故意傷害案件的后果程度。受害人數(shù)據(jù)中的受害程度分為:‘輕微傷’、‘輕傷二級(jí)’、‘輕傷一級(jí)’、‘重傷二級(jí)’、‘重傷一級(jí)’、‘傷害致人死亡’、‘不低于輕傷’、‘不低于重傷’、‘輕傷’、‘重傷’、‘不構(gòu)成輕微傷’共11 種類別。將上述類別按照嚴(yán)重程度進(jìn)行歸類,把‘輕微傷’、‘不構(gòu)成輕微傷’歸為輕微;把‘不低于輕傷’、‘輕傷二級(jí)’、‘輕傷一級(jí)’,‘輕傷’歸為一般;把‘不低于重傷’、‘重傷一級(jí)’、‘重傷二級(jí)’、死亡歸為嚴(yán)重,最后得到分為‘輕微’、‘一般’、‘嚴(yán)重’的三分類目標(biāo)值。數(shù)據(jù)中三種類別占比如圖2 所示。

圖1 基于機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)分析流程

圖2 受害程度劃分

2.2 特征衍生、篩選與分類

特征衍生[9]是指從原始數(shù)據(jù)中構(gòu)建新的特征,本實(shí)驗(yàn)中對(duì)一名前科人員對(duì)應(yīng)的多名受害人數(shù)據(jù)進(jìn)行統(tǒng)計(jì),從而得到一起故意傷害案件中的涉案人數(shù),以此作為衍生得到的新特征。

特征選擇[10]是從給定的特征集合中選擇出相關(guān)特征子集的過程,其去除掉無關(guān)特征后將會(huì)降低學(xué)習(xí)任務(wù)的難度,提高機(jī)器學(xué)習(xí)效率。卡方檢驗(yàn)是檢測(cè)離散型自變量與因變量之間相關(guān)性的經(jīng)典方法,將數(shù)據(jù)中11 種離散型特征分別與目標(biāo)值做卡方檢驗(yàn),得到的Z與p 值(特征與目標(biāo)值無關(guān)的概率)如表3 所示。

數(shù)據(jù)中選擇處所、實(shí)施手段、被害人身份、來京時(shí)間等四個(gè)特征的類型較多,且少數(shù)類型樣本數(shù)量多,多數(shù)類型樣本數(shù)量少,這樣會(huì)導(dǎo)致訓(xùn)練集和測(cè)試集中大量特征信息不一致,嚴(yán)重降低模型的準(zhǔn)確性[11]。按照如下四則原則對(duì)上述特征進(jìn)行分類:一、盡可能保證各分類的樣本量平衡,且高于測(cè)試集的樣本量;二、盡可能保證每類特征之間沒有重復(fù);三、類別應(yīng)具備較好的擴(kuò)展性;四:盡可能依據(jù)數(shù)據(jù)分布規(guī)律,結(jié)合業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行合理分類。身份特征分為“低收入人群類”、“普通收入人群類”、“學(xué)生和退休人員類”、“其他類”;選擇處所特征分為:“餐飲娛樂區(qū)”、“露天地段區(qū)”、“住所區(qū)”、“一般公共場(chǎng)所”;實(shí)施手段特征分為:“持器傷人類”、“徒手傷人類”、“其他類”。

表3 離散型特征的卡方檢驗(yàn)

2.3 實(shí)驗(yàn)結(jié)果分析

綜合數(shù)據(jù)集中受害程度的三類樣本比例約為2:7:1,為了解決數(shù)據(jù)集不平衡問題,采用SMOTE 過采樣處理后得到9253 條數(shù)據(jù),其中“嚴(yán)重”程度2732 條,“一般”程度4211 條,“輕微”程度2310 條。利用Python3.6 中Scikit-learn 機(jī)器學(xué)習(xí)模型庫建立SVM、邏輯回歸、K-臨近、決策樹、隨機(jī)深林等5 種機(jī)器學(xué)習(xí)模型,并將過采樣處理后的數(shù)據(jù)帶入訓(xùn)練,通過10 折交叉驗(yàn)證評(píng)估各模型的結(jié)果。

根據(jù)表4 可知,在查準(zhǔn)率上隨機(jī)森林0.74、決策樹0.70、支持向量機(jī)0.56 效果較好,在查全率上隨機(jī)森林0.69、決策樹0.64、邏輯回歸0.53 效果較優(yōu)。決策樹與隨機(jī)森林算法在查全率和查準(zhǔn)率上都要優(yōu)于其他三種算,從F1值也能看出來,隨機(jī)森林0.72 最優(yōu),決策樹0.67 次之,邏輯回歸0.51 效果一般,支持向量機(jī)和k-近鄰均在0.5 以下效果較差。

依據(jù)表5 可知,在特征工程中對(duì)“受害人身份”、“來京時(shí)間”、“實(shí)施手段”、“選擇處所”進(jìn)行歸類后,隨機(jī)森林模型對(duì)一般級(jí)別案件分類效果提升0.42(一倍),對(duì)嚴(yán)重級(jí)別案件分類效果提升0.3、對(duì)輕微級(jí)別案件分類效果提升0.36,總體上都得到了大幅度提高,因此可以說明特征工程中的歸類思想是合理的。

從表6 可知,“涉案人數(shù)”特征重要性最高(0.7864),“實(shí)施手段”次之(0.5762),“熱點(diǎn)時(shí)段”排名第三(0.4867),“選擇處所”排名第四(0.3987),其他特征重要度評(píng)分均在0.1 之下,對(duì)模型影響程度較低。因此可以得出涉案人數(shù)、實(shí)施手段、是否為熱點(diǎn)時(shí)段以及案件發(fā)生處所是能夠影響一起故意傷害案件后果的重大風(fēng)險(xiǎn)因素。

表4 不同模型精度比對(duì)

表5 隨機(jī)森林在特征歸類前后結(jié)果比對(duì)

表6 特征重要性度量

3 結(jié)語

本文基于機(jī)器學(xué)習(xí)方法對(duì)故意傷害案件進(jìn)行風(fēng)險(xiǎn)分析,利用故意傷害案件的前科人員數(shù)據(jù)與受害人數(shù)據(jù)構(gòu)建一個(gè)能夠準(zhǔn)確評(píng)估案件后果嚴(yán)重程度的機(jī)器學(xué)習(xí)模型,并通過對(duì)模型中的特征進(jìn)行重要度排序來分析故意傷害案件的風(fēng)險(xiǎn)要素。

通過上述實(shí)驗(yàn)可以看出,一起故意傷害案件的涉案人數(shù)、作案手段以及案發(fā)位置的周邊環(huán)境對(duì)于案件后果有顯著影響。涉案人數(shù)越多,作案人若使用武器、發(fā)案地點(diǎn)為餐飲區(qū)域,則案件后果越嚴(yán)重,因此當(dāng)公安機(jī)關(guān)接到符合上述特征的警情時(shí)應(yīng)增加派出警力和警用裝備,及時(shí)到達(dá)現(xiàn)場(chǎng)控制局面,防止危害增大。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 一区二区三区毛片无码| 91麻豆久久久| 国产乱码精品一区二区三区中文| 亚洲第一黄片大全| 久久精品丝袜| 国产成人福利在线| 114级毛片免费观看| 午夜日b视频| 久久99国产乱子伦精品免| 男女男精品视频| 国产精品毛片在线直播完整版| 国产精品女主播| 亚洲天堂免费在线视频| 亚洲成人一区二区三区| 中文字幕亚洲专区第19页| 日韩在线影院| 97超碰精品成人国产| A级毛片高清免费视频就| 91破解版在线亚洲| 国产情侣一区二区三区| 鲁鲁鲁爽爽爽在线视频观看| 久久这里只有精品66| 久久综合伊人77777| 国产高清在线丝袜精品一区 | 久久婷婷国产综合尤物精品| 97综合久久| 婷婷午夜天| 999国产精品| 99视频精品在线观看| 国产欧美日韩免费| 多人乱p欧美在线观看| 国产一在线观看| 99久久精品免费观看国产| 亚洲欧洲日韩久久狠狠爱| av尤物免费在线观看| 精品三级网站| 欧美日韩一区二区三区在线视频| 国产人人射| 久久国产免费观看| 亚洲人成电影在线播放| 小说 亚洲 无码 精品| 青青青伊人色综合久久| 国产成人免费手机在线观看视频 | 久久久黄色片| 欧美国产在线看| 91av成人日本不卡三区| 制服丝袜在线视频香蕉| 狠狠色综合网| 亚洲日韩在线满18点击进入| 国产欧美日本在线观看| 欧美国产日韩一区二区三区精品影视| 亚洲不卡网| 亚洲精品你懂的| 毛片视频网址| 国产真实二区一区在线亚洲 | 国产精品吹潮在线观看中文| 亚洲视频免费播放| 亚洲美女AV免费一区| 99国产在线视频| 亚洲高清免费在线观看| 国产成人狂喷潮在线观看2345| 美女视频黄频a免费高清不卡| 国产精品jizz在线观看软件| 欧美亚洲第一页| 亚洲va在线观看| 亚洲无码高清视频在线观看| 国产一区亚洲一区| 在线国产毛片| 亚洲AⅤ无码日韩AV无码网站| 99热最新网址| 亚洲欧洲美色一区二区三区| 欧美日韩一区二区三区四区在线观看| av在线无码浏览| 高清不卡毛片| 制服丝袜国产精品| 欧美成人二区| 91麻豆国产在线| v天堂中文在线| 国产成人av一区二区三区| 欧美人人干| 亚洲国产亚洲综合在线尤物| 四虎国产在线观看|