999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于廣義回歸神經網絡的城市入室盜竊串并案分析方法

2020-09-02 07:14:46馮佳樂姚遠陳德華
微型電腦應用 2020年8期
關鍵詞:文本

馮佳樂 姚遠 陳德華

摘要:

隨著城市的發展,城市人口的越來越多元化,這給城市治安帶來了新的挑戰,入室盜竊就是這個過程中不可調和的矛盾。我們以近幾年城市室盜竊案件的案情文本數據為基礎,提取入室盜竊案件的文本向量特征,基于廣義回歸神經網絡模型,采用凝聚層次聚類算法作為回歸方法,基于這一理論研究入室盜竊案件的串并方法,通過給辦案民警提供入室盜竊案件的串并依據,從而提高案件的偵破率,減少群眾的財產損失。

關鍵詞:

廣義回歸神經網絡; 凝聚層次聚類; 文本向量化; 入室盜竊

中圖分類號: TP311

文獻標志碼: A

An Analysis Method for Serial and Parallel Cases of Urban House Burglary

Based on Generalized Regression Neural Network

FENG Jiale1, YAO Yuan2, CHEN Dehua3

(1. Shanghail Triman Software Technology Co. Ltd., Shanghai 200042, China; 2. Chongqing Public Security Bureau

Police Supervision Corps., Chongqing 401147, China; 3. School of Computer Science and Technology, Donghua

University, Shanghai 200162, China)

Abstract:

With the development of the city, the population of the city is more and more diversified, which brings new challenges to the public security of the city. Based on the text data of urban burglary cases in recent years, we extract the text vector characteristics of burglary cases. Based on the generalized regression neural network model, we use clustering algorithm as the regression method. Based on this theory, we study the serial and parallel methods of burglary cases. By providing the serial and parallel basis of burglary cases for the police, we can provide the serial and parallel basis of burglary cases high detection rate of cases and reduction of property losses of the masses.

Key words:

generalized regression neural network; hierarchical agglomerative clustering; text to vectorization; burglary

0引言

入室盜竊案件隨著我國城鎮化進程的不斷加速,越來越突顯出其危害性,即損害了群眾的財產利益,也對社會安定造成了極大的威脅。由于案件的特殊性,現場線索有限,給破案帶來極大困難。因此研究入室盜竊串并案的串并分析方法,可有效的提高辦案民警的工作效率,更準確和及時的打擊了犯罪分子,從而提高群眾對公共安全的滿意度,節省公共安全領域的人力開銷。

串案和并案[1](簡稱串并案)是偵破系列案件,特別是在個案偵查陷入困境時的常用方法。入室盜竊串并案[2]是一種偵破案件的方法,主要是針對入室盜竊案件進行串案和并案處理的過程。入室盜竊案件多發生在流動性大、人口密集的大中型城鎮,對群眾的生命和財產安全構成威脅,對社會的穩定造成不良的影響。

文本向量化[3]是把文本表述為可以讓計算機來理解的形式,可以分為詞語的向量化、短文本的向量化和長文本向量化。不同的情景需要用到不同的處理方式。

凝聚層次聚類(HAC)是自下而上的一種聚類算法。聚集聚類是一種分層聚類算法,從許多小聚類開始,然后逐漸合并聚類[45]。該算法的思想大致為:將每個數據點視為一個單一的分組,然后計算所有分組之間的距離來合并分組,直到所有的分組聚合成為一個分組為止。該算法的優點是不需要知道有多少個分組且對于距離度量標準的選擇并不敏感;其缺點是算法運行效率低。

傳統的關于案情文本應用于串并案分析的研究方法,先對文本數據進行結構化,然后再對結構化的數據進行分析,最后利用統計分析方法進行建模處理。TangD等提出一種基于神經網絡實現的情感分類方法[6];Michael Chau等人應用信息抽取技術分析案情文本信息識別出作案手段、作案工具等特征信息[7];Jennifer Xu等人提出一種基于犯罪領域知識的自動關聯分析模型[8];Bennell等人提出一種串聯國際團伙入室盜竊作案的方法。

國內的相關研究雖然起步比較晚但發展迅速,韓寧、陳巍提出基于聚類分析的串并案研究[1];夏平提出一種技術性開鎖入室盜竊案件的特點及偵查方向[2];單培提出一種比較法與刑事案件串并案分析方法[9]。針對以上問題,在本文中,我們采用文本向量化提取入室盜竊案件的文本特征,基于廣義回歸神經網絡模型,采用凝聚層次聚類算法做為回歸方法,基于這一理論研究入室盜竊案件的串并方法,通過給辦案民警提供入室盜竊案件的串并依據,從而提高案件的偵破率,減少群眾的財產損失。

1城市入室盜竊案件數據整理

入室盜竊案情文本是記錄報案人對案件的基本描述信息以及勘查人員的現場勘查信息的主要載體。報案人對案件的描述信息主要包括報案人的信息、被盜物品信息、報案人描述的案件發生的時間段和地點等信息;勘查人員的現場勘查信息主要包括侵入目標、侵入部位、侵入方式、侵入手段以及現場指紋、鞋印、遺留物等信息,其中指紋、鞋印、遺留物信息的串并和比對不在本文的研究范圍內。如表1所示。

1.1處理案件文本數據

將入室盜竊案情文本原始數據進行預處理,形成用于訓練的報案人信息、報案時間、案發地點、被盜物品詳細信息、被盜金額和現場勘查數據的數據集。

數據處理是為了某個特殊的研究目的而對數據進行校驗和處理的過程,目的在于針對研究目的檢查數據一致性,處理無效值和缺失值的過程;刪除不符合要求重復信息、糾正存在的錯誤數據,主要是包括干擾分析結果的缺失數據、錯誤數據、重復數據三大類。

(1) 一致性檢查

一致性檢查是根據案情文本數據的取值范圍和數據之間的相互關系,檢查數據是否合理或者相互矛盾的數據。

案件的特征數據侵入方式、侵入部位、作案手段都為字典項,都需要做一致性檢查,保證數據在字典項中。

(2) 無效值和缺省值處理

由于接報案件時錄入的案情文本數據的誤差,可能存在一些無效和缺失的案情文本數據,這些數據都需要適當的處理,避免因數據問題影響研究結果。這類數據常用的處理方法有:結合上下文進行估算,整列刪除。

1.2生成案情文本詞向量數據

案件文本向量化將基于詞向量方法,是整個模型的重要步驟,詞向量訓練效果的好壞直接影響到最終串并案分析的效果。

(1) 案情文本數據分詞

案情文本數據是中文數據,中文語料庫跟其他語言的語料庫有所不同,且本文研究的案情文本有其領域的獨特性,需要單獨生成研究的預料庫,對案情文本進行分析需要先進行中文分詞步驟。

結巴分詞是一種常見的中文分詞工具,對于日常中文數據分詞效果好,考慮到案情文本的來源多為報案人描述,所以本文采用結巴分詞作為中文分詞工具。由于中文預料的特殊性,本文在分詞后刪除了對研究沒有實際意義的標點符號,并用空格作為分隔符,生成語料庫文件。

(2) 案情文本詞向量訓練

Word2vec工具是一款開源的文本向量化工具,其提供的詞向量文件在很多領域都取得很好的效果,特別是英文預料的研究方面。但考慮到本文研究的文本的特殊性,其內容包含很多犯罪方面的專業數據,因此需要訓練本文研究所內容所需要的詞向量。

Word2vec工具提供了完整的訓練詞向量的方法,我們提取歷年的入室盜竊案件的案情文本數據作為輸入,通過word2vec工具提供的參數設置,進行多次實驗比較,最終輸出本文研究所需要的詞向量文件。

1.3提取案情文本向量化數據

(1) 語料庫準備

本文將某市2015—2017年入室盜竊案件案情文本信息作為原始數據。詞向量訓練使用的是Google開源的Word2vec工具,其提供的語料庫格式是以空格作為分割符的詞的集合文件。首先將所有案情文本去除標點符號等無效的字符。然后通過中文分詞工具將案情文本進行分詞,最后將所有的分詞結果寫入一個文件(cbaaqxx.txt)中作為語料庫。

(2) 詞向量訓練

使用Word2vec工具進行詞向量訓練關鍵在于根據語料庫和實驗環境選擇合適的參數進行訓練,不需要過多的干預。本文參數設置如下:

① 將cbaaqxx.txt作為語料庫;參數設置:train:cbaaqxx.txt;

② 輸出詞向量設置為cbavec.bin;參數設置:output: cbavec.bin;

③ 基于Negative Sampling的CBOW模型;參數配置:hs:0cbow:1negative:5sample:le3;

④ 詞向量維度設置為:200;參數設置:size:200

工具運行后會生成一個cbavec.bin的文件即為詞向量庫。

(3) 文本向量化表示

首先對入室盜竊案情文本進行切分,將整段文本根據標點符號切分為m條句子,形式如[w1,w2,w3,…,wm],其中m為句子的長度,wi表示第i條句子。分別對m條句子進行處理,對于第i句子wi,進行分詞后形成長度為n的詞序列,形式如[Vi1,Vi2,Vi3,…,Vin]。對于每個案情文本文本都形成了一個M×N維的向量。

2城市入室盜竊串并分析

入室盜竊串并案分析過程是識別案件并一一對比歸類的過程,傳統的串并案分析研究方式是基于聚類方法的研究[10],但是聚類算法是一種無監督的機器學習過程,在沒有標記的案件文本數據集里面,這種無監督學習的算法數據結構和特征需要算法自行尋找,這在串并案分析中很難實現。

廣義回歸神經網絡模型[11]通過徑向基神經元和線性神經元來設計,在結構上由輸入層、模式層、求和層和輸出層構成,是一種基于徑向基函數網絡的改進。

本文提出的入室盜竊串并案分析方法就是結合凝聚層次聚類算法和循環神經網絡構建的廣義回歸神經網絡模型實現的。該方法充分利用兩類算法的優點,將凝聚層次聚類的結果作為循環神經網絡的標簽進行訓練學習,將循環神經網絡模型的最終的標簽輸出作為分類結果,這種結合很好的解決了手動打標簽和自動提取特征的難點。

本文首先將整理清洗過入室盜竊案情文本信息進行中文分詞,運用Word2vec工具生成案情文本向量,案情文本特征集為:{tr x1,tr x2,tr x3,…,tr xk},每一個案情文本向量的維度為m,及tr xi={x1,x2,x3,…,xm}。標簽集為:{tr y1,tr y2,tr y3,…,tr yk},每個標簽的維度為n,tr yi={y1,y2,y3,…,yn}。

然后對案情文本向量進行凝聚層級聚類,聚類結果為循環神經網絡模型提供監督信號,循環神經網絡的輸出有利于凝聚層級聚類的結果。通過將這兩個過程集成到具有統一加權三元組損失函數中。

最終基于TensorFlow深度學習平臺,通過參數調整優化訓練模型的訓練效果,最終輸出入室盜竊串并案分析結果,如圖1所示。

整個結構上由四層構成,分別為輸入層、模式層、求和層和輸出層。

① 輸入層:輸入測試案情文本數據,輸入層的節點個數等于案情文本向量化的維度。

② 凝聚層級聚類:默認將每個案情文本作為一個分組,計算分組間的距離,逐步合并分組,并將分組結果輸入到模式層。

③ 模式層:計算案情文本與訓練的案情文本中的每一個案情文本的Gauss函數的取值。及第i個案情文本tr ?xi與第j個訓練案情文本集之間的Gauss函數取值(對于測試樣本x,從第j個模式層節點輸出的數值)為:

④ 求和層:節點個數等于輸出樣本維度加1,即(k+1),求和層的輸出分為兩部分,第一個節點輸出為模式層輸出的算術和,其余k個節點的輸出為模式層輸出的加權和。假設對于測試樣本te x,模式層的輸出為{g1,g2,…,gm}。求和層第一個節點的輸出為:

⑤ 輸出層:輸出層節點個數等于標簽向量的維度,每個節點的輸出等于對應的求和層輸出與求和層第一個節點輸出相除。

本文通過廣義回歸神經網絡模型進行實驗,具體的實驗環境,如表2所示。

本文設計了兩組對比數據,第一組為公安提供的串并數據(串并案521起);第二組為本文提出的廣義回歸神經網絡模型串并出的案件數據,串并分析結果共637起系列案件。

對比兩組數據的結果如表3所示。

本文提出的廣義回歸神經網絡模型串并出的案件效果接近于真實串并的數據。

通過對比實驗結果,可以看出本文提出的分析模型的可行性和有效性。

3總結

城市入室盜竊案件一般發生在被害人不在場或無意識狀況下,采用特殊的作案工具,進入到被害人居住的處所,盜竊被害人錢財的行為。阻止入室盜竊案件的發生,可有效保證人民群眾的生命和財產安全。

城市入室盜竊案件是城市社會生活常見犯罪類型之一,由于作案過程中被害人處于不知情狀態,其提供的報案信息有限,且該類案件具有團伙作案的可能性,加大了治安治理難度,嚴重影響了人們群眾的公共安全感和社會穩定。本文提出的一種城市入室盜竊串并案分析的方法,希望能減少群眾生命財產的威脅,提高城市入室盜竊犯罪偵破率。

參考文獻

[1]韓寧. 基于聚類分析的串并案研究[J]. 中國人民公安大學學報, 2012(1): 5358.

[2]夏平. 技術性開鎖入室盜竊案件的特點及偵查方向[J]. 法治與社會, 2015(7): 7576.

[3]于政. 基于深度學習的文本向量化研究與應用[D]. 上海:華東師范大學, 2016.

[4]T Kurita. An efficient agglomerative clustering algorithm using a heap[J]. Pattern Recognition, 1991, 24(3):205209.

[5]Gdalyahu Y, Weinshall D, Werman M. Self Organization in Vision: Stochastic Clustering for Image Segmentation, Perceptual Grouping, and Image Database Organization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 23(10):10531074.

[6]Tang D, Qin B, Liu T. Learning ?semantic representations of users and products for document level sentiment classification[C].In Proceedings of ACL.2015:10141023.

[7]Michael Chau,Jennifer Xu. Extracting meaningful entities from police narrative reports[C].

In Proceedings of the National Conference for Digital Government Research. Los Angeles California, USA:

2002:271275.

[8]Jennifer Xu, Hsinchun Chen, Michael Chau. Automated criminal link analysis based on domain knowledge[J]. Journal of the American Society for Information Science and Technology, 2007, 58(6): 842855.

[9]單培. 比較法與刑事案件串并案分析[J]. 公安海警學院學報, 2013, 12(3): 6668.

[10]王慧. 基于聚類的關聯規則算法在刑事犯罪行為分析中的應用[J]. 中國人民公安大學學報(自然科學版), 2010, 65(3): 6467.

[11]CSDN.(20181212).https://blog.csdn.net/Luqiang_Shi/ article/details/ 84978712

(收稿日期: 2019.05.12)

作者簡介:馮佳樂(1986),男,本科,中級工程師,研究方向:大數據分析,串并案研究。

姚遠(1986),男,碩士,高級工程師,研究方向:公安大數據、警務監督信息化。

通訊作者:陳德華(1976),男,博士,副教授,碩士生導師,研究方向:數據倉庫、大數據分析、圖數據挖掘。

文章編號:1007757X(2020)08014203

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 欧美激情第一区| 一级毛片a女人刺激视频免费| 91在线免费公开视频| 国产综合色在线视频播放线视 | 国产97视频在线| 玖玖免费视频在线观看| 欧美亚洲国产一区| 欧美视频在线播放观看免费福利资源 | 97亚洲色综久久精品| 久久国产精品麻豆系列| 亚洲永久精品ww47国产| 制服无码网站| 日本高清有码人妻| 国产成人高清在线精品| 高潮爽到爆的喷水女主播视频| 日本国产精品一区久久久| 自拍偷拍欧美| 婷婷午夜影院| 直接黄91麻豆网站| 亚洲成人在线网| aaa国产一级毛片| 国产精品嫩草影院av| 婷婷亚洲最大| 成人福利在线视频| 国产成人一区二区| 日本伊人色综合网| 国产成人1024精品| 大香伊人久久| 欧美成人午夜视频免看| 红杏AV在线无码| 亚洲IV视频免费在线光看| 亚洲人成高清| 日本久久久久久免费网络| V一区无码内射国产| 久久青青草原亚洲av无码| 欧美伦理一区| 四虎国产精品永久在线网址| 女人18毛片久久| 四虎成人免费毛片| 国产一区亚洲一区| 三级国产在线观看| 亚洲国产欧美中日韩成人综合视频| 免费欧美一级| 国产精品自在线拍国产电影| 91综合色区亚洲熟妇p| 免费高清a毛片| 国产三级国产精品国产普男人| 夜夜操天天摸| 亚洲无码视频喷水| 欧美三级不卡在线观看视频| 欧美国产日韩在线观看| 国产亚洲欧美另类一区二区| 久久精品人人做人人爽电影蜜月 | 日韩成人免费网站| 国产丝袜一区二区三区视频免下载| 亚洲无码高清免费视频亚洲| 日韩欧美国产三级| 丁香综合在线| 国产精品一区二区国产主播| 91亚洲免费视频| 毛片免费观看视频| 三上悠亚一区二区| 亚洲人成网18禁| m男亚洲一区中文字幕| 人人爽人人爽人人片| 青青青国产精品国产精品美女| 亚洲欧美精品日韩欧美| 一本久道久综合久久鬼色| 欧美成人精品一级在线观看| 国产av色站网站| 国产裸舞福利在线视频合集| 茄子视频毛片免费观看| 日韩国产黄色网站| 国产香蕉国产精品偷在线观看| 成人午夜免费观看| h网站在线播放| 亚洲国产av无码综合原创国产| 免费一级α片在线观看| 久久免费精品琪琪| 亚洲欧美成人网| 国产综合日韩另类一区二区| 精品一区二区三区自慰喷水|