劉學仁,鮑世方
(上海公安學院 信息化與網絡安全系,上海 200137)
城市化進程的不斷加快和互聯網共享經濟的發展為人民群眾帶來便利的同時,也為盜竊案件的發生提供了溫床,這不僅損害了公共財產,而且對社會造成了很多不安定因素。由于案件的流動性以及線索的局限性,給民警破案帶來了很大困難。如何預防和打擊盜竊案件的發生一直是犯罪研究的重點和難點。通過犯罪預測可以有效指導巡邏警察的工作,從而更準確和及時地預防和打擊犯罪的發生。因此,犯罪預測的研究不僅可以節省對公安安全的人力投入,而且可以提高人民對社會治安的滿意度。
盜三車是盜竊機動車、盜竊電動車、盜竊自行車案件的簡稱,多發生在大中型城鎮以及人口密集和流動性大的場所,對公共財產和社會治安構成極大威脅,對社會造成了很多不安定因素。
犯罪預測是制定犯罪預防措施和打擊犯罪的重要科學依據。通過對過往的犯罪數據,分析可能影響犯罪的各種相關因素,形成相關的預測模型,對在未來特定時空范圍內可能出現的犯罪現象的判斷。它是犯罪學理論體系中重要的組成部分,是開展針對性犯罪預防的前提條件,由初期的以預防為宗旨,發展到對犯罪現象的超前性研究和對社會犯罪預防戰略的制定和實施的研究[1]。
犯罪預測泛指所有用于犯罪預測的手段和途徑。專家預測法和相關因素分析法是犯罪學界比較推崇的宏觀預測方法;伯吉斯再犯預測法和格呂克再犯預測法是犯罪預測常用的微觀預測方法[1]。
長短期記憶網絡[2](LSTM)是循環神經網絡的改進,該方法有效解決了循環神經網絡在處理長周期數據間傳遞過程中造成有效信息丟失的問題。1997年首次發表關于長短期記憶網絡論文。LSTM的改進就是用來處理和預測間隔和延遲比較長的時間序列事件。
國內的相關研究雖然起步比較晚但發展迅速,肖延輝、王欣等[3]提出基于長短記憶型卷積神經網絡的犯罪地理位置預測方法;蘭見春[4]提出基于Spark的犯罪預警分析系統的設計與實現;雷陽[5]提出基于TensorFlow的犯罪時間序列預測。針對以上問題,在本文中,我們基于長短期記憶網絡模型,研究預測盜三車犯罪的方法,巡邏民警可以依據可依靠的犯罪預測數據,調整巡邏的時間和地點,有效地預防犯罪的發生概率,保障社會公共安全。
本文研究的對象為盜三車犯罪數據,主要為報案人以及對犯罪情況的描述信息包括報案人、案件的發案起始時間、發案截止時間、案件發生地點以及被盜車輛信息。以某市2015-2019年盜三車案件信息作為原始數據。如表1所示。

表1 盜三車案件描述
盜三車案件原始數據并不適合用于研究,為了方便預測模型的實驗,通過數據處理,形成用于研究的數據集,這些案件數據集包含報案人、案件的發案起始時間、發案截止時間、案件發生地點以及被盜車輛信息。
數據處理的目的是為了確保預測結果不受異常數據影響而對數據進行檢驗、修正、整理的過程,主要包括對缺失數據、錯誤數據和重復數據的處理,處理的方法包括數據一致性檢查、無效值或重復值剔除、缺失值估算以及其他不符合要求的干擾數據刪減。
(1)檢查數據一致性
數據一致性檢查涉及兩種方式,一種是針對相同類型數據的取值范圍判斷其是否在取值范圍內;另一種是根據不同類型數據之間的相互關系校驗數據是否滿足數據間的關系。比如通過檢查發案地點區劃信息,可以判斷案件發案地點是否合理以及是否相互矛盾。
(2)處理無效值、缺省值和重復值
為避免因數據問題影響預測結果,數據處理時合理去除一些無效值以及通過已知數據填充缺省值,可以保證預測結果的相對合理性。對于無效值和重復值可以考慮整列或整行刪除;對于缺省值可以結合上下文進行估算。
案件地址是盜竊案件中最重要的數據,但是由于采集標準和途徑的不一致,造成對案件地址描述的不一致,給研究帶了很大不便。本文通過提取標準的案件地址數據來保證預測的可靠性。提取步驟如下。
(1)基于標準地址庫匹配的規則
利用標準地址庫保證盜竊案件地址提取的準確性,基于完全和近似匹配的規則,從案情描述中提取地址信息,記錄匹配到標準地址信息,用于標記案件信息。
(2)基于放大規則提取地址信息
對于步驟(1)沒有匹配到地址信息的案件信息,通過匹配上一級地址的規則,提取放大后的地址信息,記錄提取到的地址信息,用于標記案件信息。
通過以上規則仍無法提取到地址信息的案件數據,無法作為犯罪預測的參考,可以排除這些案件數據,避免影響預測結果。
(1)提取案件發案時段數據
案件發案時段一般存在于案件的描述里,這些數據可以利用程序從描述信息中提取到案件可能發生的起始時間和結束時間數據。
(2)提取發案星期月份和季節信息
根據第一步提取到的案件發案時段數據,通過程序獲得案發日期、星期、月份以及季節信息。
(3)獲取發案天氣信息
利用中國天氣官網公開的歷史天氣數據,根據第一步提取到的案件發案時段獲取案發當天的天氣情況。
根據發案地址信息,利用高德地圖服務API,獲取發案地址的坐標信息及周邊POI點信息。以高德地圖為例:
(1)根據地址獲取坐標
AMap.plugin('AMap.Geocoder',function(){
var tGeocoder =new AMap.Geocoder({city:'021'})
tGeocoder.getLocation('地址',function(tStatus,tResult){
if (tStatus =='complete' &&tResult.info =='OK'){
/*tResult變量保存對應詳細地理坐標信息*/
}
})
})
(2)根據坐標獲取周邊POI點信息
var map =new AMap.Map("container");
AMap.plugin(["AMap.PlaceSearch"],function(){
//構造地點查詢類
var placeSearch =new AMap.PlaceSearch({
type:'餐飲服務',//興趣點類別
pageSize:5,//單頁顯示結果條數
pageIndex:1,//頁碼
city:"021",//興趣點城市
map:map //展現結果的地圖實例
});
var cpoint =[116.405467,39.907761];//點坐標
placeSearch.searchNearBy('',cpoint,200,function(status,result){
});
});
犯罪預測研究是識別歷史案件,總結學習歷史案件信息,預測案件發生規律的過程,傳統的犯罪預測研究方式是基于統計分析和參數估算的研究,但是統計分析和參數估算過于依賴分析人員的經驗,預測的準確性很難提高;由于警務數據多牽涉到個人隱私,很少對外共享,大多研究者獲取不方便,因此這方面的研究者較少,相關成果也相對較少,采用傳統機器學習方法針對時空特征進行分析,很難提高犯罪趨勢預測的準確性[6]。
循環神經網絡(RNN)是一種改進的多層感知器網絡,用于處理序列數據,如圖1所示。

圖1 經典循環神經網路圖
1997年由Hochreiter等[7]在循環神經網路(RNN)的基礎上提出長短期記憶,Alex Graves等[8]于2014年對長短期記憶進行改進。
語音文本早期多使用長短期記憶(LSTM)進行處理,近年來在金融等其他領域開始使用[9]。本文提出運用長短期記憶(LSTM)算法結合時間、空間等相關案件數據構建“盜三車”類型案件犯罪預測模型。
長短期記憶(LSTM)算法是基于循環神經網路(RNN)的改良,擴大了循環神經網路的應用場景,通過確定新的輸入是否被記憶、遺棄或輸出,來解決了循環神經網路在長周期事件中有效信息丟失的問題,學習長周期數據間的依賴信息。
長短期記憶(LSTM)和循環神經網路(RNN)都包含正向傳播計算,基于時間的反向傳播算法和權重更新優化算法。但循環神經網路模型在權重更新過程中會引起梯度消失甚至梯度爆炸這種極端情況,這會導致數據在傳播過程中忘記較長周期的有效信息,因此不適合處理具有較長延遲事件的序列。預先設置RNN模型的延遲事件長度很難達到最佳的主觀設置,LSTM模型應運而生,以解決RNN模型的長期依賴問題。LSTM的主要區別在于對RNN“記憶體”的改造以及對記憶信息的過濾,保留有用信息的傳遞,過濾無用信息的傳遞。LSTM設置了使歷史犯罪信息有選擇地通過的渠道,以便將相應的犯罪信息過濾或添加到“記憶體”中。LSTM將歷史案件數據和新輸入的案件數據的有效數據進行疊加,這就保留了歷史案件數據的有效預測數據,而不會因為乘法的影響使部分有效數據丟失。因此,LSTM不會在長周期的案件中導致對預測有效信息的丟失,可以處理長周期案件預測的記憶問題。如圖2所示。

圖2 LSTM模型結構圖
長短期記憶(LSTM)是基于一個循環神經網絡(RNN)結構,在每一層增加一個濾波器(輸入、輸出和遺忘)通道。判斷網絡輸出層的當前狀態是否達到閾值,以確定網絡上一層的輸出是否達到閾值。如圖2所示,使用Sigmoid函數來計算當前層的存儲狀態作為輸入,當輸出結果達到當前設定的計算閾值時,就將輸出通道的存儲狀態與當前層的存儲狀態的乘積作為下一層的輸入;當輸出結果未達到當前設定的計算閾值時,就忽略當前層的輸出。在每個模型的反向傳播訓練過程中,每個層(包括通道節點)的權值都會被更新。
本文基于TensorFlow深度學習平臺,利用長短期記憶網絡模型進行實驗,通過參數調整優化訓練模型的預測效果,最終輸出盜三車預測結果,具體的實驗環境如表2所示。

表2 實驗環境信息
本文基于某市2015-2019年盜三車盜竊案件信息(其中70%作為訓練數據,30%作為驗證數據),使用本文提出的長短期記憶網絡模型預測下個周期犯罪發生情況,對比結果如表3所示。

表3 長短期記憶網絡模型實驗結果
本文提出的長短期記憶網絡模型預測效果優于傳統的參數估算預測方法。
通過實驗結果,可以看出本文提出的LSTM預測模型在預測的準確率上提高了12個百分點,這對犯罪的預防和打擊有所提高。
本文所述模型系統,現已為某市公安機關安裝使用,并成為執法部門日常社會面治理、打擊預防犯罪,警力投放部署的重要依據和主要手段。結合公安實戰應用,本模型對于盜三車案件預測準確率超70%,為降低盜三車案件數量,維護人民群眾財產安全作出一定貢獻。
盜三車案件是城市社會生活常見犯罪類型之一,是社會治安管理工作的重點,它是一種特殊的犯罪形式,存在團伙作案或掩護作案,通常發生在隱蔽的場所,在被害人不在場或者不注意的情況下,在極短時間內采用特殊的作案工具,盜竊被害人車輛(機動車、電動車、自行車),留下的現場信息有限,加大了破案難度,損害了人民群眾的財產以及安全感。本文基于長短期記憶模型的盜三車犯罪預測方法,希望可以通過犯罪預測,加強犯罪預測和警力分布,減少盜三車案件的發生,提高相關案件偵破率,從而保證人民群眾財產安全。