張永田, 吳升
(福州大學 福建省空間信息工程研究中心, 福建 福州 350003)
?

采用時空重排掃描統計量的犯罪集聚可視分析
張永田, 吳升
(福州大學 福建省空間信息工程研究中心, 福建 福州 350003)
首先,基于時空重排掃描統計量方法,對福州市2014年案事件數據進行日尺度與小時尺度的時空重排掃描統計,得到不同尺度下的犯罪時空集聚區.然后,結合數據可視化技術,對分析結果進行多尺度、多視角的交互式可視化設計.結果表明:用戶可以通過選擇日期尺度,按月或按月日期段、周日期段查看犯罪熱點空間分布;也可以通過選擇小時尺度,按時段查看周日期或節假日犯罪熱點的空間分布.
掃描統計; 犯罪熱點; 交互式; 可視分析; 空間尺度; 時空聚集
隨著公安部“金盾工程”二期的完成,全國公安通信網絡和信息系統應用水平得到進一步的提升,案件信息每年以100~120萬條的速度遞增[1].面對不斷增長的海量信息,缺乏有效的數據挖掘及可視化分析手段使公安部門陷入了“庫中有數而心中無數”的困境.傳統的犯罪空間數據挖掘方法將時間和空間信息割裂開,無法全方位、立體地挖掘更深層的、富有價值的信息.此外,犯罪可視化與犯罪數據分析出現相互脫節的現象[2],特別是交互式可視化的設計方面尤為欠缺.掃描統計法是空間統計學的重要方法之一,眾多學者對其進行了相關研究[3-11].這些研究得到的犯罪集聚熱點空間范圍廣,時間跨度大,對犯罪預防的指導意義不大.本文選取更小的時間、空間尺度,針對目前犯罪時空數據挖掘方法與犯罪時空數據交互式可視分析的不足[12],應用時空重排掃描統計方法探測犯罪的時空集聚特性.
運用時空重排掃描統計法探測案事件的集聚區域.利用一個圓柱體掃描窗口,其底面中心對應于探測的地理區域中的一點,高則對應于相應的時間區間.底面半徑逐漸增大,使掃描的空間區域不斷擴大,直至設定的最大半徑.同時,圓柱體的高度也逐漸增加,每次增加一個規定的時間單位,直至預設的上限為止.掃描窗口的變化過程在整個研究區域內重復進行,最終將生成數量龐大的掃描窗口.采用廣義似然比(GLR)判斷每個掃描窗口內的案事件數量是否異常,其值反映該窗口為集聚的可能性,具有最大函數值的窗口即最有可能是集聚的[13].然后,利用蒙特卡羅假設檢驗方法對得到的候選聚集區域進行非隨機性的置信度分析,最終得到合理的犯罪集聚區[8].具體的建模過程[14]如下所示.
某一研究區z在d天中的案件數為Cz,d,則所有區域在所有時間范圍內的總案件量C為
(1)
每個單位區域每天的預期案件量μz,d為
(2)
則圓柱體掃描窗口A內的預期案件量為
(3)
令CA為圓柱體窗口A中的實際案件量,CA服從均數為μA的超幾何分布,其概率函數為
(4)

(4)
廣義似然函數值反映窗口為集聚的可能性.因此,在所有的候選集聚窗口里,最大的窗口最不可能是隨機發生的,最有可能是有效集聚的.通過計算掃描統計量能夠得出大量的可能為集聚的窗口,但為了驗證探測到的集聚窗口的非隨機性,還需要對這些區域進行置信度分析.掃描窗口統計量的無效假設為:案件量在時間和空間上的分布完全隨機.要得到掃描窗口統計量的概率分布極為困難,即使對一維的時間掃描統計量而言,其概率分布也十分復雜.
因此,通常情況下,可運用蒙特卡羅假設檢驗方法進行P值的計算.首先,根據總的案件數生成N個隨機分布的數據集,每個數據集都能夠得出各自最大的似然函數值,再將真實數據集中窗口的GLR與N個隨機生成的數據集的N個最大似然函數值進行由小到大的排序.若真實數據集某窗口的GLR排在第Q位,則P值為Q/N+1.因此,Q的排序越靠前,P值越小,說明集聚窗口屬于隨機的可能性越小.例如,利用蒙特卡羅方法生成999個隨機分布數據集,某窗口的廣義似然比排在第30位,則P=30/999+1=0.003,則該集聚窗口為隨機的概率為3%;若排序為10,則隨機的概率為1%.
研究區域為福州市行政管轄區中的鼓樓區、倉山區、臺江區全境,以及晉安區與馬尾區的部分街道(北緯25°57′~26°24′,東經119°10′~119°39′).研究區域面積大約為408km2,常住人口大約為276.3萬[13].數據為經過脫敏脫密處理后的2014年福州市案件數據.
2.1日尺度犯罪時空
利用SaTScan9.3軟件對2014年福州各月案事件數據進行時空重排掃描統計分析.掃描窗口的最大空間上限為300m,即底面半徑最大為300m;窗口的時間跨度為1~15d,時間變化步長為1d;蒙特卡羅法模擬次數為999,當P<0.05時,認為犯罪集聚.以1月份盜竊案件為例,時空重排掃描統計后的結果,如表1所示.表1中:r為半徑;n為案件數.

表1 1月份盜竊電動車案件聚集區探測結果
由表1可知:通過蒙特卡羅方法計算得出的6個犯罪熱點的P值為0.009 0~0.031 8,表明這些熱點集聚區域為隨機的概率是0.90%~3.18%,即集聚區屬于隨機的可能性非常小,因此,具有很高的非隨機性,是有意義的集聚區.
為了從多角度查看月尺度下各個犯罪熱點的時空分布情況,設計以下3種交互可視方式.

圖1 1月份盜竊電動車案件聚集區可視分析Fig.1 Visual analysis of stealing electric bikes clusters in January
1) 按月查看犯罪熱點空間分布.如圖1所示.用戶可以通過左上部分的“月份軸”或“上月”、“下月”箭頭選擇某一月份.然后,選取案件類別中的某一類案件(缺省為所有種類案件).此時,甘特圖用空心矩形表示不同犯罪熱點所在的日期段,右側地圖用空心圓形表示該月所有犯罪熱點的空間分布,圓的大小代表了熱點范圍(掃描半徑).
用戶可以在甘特圖上選取該月的某個日期段,右側地圖以灰色圓形顯示所選日期對應的熱點位置;或者在右側地圖上選擇某個熱點,可查看該熱點的所屬轄區、日期、熱點半徑、案事件數量等詳細信息,左側甘特圖上將用灰色矩形顯示該熱點發生的日期段.
2) 按月日期段查看犯罪熱點空間分布,如圖2所示.用戶可以通過左上部分的“月日期軸”選取日期段(如6~8日),然后,選取案件類別中的某一類案件(缺省為所有種類案件).
此時,年歷圖上所有6~8日出現犯罪熱點的都用矩形框加以強調.右側地圖用空心圓形表示當年所有6~8日出現犯罪熱點的空間分布.用戶也可在地圖上選取某一熱點查看該熱點詳情,年歷圖將以灰底矩形框著重顯示該熱點對應的月日期段.
3) 按周日期段查看犯罪熱點空間分布,如圖3所示.用戶可以通過左上部分的“周日期軸”選取一定日期段(如周一),也可選取案件類別中的某一類案件(缺省為所有種類案件).
此時,年歷圖上當年在周一出現賭博犯罪熱點的日期用矩形框加以強調,右側地圖用空心圓形表示當年在周一出現犯罪熱點的空間分布.用戶也可在地圖上選取某一熱點查看該熱點詳情,年歷圖將以灰底矩形框著重顯示該熱點對應的周日期段.

圖2 6~8日扒竊案件聚集區可視分析 圖3 周一賭博案件聚集區可視分析 Fig.2 Visual analysis of pickpocket Fig.3 Visual analysis of gambling clusters on 6 to 8 clusters on Monday
2.2小時尺度犯罪時空
利用SaTScan 9.3軟件對2014年福州案事件數據按“小時”進行時空重排掃描統計分析.半徑上限為300 m,時間跨度為1~3 h,時間變化步長為1 h;蒙特卡羅法模擬次數為999,當P<0.05時,認為犯罪集聚.以周六案事件數據為例,時空重排掃描統計后的結果,如表2所示.
由表2可知:8個犯罪熱點的P值為0.013 0~0.049 9,表明了這些熱點集聚區域為隨機的概率是1.30%~4.99%,屬于隨機的可能性很小,具有較高的非隨機性.
在時段熱點的可視化設計方面,可以通過時鐘圖直觀地反映熱點的案發時段,如圖4所示.將圓分為12個區域,如圖4(a)所示.圖4(b),(c)中:灰色區域表示熱點時段;圓環內部的“AM”表示午前0~12時,“PM”表示午后12~0時.由圖4(b),(c)可知:午前犯罪熱點出現在9~10時;午后犯罪熱點出現在7~8時.

表2 周六入室盜竊案件聚集區探測結果

(a) 時段熱點劃分 (b) 午前熱點時段 (c) 午后熱點時段圖4 時段熱點可視化設計Fig.4 Visual design of time periods hotspot

圖5 周六15~16時入室盜竊案件聚集區可視分析Fig.5 Visual analysis of burglary clusters from 15 to 16 pm on Saturday
為了方便用戶從多個角度對小時尺度的犯罪熱點進行時空分析,設計按周日期查看犯罪熱點空間分布,如圖5所示.
由圖5可知:用戶可通過左上部分的“時鐘圖”設置某一時段范圍(如15~16時),可選取某一周日期(缺省為所有周日期)或是將選項卡切換到節假日,選取某一節假日,再選取某一案件類別(缺省為所有種類案件),右側地圖用空心圓形表示當年在周六15~16時出現犯罪熱點的空間分布.用戶也可選取地圖上的某一熱點查看詳情.
基于時空數據挖掘理論、信息可視化技術,運用時空重排掃描統計方法,對福州市主城區2014年案事件進行時空聚集性分析.對案事件數據分別進行日尺度及小時尺度的時空重排掃描統計,將得到的分析結果運用信息可視技術對犯罪聚集區進行表達.通過對數據挖掘的結果進行多尺度、多視角的交互可視化設計,方便用戶對犯罪熱點進行多角度的查看分析,為公安部門科學決策提供技術支持.下一步將研究犯罪的預測,將研究區域格網化,分析各種場景(如商場、醫院、KTV、網吧等)對犯罪的影響并結合有效的預測模型,對各個網格犯罪的案發概率進行計算,為公安部門進一步細化警力配置提供依據.
[1]程春惠.公安犯罪案件文本挖掘關鍵技術研究[D].杭州:浙江大學,2010:1-2.
[2]李代超,吳升.面向不同主題的犯罪大數據可視分析[J].地球信息科學學報,2014(5):735-745.
[3]NAUS J I.The distribution of the size of the maximum cluster of points on a line[J].Journal of the American Statistical Association,1965,60(310):532-538.
[4]KULLDORFF M,HEFFERNAN R,HARTMAN J.A space time permutation scan statistic for disease outbreak detection[J].Plos Medicine,2005,2(3):216-224.
[5]NAKAYA T,YANO K.Visualising crime clusters in a space-time cube: An exploratory data-analysis approach using space-time kernel density estimation and scan statistics[J].Transactions in GIS,2010,14(3):223-239.
[6]LEITNER M,HELBICH M.The impact of hurricanes on crime: A spatio-temporal analysis in the city of Houston, Texas[J].Cartography and Geographic Information Science,2011,38(2):213-221.
[7]王占宏.基于掃描統計方法的上海犯罪時空熱點分析[D].上海:華東師范大學,2013:89-97.
[8]ZEOLI A,PIZARRO J,GRADY S,et al.Homicide as Infectious disease: Using public health methods to investigate the diffusion of homicide[J].Justice Quarterly,2014,31(3):609-632.
[9]王培安,羅衛華,白永平.基于空間自相關和時空掃描統計量的聚集比較分析[J].人文地理,2012(2):119-127.
[10]唐咸艷,李嶠,黃秋蘭,等.時空掃描統計量三維可視化的實現[J].中國衛生統計,2015(4):693-694.
[11]李小洲,王勁峰.空間掃描統計量方法中候選聚集區域生成的快速算法[J].地球信息科學學報,2013(4):505-511.
[12]福州市統計局.福州統計年鑒[M].北京:中國統計出版社,2012:22-23.
[13]殷菲.時-空掃描統計量在傳染病早期預警中的應用研究[D].成都:四川大學,2007:20-21.
[14]LEITNER M.Crime modeling and mapping using geospatial technologies[M].Dordrecht:Springer Netherlands,2013:320-436.
[15]周麗君,張興裕,馬越,等.前瞻性時空掃描統計量與時空重排掃描統計量在傳染病聚集性探測中的適用性探討[J].現代預防醫學,2012(5):1068-1070.
(責任編輯: 錢筠 英文審校: 吳逢鐵)
Visual Analysis of Crime Clusters Based on Space-Time Permutation Scan Statistic
ZHANG Yongtian, WU Sheng
(Spatial Information Research Center of Fujian, Fuzhou University, Fuzhou 350003, China)
Firstly, based on space-time permutation scan statistic method, this paper analyzes crime of Fuzhou City in 2014 in days and hours, the space-time crime clusters in different scales are obtained. Then, combine with the data visualization technology and propose interactive visualization design for the results of the analysis in multi-scale and multi perspective. The results show that the method above enables users to view crime hot space distribution by date scale in monthly, month-date segment or week-date segment and by hour scale in week-date segment or holiday segment.
scan statistic; crime hot spots; interactive; visualization; space scale; spatio-temporal aggregate
10.11830/ISSN.1000-5013.201605025
2015-09-09
吳升(1972-),男,教授,博士,主要從事時空數據分析與可視化、數字區域與智慧城市、應急信息系統的研究.E-mail:ws0110@163.com.
國家“863”重大科技項目(2012AA12A208)
P 208
A
1000-5013(2016)05-0649-05