曹 霽
(南京森林警察學院基礎部,江蘇 南京 210000)
伴隨著大數據時代的到來,全國各級公安機關系統都已基本建立較為完備的犯罪事件數據庫,各類犯罪事件的發生情況和相關信息都記錄在內。但目前關于這些數據更多集中在簡單的應用,如查詢、統計和簡單的分析等。隨著社會形勢和科技的快速發展,公安機關對犯罪行為的治理早已不僅僅只局限于“治理”,對犯罪現象進行系統研究,“預防”犯罪行為的產生更是公安機關的迫切需要。如何利用這些已有的數據,通過對過去犯罪數據的分析,預測未來一段時期內犯罪事件類型、數量的變化情況,從而為警力配置和犯罪事件的預防提供科學的參考依據,以便更加充分地利用有限的警力資源提高出警效率、精準打擊犯罪行為,更好地保護人民群眾的生命和財產安全,都是非常有必要和意義來進行研究的。
時間序列分析是概率統計學科中應用性較廣的一個分支,它廣泛應用于金融經濟、氣象水文、信號處理、機械振動等實際問題中,是一個具有相當高的實用價值的應用研究領域。時間序列分析能夠充分利用原時間序列的各項數據,運算速度快,對模型參數有動態確定的能力,是一種非常好的短期預測方法。[1]所謂的時間序列,指的是同一種現象在不同時間上的相繼觀察值排列而成的一組數字序列。觀察這組時間序列在過去的變化規律,推斷其以后可能的變化趨勢,從而對該現象的未來進行預測,就是時間序列分析法。
近年來有關時間序列分析在公安數據處理中的主要研究主要分為如下三個方面:
(一)從社會犯罪的特征出發,探討社會犯罪統計的意義,討論犯罪時間序列分析的意義與方法,提出這一領域的研究方向。代表性論文為國務院特殊津貼享有者、遼寧警察學院何平教授的《關于社會犯罪統計理論與時間序列分析的研究》。該論文為何平教授在意大利佛羅倫薩大學講學的內容節選,詳細系統地講述了犯罪統計學理論的理論來源和特點,并對犯罪時間序列分析的研究進行了展望。[2]
(二)利用時間序列分析對具體案件類型的增長趨勢進行預測。如同濟大學法學院單勇、阮重駿發表的《基于X11方法的盜竊犯罪時間序列分析》,發現了溫州市龍灣區的盜竊類犯罪的時間分布規律與季節變化;由國家“十二五”科技支撐計劃項目資助的,中國人民公安大學的陳鵬、趙鵬、瞿珂的《基于時間序列模型的110警情數據預測研究》;沈齊、范馨月在中國刑警學院學報上發表的《季節性ARIMA接警量預測模型在警情分析中的應用》;浙江警察學院教師韓一士、范英盛、李國軍、鄭滋椀的《基于ARIMA模型的通訊網絡詐騙犯罪增長趨勢分析——以浙江省衢州市為例》;湖南大學法學院屈茂輝、郝士銘《基于ARMA模型的我國財產類犯罪人數預測研究》等等。
(三)通過改進時間序列模型或者利用更加先進的統計分析軟件來更加精確地預測犯罪態勢。例如北京工業大學的黃娜、何涇沙、孫靖超、朱娜斐的《基于改進LSTM網絡的犯罪態勢預測方法》;南京審計大學鐘飚、袁夢佳發表在中國人民公安大學學報(自然科學版)上的《犯罪時間序列預測分析方法研究——以CrimeStat軟件為例》;武漢大學涂小萌、陳強國發表在北大核心期刊電子技術應用上的《基于ARIMA-LSSVM混合模型的犯罪時間序列預測》;上海交通大學曾偉華的碩士論文《基于ARMA模型的犯罪事件預測分析系統的設計與實現》等等。[3]
目前,利用時間序列分析的方法在公安數據處理方面的應用的研究趨勢是充分利用已有的數據,通過改進算法,采用更加先進的數據處理手段,更準確、更有效、誤差性更小地預測犯罪發展趨勢。下面以故意傷害案件為例,在《中國第三產業統計年鑒》上我們可以查到2006—2019年公安機關受理故意傷害案件數,2020年的數據尚未查到,我們將在這些歷史數據的基礎上,構建ARMA模型,并對2020—2025年的公安機關受理故意傷害案件數進行預測。
ARMA模型即自回歸滑動平均模型,它是模型參量法高分辨率譜分析方法之一。這種方法是研究平穩隨機過程有理譜的典型方法,是研究時間序列的重要方法。[4]由自回歸模型(簡稱AR模型)與移動平均模型(簡稱MA模型)為基礎“混合”構成。但它比AR模型法與MA模型法有較精確的譜估計及較優良的譜分辨率性能,但其參數估算比較繁瑣。在市場研究中常用于長期追蹤資料的研究,如:Panel研究中,用于消費行為模式變遷研究;在零售研究中,用于具有季節變動特征的銷售量、市場規模的預測等。
ARMA模型參數估計的方法很多。如果模型的輸入序列{u(n)}與輸出序列{a(n)}均能被測量時,則可以用最小二乘法估計其模型參數,這種估計是線性估計,模型參數能以足夠的精度估計出來。
許多譜估計中,僅能得到模型的輸出序列{x(n)},這時,參數估計是非線性的,難以求得ARMA模型參數的準確估值。[5]從理論上推出了一些ARMA模型參數的最佳估計方法,但它們存在計算量大和不能保證收斂的缺點。因此工程上提出次最佳方法,即分別估計AR和MA參數,而不像最佳參數估計中那樣同時估計AR和MA參數,從而使計算量大大減少。
所謂的ARMA(p,q)序列指的是:設{Xt,t=0,±1,±2,…}是零均值平穩序列,若滿足,其中為零均值、方差為的平穩白噪聲,則稱為階數p,q的自回歸移動平均序列,簡稱ARMA(p,q)序列。接下來我們將逐步完成ARMA模型的構建及預報,先開始檢測序列的平穩性。[7]
一個平穩的時間序列可以極大地減少需要分析的隨機變量的個數,并相對增加了待估參數的樣本容量,達到降低分析難度和提高估計精度的目的。檢驗序列平穩性的方法很多,在這里我們采用Daniel檢驗。
假設時間序列樣本為 χ1,χ2,…χn,其順序統計量為χ(1),χ(2),…χ(n),若χi=χ(k),則稱Ri=k為χi在樣本中的秩。對于二維變量 (t,Rt),t=1,2,…,n計算其Spearman相關系數,并構造統計量。作假設檢驗如下:
H0:序列Xt平穩;H1:序列Xt非平穩。
在該部分,我們將利用AIC準則,判斷該序列是屬于AR(p)、MA(q),或者ARMA(p,q)模型,并確定階數 p,q。[6]

表1 AIC值結果
比較可得當p=2,q=2,時,AIC值最小,因此我們選用ARMA(2,2)模型進行擬合。利用MATLAB軟件建立模型并進行預測,得到的模型為。
利用MATLAB中的lbqtest程序對擬合殘差進行Ljung-Box檢驗,檢驗結果h=0,說明殘差序列為白噪聲序列,不存在還未提取的信息,模型通過檢驗。
對已知數據上述預測模型的相對誤差,見表2。

表2 模型檢驗結果
可以看出該模型的預測精度是較高的。
利用forecast程序預測未來五年公安機關受理故意傷害案件數億次,見表3。

表3 預測結果
時間序列分析是定量預測方法之一。它包括一般統計分析(如自相關分析,譜分析等),統計模型的建立與推斷,以及關于時間序列的最優預測、控制與濾波等內容。經典的統計分析都假定數據序列具有獨立性,而時間序列分析則側重研究數據序列的互相依賴關系。后者實際上是對離散指標的隨機過程的統計分析,所以又可看作是隨機過程統計的一個組成部分。它可以在充分利用歷史數據的基礎上,簡單、快速地預測在未來較短時間內數據的變化趨勢,預測精度高,便于掌握,具有非常廣泛的應用領域。
根據過去幾年公安機關受理的故意傷害案件數,利用時間序列分析來預測未來幾年公安機關受理故意傷害案件數,可以協助公安機關制定更加有效的犯罪防范對策,有效防范相關犯罪行為的發生,這是一件非常有意義的工作。