張立強 遲明雨 于梅菊
摘要:本文針對美國匹茲堡市每月的盜竊犯罪數據,利用幾類常見的一階整值時間序列模型對數據進行擬合,根據AIC和BIC標準,結果表明負二項的INAR(1)模型擬合效果是最優的,最后基于負二項的INAR(1)模型給出了該組數據的預測。
關鍵詞:整值時間序列;INAR(1)模型;擬合;預測
在現實生活中,我們經常能夠遇到有關計數的數據,例如某地區某種傳染病每月的患病人數,商場中某種產品每天的銷售件數,某種珍稀物種每年的存活數,某轄區每月發生的犯罪數等等。此類數據的共同特點是均取非負整數值,因此,建模的方法與通常取連續值的時間序列有很大的不同,研究的過程中也存在著更多的困難.關于整值時間序列的研究最早始于上世紀的80年代,發展至今,大致上分為稀疏模型和狀態空間模型兩大類,其中尤以稀疏模型的研究最為普遍。最早的也是應用最廣的稀疏模型是INAR(1)模型,它是在傳統的一階自回歸模型AR(1)的基礎上將所有的乘法運算替換為二項稀疏運算“°”而得到的。近些年來,有關二項稀疏算子推廣的研究從未間斷過,隨著各種各樣新的稀疏算子的出現,越來越多的稀疏模型被提出來,更多的關于利用稀疏算子建模的問題可以參考文獻Weiβ(2008)[1]和Scotto et al. (2015)[2]。本文以美國匹茲堡市第28區每月的盜竊犯罪數據為例,擬用三種常用的一階整值自回歸模型對數據進行擬合,通過分析比較,選取擬合效果最好的模型對該數據進行預測。
1 廣義INAR(1)模型的定義及性質
2 美國匹茲堡市盜竊數據的分析與預測
在本節中,我們利用上面的三種模型去分析一組關于盜竊的數據(http://www.forecastingprinciples.com/Crime/crime%20data.htmalHYPERLINK"http://www.forecastingprinciples.com/Crime/crime%20data.htmal"),該數據記錄了從1990年1月至2001年12月美國匹茲堡市第28區每月的盜竊數量,其樣本均值為5.889,樣本方差為9.148,圖1給出了該組數據的樣本路徑圖、自相關函數(ACF)圖和偏自相關函數(PACF)圖。從圖中可以發現延遲為1的自相關系數是0.332,且自相關圖大致呈現出一種指數衰減趨勢,因此我們判斷這組數據可能來自于一個INAR(1) 過程。
首先,我們分別利用上面的三種模型去擬合該組數據,然后用條件極大似然(CML)的方法去估計模型中的未知參數(α,λ)′。為了評價擬合的效果,我們選用赤池信息準則(AIC)、貝葉斯信息準則(BIC)和觀察值與預測值之差的均方根(RMS)來進行衡量,具體結果總結在下表中。從表下我們發現模型Ⅱ的AIC值、BIC值和RMS值均最小,因此得到模型Ⅱ對該組數據的擬合效果是最好的。在時間序列里一個通常的構造預測的方法是利用條件期望,因為從條件期望出發構造出的預測具有最小的均方誤差[4]。最后我們基于模型Ⅱ將條件期望的取整作為犯罪數據的預測,預測結果如圖2所示。從圖2中我們可以看出,利用模型Ⅱ對該組犯罪數據的擬合效果是比較好的,基本上能夠刻畫數據的變化的趨勢。
3 結語
在大數據的背景下,科學的犯罪預測方法可以高效地幫助公安機關利用歷史的數據及時地預測犯罪活動的趨勢和社會治安的走向。本文以美國匹茲堡市每月的盜竊數據為例,給出了基于一階整值時間序列的犯罪數據的分析與預測.為大數據下,利用數據分析和建模技術來預測犯罪提供了一種可行的思想和方法。
參考文獻:
[1]Wei,C H. Thinning operations for modeling time series of countsa survey [J].Asta Advances in Statistical Analysis,2008,92,319343.
[2]Scotto, M.G, Wei, C H, Gouveia, S. Thinningbased models in the analysis of integervalued time series: a review [J].Statistical Modelling,2015,15,590618.
[3]Gauthier, G and Latour, A. Convergence forte des estimateurs des paramètres d'un processus GENAR(p) [J].Annales des Sciences Mathematiques du Quebec,1994,18,4971.
[4]何書元,應用時間序列分析[M].北京:北京大學出版社,2003.
基金項目:吉林省大學生創新創業訓練計劃(項目編號:201710202013)
*通訊作者:于梅菊,通化師范學院數學學院講師。