宋兆銘,嚴 理,曾欣欣
(1.四川警察學院 四川瀘州 646000;2.內江市公安局 四川內江 641100)
隨著現代數據分析手段的不斷更新與進步,公安情報的定量研究也在不斷地發展。相關研究表明,若持續跟蹤某一現象,可能會獲得更多的信息。時間序列是按時間次序排列的隨機變量序列[1]。對時間序列進行觀察、研究,找尋它變化發展的規律,預測它將來的走勢就是時間序列分析[2]。劉劍宇等(2009)采用移動平均法對某地1988-2005年吸毒人數時間序列數據進行建模與預測,結果表明,當序列數據不快速增長或下降且不存在季節性因素時,移動平均法能有效地消除預測中的隨機波動,能對未來吸毒人數的變化趨勢作出較為準確的判斷預測[3]。張姝等(2009)采用多項式曲線擬合的方法對1991-2006年全國吸毒人數時間序列數據進行建模與預測,結果表明,我國吸毒人數的發展趨勢是不斷增長的;通過預測數據與實際數據的對比檢驗,在不考慮觀測數據自身的誤差以及與模型狀態變量之間的聯系下,多項式曲線擬合全國吸毒人數時間序列的預測結果較為準確[4]。劉蕾等(2009)采用多項式曲線法對1986—2007年我國口岸交通運輸工具出入境總數時間序列數據進行建模與預測,研究結果表明其量化分析結果可直接服務于警務決策,能更好地發揮情報工作的經濟效益和社會效益[5]。陳春東等(2012)采用ARIMA模型對A市2004年8月至2007年8月盜竊案事件的歷史數據進行分析,認為ARIMA模型對盜竊案件的短期預測具有較好的效果,建議在實際應用中應進一步推廣[6]。陳鵬等(2015)分別采用ARIMA模型和指數平滑模型分別對廊坊市2012年110警情數據進行建模對比分析,結果認為ARIMA模型相對于指數平滑模型能較好地反映出治安案件變化的短期趨勢和隨機波動性特征,更適用于警情分析的短期預測[7]。綜上,當前研究者都深度使用了時間序列分析的方法來預測各類公安情報信息的趨勢,并取得了較好的效果,彌補了在公安情報分析實際工作中主要依賴經驗分析的不足。
刑事類警情數量的高低是衡量社會治安形勢總體分析評價的重要標準之一[7]。雖然刑事類警情具有隨機性極強的特點[6],但同時上述前人研究也表明科學定量地分析,是可以制定相應的警情預警機制與社會治理策略,從而達到最佳的社會治理效益。因此,本研究在依據刑事類警情特點以及前人相關研究的基礎上,利用2015年1月至2017年12月某市刑事類警情數據[8],探討ARIMA模型在刑事類警情建模和預測中的應用,以期能探究某市刑事類警情的變化規律,并在此基礎上合理地優化警力配置,調整警力部署尤其是警力的投量,努力使警力覆蓋的時段與刑事類警情高發的時段相吻合,從而提高與違法犯罪的碰撞幾率,實現警務效能的最大化,并為探究“大數據驅動下的預測警務創新實踐”[9]提供實證方法。
ARIMA模型全稱為求和自回歸移動平均(autoregressive integrated moving average)模型,簡記為ARIMA(p,d q)模型[2]。ARIMA模型是由Box和Jenkins于70年代初提出的時間序列預測方法,所以又稱Box-Jenkins模型[10]。ARIMA模型以時間序列的自相關分析為基礎,將非平穩時間序列轉化為平穩時間序列,然后將因變量僅對它的滯后值以及隨機誤差項的現值和滯后值進行回歸所建立的模型。因此,ARIMA模型在預測過程中不僅考慮了某一現象在時間序列上的依存性,又考慮了隨機波動的干擾性,對于某一現象運行短期趨勢的預測準確率較高,是應用廣泛的時間序列預測方法之一[6][7]。
ARIMA模型根據原序列是否平穩以及回歸中所含部分的不同,又可細分為:p階自回歸模型(AR(p))[2]、q階移動平均模型(MA(q))[2]、自回歸移動平均模型(ARMA(p,q))[2]以及ARIMA(p,d,q)過程四大類[2]。
1 p階自回歸模型(AR(p))
稱平穩序列服從于AR(p)模型,即:在一個p階自回歸模型中,序列中的每一個值都可以用它之前p個值的線性組合來表示,模型表達式如下:

其中,xt是時序中的任一觀測值,δ是序列的均值,Φ是權重隨機擾動,μt是白噪聲序列 (均值為0,同方差,無自相關);AR(p)平穩的充要條件是特征根都在單位圓之外(均值、方差和協方差都是有限的常數)。
2 q階移動平均模型(MA(q))
稱平穩序列服從于MA(q)模型,即:在一個q階移動平均模型中,時序中的每個值都可以用之前的q個殘差的線性組合來表示,模型表達式如下:

其中,μt是白噪聲過程;MA(q)是由本身μt和q個μt的滯后項加權平均構造出來的,因此它是平穩的,其平穩性與系數無關。但是,經常需要將AR模型表示為MA模型,反過來也一樣,這稱為可逆性。MA(q)可逆性(用自回歸序列表示μt):

MA(q)可逆條件為θ(L)每個特征根絕對值大于1,即全部特征根在單位圓之外。
3自回歸移動平均模型(ARMA(p,q))
AR(p)與MA(q)兩種方法的混合即ARMA(p,q)模型,稱平穩序列服從于ARMA(p,q)模型,同時序列中的每個觀測值用過去的p個觀測值和q個殘差的線性組合來表示,模型表達式如下:

4求和自回歸移動平均模型ARIMA(p,d,q)
ARIMA(p,d,q)模型意味著時序被差分了d次,且序列中的每個觀測值都是用過去的p個觀測值和q個殘差的線性組合表示的,預測是“無誤差的”或完整的,來實現最終的預測。
差分算子表達式如下:

對d階單整序列表達式如下:

則是平穩序列,可對建立 ARMA(p,q)模型,所得到的模型稱為-ARIMA(p,d,q),由此轉化為AMRA模型。

綜上公式可以看出,ARIMA模型實際上就是差分運算與ARMA模型的組合[2]146,即:可以通俗地理解為ARMA模型升級版,由于序列不平穩,差分后成了ARMA模型。這是因為任何一個時間序列的波動都可以被視為同時受到了確定性因素和隨機性因素的綜合作用。
ARIMA建模程序如下:
1.獲取被觀測數據,畫出序列的時序圖,觀察序列是否平穩。
2.若平穩序列的偏相關函數是截尾的,而自相關函數是拖尾的,可斷定序列適合AR(p)模型;若平穩序列的偏相關函數是拖尾的,而自相關函數是截尾的,則可斷定序列適合MA(q)模型;若平穩序列的偏相關函數和自相關函數均是拖尾的,則序列適合ARMA(p,q)模型;若為非平穩序列要先進行d階差分運算后化為平穩序列,則序列適合ARIMA(p,d,q)模型[11]。
3.對得到的平穩時間序列分別求其自相關系數(ACF)和偏自相關系數(pACF),在初始估計中選擇盡可能少的參數前提下,通過對ACF圖和pACF圖的分析得到最佳的識別模型參數(階層p和階數q),從而得到ARIMA模型。
4.模型診斷,證實所得模型與所觀察的數據特征是否相符,即:殘差序列是否為白噪聲序列,若是則可用來預測,若不是則需重復第3步過程,進一步改進模型。
5.利用已通過檢驗的模型進行預測分析。鑒于上述分析過程,可以構建ARIMA建模流程圖[12],如圖1所示。

圖1 ARIMA建模程序圖
在現實中,由于刑事類警情的發生存在各類的隨機性因素,因此建立一個完美的時間序列模型是比較困難的,上述ARIMA建模思路可以提供一個較為有效的實現路徑。本研究通過對某市2015年1月至2017年12月刑事類警情數據進行搜集,結合R軟件tseries和forecast程序包[13],依據上述建模過程對其進行建模分析,具體如下:
從圖2可以看出2015—2018年某市刑事類警情整上呈下降的趨勢,并且自相關圖里自相關系數沒有快速的減為0(一般認為自相關系數低于2倍標準差即圖中藍色虛線一下時即為0)[2],而是呈現出拖尾的特征,故判斷序列為非平穩序列,應考慮差分轉化為平穩序列。

圖2 某市刑事類警情時序與自相關、偏自相關圖
從圖3可以看到,1階差分以后序列變為平穩序列,且自相關圖顯示自相關系數在滯后1階后就快速的減為0[2]。同時,使用ADF單位根檢驗,結果顯示p-value=0.01163,進一步表明序列經一階差分后已經實現平穩。

圖3 差分后某市刑事類警情時序與自相關圖
采用auto.arima()函數實現最優ARIMA模型的自動建模[12]。建模結果如圖3:

圖4 ARIMA模型的自動建模結果圖
從圖4輸出結果可以看出,auto.arima()函數自動選取的最優模型是ARIMA(0,0,0)(0,1,1)[12]模型,模型估計表達式為:

為證實所得模型確實與所觀察到的數據特征相符,ARIMA模型參數檢驗包括兩個檢驗:(1)參數的顯著性和殘差的正態性檢驗。參數的顯著性檢驗是用估計出的系數除以其的標準差(se)得到的商與T統計量5%的臨界值(1.96)比較,商的絕對值大于1.96,則拒絕原假設,認為系數顯著的不為0,否則認為系數不顯著。畫出殘差的qq圖即可判斷殘差的正態性,即:qq圖中殘差基本完全落在45°線上即為符合正態性假設。(2)白噪聲檢驗。白噪聲檢驗也稱為殘差的無關性檢驗,指此序列即都是隨機擾動,無法進行預測和使用,即:殘差(=估計值-真實值)應為不相關的序列[2]。常用LB統計量來檢驗殘差(q=n(n+2)∑(ρ/(n-k)))。

圖5 ARIMA自動建模殘差qq圖
從圖5畫出的qq圖(點大多落在圖中的直線上)和LB檢驗(p-value=0.9943)的結果來看,殘差符合正態性假設且不相關,模型擬合數據比較充分,可以用來進行下一步預測。
通過forecast()函數,使用最優模型ARIMA(0,0,0)(0,1,1)[12]做預測,并依據真實值來進一步判定模型的預測效果。

圖6 ARIMA最優模型預測圖
由于某市公安局官網數據的更新,本研究僅對2018年1月的刑事類警情預測值與真實值作比較。其中,刑事類警情預測值為290次,真實值為315次,落在了95%的置信區間之間,說明預測值在一個合理的范圍之內(圖6)。
刑事犯罪隨著經濟社會的發展而增長,但同時刑事類警情數量與群眾安全感滿意度也密切相關。近年來,某市公安局緊緊圍繞打造“全國平安示范區目標”,全面加強組織領導,集中力量攻堅克難,推動了一系列 “平安某市”建設的舉措。主要有:(1)強化技防建設。加強重點場所部位技術防范,擴大技防覆蓋面,2015年實現城鄉“天網”全覆蓋,城鄉“天網”監控點位達4000多個,加上社會力量視頻監控資源,全市視頻監控探頭達29000多個,并實現重點場所視頻監控探頭與公安監控中心聯網運行。(2)推進網格化服務管理,推進基礎工作信息化。堅持“全警采集、全警錄入”原則,加強對接處警、巡邏盤查、案事件、“一標三實”和實名制信息等基礎工作的采集,全面加快了市級平臺建設和農村網格覆蓋速度并實現全覆蓋。落實實有人口管理,特別是重點人員“人來24小時內登記、人走及時注銷”要求,著力提升發現和預防犯罪能力。(3)創新反恐防暴及街面治安防控新機制[14]。把全市城區劃分為25個巡區,確定201條必巡線、181個必巡點和88個巡邏車輛經常性停靠點,設置159個巡更點,24小時屯警街面,且由指揮中心直接調度扁平化指揮[9],構建了一警多能、諸警聯動,點、線、圈緊密協同的立體化街面防控新機制,實現了一級接處警。同時,雖然刑事類警情具有隨機性,且從圖1某市2015-2018刑事類警情的變化看也確實存在一定的波動,但從其整體呈下降的趨勢來看,是可以證明某市公安局上述措施確實提高了“見警率”“管事率”,有力地維護了某市社會政治穩定和治安大局平穩。
綜上所述,可以得到以下結果結論:
(一)時間序列ARIMA模型算法擬合度較高,選取的最優模型ARIMA(0,0,0)(0,1,1)[12]能較好地擬合既往時間段某市刑事類警情的變化;對某市2018年1月的刑事類警情實證預測表明,其預測值與真實值的擬合度在短期內較高(預測值290次,真實值315次),預測偏差較小(95%的置信區間),其預測趨勢與某市刑事類警情的實際變化趨勢一致。這表明對刑事類警情的分析,ARIMA模型有效,可以應用于刑事類警情的情報分析與預測。
(二)某市2015-2018刑事類警情整體上呈下降趨勢。這可能與近年來某市公安局緊緊圍繞打造“全國平安示范區目標”,推動了一系列 “平安某市”建設的舉措有關。
(三)盡管ARIMA模型對于理解、預測刑事類警情是有效的,但是ARIMA模型都用到了向外推斷的思想,即:它假定未來的條件與現在的條件是相似的,比如:它依據2017年的刑事類警情就認為2018年及以后的刑事類警情會與2017年一樣穩定,但事實并不是這樣,諸如警務活動主體、對象和環境的情形與變化等都可能改變序列中的趨勢和模式。因此,ARIMA模型是利用歷史數據來挖掘有用的信息來預測未來的趨勢,是一種直觀分析,如果時間跨度越大,其不確定性就會越大,僅適合短期預測使用。