韓一士++范英盛++李國軍++鄭滋椀
摘 要:近年來,隨著網絡通信技術的不斷發展,通訊網絡詐騙犯罪已經成為嚴重危害群眾財產安全的侵財犯罪之一,也是困擾公安機關偵查破案的一大難點問題。基于ARIMA模型,通過對2012年7月至2015年6月期間浙江省衢州市通訊網絡詐騙案件的發案量的研究,給出了浙江省衢州市通訊網絡詐騙犯罪的發案模型。經過檢驗,模型與之后時間內通訊網絡詐騙犯罪發案量吻合良好,為當地警方預防犯罪提供了指導,從而達到提高警務活動效率的目的。
關鍵詞:通訊網絡詐騙;時間序列分析;ARIMA模型;情報分析;警務活動
中圖分類號:D92 文獻標識碼:A 文章編號:1009 — 2234(2017)05 — 0101 — 03
0引言
通訊網絡詐騙作為近年來興起的一種新型犯罪,在我國迅速產生和蔓延,由于通訊網絡詐騙具有明顯的地域不確定性,發案地和犯罪嫌疑人所在地往往不在同一區域。傳統的通過對犯罪熱點進行分析來調整警務資源分配的方式面對這種新型的犯罪方式難以奏效。因此,必須從時間序列方面來探究通訊網絡詐騙犯罪的特點。本文針對浙江省衢州市2012年7月至2015年6月通訊網絡詐騙發案量建立ARIMA模型,并使用該模型對衢州市之后一段時間內的犯罪量進行預測。
本文采用的數據來自“基于大數據架構的公安信息化應用”公安部重點實驗室,使用的分析軟件為Eviews6.0。
1浙江省衢州市通訊網絡詐騙犯罪量ARIMA模型的建立
1.1ARIMA模型概述
ARIMA模型是求和自回歸移動平均模型(auto-regressive integrated moving average)的簡寫,主要用于將非平穩時間序列差分平穩后進行分析,其表達式為:
其中實參數p稱為自回歸系數,?茲1,?茲2,…?茲q稱為移動平均系數,自回歸系數和移動平均系數均為模型的待估參數。?著t為相互獨立的白噪聲序列,且服從均值為0,方差為?滓2的正態分布。ARIMA模型又可以表示為ARIMA(p,d,q),其中p為自回歸階數,q為移動平均項數,d為使時間序列平穩所作的差分次數。確定p,d,q三者的階數是ARIMA模型建立過程中所要面對的一個重要問題。
1.2浙江省衢州市通訊網絡詐騙犯罪量時間序列的平穩性檢驗及處理
在進行時間序列分析時,我們希望該時間序列是平穩的,否則往往會出現大量隨機變量,且一些實際上不相關的隨機變量之間會表現出很大的相關性。為避免這種情況出現,下面首先進行平穩性檢驗。
平穩性檢驗主要有單位根(ADF)檢驗和PP檢驗兩種方法,將浙江省衢州市2012年7月至2015年6月的通訊網絡詐騙犯罪量序列記為{Xt}。通過對{Xt}進行ADF檢驗及PP檢驗(圖略),結果顯示{Xt}序列是非平穩的,這說明通訊網絡詐騙犯罪量序列{Xt}受到多種因素制約為非平穩序列,需要對其進行處理使其變得平穩。常見的處理方法有取對數法及差分法,在這里我們將兩種方法綜合運用。
考慮到{Xt}存在異方差,我們先對{Xt}進行對數處理得到新的序列{Yt},其中Yt=1n(Xt)。下面對{Yt}進行一階差分以提取其中所含有的確定性信息,得到新的序列{Zt}。此時{Zt}即為我們想要得到的平穩序列,為確定其平穩性,再對{Zt}進行ADF檢驗和PP檢驗。
經檢驗得,在1%的置信區間下,ADF檢驗中的檢驗值為-2.639210,大于ADF檢驗值-6.263234。PP檢驗中的檢驗值為-2.634731,大于PP檢驗值-13.34858,因此拒絕序列非平穩的統計假設,序列{Zt}是平穩的,且存在一定的趨勢性,可以進行時間序列分析。
1.3浙江省衢州市通訊網絡詐騙犯罪量時間序列ARIMA模型階數的分析
為了確定ARIMA模型的階數,需要先求出序列{Zt}的樣本自相關系數(ACF)和樣本偏自相關系數(PACF)的值。
下面通過觀察表一來確定模型的階數,注意到自相關系數(ACF)和樣本偏自相關系數(PACF)都是拖尾的,1、3、4階自相關系數及1、3階偏自相關系數超過正負兩倍標準差,顯著不為0,因此估計p=3,q=4。考慮到之前進行的序列平穩性檢驗,我們進行了一次差分便得到了平穩的時間序列,因此確定ARIMA模型的步長為1。所以初步估計使用ARIMA(3,1,4)模型對衢州市通信網絡詐騙犯罪發案量的時間序列進行模擬和預測。
1.4衢州市通信網絡詐騙犯罪量ARIMA模型參數估計
由于ARIMA模型的階數決定存在著一定的主觀性,因此我們在ARIMA(3,1,4)的基礎上對階數進行小幅變動并反復擬合。通過比較R^2、AIC、SC這三個統計量的取值,我們發現疏系數模型ARIMA(4,1,(1,3,4))模型的R^2統計量約為0.74,在所有可取模型中最大。AIC和SC統計量分別約為0.35和0.72,在所有可取模型中最小。根據R^2、AIC和SC準則確定ARIMA(4,1,(1,3,4))模型為最佳模型,其表達式為
Zt=-0.763118Zt-1-0.759613Zt-2-0.737856Zt-3+0.051669Zt-4+0.106490?著t-1-0.137473?著t-3-0.95828l?著t-4
下圖為模型的擬合結果圖像
從圖中可以觀察到擬合結果良好,因此初步確定ARIMA(4,1,(1,3,4))模型為最佳模型。但是肉眼的觀察往往不具有說服力,為了提高可信度,下面對擬合結果中的參數進行檢驗。
2衢州市通信網絡詐騙犯罪量的預測
由之前估計得到的結果,衢州市通信網絡詐騙發案量的最優模型ARIMA(4,1,(1,3,4))模型的表達式為:
Zt=-0.763118Zt-1-0.759613Zt-2-0.737856Zt-3+0.051669Zt-4+0.106490?著t-1-0.137473?著t-3-0.95828l?著t-4
經過反向推導,得到原時間序列{Xt}的表達式為:
Xt=eYt-1-0.763118Zt-1-0.759613Zt-2-0.737856Zt-3+0.051669Zt-4+0.106490?著t-1-0.137473?著t-3-0.95828l?著t-4
下面使用得到的ARIMA(4,1,(1,3,4))模型對衢州市2015年7月至2015年12月通訊網絡犯罪發案量進行預測。在此之前,本文將先使用得到的ARIMA(4,1,(1,3,4))模型對2015年1月到2015年6月的數據進行檢驗,如果擬合的結果較好,則說明模型較為成功,我們可以用其對未來一段時間內的衢州市通信網絡詐騙犯罪發案量進行預測。如果模型擬合的結果不理想,則需要根據實際情況對模型進行修改。以下是我們對2015年1月至2015年6月衢州市通訊網絡詐騙犯罪發案量估計結果。
通過觀察表6我們發現,2015年1,3,4,5,6月的相對差值都小于15%,取絕對值后平均誤差約為9.2%,預測結果較好。但是2015年2月預測結果相對誤差高達71.4%,我們通過觀察發現該月的實際犯罪量發生了巨大變化,低于2015年上半年平均水平的一半。考慮到實際情況,出現這種情況的原因很有可能是當地公安機關對通信網絡詐騙采取了專項打擊,導致了發案率大大下降。因此,在統計學上可以認為2015年2月的數據為壞點,不影響預測結果。
綜上所述,ARIMA(4,1,(1,3,4))模型在短期內較好地反映了衢州市通信網絡詐騙發案數量。下面是本文使用該模型對2015年下半年衢州市通訊網絡詐騙案犯罪發案量的預測。
3結果分析與建議
本文采用ARIMA建模法進行分析,并對2015年7月至2015年12月的發案量進行了預測。建模結果R^2較大,對犯罪量變化的解釋率為73.87%,預測結果較為理想。結果顯示,2012年7月至2015年6月通訊網絡詐騙發案數量總體將呈上升趨勢。在2015年6月以后的每一個月中,通過得到的ARIMA模型,警方可以較為精確地得知將會發生的通訊網絡詐騙案件數量,這對警方調配警力提供了重要的參考依據〔6〕。
傳統意義上的犯罪預防,往往建立在經驗的基礎上,存在著大量主觀判斷,往往結果不盡如人意。而隨著統計學的發展,引入計算機工具來進行犯罪預測必將是未來的趨勢。通過研究發現,犯罪數據的變化并不是混沌不明的,而是存在著特定的規律,是可以預測的〔7〕。一些學者如陳鵬等運用聚類分析法對犯罪進行短期預測,取得了較好的效果〔8〕。希望犯罪學界對加大對統計學的關注力度,將統計學的方法引入犯罪時空預測,共同推動犯罪學的發展。
〔參 考 文 獻〕
〔1〕禹文豪.路徑單元剖分法支持下的網絡空間分析〔D〕.武漢大學,2015.
〔2〕黃超,李繼紅.犯罪預測的方法〔J〕.江蘇警官學院學報,2011,01:107-110.
〔3〕陳鵬,馬偉.層次聚類法在空間犯罪熱點分析中的應用〔J〕.中國人民公安大學學報:自然科學版,2013,01:64-67.〔責任編輯:陳玉榮〕