隋曉雪+彭韋一+劉魚遷


【摘 要】本文運用數據挖掘、幾何知識、統計學等知識對ATM應用系統交易狀態的業務量、交易成功率、交易響應時間三個指標進行數據分析,提取了ATM交易狀態的特征參數。借助MATLAB、R語言、SPSS與Excel等辦公軟件,對ATM交易狀態特征進行分析。運用K-Means聚類分析、Pearson相關性分析、建立logistic回歸模型、決策樹預警模型,進一步分析了交易數據分布存在的特征,建立相應預警模型,對該交易系統應用可用性異常情況做出及時有效的預警。為ATM應用系統的規范化管理提供了參考。
【關鍵詞】K-Means聚類分析;Pearson相關性分析;logistic回歸分析;決策樹
一、問題的提出與分析
隨著銀行卡業務的快速發展,自助設備在銀行對外服務中的作用日漸突出。作為自助現金服務的主要渠道,ATM機能夠為客戶提供24小時不間斷便捷服務,其承擔的業務是銀行服務的有效延伸。因此,如何提高ATM應用系統運行效率便成為本課題分析研究的主要工作。本題旨在通過對下設分行的交易信息進行匯總統計、數據分析,來捕捉ATM應用系統的運行情況以及時發現異常或故障,并及時發出警報,以保證系統正常高效的運行。
針對問題一(選擇、提取和分析 ATM 交易狀態的特征參數):
由于所給各分行交易信息情況以分鐘計,數據量過于龐大,軟件運行困難,為簡化問題,暫時先考慮每小時銀行ATM交易狀態特征分析與異常檢測。
為防止異常值在數據分析和解算結果中造成顯著的變化,提高數據的精確性,首先提取異常值。用R語言實現K—means算法做聚類分析,將離群異常值剔除,并將異常交易數據標記為1,非異常數據標記為0,進一步尋找參數與ATM交易狀態的特征參數;然后,利用SPSS軟件做Pearson相關分析,得到相關系圖表;然后通過查閱相關資料,選擇盡可能相關的特征參數,用logistic回歸模型提取特征參數,分析ATM交易狀態。
針對問題二(設計一套交易狀態異常檢測方案,對該交易系統的應用可用性異常情況及時預警):
為能確保ATM交易系統正常運行,對其可能出現的異常交易進行及時監控、檢測并報警,我們需建立一種預測模型。
首先,我們用Excel畫出交易數據時間序列圖,分析數據規律,找出工作日與非工作日。再用SPSS對所有交易進行聚類,畫出系統聚類圖——分類樹狀圖,即將交易數據分為不同的類別,即分為節假日高峰期、節假日低谷期、工作日高峰期、工作日低谷期進行分析。將1-3月份交易數據作為訓練數據,用4月份交易數據作為預測數據集,使用訓練數據建立決策樹模型,使用決策樹分別對預測數據集進行異常值檢測,即將每個類別的每種方法的真實異常值和預測異常值進行對比,得到每種模型的錯誤率。最終設計出最佳ATM異常檢測方案。
二、模型的建立與求解
(一)檢測異常交易數據
查閱相關資料,本文嘗試利用基于距離的方法將孤立或者沒有足夠多鄰居的數據作為異常。利用MATLAB實現K—means算法初步顯示異常數據值,進一步利用R語言對各數據值做聚類分析以提取異常點,該算法以劃分為基本出發點,對給定的數據集,利用分裂法構造k個分組,每一個分組就代表一個聚類,通過反復迭代的方法改變分組,使得同一分組中的數據記錄越來越近,不同分組中的數據越來越遠,從而達到提取異常值的目的。
(二)ATM交易狀態特征參數的確定
本文先對已知的三個指標(即交易量、交易成功率、交易響應時間)和異常交易進行相關性分析,并且盡可能去尋找能夠更好描述交易狀態的特征參數,對這些參數用logistic回歸模型進行提取和分析,最終確定衡量ATM交易狀態的特征參數。
(三)預警模型的建立
利用系統聚類法開始將n個樣品各自作為一類,并規定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類,計算新類與其他類的距離;重復進行兩個最近類的合并,每次減少一類,直至所有的樣品合并為一類。本文利用SPSS將數據分為工作日進和非工作日(接下來都以非工作日為例,其他情況類似進行分析),通過系統聚類法找到業務低谷時間和正常業務時間段。
進一步利用決策樹建立預測模型,將1-3月份交易數據作為訓練數據,利用SPSS對1—3月份數據建立決策樹模型,從根節點開始進行不斷地劃分,進行剪枝,不斷改變劃分節點的純度,以確定最佳劃分的標準。最后用4月份交易數據作為預測數據集,將4月份交易數據應用先前建立的決策模型,進行異常值預測,最終確立決策樹模型。
三、模型求解與結果分析
SPSS運行下的決策樹預測模在導入四月份的交易數據后,對其異常交易進行預測,得到如下預測結果:
在以上解決過程中,我們將1—3月份交易數據作為訓練數據建立決策樹模型,而4月份交易數據作為預測數據,對異常交易值進行預測,進一步驗證模型的準確性,實用性,發現其無論是在工作日或非工作日,低谷時間段或是正常時間段,預測值與已觀測數據值達到高度的一致性,其正確百分比達到95%.而預測標準誤差僅0.005,如下表:
參考文獻:
[1]李春林,陳旭紅,應用多元統計分析,北京:清華大學出版社,2013年
[2]許汝福,Logistic回歸變量篩選及回歸方法選擇實例分析[J],中國循證醫學雜志,2016(11):1360—1364
[3]V.N.Vapnik,The natural of statistical learning theory,Springer,New York,1995
[4]王艷兵,趙銳,姚青,基于可變精度的ID3改進算法[J],計算機工程與設計,27(14):2683—2685,2006年
[5]劉鳳芹,K—means聚類算法改進研究,山東師范大學碩士學位論文,2013年