倪賢卿, 梁華卓, 馮健鋆, 高卓
(1.華南農業大學珠江學院經濟管理學院, 廣東 廣州 510900;2.華南農業大學珠江學院信息工程學院,廣東 廣州 510900;3.華南農業大學珠江學院基礎部, 廣東 廣州 510900)
近年來隨著經濟的高速發展,商業銀行業務徒增,ATM機應用系統扮演著重要角色。相比銀行的柜臺服務,ATM機具有無人看管,業務量大的特性,因此關于ATM機交易狀態的特征分析和異常檢驗的研究就極具必要性[1],對ATM機交易的異常數據進行及時、準確的預報和報警是一項十分重要的事情。
商業銀行的ATM應用系統包括前端和后端兩個部分。前端是部署在銀行營業部和各自助服務點的ATM機(系統),后端是總行數據中心的處理系統。前端的主要功能是和客戶直接交互,采集客戶請求信息,然后通過網絡傳輸到后端,再進行數據和賬務處理[2]。持卡人從前端設備提交查詢、轉賬和取現等業務請求的任意一個,到后臺處理完畢,并將處理結果返回到前端,通知持卡人業務處理最終狀態,我們稱這樣完整的一個流程為一筆交易[3]。
商業銀行總行數據中心監控系統對各分行的交易信息進行匯總統計。匯總信息包括業務量、交易成功率、交易響應時間三個指標。其中,業務量表示每分鐘總共發生的交易總筆數;交易成功率表示每分鐘交易成功筆數和業務量的比率[4];交易響應時間表示一分鐘內每筆交易在后端處理的平均耗時,ms。
交易數據分布存在以下特征:工作日和非工作日的交易量存在差別;一天內,交易量也存在業務低谷時間段和正常業務時間段。當無交易發生時,交易成功率和交易響應時間指標為空。
商業銀行總行數據中心監控系統為了實時掌握全行的業務狀態,每分鐘就對各分行的交易信息進行匯總統計,所以異常檢測也應該一分鐘檢測一次,這樣會使匯總統計更加合理[5]。我們對每一分鐘求其置信區間:根據正態分布特性,可以選取±2σ或±3σ作為其置信區間,也就是拉依達準則法,在置信區間外即判斷為數據出現異常;如果選取±2σ作為其置信區間,每一個數據落入這個范圍的概率只有95%,排除了過多的正常值;如果選取±3σ作為其置信區間,每一個數據落入這個范圍的概率有99.7%,相比之下,選擇±3σ作為置信區間合理性更高[6]。
拉依達準則:假設把被測量進行等精度測量,獨立得到 x1,x2,…,xn,算出其算術平均值及剩余誤差 vi=xi-(i=1,2,…,n),并按貝塞爾公式算出標準差σ,若某個測量值Xb的剩余誤差vb(1≤b≤n),滿足|vb|=|xb-|>3σ,則認為xb是含有較大誤差值的壞值,應予剔除。
我們利用拉依達準則法剔除異常值的思想來檢測異常值,也就是說,在正常情況下,數據都會落在±3σ的范圍內,如果有數據落入在這個范圍之外,則認為小概率事件發生,在現實生活中,我們認為小概率事件是不會發生,所以把在這個在范圍之外的數視為異常值,如果系統檢測到這樣的數就進行報錯。以下圖為交易量處理異常值之后的數據直方圖,由圖1可知,數據基本都在正態分布曲線內,此時均值為597.56,標準差為492.614,由±3σ作為置信區,可知,正常值的范圍為(-880.282~2075)。

圖1 處理異常值后交易量數據直方圖
交易量異常檢測代碼如下:



圖2 處理異常值后成功率數據直方圖
對于成功率的異常檢測,我們采用的方法和檢測交易量的方法一樣,圖2為成功率直方圖,其均值為0.947 3,標準差為0.025 6,對成功率求置信區間。選取±3σ,只求其下限,不考慮上限,成功率越高越好,在其下限外即判定該交易成功率出現異常。
檢測代碼如下:


對于響應時間的異常檢測,我們采用的方法和檢測交易量的方法一樣,下圖3為響應時間第一次異常數據處理后的直方圖,發現還有一小小部分在正態分布曲線之外,于是,我們進行了第二次處理[7]。如圖4所示,此時,其均值為109.51,標準差為23.453,對響應時間置信區間。同上選取±3σ,只求其上限,不考慮下限,響應時間越低越好,在其上限外即判定該響應時間出現異常。

圖3 第一次處理異常值后響應時間數據直方圖

圖4 第二次處理異常值后響應時間數據直方圖


如果僅有交易量異常,給出藍色警報;如果是響應時間出現異常,給出黃色報警;如果是成功率出現異常,給出紅色報警。
商業銀行總行數據中心監控系統通過對每家分行的匯總統計信息做數據分析,來捕捉整個前端和后端整體應用系統運行情況以及時發現異?;蚬收蟍8]。因此,對交易量,成功率和響應時間這三個量進行異常檢測并給以及時預報和報警顯得尤為重要,這也為我們后續研究提供了方向。