劉雅卉 滕志霞



摘要 針對現有ATM機故障識別機制存在的診斷速度慢及多種故障場景下的診斷精確度低的問題,提出了一種基于CART決策樹的隨機森林方法完成對ATM機的故障診斷。該方法對ATM機交易數據集進行交易特征提取,針對不同故障情景將數據分為正常一異常二分類,通過Bootstrap重抽樣,建立多棵CART決策樹,形成隨機森林模型,實現ATM機故障的快速診斷。且隨著故障數據的增加,其自動診斷模型可以自動更新完善。通過ATM機實際故障數據,驗證了該方法的有效性。同時,通過對隨機森林中的決策樹數目的對比分析,得出了該方法模型的最優設計結構。實驗結果表明,該方法具有0.991的準確率,并且具有診斷速度快、操作簡單、魯棒性強的優點。
【關鍵詞】集成學習 隨機森林 CART決策樹交易特征選擇 故障診斷
目前,銀行業發展的一個重要方向是發展無人銀行、提高ATM類設備的應用范圍。伴隨ATM的種類、數量,業務交易量的急速增長,如何準確快速地識別ATM設備的異常交易狀態,保障ATM設備的運行服務狀態,已經成為擺在ATM運營部門面前急需解決的難題。
應用于銀行業的ATM設備監管系統主要包括兩種類型:
第一種類型是ATM設備供應商隨機器附送的監控軟件,該種系統可針對該種設備進行較為簡單的監控狀態,需要安排專門的管理人員進行手動監控處理,而且該軟件運行在銀行主機的UNIX系統上,使用、管理和控制難以實現;第二種類型是設備供應商針對自身定制開發的監控管理軟件,這種軟件系統較好的考慮自身客戶的需求,使用較為簡單易用,從設備的底層系統獲取需要的管理數據,因此狀態監控準確,具有很好的效果。缺點在于該種軟件也只支持特定品牌的ATM設備,缺乏通用性。在此基礎上,銀行需要投入大量資金進行定制開發,才能將符合自身需求的管理流程融入進系統,其他設備也才能接入。
ATM設備在銀行業廣泛應用后,對ATM設備的故障監控處理提出更高的要求,而目前的ATM設備監控只實現了ATM設備狀態的監控。廣泛調研、分析可知,銀行在ATM設備故障檢測監管方面存在以下問題:人工管理ATM設備,效率低下;設備管理方式落后,高故障率影響其運行成本;人工方式維護,難以進行遠程控制;銀行顧客遇到操作難題和故障問題不能得到及時有效的幫助;ATM的對賬功能較為簡單;無ATM設備管理系統導致配鈔不合理;對ATM服務提供商難以量化考核。
評價ATM設備交易狀態是否正常可以簡化認識為一個分類的過程。本文在分析現實需求的基礎上,采用商業銀行的交易數據進行數據挖掘,提取交易狀態特征,用決策森林的方法快速準確地對交易狀態進行預警分級,在降低銀行運行成本和通用性的基礎上,提高ATM設備的使用和運行效率。RF在處理數據集上有獨特優勢,用它分析和評價ATM交易狀態可以避免一般數學方法容易陷入過擬合現象的問題。RF還具有良好的抗噪聲能力,從而能提高結果的有效性和準確性。
1 RF算法原理
RF算法結合了Bremam提出的思想和Ho闡述的方法。它是一個由多個決策樹( DecisionTree,DT)組成的分類器。而這些DT采用隨機產生的方法且非關聯,即隨機決策樹( RandomDeclsion Tree.RDT)。待測數據進入RF后就讓每一棵DT分類,得到的最終結果為DT中分類結果最多的類。RF輸出的類別由個別樹輸出類別的眾數確定。
1.1 RF算法優點
(1)與其他數據集相比,其在算法上有很大的優勢;
(2)它能夠處理高維度數據且不需要進行特征選擇,而且在訓練完之后,可以得出“哪些維度比較重要”的結論;
(3)創建隨機森林,使用無偏估計;
(4)能檢測到維度間的影響;
(5)實現過程簡單,且易于使用并行化方法處理。
1.2 隨機森林基本原理
當一個新輸入的樣本進入森林后,森林中的決策樹逐一對其進行判斷,觀察其應該屬于哪一類,然后預測這一樣本是被選擇次數最多的那一類。創建每一棵決策樹的過程主要包括采樣與完全分裂。首先,RF對輸入的數據分別進行有放回的行采樣和列采樣。輸入樣本與采樣樣本個數相等,使得在訓練中每一棵樹的樣本都不會是所有的樣本,因此相對不會容易出現過擬合現象。然后,從N個維度中選取n個樣本,進行列采樣,其中(n
RF本身的算法邏輯使用的是Bagging算法,具體的算法流程如下(表示樣本的屬性數,滿足O
2 隨機森林在ATM交易狀態特征評價中的應用
2.1 模型設計思路
本文采用隨機森林算法對ATM機交易狀態進行分析和評價。上節所描述的4個特征參數為RF輸入的判別因子,表示為四維輸入變量,并以此擬定模型設計思路。首先提取相關數據樣本的訓練數據和測試數據建立模型,并對數據進行相關處理。然后用訓練數據集對RF進行訓練。最后利用得到的模型預測相應數據的分類結果。
本文所制定的模型設計思路如圖1所示。
2.2 實例分析
2.2.1 數據采集
本文數據集來源于商業銀行總行數據中心。商業銀行總行數據中心為了實時掌握全行的業務狀態,每分鐘對各分行的交易數據進行匯總。匯總信息包括交易量、相應時間、成功率三個指標。監控系統通過對每家分行的匯總統計信息做數據分析,來捕捉整個前端和后端整體應用系統運行情況以及時發現故障或異常。本文選取四個常見故障情景作為判別依據
(1)分行測網絡傳輸節點故障,前端交易無法上傳請求,導致業務量陡降;
(2)分行測參數數據變更或配置錯誤,數據中心后端處理失敗率增加,影響交易成功率指標;
(3)數據中心后端處理系統異常(如操作系統CPU負荷過大)引起交易處理緩慢,影響交易相應時間指標;
(4)數據中心后端處理系統應用進程異常,導致交易失敗或相應緩慢。
2.2.2 交易特征參數提取
針對商業銀行四個月的交易量、交易成功率、相應時間的數據進行分析和提取,可得出交易狀態特征參數。根據模式分類的方法和思想,本文對ATM機交易狀態特征參數進行評價和分類,提取了下列四個主要特征參數作為評判ATM交易狀態的依據(表1):
(1)相對差值,即:下一分鐘的交易量.上一分鐘的交易量。含義是下一分鐘交易量變化程度,刻畫了交易量的變化幅度,陡降視為不正常。
(2)成功率。描述交易成功率,判斷是否發生失敗率增加的現象。
(3)單位響應時間。ATM機每個交易量的反應時間。
(4)交易量。除去時間因素影響,是否具有正常交易的能力。
2.3 創建RF分類器
在IBM SPSS Modeler開發環境下使用軟件的建模節點自動構建RF模型。
為便于后期預測方法間的比較,將數據隨機分為兩組:50%數據用于訓練構建模型,余下50%數據作為測試數據檢驗模型。從隨機森林輸入參數中除了自身訓練樣本是關鍵因子外,還有決策樹的棵樹較為重要。因為隨機森林中包含決策樹的棵樹對其泛化性能有一定的影響。本次仿真測試我們選取決策樹棵樹為50、100、150、200、500進行檢驗。
2.4 仿真測試
使用IBM SPSS modeler建立數據流模型。我們將最大樹深度定制值設為5,可以防止決策樹因分叉過多而導致判別錯誤率上升而分類目標中的雜質測量方式采用模型構建內容中介紹的計算Gini系數的方式。過度擬合防止集合設為30%。
在中止規則中,選擇使用絕對值:父分支中的最小記錄數定為100;子分支中的最小記錄數定為10。使用絕對值最為中止規則的判定,可以使樹的結構不會過于冗雜,使所建立的模型盡量簡單。設定最小雜質改變為0.0001,即指定了樹中新的分區所需要的最小雜質改變量。若最佳分區引起的雜質改變量低于指定值時,則不會繼續分割。
建立得到的流圖如圖2。
待運行模型之后,在運行成功的RF節點處連接表格和分析兩個節點,可直觀地觀測模型對交易狀態統計數據的處理情況。預測變量重要性是以Gini指數為依據計算的,該值越大就越先作為分類屬性分裂C&R二叉樹的節點,如圖3所示。
3 結果分析
3.1 模型輸出結果分析
隨機森林算法選取500棵樹,訓練樣本和測試樣本占比為( 0.5,0.5),節點隨機分類特征數量設為4,通過分析,模型輸出結果如表2。
從表2中可以看出平均誤差是O.l%,說明模型的整體分類效果十分理想。隨機森林的錯判率隨著決策樹的棵樹的增加不斷的減小,最終收斂為一個極小的定值。
通過對交易狀態的四個特征參數進行數據分析,預測出ATM交易狀態情況,并立即發出預警信息,有效及時地解決ATM機故障問題。本文是基于四種常見的故障場景進行分析,為提高模型的預測性能,在實際應用中,應該盡可能收集ATM機更多的歷史故障和正常數據,使得模型盡可能地覆蓋所有情況的特征,并且可以定期對模型進行更新,不斷提高模型的適用性和魯棒性。
3.2 算法比較
為體現本文所采用的基于CART樹的隨機森林算法的優越性,選取幾種已有預測分類算法建立故障診斷模型,并與本文方法進行比較。當Ntree大于100棵時,隨機森林的準確率趨近于0.991。因此取.0.991作為隨機森林的預測準確率。
本文采用ID3、C4.5、CART、GBDT四種算法和RF算法進行算法間的比較,將從模型準確率和運行時間對各類算法進行比較。其中準確率是最常見的指標,指的是被正確分類的樣本數占總樣本數的比例,準確率越高的模型性能越好;而模型的運行時間則能保證故障識別的及時有效性。如表3所示。
根據測試結果顯示,ID3和C4.5的分類效果沒有太大差異,分類的準確率處于比較低的水平。其他三種算法,在訓練時間上,CART要明顯優于其他種,是因為RF和GBDT都運用了集成的思想,訓練時間要比訓練一棵樹久;在準確率方面,RF和GBDT都比CART樹好,由此可見用多棵樹做判斷提高了判斷準確率;同樣是運用集成思想的RF和GBDT,RF在分類效果上要優于GBDT。因此可以得出結論:在數據集小、屬性數目少的情況下,可以優先選用CART樹算法;而在數據集大、屬性數目多的情況下,應該使用RF分類算法。
4 結束語
本文提出一種基于CART樹的隨機森林故障預警模型,并將其應用于ATM機故障識別中。與單棵樹相比,隨機森林算法運用集成學習的方法具有需學習快速、不需要剪枝的優點。同時,隨著數據的增多,通過該方法建立的故障診斷模型可以自動的更新完善,準確率也在不斷地提升。實踐結果證明,該方法可以及時有效的診斷ATM機交易故障,且其決策樹棵樹為100時,既可以保證診斷準確率,也可以保證診斷效率。鑒于該方法具有較多的優點和較好的應用前景,以后將此方法用于研究和分析更大量、更多故障場景的ATM交易數據,并采用相應的隨機森林和神經網絡結合的方法能夠處理更加復雜的ATM機故障監測預警方面的問題。
參考文獻
[1]張海燕,劉巖,馬麗萌等,決策樹算法的比較與應用研究[J].華北電力技術,2017 (06).
[2]姚旭,王曉丹,張玉璽等.特征選擇方法綜述[J].控制與決策,2012 (02).
[3]李慧銘.銀行ATM軟件項目管理及控制的設計與實現[J].成都:電子科技大學,2013.
[4]張治斌.基于SPSS Modeler的數據挖掘過程解析[J].數學技術與應用,2017 (09).
[5]郭健.基于特征值提取與神經網絡的抽油井故障診斷[J],電子設計工程,2014(01).
[6]張希翔,趙歡.基于隨機森林的語言人格預測方法[J].計算機工程,2017 (06).
[7]陳蘇雨,方宇,胡定玉,基于隨機森林的地鐵車門故障診斷[J].測控技術,2018 (02).
[8]張濱,彭其淵,劉帆洨.基于并行C4.5的鐵路零散白貨客戶流失預測研究[J].計算機應用研究,2018 (02).
[9]張靜,廖逸文.ATM機交易狀態預警模型的建立[J].電子設計與軟件工程,2017 (12).