摘要:本文運用數據挖掘方法,以銀行自助設備實際業務中發生的流水數據作為數據來源,試圖解決自助設備備付金預測問題。通過分析自助設備影響因素,比較了神經網絡、支持向量機等預測算法,給出了自助設備預測模型。
關鍵詞:銀行自助設備 ?備付金 ?預測模型 ?探索
0 引言
隨著金融系統的不斷完善、業務的飛速發展以及信息化的普及,極大拓寬了銀行的交易渠道,但因我國支付體系與交易習慣等因素,現金業務在銀行業務中仍然占有不可或缺的重要地位,導致了現金流通量極其龐大,而利用自助設備完成的存取款交易,就占現金交易的70%以上。與此同時,金融行業作為經濟的核心,信息化水平緊跟潮流步伐,信息技術應用已經深入銀行經營管理的各個層面,數據不斷積累,使利用數據挖掘技術提升銀行經理營管理水平成為可能。如果能夠對每臺自助設備每天的現金進行預測,就能夠及時、準確、安全地向自助設備調撥資金,使設備的現金正好滿足營業需要,既保證設備正常對外服務又減少現金占用,達到減少現金管理、提高資金利用率的雙重目標。
1 數據挖掘簡述
數據挖掘綜合利用各種統計分析方法,從海量的數據中自動搜索隱藏于數據本身之中的特殊關系,并展現為用戶所理解信息的過程。從商業層面說,數據挖掘就是從海量的商業歷史業務數據中,借助查詢、分析、轉換以及其他數學建模方法,提煉關鍵性的商業輔助決策數據。它的核心是提供一種機制,將萃取的知識融入到未來的經營管理中。
數據挖掘是數據庫知識發現的關鍵步驟,它主要利用機器學習的學習算法,并融合人工智能的相關原理,實現數據挖掘。什么是機器學習?如果一個程序針對某項任務A,能夠根據經驗B進行自我完善,并且能夠用C對其性能進行測量,那么稱此程序為任務A的B學習。機器學習主要有人工神經網絡、支持向量機方法等算法。人工神經網絡是一種用模擬人類大腦神經結構進行信息處理的數學模型。支持向量機方法(簡稱SVM)在模型的復雜性和學習能力之間尋求最佳折衷,期望取得最好的推廣能力。
2 預測模型
數據挖掘本質上是一個不斷反復的過程,其核心步驟被反復執行,直到獲得比較滿意的結果。當進行特定的數據挖掘任務時,需要針對業務問題選取數據,再對選取的數據進行數據預處理,使其符合模型對數據的輸入要求;然后將數據送入模型進行分析。模型建立是一個多次重復的過程,需要仔細判斷哪個模型對問題最有效。在“數據處理”階段,首先要解決的問題是明確業務層面的目標。在“建立模型”階段,首先選擇一個比較貼切的算法,再根據實際模型的類型與特點進行實際的試驗與比較,選擇最適合于解決問題的方法進行建模;在“數據分析階段”,主要進行數據轉換,使之更好地匹配業務問題和已選擇的算法,從而使模型取得較好的效果。
本文的目的在于預測自助設備所需現金,由于自助設備現金流動自身變化規律十分復雜,不僅受環境、日期、星期、節假日、天氣等多種因素影響,而且還存在著隨機、多變和多樣等特性。在諸多因素的共影響下,導致自助設備現金流動呈現一個復雜的、非線形形態,難以用精確的數據模型進行擬合,因此在選擇模型時,采用人工神經網絡、SVM等非線性映射功能模型為主,傳統的統計方法如回歸分析、指數平滑等作為輔助方法。預測流程如圖1所示:
■
2.1 數據預處理
數據預處理主要對抽取的源數據進行相關處理并存儲,以滿足建模要求。處理主要包括數據清洗、指數平滑、壞點處理、相似日分析、規范化等。本文使用的源數據是由自助設備每天交易的流水數據所形成的時間序列。
數據清洗。數據倉庫中的數據很容易受到各種因素的干擾。因此在數據挖掘之前規范原始數據、檢測調整異常數據,進行必要的數據清洗。
首先完成數據篩選,再進行匯總合并。挑選涉及現金的交易,選取對現金預測有用信息如交易日期、交易金額、存取等;匯總合并核心是按天計算“最大需鈔量”:按照“存款為正,取款為負”的原則對流水中每條記錄按交易時間先后順序逐筆軋差,取軋差中負值絕對值最大的軋差值為該設備的最大需鈔量。匯總合并后數據示例如表1:
表1 ?最大需鈔量計算規則
■
壞點處理。因突發性事件或偶然因素,如臺風、節假日、超級客戶取現等,造成某天的交易量急劇異常增大或降低,與平常日數據存在巨大差異,這些數據稱為壞數據或噪聲數據,必須進行處理,處理方法一般采用指數平滑或臨近類似值。
2.2 自助設備現金影響因素分析
銀行網點每天的現金流量受多方面因素影響,總的來說有宏觀經濟因素和自自客觀條件。
宏觀經濟因素:指國家宏觀政策層面對銀行業造成的影響,如樓市調控政策、利率市場化、利率變化、濟濟整體走勢、股市的長跌等等。由于此類宏觀因素本身具有不確定性、并且常常不是非常清晰,因此對業務的影響處于一種模糊狀態。而自助設備現金預測不是長期趨勢預測、屬于短期預測,短期預測受宏觀因素的影響非常小,并且現金流量的規律主要隱藏于大量歷史數據中,與宏觀經濟因素關系不明顯,因此預測的關鍵是如何從海量的、雜亂的歷史數據中找出其變化規律,所以預測時暫時不考慮宏觀經濟因素。
客觀因素的影響,主要有網點類別、網點所處的位置、日期(工作日與節假日的區別)、特殊日子(如養老金發放時間)、特殊事件的影響等等。一般來說,市縣中心網點、城市網點開辦的業務種類比較多,吸引的客戶相對較多,業務量也會相應增大,現金收支量也會相應加大;另一方面,網點所處的地理環境,如城市、農村、不同地段、繁華程度等等,對業務量具有非常大的影響:在公司、企業、人流密集的區域,業務量明顯增大;而邊遠郊區、農村地區的業務量就會小很多。節假日由于客戶分流、部分業務停辦等原因,現金業務會有所減少;而節假日前后的數天一般會出現業務高峰期,現金業務會明顯增大。基于以上因素,在已有數據的基礎上,增加網點類別、節假日與工作日標識等因素。
2.3 算法比較
建立模型時,首先將經過預處理的數據分為訓練集與測試集兩個數據集。一般來說,選取數據總量的■-■作為測試集,選取■-■作為訓練集。用訓練集樣本對模型進行訓練,訓練完成后,用測試集樣本作為模型的輸出進行測試,驗證模型的準確性。
2.3.1 衡量指標
為了衡量模型預測結果的好壞,選定了幾個衡量指標。設αt是實際輸出值,■表示平均值,ci表示預測值,衡量指標如下:
相關系數:用數值衡量實際輸出值與預測值之間的相關性,其值越大說明模型性能越好,
■
平均平方根誤差:反映實際輸出值與預測值之間的差距,
■
平均絕對誤差:表示實際輸出值與預測值之差的平均值,
■
相對平方根誤差:將實際輸出值與預測值之差大于輸出值與平均值之差的情況進行放大,
■
絕對誤差:表示實際輸出值與預測值之差的總和與實際輸出值差值總和的比值,
■
平均相對誤差:表示實際輸出值與絕對誤差之比,
■■■
2.3.2 不同學習方法比較
選用1-鄰近法、SVM、神經網絡等三種機器學習方法進行預測,以1-鄰近法作為參照標桿,從預測準確度、處理速度、推廣能力等方面比較不同方法的預測效果。
預測準確度:神經網絡預測效果最為理想,SVM次之,1-鄰近法的預測效果最差。實驗數據見表2:
表2 ?不同算法預測準確度比較
■
處理速度:以一個訓練集130個樣本,測試集302個樣本的數據集為例,神經網絡比較慢,但還在可以接受的范圍;SVM速度效果比較理想。各方法運算速度如下:
1-NN:0.02 秒,時間可以忽略不計;
神經網絡(迭代600次):15.46秒,可以接受;
SVM:2.6秒,效果較好。
推廣能力:選擇一個432個樣本數據集按不同比例進行拆分,分別進行訓練與測試,對比測試結果。對比結果表明,在本案例中神經網絡推廣能力要強于1-NN與SVM,實驗數據見表3。
2.4 建模
經過以上分析,確定以自助設備每天最大需鈔量為樣本數據,以日期、星期、網點類別為影響因素,采用神經網絡算法,能夠對自助設備備付金進行預測。
3 結束語
本文論以自助設備付金預測為切入點,將數據挖掘引于銀行經營管理實際,建立了自助設備備付金預測模型,取得了較好應用效果。
銀行的備付金包含多方面內容,除網點現金外,還包括柜面現金、金庫現金、超額備付金(非現金)等,只有將影響備付金的所有因素全部進行考慮,降低銀行整體備付金,才能使節省的資金真正產生效益,因此下一步打算對全省網點柜面、金庫以及超額備付建立預測模型,并建立備付金預測系統,使之涵蓋網點、金庫、超額備付等銀行備付金的多個環節。
參考文獻:
[1]王凱平.基于函數型數據分析的數據挖掘功能研究[J].統計與決策,2011(04):162-164.
[2]苗永薈,孫英英.數據分析與挖掘在代理金融業務發展中的應用研究[J].郵政研究,2013(05):24-27.
[3]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(01):148-171.
[4]周江,王偉平,孟丹,等.面向大數據分析的分布式文件系統關鍵技術[J].計算機研究與發展,2014(02):148-160.
[5]滕少華,洪嘉銘,張巍.序列模式挖掘在警用車輛維修數據分析中的研究與應用[J].江西師范大學學報:自然科學版,2013(04):45-49.
[6]郭均鵬,寧靜,史志奇.基于區間型符號數據的群組推薦算法研究[J].計算機應用研究,2013(01):88-91.
[7]張禮,劉學軍.一種基于Gamma模型的RNA-seq數據分析方法[J].南京大學學報:自然科學版,2013(04):70-79.
[8]J.Han,G Dong, Y.Yin,Efficient ?mining of partial periodic patterns in time series database.In Proc ? Int Conf Data Engineering (ICDE'99),1999:123-135.
[9]S.Singh and P.McAtackney,Dynamic Time-Series Forecasting Using Local Approxi mation. In Proceedings of the IEEE Tenth International Conference on Tools with Artificial Intelligence,1998(03):392-399.
作者簡介:
何昆(1974-),男,湖北天門人,系統分析師,研究方向:數據分析。