盧美琴 吳傳威



摘要:銀行同業對高端客戶的爭奪日趨激烈,互聯網金融憑借其高收益的優勢也對高端客戶形成分流,因此建立貴賓客戶流失預警模型對于銀行的生存發展意義重大。結合我國商業銀行業務現狀,綜合運用決策樹分析、支持向量機、貝葉斯網絡等方法,分別創建流失預警子模型,再利用神經網絡對三個預警子模型的結果進行組合,生成組合預測模型。實證表明,組合后的模型在準確率、覆蓋率、命中率、提升度等指標上都有明顯優化。
關鍵詞:大數據;組合預測;貴賓客戶;客戶流失
引言
隨著國內外經濟環境出現重大變化,我國商業銀行的經營形勢發生著天翻地覆的變化。金融脫媒和互聯網金融造成銀行的風險和營運成本上升,利率市場化導致銀行利差大幅縮窄,M2增速下降引發銀行資產增速下降。信用風險、息差縮窄、資產增速下降對銀行利潤造成了重大影響。越來越多的商業銀行將經營重心轉向零售業務,高端個人客戶成為競爭焦點。經濟新常態和監管趨嚴背景下,大力發展零售業務成為眾多銀行的必然選擇。
統計分析表明貴賓客戶在銀行業務中的作用符合帕累托定律,即20%的貴賓客戶起到了個人客戶總體80%的利潤貢獻度。貴賓客戶具有綜合維護成本低、貢獻度大等特點,對銀行的經營起到至關重要的作用,是銀行業務發展和收入的重要來源。然而,隨著供給側改革升級,貴賓客戶對金融服務的要求進一步提高,互聯網金融企業的沖擊等因素導致銀行貴賓客戶群體的粘性下降,流失傾向變強。客戶流失在增加營銷新客戶費用的同時還會對企業形象造成負面影響。客戶流失對銀行業利潤有著重大的影響,研究表明客戶流失率減少百分之五,利潤卻可以增長三到八成。挽留老客戶的難度是營銷新客戶的16倍,而代價卻僅為1/5~1/7。因此,有效預測客戶流失概率是防止客戶流失的前提,對銀行提升經濟效益和實現可持續發展具有重要意義。
國內外學者對客戶流失原因、流失預測和挽回措施等方面進行了大量的研究,研究方法包括統計學、機器學習和數據挖掘等模型,取得了較好的成果。如李洋[4]使用神經網絡構建客戶流失預測模型;王未卿等通過單因素分析和逐步判斷分析來識別對客戶流失的影響因子,并使用Cox模型來進行對客戶流失的預測;Prasad和Madhavi[51分別用CART和C5.0算法對商業銀行客戶流失情況進行了研究;賀本嵐[6]對logistic回歸模型、線性SVM、徑向基SVM在商業銀行客戶流失預測中的有效性進行了比較,結論認為線性SVM可以取得比較好的效果。
通過對現有研究的比較可知,各種方法均有其優點和缺點:貝葉斯方法有較強的數學理論支持,但是很難獲取先驗知識;神經網絡預測準確率高,但其網絡結構的黑箱性導致其難以提取業務規則;支持向量機SVM在解決小樣本問題有明顯優勢,但在實際商業大數據的處理上所需資源較大;決策樹分類算法容易提取業務規則,但預測精度往往不如神經網絡。從已有銀行客戶分析研究可以看出,現有研究缺乏針對貴賓客戶群體的流失研究,因此對貴賓客戶群體流失問題進行研究具有現實意義,并且由于銀行貴賓客戶流失是一個受經濟環境、文化和政府監管等多種因素影響的非線性問題,單一模型往往難以兼顧流失的各個方面,因此,針對貴賓客戶建立流失組合預測模型,綜合利用各種預測模型的優點,對提高銀行客戶流失預測準確率有顯著作用。
綜上所述,提高客戶流失預測準確性、降低貴賓客戶流失率對銀行的穩定經營和可持續發展具有重要意義。本文探討綜合利用多種預測方法構造貴賓客戶流失組合預測模型,提前定位可能流失的客戶,幫助銀行更好地進行貴賓客戶關系管理,并對某商業銀行某分行客戶數據進行實證分析。
1、理論基礎
1.1決策樹
決策樹是在已知事件發生概率的基礎上,通過構造樹對待分類樣本進行評價的方法。算法如下:
設D為樣本集合,|D|為樣本數量,Ci,i∈{..n}為類別屬性i的類別集合,使用屬性A對D進行劃分,則對應的信息熵由以下公式計算得出:
信息熵越小,表示屬性A劃分效果越好。
C5.0是決策樹的商業版本,在運行效率和內存占用,上的優勢使得其在現實商業環境中得到廣泛應用。
1.2支持向量機
支持向量機(SVM)是Vapnik等人在90年代提出的,旨在尋找一個超平面對二分類進行劃分,使得分類錯誤最小化的模型
定義數據集為(x;y),i=1...n,x;為輸入,y;為輸出。在高維特征空間中尋找分類函數:
w為權重,b為偏置。
求解最優分類面的問題可轉化為:
求解其對偶問題,則可得線性最優分類決策函數:
1.3貝葉斯網絡
貝葉斯網絡又稱為信度網絡,是一種基于概率推理的圖形化網絡,是Bayes方法的擴展。貝葉斯網絡由代表變量的節點、代表相互關系的邊以及條件概率表示的關聯強度構成的有向無環圖。貝葉斯網絡具有很強的不確定性問題處理能力,因此近年來在統計分析、數據挖掘等領域得到廣泛使用。
1.4RBF神經網絡
人工神經網絡(ANN)以其強大的非線性映射能力、自適應和容錯性得到了廣泛的應用。Powell提出的徑向基函數(RBF)網絡是一種三層前向網絡,有效避免了BP神經網絡的局部極值問題,且學習收斂速度快,因此經常被應用于非線性函數的模擬中。
2、銀行貴賓客戶流失組合預測模型
商業銀行的貴賓客戶流失涉及的因素很多,并且數據來源多樣,數據屬性也很復雜,甚至一些屬性間存在相關關系。因此,對于一個非線性、非對稱、多屬性的流失預測問題,采用單一的預測模型其效果難以達到要求。學術界針對此類問題通常使用組合模型的方法,即按照某些規則將多種預測模型進行組合,綜合利用各種模型的優點,以提高預測的有效性。
通過對常用預測模型特性的評價對比,本文選擇線性支持向量機LSVM、決策樹C50及貝葉斯網絡作為子分類器來進行組合預測模型的構建,如圖1。
2.1模型構造
利用組合模型進行銀行貴賓客戶流失預測的步驟如下:
(1)數據預處理:對原始數據進行屬性規約、轉換等預處理,將數據集按1:1比例劃分為模型訓練數據集和模型驗證數據集;
(2)構建各個子分類器模型:使用LSVM、決策樹C50、貝葉斯網絡等模型分別對模型訓練數據集建模;
(3)利用各子分類器得出預測結果:整理訓練數據集在三個子分類器的預測結果;
(4)構建組合預測模型:將三個子分類器的預測結果作為RBF神經網絡的輸入,實際流失結果作為輸出,對RBF神經網絡進行建模,由此得出基于LSVM、決策樹、貝葉斯網絡組合的RBF神經網絡模型;
(5)利用組合預測模型計算客戶流失結果:對模型驗證數據集分別計算其LSVM、決策樹、貝葉斯網絡的預測結果,作為RBF神經網絡模型的輸入,最終得出組合模型計算出的預測結果。
2.2模型評價
為驗證組合模型的有效性,使用如下指標對預測結果進行評價:
Tab.1Predictionevaluationindex
流失覆蓋率=A/(A+B)
預測準確率=A/(A+C)
模型總體準確率=(A+D)/(A+B+C+D)
提升系數=預測準確率/實際客戶流失率
流失覆蓋率表示模型定位到實際流失客戶的比例;預測準確率表示被模型標記為流失,其中實際為流失客戶的比例;模型總體準確率反映的是模型對實際流失非流失客戶的預測能力;提升系數反映了使用預測模型跟不使用預測模型的效果差異,本文將綜合采用上述4個指標來評價預測模型的有效性。
3、實證分析
3.1數據來源
根據研究目的,本文對貴賓客戶定義如下:年日均資產在10萬以上的客戶。
貴賓客戶流失定義如下:貴賓客戶在(T-2,T-1,T)期間的月日均資產在10萬以上,并且在年日均資產50%以上,(T+1,T+2,T+3)三個月中日均資產流失達90%以上,且隨后三個月未回復,確認為流失。
數據來源于某商業銀行某分行數據倉庫,經過數據清洗及處理,共得到275.83萬條完整客戶數據,按照以上貴賓客戶流失定義,流失率為2.57%。將數據集按50%:50%比例切分成訓練集和驗證集,分別用于模型訓練和模型有效性驗證。
3.2預測指標篩選
影響銀行貴賓客戶流失的因素很多,但在實際中受限于數據來源,可獲得的客戶屬性相對有限,不同屬性對客戶流失的相關性所有區別,且屬性之間還可能存在重復信息需要進行約簡。根據銀行實際數據可獲得性,并參考以往研究,本文選取了50個初始指標。進一步對這些指標影響客戶流失的重要性進行檢驗,并排除指標間的信息重復,具體步驟如下:一,計算每個指標與客戶流失的相關性,剔除相關性較弱的指標;二,對其余指標按相關性從大到小排序,并刪除與當前指標相關性大的指標,以此消除重復信息。
本文使用Pearson系數來度量指標間的相關性。Pearson系數的取值為[一1,1],絕對值越大,表明相關性越強(負數表示負相關),值為零表示不相關。對初始指標進行Pearson計算及去除信息冗余后,最終得到15個特征變量用于構建預測模型,涉及客戶自然屬性、賬戶及產品簽約屬性、交易行為特征屬性等方面。
3.3預測效果分析
使用數據挖掘軟件SpssModeler18實現各子模型及組合模型。從組合模型對驗證數據集的預測結果來看(見表3),從總體準確率、流失覆蓋率、預測準確率、提升系數等指標可以看出,組合預測模型的性能均有不同程度的提高,顯示出組合模型對于各子分類器來說有明顯優勢。由此可知,本研究設計的多算法組合模型可以有效識別客戶流失傾向,滿足銀行業關于貴賓客戶流失預警的需求。
4、結束語
隨著經濟形勢及行業競爭狀況的變化,維系貴賓客戶,防止貴賓客戶流失已經成為商業銀行的工作重點。本文對貴賓客戶的流失影響因素進行識別,并以此為基礎構建貴賓客戶流失預測模型對潛在流失客戶進行識別;針對銀行貴賓客戶流失問題復雜非線性,使用單一模型難以取得較好效果的特點,通過使用RBF神經網絡對LSVM、決策樹、貝葉斯網絡預測結果進行組合,明顯提高了預測的效果;通過對實際客戶流失數據的驗證,表明本文提出的思路可以成為銀行進行客戶關系管理的有效選擇。
參考文獻:
[1]賀本嵐.支持向量機模型在銀行客戶流失預測中的應用研究[J].金融論壇,2014(9):70-74.
[2]王未卿,姚嬈,劉澄,等.商業銀行客戶流失的影響因素[J].金融論壇,2014(1):73-79.
[3]肖進,劉敦虎,賀昌政.基于GMDH的“一步式”客戶流失測集成建模[J].系統工程理論與實踐,2012,32(4):808-813.
[4]李洋.基于神經元網絡的客戶流失數據挖掘預測模型[J].計算機應用,2013,33(S1):48-51.
[5] PRASAD D,MADHAVI S. Prediction of churn behaviorof bank customer customers using data mining tools[J].Business Intelligence Journal, 2012,5(1):96-101.
[6]賀本嵐.支持向量機模型在銀行客戶流失預測中的應用研究[J].金融論壇,2014(9):70-74.
[7]洪麗平,覃錫忠,賈振紅.基于后驗概率支持向量機在客戶流失中的預測[J].計算機工程與設計,2016,37(2):430-432.
[8]羅彬,邵培基,羅盡堯,劉獨玉,夏國恩.基于粗糙集理論-神經網絡-蜂群算法集成的客戶流失研究[J].管理學報,2011(2):265:272.
[9]盧美琴,吳傳威.商業銀行貴賓客戶流失預測研究[J].福建商學院學報,2018(02):31-36.
[10]王紅武,朱紹濤,蔡海博.基于決策樹算法的上市公司股東行為研究[J].數理統計與管理,2017,36(1):139-150.