金錚
摘 要:本文意在通過機器學習算法對銀行零售數據進行深度挖掘,探索傳統商業銀行基于機器學習模型構建精準營銷策略的切入點。本文使用商業銀行數據分別構建基于邏輯回歸算法和隨機森林算法的理財產品響應預測模型,并進行結果對比分析,得出經過梯度下降優化后的邏輯回歸模型效果更好的結論。并將此模型預測結果應用于實際理財產品營銷中,為改變傳統商業銀行營銷思路、提升營銷精準度提供幫助。
關鍵詞:機器學習;商業銀行;精準營銷;邏輯回歸;隨機森林
在數據爆炸式增長、新興技術層出不窮的互聯網時代,互聯網金融迅速崛起,金融業競爭愈發激烈。隨著營銷模式的轉變、客戶個性化需求的增多,銀行業意識到,傳統的數據分析已無法充分挖掘數據的價值,也無法滿足現有營銷訴求。各銀行紛紛組建專業的數據團隊,開始嘗試通過機器學習等手段進行數據分析挖掘,從而通過技術手段驅動業務運營。在此背景下,基于機器學習算法的精準營銷在國內銀行業快速興起。
一、精準營銷是商業銀行發展的必備要素
商業銀行零售業務的業務種類繁多、客戶量龐大,依靠傳統營銷經驗很難找到大量的精準目標客戶。故通過數據分析、機器學習模型等方法進行海量精準客戶篩選,從而提升投入產出比成為精準營銷的關鍵。
近年來,國內銀行業開展的基于機器學習算法的精準營銷試點工作也取得了初步成效:某國有銀行分別完成了客戶精準營銷主題9項功能、產品精準營銷主題16項功能的全行推廣;某股份制銀行通過精準營銷不僅實現了對3000多萬大零售客戶的集中運營管理(含信用卡客戶)、為超過400萬的貴賓客戶提供個性化的服務,同時還節省了超過500萬的營銷成本,最終完成了零售業務的二次轉型升級;某股份制銀行基于精準營銷模型結果為客戶推薦產品,推廣支行的客戶金融資產總額、理財余額等指標均有顯著提升,同時該行為客戶搭建的流失預測模型,其前30%分位數提升2.45倍,模型總體預測效果較為理想。
雖然國內銀行業已有一些可借鑒的精準營銷成功實踐經驗,各商業銀行沉淀的大量客戶數據也是一個亟待挖掘的巨大寶庫,但是由于不同銀行的客戶數據結構不同,模型也無法復用。因此我們仍需在銀行業基于機器學習算法的精準營銷道路上秉承“智能化、標準化、自動化、規?;钡脑瓌t不斷進行探索。
二、基于機器學習算法的理財產品響應預測模型
(一)業務需求理解與解析
在互聯網金融時代,隨著客戶對金融知識的理解不斷提升、對資產管理的意識不斷加強、對產品的要求不斷提高,理財成為商業銀行營銷的重要產品類型。為了更好、更精準的為客戶提供個性化產品服務,本文針對某商業銀行的理財產品構建基于機器學習算法的產品響應預測模型。通過觀察零售客戶購買該類理財產品的行為特征,對未來1個月客戶購買該類理財產品的可能性進行預測,并將模型預測結果應用于實際產品營銷中,為一線業務人員降低營銷成本、提升營銷效益提供有力支撐。
(二)數據搜集與整理
數據為某商業銀行零售客戶脫敏數據,具有真實性與可靠性?;诒敬尉珳薁I銷理財產品響應預測模型的具體需求,結合業務知識判定,構建分類預測模型。獲取模型目標變量的業務含義,即客戶未來1個月是否購買該類理財產品,并進行數據加工處理。本次搜集并提取的建模所需數據寬表包含:自變量237個,因變量1個,客戶數據661198條。
(三)數據探索與分析
基于數據寬表,輸出各自變量的描述性統計分析結果,如:自變量TRANSFER_AMT_6的數據量為82405、均值為278335.36、標準差為3129411.02、最小值為0、下四分位為0、中位數為300、上四分位為47100、最大值為470000000,并結合業務知識對自變量進行基礎處理,如:錯誤值檢驗、缺失值檢驗、異常值檢驗等。完成基礎數據處理后,一方面需要對數據進行去量綱化,即數據標準化,消除不同變量間的量綱,減少因量綱不同造成的誤差;另一方面為了避免模型結果過擬合,需要將數據抽樣劃分為訓練集和測試集,劃分比例為7:3,其中訓練集是用來對模型進行擬合的數據樣本,測試集是用來評估最終模型泛化能力的數據樣本。
(四)特征選擇
樣本數據中的特征(即自變量)過多,需要運用統計知識結合業務知識對特征進行篩選,達到減少特征數量(降維)、減少模型過擬合、提高模型泛化能力的目的。特征選擇一般分為以下幾種方式。
1.刪除單一值占比過大的特征,如某特征值的單一值占比達到95%以上,則認為這個特征作用不大,需人工刪除;
2.利用卡方檢驗篩選變量,檢驗定性自變量與定性因變量的相關關系,當P值小于0.05時,表示自變量分布與因變量分布有顯著差異,需保留該變量,否則刪除;
3.利用變量IV值篩選變量,對變量進行WOE轉換,計算變量IV值并設置閾值,保留變量IV值大于0.1的變量;
4.對變量進行多重共線性檢驗,計算變量的方差膨脹因子VIF值,保留VIF值小于10的變量;
5.利用PCA進行降維,經過反復驗證,在模型效果不下降的前提下,盡量減少變量個數,最終保留30個變量作為入模變量。將經過以上特征選擇方法進行篩選后的自變量與因變量重新加工形成新的數據寬表進行建模。
三、構建基于邏輯回歸算法的預測模型
客戶是否購買理財產品的模型采用二元邏輯回歸模型。邏輯回歸(Logistic Regression)是用于處理因變量為分類變量的回歸問題,因變量用P表示概率,P的取值范圍是:0≤P≤1。需要對P進行邏輯變換:logit(P)=ln(P/1-P),即可得到邏輯回歸的表達式為:
P=1/1+e-(Θ0+Θ1X1+Θ2X2+…+ΘnXn)
其中X1,X2,…,Xn分別代表上述特征篩選之后的自變量;Θ0,Θ1,…,Θn分別代表各自變量X的系數,即模型參數。利用statsmodels中的函數結合數據得到邏輯回歸模型的參數,最終得到的結果,如:AUM_M_AD_woe的P值為0.000、FIN_EXPIRE_NUM_M_woe的P值為0.000、SAVDEPT_AMT_M_woe的P值為0.743、TRANSFER_AMT_6_woe的P值為0.036、PRODUCT_NM_woe的P值為0.000等30個入模變量。其中有些變量的P值大于0.05,即表示變量不顯著,需進行刪除處理。從原有的30個變量中刪除5個變量(如:SAVDEPT_AMT_M_woe的P值為0.743),還剩顯著變量25個。
此時得到的模型參數并不是最優的,需使用最小損失化函數對參數進行最優化調整。本文使用梯度下降法對模型損失函數進行最優化。梯度下降法的原理是通過迭代,找到目標函數的最小值或收斂到最小值,基本公式為:
Θi=Θi -η( ?J(Θ0,Θ1,…,Θn)/ ?Θi)
其中,η為學習率,即每次迭代的步長;J(Θ0,Θ1,…,Θn)是損失函數。
J(Θ0,Θ1,…,Θn)= ∑N i=1(hΘ(xi 0+xi 1+…+xi n)-yi)2/2N
其中xi 0=1。
Θi=Θi -η(∑N i=1(hΘ(xj 0+xj 1+…+xj n)-yj)xj i/N)
在實際模型建設過程之中,步長η太大會導致迭代過快,甚至可能錯過最優解;步長η太小,迭代速度太慢,導致很長時間算法都無法結束。
經過梯度下降的邏輯回歸模型的結果指標為:KS=0.712,AUC=0.922。
構建基于隨機森林算法的預測模型
隨機森林由Leo Breiman提出,通過bootstrap重采樣技術從原始訓練樣本集M中有放回的重復隨機抽取n個樣本,生成新的訓練樣本集合后,根據自助樣本集生成n個分類樹組成隨機森林,新數據的分類結果根據分類樹投票多少形成的分數來決定。具體的實現過程如下:
1)原始訓練集為M,應用自助法有放回的隨機抽取n個新的自助樣本集,并由此構建k棵分類樹,每次未被抽取到的樣本組成了n個袋外數據;
2)假設有a個變量,則在每棵樹的每個節點處隨機抽取b個變量,并在b中選擇一個最具分類能力的變量,變量分類的閾值通過檢查每個分類點來確定;
3)每棵樹最大限度的生長,而不做任何的修剪;
4)將生成的多棵分類樹組成隨機森林,并用隨機森林分類器對新數據進行判別、分類,分類結果根據分類器的投票多少來決定。
使用隨機森林模型對該數據進行建模,模型結果的指標為:KS=0.512,AUC=0.756。
四、邏輯回歸模型與隨機森林模型結果對比分析
通過對比兩種模型的結果可以發現,隨機森林模型的KS和AUC值顯著低于經過梯度下降的邏輯回歸模型的相應指標,故從該商業銀行的數據情況來看,經過梯度下降優化后的邏輯回歸模型效果更好。
基于機器學習算法的精準營銷在商業銀行領域的挑戰。雖然隨著新技術的不斷興起,基于機器學習算法模型的精準營銷在商業銀行領域受到青睞,但是在實際搭建及應用過程中仍會遇到一些挑戰。
從數據層面,商業銀行的數據基本上是結構化數據,相較互聯網金融公司而言,在非結構化數據方面比較欠缺,搭建模型時可能會出現數據不夠豐富,模型結果片面等情況;
從模型層面,篩選變量或者搭建模型的過程中,如果只單純以數據及算法產生的結果來評估變量、模型的好壞,而脫離了業務知識及業務發展的實際情況,即使模型效果指標再漂亮對實際業務也是無意義的。因此建模人員對銀行業基礎業務的理解、對數據含義的解讀及應用能力就顯得尤為重要;
從應用層面,精準營銷模型的好壞除了數據、算法等模型本身涉及的方面外,一線業務人員是否相信、是否不折不扣的按模型結果進行落地,以及營銷技巧的使用是否得當等都會對模型的推廣、迭代以及評價造成影響,因此業務人員的配合與反饋十分關鍵。
參考文獻:
[1]賈俊平.統計學(第7版)[M].中國人民大學出版社,2018.
[2]王芳.基于機器學習理論的電商用戶行為研究[D].北京:物資學院,2018.
[3]張毅.數據為王顛覆營銷:移動時代的大數據精準營銷.人民郵電出版社,2017.
[4]林慶鵬.基于大數據挖掘的精準營銷策略研究[D].蘭州:理工大學,2016.
[5]劉力銀.基于邏輯回歸的推薦技術研究及應用[D].成都:電子科技大學,2013.