趙寶利,趙 博
(1.陜西郵電職業技術學院,陜西 咸陽 712000;2.中國郵政集團公司陜西省分公司,陜西 西安 710000)
當前,在疫情防控的影響下,客戶交易行為發生了根本性的轉變,企業內外部的競爭日趨激烈。金融機構必須依托線上服務來維系客戶,使得銀行之間的競爭變得透明及扁平。如何掌握客戶行為偏好,提前預判客戶需求,快速準確提供針對性的金融服務及產品,是銀行機構維持自身競爭力的根本。
本文使用某國有大型企業歷年的客戶數據,通過對客戶的資產情況、資金分布、交易狀況、典型客戶屬性等緯度的分析,使用皮爾遜相關性分析、箱形圖法、Logistic計量經濟模型[1],構建線性回歸模型;將客戶數據80%作為專家訓練數據庫,用于模型訓練;余下的20%作為測試數據庫,驗證模型的分析[2]效果。通過利用機器算法挖掘高潛力的價值客戶進行針對性匹配適合度最高的推薦產品,從而實現千人千面的客戶精準營銷,提高客戶轉化率,達到客戶增值的目的。
本設計運用某國有大型銀行后臺數據,包括儲蓄邏輯集中系統、保險、理財、第三方支付系統、中間業務平臺系統數據。數據時間為2021年1—2季度、2022年1季度。
VIP潛在客戶:時點客戶持有資產為5萬~10萬,資產尚未達到或未連續3個月達到10萬以上的客戶。
為便于模型分析,將數據進行一系列的規范化處理。如:將客戶性別、是否第三方支付客戶、是否代發客戶、是否手機銀行客戶等字符串型的客戶屬性進行數值化處理,替換為該特征的浮點類型。利用箱型圖去掉年齡異常值(0 1.2.1 基本模型—Logistic回歸模型 Logistic回歸模型是一種廣義線性回歸分析模型[3],常用于數據挖掘、疾病診斷、經濟預測等領域。針對研究目標,建立二分類的Logistic回歸模型,來分析客戶持有資產種類及占比對客戶成為VIP客戶意愿的影響。 Logistic回歸屬于概率型非線性回歸,假設在多個自變量的作用下,客戶成為VIP客戶發生概率為P(0≤P≤1),則Logistic回歸模型為: logit(P)=In(P/1-P)=β0+β1X1+ β2X2+…+βnXn 其中,發生概率與不發生概率之比為p/(1-p),β為回歸系數。 1.2.2 皮爾遜相關性分析 皮爾遜相關性系數是廣泛用于度量兩個變量X和Y之間的相關程度(線性相關)[4],其值介于-1與1之間。兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商: 按照已知數據,2021年一季度“非VIP客戶:VIP客戶≈13∶1”的實際比例,選取了2021年70萬條VIP臨界客戶數據,按照8∶2的比例分成了兩部分。其中,80%的數據作為專家訓練數據庫,用于模型訓練;余下的20%作為測試數據庫,驗證模型的分析效果。 用Logistic回歸模型構建出以56.0萬條真實數據訓練出的VIP專家模型樣本,模型數據如表1所示。 表1 模型數據摘要 采用皮爾遜相關性分析,對因變量和自變量之間的相關系數進行運算,根據相關性系數高低界定因素,對變量進行排列,結果如表2所示。 表2 Pearson相關性系數矩陣分析結果 選取的相關分析樣本數據,為海量數據樣本,因此不能僅僅以統計學在小樣本上的相關系數區間作為相關程度的判斷依據,應該結合模型分析結果的相關顯著性業務理解,綜合對相關系數結果進行解讀。 (1)一季度資產的高低與是否成為VIP客戶有直接關系。 (2)在客戶持有資產種類中,定期持有較高的客戶更有可能成為VIP客戶,其他資產種類相關系數從高到低依次為:活期、理財、基金和保險。 (3)VIP客戶的保險資產在總資產中的占比最低,即客戶的保險資金在總資產中占比越高,越不容易成為VIP。 (4)VIP客戶標簽中,第三方支付客戶的相關系數最高,是否開通第三方支付與是否意愿成為VIP高度相關,其次為手機銀行客戶、雙微客戶;代發客戶相關系數最低。 (5)VIP臨界客戶中,女性客戶期望成為VIP的意愿高于男性。 通過Logistic回歸模型和關鍵因素相關性研究,筆者對2021年一季度金融VIP客戶數據結構和關鍵因素依賴性有了清晰的了解,此時通過歸納VIP客戶關鍵特征,選取自變量構建VIP客戶基本識別模型。 模型起始狀態如表3所示,即模型庫中,VIP客戶與非VIP客戶比例為13∶1,此時對一個客戶是否會成為VIP客戶的預測成功率是92.9%。 表3 初始預測百分比校正 Logistic模型系數的Hosmer-Lemeshow檢驗如表4所示,是判斷模型擬合優劣程度的關鍵綜合檢驗。伴隨概率(Sig)小于0.05,則證明模型擬合度優良。Sig值越小說明擬合程度越好,其檢驗結果如表5所示。 表4 模型系數的綜合檢驗 表5 模型系數的Hosmer檢驗結果 表4、表5中“模型系數”一行輸出了Logistic回歸模型中所有Sig參數是否為0的擬合檢驗結果。小于0.05則表示本次擬合模型納入的變量中,至少有1個變量的OR值有統計學意義,即模型總體有意義。 擬合Logistic回歸后,對于每一個自變量組合,均可以得到一組事件發生的概率。如果事件發生的概率大于或等于0.5,Logistic回歸判斷為VIP;如果可能性小于0.5,則判斷為非VIP。因此,與真實情況相比,就可以評價Logistic回歸模型的預測效果。 在結果預測中,2022年一季度99.8%的金融客戶研究對象被模型預測成為二季度非VIP客戶,11.5%金融客戶研究對象被模型預測二季度可以轉化為VIP客戶;擬合Logistic回歸模型能夠將93.6%(“總體百分比”取值)的觀測值正確分類,即綜合判斷準確率達到93.6%,是理想的預測模型結果,如表6所示。 表6 模型預測分類結果表 將2022年一季度建立好的VIP臨界客戶目標數據(78.7萬),導入已建立的VIP專家模型中,完成本次Logistic回歸模型預測。模型在已有的2022年一季度VIP臨界客戶中,自動挖掘并識別了約9.5萬名潛在的可轉化為VIP的目標客戶。 將VIP客戶資產增長預測結果趨勢用標準分布Q-Q圖來描述,如圖1所示,變量數據分布的分位數與所指定分布的分位數之間的關系曲線均為正態分布,且Q-Q圖上的點近似地在一條直線附近,該直線的斜率為標準差,截距為均值,所以該預測數據完全滿足驗證標準。 圖1 VIP資產增長標準分布Q-Q (1)對于普通客戶能否成功晉升VIP模型的預測成功率是92.9%,且模型擬合度優良,模型總體有意義。在擬合Logistic回歸模型預測2022年晉升VIP客戶時,該模型能夠將93.6%的觀測值正確分類,即綜合判斷準確率達到93.6%,是理想的預測模型結果。(2)對于未成功晉升VIP客戶的潛在客戶模型,因為客戶人數較多,可按當月存款區間從高至低分批次落實客戶二次挖掘工作。1.2 模型設定與相關性檢驗
2 構建模型
2.1 關鍵因素相關性分析
2.2 相關性因素解讀
2.3 建立基本模型
3 模型的評價預測與檢驗
3.1 模型整體評價
3.2 結果預測
3.3 預測結果正態性檢驗
4 結語