陶簫玨 褚衛忠 管吉
(上海證券有限責任公司 上海市 200002)
以數據實現業務價值,將數據轉化形成公司資產是金融科技數字化轉型的大趨勢,基于數據中臺和業務中臺的強大的數據計算、建模和靈活的服務配置能力,以“數”為據的客戶分層、產品健全、渠道整合、團隊賦能、服務增值、客戶優化體驗等都是數據智能應用生態層的可用場景。
客戶識別模型是以細化客戶畫像為目標,為精準的營銷做數據支撐,加速客戶服務為結果的應用可優化部分[1]。以“數”為據的模型構建及應用是整個公司數據中臺服務的重要應用。如何正確的認識客戶是后續客戶服務的前提[2],結合多種人工智能模型,業務導向自動化和服務效率提升是應用生態層優化的可實現環節。
基于大數據平臺的計算應用能力設計構建基于各種數據模型的服務應用體系,如圖1所示,以客戶全覆蓋的服務為目的,對應業務中臺的不同的業務應用場景設計使用不同的運算分析模型,整合數據中臺存積的海量客戶行為數據、客戶的基礎信息、客戶畫像標簽和統計擴展數據等多維度數據,助力業務部門快速地了解客戶特征,模型結果將以多種形式展示應用在平臺,在業務人員自主篩選分析的數據應用前,有針對性地、合理地引導業務方向。
(1)以業務規則或是行業規定為標準,設定條件作為經驗判定,將客戶進行前期的歸類。例如正常客戶、凍結客戶、不合格客戶、開戶鎖定的客戶等等,這是作為業務前期分流的第一步。
(2)預測客戶行為,利用客戶多維的歷史數據建立客戶流失預警模型[3],對正常狀態的客戶將來狀態進行預測, 預測客戶是否會在下一個時間區間發生流失,將流失挽回的業務服務轉換成流失預警[4],提前識別潛在流失客戶,為挽留客戶贏得時間;
(3)通過組合應用客戶的識別聚類模型,幫助業務部門快速識別客戶類型,通過客戶的聚類模型有效的為業務人員篩選出不同等級的客戶,通過多維度的數據幫助業務員人員分析不同類型客戶的突出特征,助力業務人員進行分流客戶管理。
(4)通過組合應用基于客戶的推薦模型及基于最小交替二乘算法的產品推薦模型,向不同類型的客戶推薦最可能感興趣的產品或者說是客戶最有可能購買的產品,通過組合應用到不同類型的客戶類群,精準定位不同群體內客戶產品偏好,助力業務部門為處于不同生命周期、具有不同商業價值的客戶群體提供定制化的金融產品。
整個服務平臺將以應用多種機器學習模型作為助力,幫助業務人員在不同場景下識別客戶,引導促進后續的服務業務,幫助業務人員進行客戶全覆蓋管理,促進客戶類別轉換。

圖1:基于數據驅動的服務分發
客戶流失預警模型將以符合客戶篩選條件的客戶群體作為基礎數據,針對這些客戶的初始模型特征指標進行特征工程的篩選。對于行為的預測或判定有多種多樣的模型可以完成,決策樹或是神經網絡等都可以通過歷史數據的訓練完成對客戶未來行為的預測或是分類。邏輯回歸模型是比較成熟的一種回歸分類模型,在應用和計算方面都具有一定的優勢。 模型訓練產生一組特征變量對應的權重系數,模型將特征空間映射成一種可能性,即某一事件發生的概率。該客戶流失預警模型的優點是計算簡單明了,且變量和結果都具有可解釋性。
邏輯回歸的反應變量是二分類變量,對反應變量進行邏輯轉化:

其中,β0是回歸式的截距,βk是第k個預測變量的參數估計;Logit(pi)是事件發生概率的Logit,是發生比(odd)的自然對數。

模型通過訓練數據得到各預測變量對應的參數估計后可以通過參數估計計算出測試數據的反應變量。邏輯回歸的是對一事件發生的概率,即計算各預測變量的參數估計后計算出客戶是可疑客戶的概率。

模型的客戶識別能力幫助業務從大量的正常客戶數中找到最有可能流失的客戶,快速的明確了業務的目標客戶和后續服務方向,達到了初步的業務分流目的[5]。同時系統會生成流失預警名單,及時MOT推送,當有異常數據或是大量流失預警時,及時警示業務人員,快速提醒業務人員后續跟進。
無監督的聚類方法是比較普遍的一種硬聚類方法,依據樣本的特征的相似度或距離,將樣本歸并到若干個“類”的數據分析問題。假設每個樣本到其所屬類的中心的距離最小。k均值聚類歸結為是樣本集合的劃分,或者說是從樣本到類的函數選擇問題,k均值聚類的策略是通過損失函數的最小化選取最優劃分或函數。

表1

當客戶流失預警模型初步預測完成客戶的流失預警分類,結合無監督的K-MEANS聚類模型進行客戶群體的歸屬識別。該模型根據客戶基礎屬性數據、客戶交易數據、客戶行為數據以及統計擴展數據等多維度的客戶數據判定客戶的群體,以客戶到各群體中心點的歐式距離作為損失函數,整個聚類的模型就是通過損失函數的最小化選取最優的劃分函數。
該客戶群體聚類模型的介入實際上是針對業務人員的自主高級篩選功能的輔助。在許多實際的情況下,業務人員其實在篩選客戶時是無從下手的。或者說只用某一兩個指標來篩選客戶對于分析客戶來說是比較有局限性的,客戶聚類模型提供的結果實際是幫助業務人員縮小了篩選的范圍,從更多維度找到了相似的客戶群體。為業務人員提供了一個業務方向的指引[5]。
應用客戶聚類產生的客戶群體并非是以單一或幾個指標閥值簡單篩選而得出的,在各個指標上沒有明確的標準值,但正因為每個客戶都是不同的個體,在爭取千人千面的分析客戶的同時,我們更不能以簡單的幾個指標來劃分客戶,應用客戶群體的無監督聚類,幫助我們找到最為相似的客戶,而不是幾個指標相等的客戶。在業務人員使用數據前,我們已經幫助他們分析聚類了相似客戶群體,業務人員在作進一步數據分析或是業務篩選時,已大大縮小了客戶范圍,或是已有了明確的客戶目標范圍。
Spark 支持的ALS模型,即交替最小二乘算法在機器學習中特指用最小二乘法的協同過濾算法。它是一種支持不完整評分矩陣的矩陣分解方法, 是一個交替求解最優損失函數的過程,迭代降低誤差,求取客戶與產品的關系函數,是經過驗證的比較有效的推薦算法。
根據客戶與產品之間產生的關系矩陣將是一個龐大的稀疏矩陣。在矩陣分解的推薦算法中,產品的推薦預測是整合整個現有矩陣信息的, Spark MLib 中實現的基于ALS矩陣分解協同過濾算法, 結合Spark 并行計算框架,可以以函數優化的方式,求矩陣分解的最優線性方程,快速求解客戶的最優推薦

U為用戶的特征矩陣,V為產品的特征矩陣,Spark 使用的是正則化矩陣分解,評價矩陣分解使用的是RMSE, 通過最小化RMSE來學習用戶特征矩陣和產品矩陣,在RMSE函數中加入了正則化項來減少過擬合。通過最小二乘的方法優化函數。
換句話說就是客戶購買了產品,那么我們就假設客戶喜歡該產品,而我們對這一假設的信任度高低使用的是購買量的大小,在我們的模型中是以該客戶購買產品的交易金額作為衡量的標準的。模型的輸入是一個客戶與產品的低秩關系寬表,模型輸出是所有曾經購買過產品的客戶對每種產品的可能購買量。
在該模塊中,模型結果快速有效的幫助業務人員在某一產品的推薦場景下,找到最有可能購買該產品的客戶,或者針對某一流失預警客戶時,推薦它最有可能購買的產品[6],模型的應用可以大大節省了人力資本的同時,有針對性的推薦產品也能降低客戶對頻繁推薦的排斥[7]。
如表1所示。
在整體服務應用生態層框架下,客戶的流失預警,客戶的價值分類,客戶的產品匹配等都應用不同的數據驅動模型結合完成,實現業務數據化、數據服務化,節省人力成本的同時為客戶提供最適合的服務,推薦最適合的產品。