樊曉唯 蔣林岑 劉向東



摘要:本文以某金融機構的一類保險產品——簡易險為例,詳細闡述LightGBM算法在金融產品目標客戶挖掘中的應用。經過參數優化和動態調整閾值,最終將目標用戶的預測準確率從原始的比例0.41%提升到14.96%,并且獲得了22.84%的召回率。同時,該模型可針對營銷活動和營銷資源的情況,實時調整概率閾值,從而調整營銷目標的輸出規模,對業務營銷推廣提供了積極的指導價值。
關鍵詞:機器學習;LightGBM;分類預測
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)17-0017-02
1引言
近年來機器學習被廣泛應用于金融產品領域,如投資組合管理優化、貸款和保險承保、風險管理,及市場營銷中的潛在目標客戶挖掘等場景[1]。本文以某金融機構的一類保險產品——簡易險為例,詳細闡述LightGBM算法在金融產品目標客戶挖掘中的應用。
簡易險是一種小面額、免體檢、適合一般普通工作者的綜合意外險保險。其保險責任主要為人身意外保險附加交通意外傷害保險、財產意外保險等[2]。隨著近幾年的發展,簡易險業務已在全國形成一定規模,但是與傳統金融業務相比,簡易險業務仍處于較小規模,占金融總收入比例不高。然而,簡易險業務保障屬性突出,符合未來發展趨勢,且市場空間巨大,是一類具有發展前景的產品。
本文探討了一種基于機器學習的潛在目標客戶挖掘方案,利用該金融機構的歷史數據,基于LightGBM算法構建簡易險潛在客戶挖掘模型。
2 LightGBM算法
LightGBM是 Light Gradient Boosting Machine 的縮寫,本質上也是一種Boosting算法,由微軟提供,是一種免費開源的分布式梯度提升框架。LightGBM與在此之前的XGBoost原理類似,都是對GBDT的高 效實現。兩者都采用損失函數的負梯度作為當前決策樹的殘差近似值,以此來擬合新的決策樹[3]。但是在很多方面,LightGBM都優于XGBoost,比如:更快的訓練速度、更低的內存占用、更高的模型準確率、并行計算、可直接支持離散特征作為輸入等。
LightGBM 算法主要使用了兩種新技術,第一種是基于梯度的單側采樣 (GOSS) ,以此減少算法輸入數據量;第二種是互斥特征捆綁技術 (EFB),將互斥的特征捆綁成一個特征,從而降低特征維度;除此之外,LightGBM還采用直方圖方法對連續特征進行處理,將連續特征離散化到多個分箱中,進一步提高分裂時的搜索速度[4]。
3基于LightGBM的簡易險潛在客戶挖掘模型
為了更好地發展簡易險業務,本節基于LightGBM算法,運用金融客戶歷史數據,研究建立能挖掘簡易險潛在客戶的模型。建模目的在于,在龐大的存量金融客戶群體中,找出最具有簡易險購買潛力的客戶,并且可根據營銷資源的情況,動態調整目標客戶規模。
3.1 特征選取
為應用LightGBM挖掘潛在簡易險客戶,首先對目標客戶做一個基本范圍限定,即:截至2020年底金融總資產大于100元的客戶,共計468萬客戶。為更好地評估本次模型挖掘的效果,選取2020年客戶的屬性及行為特征作為輸入,將預測結果與2021年的真實簡易險購買數據進行對比驗證。部分重要的特征說明如表1所示。
3.2 模型訓練
依照上一步特征篩選出的數據,訓練集和測試集數據的比例設定為3:1。對離散型特征變量進行預先配置,LightGBM算法參數主要如下:目標函數objective設置為二分類、迭代次數設置為200、學習率設置0.01、葉子節點數設置32、樹最大深度設置為6、 L2正則化系數為0.001、自動平衡正負樣本設置為True。最終訓練得到預測模型。
params = { 'objective': 'binary', 'metric': {'binary_logloss', 'auc'}, 'num_iterations': 200,
'learning_rate': 0.01, 'num_leaves': 32, 'max_depth':6, 'bagging_fraction':0.8,
'feature_fraction':0.8, 'lambda_l2': 0.001, 'is_unbalance': 'true' }
3.3 模型評價
在機器學習的分類任務中,經常使用混淆矩陣(Confusion Matrix)來作為評價模型好壞的指標,混淆矩陣有兩行兩列,分別對應預測數據和真實數據的分類情況[5]。在本案例中由于正樣本較少,且挖掘的目的是盡可能提升模型的準確率,所以通過選擇不同的分類閾值,來控制預測出的正樣本的數量和準確率。表2顯示的是當LightGBM分類概率閾值設置為0.96時模型的混淆矩陣。
由表2可計算得出:簡易險客戶預測的準確率為14.96%,召回率為22.84%。相比原始數據目標占總體樣本比例僅為0.41%,有大幅度的提升。模型的F1值,由公式可得出:
[F1_Score=2×準確率×召回率準確率+召回率=2×0.1496×0.22840.1496+0.2284≈0.18 ]
當概率閾值不同時,結果也會有一定差異,本模型求解了概率閾值0.5到1.0之間的各種情況,分別計算準確率、召回率、F1值,以及輸出的預測目標客戶的數量,來進行綜合對比。從圖1可以看出,當概率閾值取0.96時,F1值最高。
與此同時,從圖1中可以看出不同的概率閾值對應的準確率與回收率的關系,如果需要更高的準確率,可適當提高概率閾值;如果想要收獲更多的預測目標客戶和較高的召回率,則可以適當降低概率閾值。本文提供了一種可動態調整的分類模型目標輸出方案。
3.4 模型對比
為了驗證此模型具有相對優勢,筆者選用同樣的訓練數據集與測試數據集進行了傳統的決策樹二分類模型訓練與XGBoost模型訓練以作比較,準確率、召回率、F1值結果如表3所示。
不難看出,傳統的決策樹在這類稀疏目標預測上性能非常不理想,無論準確率還是召回率都遠低于LightGBM和XGBoost;LightGBM和XGBoost對比,準確率和召回率都有小幅優勢,更重要的是,LightGBM的模型訓練時間只有XGBoost的五分之一,效率優勢巨大。因此可以說,LightGBM模型在簡易險潛在客戶挖掘中取得了優良的效果。
4結束語
本文的重點內容是應用LightGBM算法對滿足一定條件的金融存量客戶進行建模,挖掘出簡易險產品的潛在目標客戶。經過參數優化和動態調整閾值,最終將目標用戶的預測準確率從原始的比例0.41%提升到14.96%,并且獲得了22.84%的召回率。該模型可針對營銷活動和營銷資源的情況,實時調整概率閾值,從而調整營銷目標的輸出規模,對業務營銷推廣提供了積極的指導價值。
參考文獻:
[1] 毛子林,劉姜.基于機器學習方法的信用風險評估綜述[J].經濟研究導刊,2021(23):117-119.
[2] 安真,楊帥.新發展格局下郵政消費金融轉型發展研究[J].現代金融導刊,2021(8):53-55.
[3] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[J]. Advances in neural information processing systems, 2017(30): 3146-3154.
[4] 王思宇,陳建平.基于LightGBM算法的信用風險評估模型研究[J].軟件導刊,2019,18(10):19-22.
[5] Visa S, Ramsay B, Ralescu A L, et al. Confusion matrix-based feature selection [C]//Proceedings of The 22nd Midwest Artificial Intelligence and Cognitive Science Conference 2011, Cincinnati, Ohio, USA, 2011.
收稿日期:2022-02-10
基金項目:2020 年度江蘇省工業軟件工程技術研究開發中心開放基金項目(ZK20-04-02)
作者簡介:樊曉唯(1988—),女,江蘇蘇州人,講師/工程師,研究方向:職業本科教育、人工智能、機器學習、深度學習、計算機視覺;蔣林岑(1986—),女,江蘇南通人,講師/工程師,研究方向:職業本科教育、人工智能、大數據、數據清洗;劉向東(1971—),安徽蕪湖人,男,副教授/工程師,研究方向:職業教育、人工智能、機器學習、計算機視覺、知識圖譜。