基于多模型融合的電子商務(wù)客戶流失預(yù)測模型研究

2022-11-21 02:04:46馬文斌陳碩峰

無線互聯(lián)科技 2022年17期

馬文斌，陳碩峰

(廣西財經(jīng)學(xué)院教務(wù)處，廣西南寧 530007)

0 引言

隨著互聯(lián)網(wǎng)的進一步普及，網(wǎng)上購物已經(jīng)成為人們購買產(chǎn)品和服務(wù)的一種更重要的方式。根據(jù)第48次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示，截至2021年6月，我國網(wǎng)民規(guī)模達10.11億，網(wǎng)絡(luò)零售成為消費新引擎，上半年交易規(guī)模達6.11萬億元。但是，電子商務(wù)客戶是典型的非契約客戶[1]，其關(guān)系終止難以有效判斷，具有不確定性，流失率較高。

客戶是企業(yè)的核心競爭力，提高客戶留存率是保持其競爭力的有效途徑。客戶流失預(yù)測是客戶留存的重要手段，也是客戶管理關(guān)系的重要環(huán)節(jié)。如何建立預(yù)測精準的客戶流失預(yù)測模型是當前學(xué)術(shù)界和行業(yè)界關(guān)心的問題。

當前研究主要將客戶流失預(yù)測視為一種兩類分類問題，利用機器學(xué)習(xí)方法構(gòu)建預(yù)測模型。根據(jù)使用方法的不同，主要分為以下兩方面。

一是基于統(tǒng)計學(xué)的預(yù)測方法。此類方法簡單高效，具有較好的可解釋性，如Pareto/NBD模型[2]、邏輯回歸[3]、貝葉斯分類器[4]等，但是其泛化能力較差。

二是基于人工智能的方法。支持向量機[5-8]、神經(jīng)網(wǎng)絡(luò)[9-12]、隨機森林[13-14]等人工智能方法具有較好的泛化能力，進一步提高了客戶流失預(yù)測模型的分類能力。

借助先進的人工智能方法，上述客戶流失預(yù)測方面的研究取得了一定的進展，但在電子商務(wù)客戶流失預(yù)測方面的研究還不多，且多采用單個模型進行預(yù)測，對流失預(yù)測的識別能力有限。

為提高電子商務(wù)客戶流失預(yù)測的精確率，基于集成學(xué)習(xí)思想，提出一種融合多個模型的流失預(yù)測模型。該模型以多個準確率較高的分類方法為基分類器，以投票法為集成策略。實驗結(jié)果表明，相比單個預(yù)測模型，該模型具有更好的預(yù)測能力。

1 多模型融合的客戶流失預(yù)測模型

集成學(xué)習(xí)是機器學(xué)習(xí)中一個重要的研究方向，其基本結(jié)構(gòu)是先構(gòu)建多個基分類器，然后利用適當?shù)慕M合策略將它們的結(jié)果進行整合，常可獲得比單個分類器更好的泛化能力。為提高客戶流失預(yù)測的準確度，本文基于Bagging集成思想，選擇多個泛化能力強且存在差異性的模型進行融合，以期獲得更好的預(yù)測結(jié)果。模型結(jié)構(gòu)圖如圖1所示。

圖1 模型結(jié)構(gòu)

本文模型首先將電子商務(wù)客戶數(shù)據(jù)劃分為訓(xùn)練集和測試集，然后利用隨機欠采樣方法對訓(xùn)練集進行類別再平衡，獲得類別平衡的新訓(xùn)練集，接著在平衡訓(xùn)練集上學(xué)習(xí)多個基模型，最后利用投票法將所有基模型的輸出進行融合，形成最終的預(yù)測結(jié)果。

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)預(yù)處理

客戶流失預(yù)測是在客戶的歷史行為數(shù)據(jù)上提取、選擇客戶特征，并運用分類預(yù)測算法建立預(yù)測模型，預(yù)測客戶未來的狀態(tài)。本文實驗所用的電信客戶行為數(shù)據(jù)來源于Kaggle網(wǎng)站，共有5 630個樣本，包含流失客戶948個，非流失客戶4 682個，兩類客戶的比例基本為1∶5，數(shù)據(jù)類別不平衡。原始數(shù)據(jù)共有18個特征，其中連續(xù)型特征13個，類別型特征5個，部分特征存在缺失值。通過填充缺失值、異常值處理、one-hot變換等數(shù)據(jù)預(yù)處理后，共取得34個可用特征。為便于評估預(yù)測模型性能，將數(shù)據(jù)隨機劃分為訓(xùn)練集和測試集，其中訓(xùn)練集占比80%，測試集占比20%。由于數(shù)據(jù)類別不平衡，文中實驗采用隨機欠采樣方法對訓(xùn)練集進行類別平衡處理。

2.2 基準模型與參數(shù)設(shè)置

為評估本文方法的預(yù)測能力，實驗采用XGBoost、LightGBM和隨機森林3種泛化能力較強的方法作為本文方法的基模型，并與支持向量機、決策樹等5種方法一起作為對比的基準模型。8種基準算法的實現(xiàn)主要使用基于Python的機器學(xué)習(xí)框架Scikit-Learn，xgboost和lightgbm，數(shù)據(jù)預(yù)處理主要使用Pandas數(shù)據(jù)分析庫。5種方法的參數(shù)設(shè)置如表1所示。

表1 方法參數(shù)設(shè)置

2.3 評價指標

由于電子商務(wù)客戶數(shù)據(jù)是不平衡數(shù)據(jù)，因此準確率并不能作為不平衡數(shù)據(jù)分類性能的評估指標。實驗采用F1值、召回率(Recall)、精確率(Precision)作為客戶流失預(yù)測模型的性能評估指標。召回率表示被正確識別的流失客戶占實際流失客戶的比例，召回率越高，說明對流失客戶的預(yù)測越準確；精確率表示被正確識別的流失客戶占識別為流失客戶的比例；F1值是關(guān)于召回率、精確率的綜合指標，其值越大，代表模型的綜合分類能力越強。根據(jù)表1，召回率、精確率、F1值的計算公式如下：

(1)

(2)

(3)

表2 混淆矩陣

2.4 實驗結(jié)果

表3是各個方法的評價指標對比，由表中數(shù)據(jù)可知，本文方法在3個指標上均有較好的表現(xiàn)。在F1值、Precision上均取得最高值，比XGBoost等對比算法平均高出8.45%，9.22%；在Recall上，與XGBoost、LightGBM持平，高于其余6種方法。總體而言，多模型融合后進一步提高了模型的預(yù)測能力，有助于企業(yè)對流失客戶做出更為精準的措施。

表3 評價指標對比

3 結(jié)語

客戶流失預(yù)測是一個不斷發(fā)展的問題，過去的研究成果解決了客戶流失預(yù)測領(lǐng)域的一些重要問題，但仍存在一些不足。例如面對復(fù)雜度較高的電子商務(wù)客戶流失數(shù)據(jù)，單個模型的預(yù)測能力有限，很難取得理想的預(yù)測結(jié)果。為此，本文基于Bagging思想，提出一種基于多模型融合的電子商務(wù)客戶流失預(yù)測模型，該模型通過集成多個分類準確度高、差異度高的單一模型的輸出結(jié)果，獲得更好的預(yù)測結(jié)果。實驗結(jié)果表明，與隨機森林等模型相比，該模型擁有更好的預(yù)測效果，有助于降低客戶流失率，提高企業(yè)的經(jīng)濟效益。由于條件所限，未能在大規(guī)模數(shù)據(jù)上驗證文中提出的方法，下一步的研究中，搜集更大規(guī)模的數(shù)據(jù)用于分析預(yù)測大數(shù)據(jù)環(huán)境下的電子商務(wù)客戶流失問題。