互聯網金融企業用戶流失預測特征提取方式對比研究

2018-12-17 11:36:04，

預測 2018年6期

，

(中國科學院大學經濟與管理學院,北京 100190)

1 引言

近年，互聯網金融經過快速發展，用戶流失問題變得與銀行業和電信業類成熟型行業一樣越來越重要。一是因為精準的用戶流失預測能為企業制定用戶策略提供有效的決策依據甚至是決策方案；二是因為獲取用戶的成本是留住用戶成本的5倍以上。在行業競爭越來越激烈的情況下，有效的用戶管理是一柄重要的競爭利劍，影響企業生存。目前互聯網金融企業正面臨用戶獲取成本高和用戶流失率高等問題，所以如何提高用戶流失預測的效果，從而在用戶管理方面提高資金利用率是一個值得研究的問題。一些學者的研究為企業在用戶流失方面提高資金利用率提供了理論支持，如Bhattacharya[1], Athanassopoulos[2], Slater和Narver[3]發現：獲取一個新用戶的成本是留住一個老用戶成本的5到6倍甚至更多；He等[4]的研究提到：哈佛商業評論研究表明降低5%的用戶流失率能夠提升25%到85%的企業利潤。

用戶流失預測效果好壞主要取決于特征變量的好壞。特征提取和選擇的相關研究主要聚焦在特征工程方面，如：Titele[5]通過從用戶的個人信息、信用卡信息、風險信息和交易信息為用戶流失預測模型設計了135個變量；Huang等[6]提出了一種多目標特征選擇方式；Castro和Tsuzuki[7]通過TFPD方式提取游戲類用戶的日志行為特征從而對用戶的流失行為進行預測；Coussement和Poel, Coussement等[8,9]通過對某電信企業的研究揭示數據展現形式對流失預測的影響；周靜等[10]運用社交網絡分析方法，通過構造與網絡結構相關的變量進行影響因素的探討，運用LR方法構建客戶流失預警模型。本文主要采用RFM(recency-frequency-monetary)和TFPD(time-frequency plane domain)方法提取特征。RFM是一個經典的基于用戶生命價值理論研究用戶行為的模型，以零售業為例，該模型提取用戶的最近購買時間、消費頻率以及消費金額三類數據來衡量用戶對企業的忠誠度和購買力，相關研究[11,12]以及拓展研究[13～16]較多。Castro和Tsuzuki[7]提出TFPD方法用于提取特征的趨勢信息，其研究結果表明該類方法應用于在線游戲領域用戶流失預測問題可比RFM方法平均提升23%的企業收益。

用戶流失預測文獻資料豐富，包含管理學方面的文獻[17～20]和計算機科學方面的文獻[21～24]，研究領域主要為電信業和銀行業，其中互聯網金融領域用戶流失預測問題的研究較少，且尚未發現基于用戶基本信息、日志行為和交易類信息這三類能較全面刻畫用戶特征的數據進行流失預測的相關研究，本研究將基于這三類數據展開。且相關文獻較少涉及針對用戶的行為類數據和交易類數據系統考慮特征提取的優化方案，本文通過RFM和TFPD兩類方法針對相關數據提取特征，并對兩類特征提取方式在不同數據類型和模型上的表現進行評估，從而為用戶流失管理提供建模技術和管理兩方面的啟示。

2 基于RFM和TFPD特征的用戶流失預測模型與方法

2.1 數據和特征

本文研究對象是案例企業賬齡3個月以上的最后一筆定期到期用戶，針對該類用戶群體，本研究采用案例企業的流失用戶定義：最后一筆定期到期后若持續30天以上平臺資金量小于150元則為流失用戶。據此，本研究的流失用戶標記依據為：以用戶最后一筆定期到期日(定期購買時間2016年10月31日之前)為開始日期，到統計日期2016年12月31號截止，如果一個用戶此期間連續30天以上賬戶總金額小于150元則被認為是流失用戶。

本文研究數據包含用戶的基本信息、日志行為信息和交易信息。為對RFM和TFPD特征提取方式進行對比，基于以上數據的特征分成三類：一是基本信息，包含用戶的性別、年齡、所在城市等級等人口學信息和活期定期投資金額等不通過RFM和TFPD方式提取的交易和行為信息；二是日志行為信息提取的RFM和TFPD類特征，日志行為信息包含用戶對企業移動端app頁面的訪問日志；三是交易類信息提取的RFM和TFPD類特征，交易信息包含用戶在企業移動端app轉入資金、購買理財產品、贖回資金等信息。

本研究共獲得13831名符合條件的用戶作為樣本數據，其中4507名為流失用戶，9324名為留存用戶，流失率32.6%。以上數據隨機選取70%采用五倍交叉驗證法同時作為分類器的訓練集和測試集，通過網格搜索確定分類器的最佳參數，另30%數據作為驗證集衡量分類器在新樣本上的表現。另外該數據集類別分布不均衡，本文采用代價敏感參數法對少數類別進行補償。對不平衡數據的處理方法將作為未來工作，本文不再討論。

2.1.1 基本特征

表1 用戶的基本特征及其解釋

案例企業提供了19個運營環境下與用戶流失關系密切的變量供參考，這些變量包含用戶人口學特征、行為特征和交易特征。表1展示了這些特征及其對應的解釋：人口學特征包含用戶的年齡、性別等信息；交易類特征包含用戶優惠券的使用率和定期投資總額等信息；行為類信息包含用戶最后一次登錄到統計截止日的時間差等信息。

2.1.2 RFM和TFPD類特征

RFM和TFPD是兩種對時間序列格式的數據進行信息提取的方法。RFM中R代表用戶最近一次購買時間距統計截止日天數；F代表用戶某一行為在統計時間范圍內發生的頻率；M代表用戶在統計時間范圍內付出的成本(金錢、時間等)。本研究的RFM特征提取方式為：通過對M變量求F的均值得到R時間范圍內的平均值特征，如：R-最后一筆定期到期前一周，F-用戶訪問移動端app頻率為5次，M-總訪問時長為40秒，則RFM變量為用戶最后一筆定期到期前一周每次訪問app平均時長8秒。TFPD是Castro和Tsuzuki[7]提出的一種頻數分析法，首先使用小波分解(wavelet packet decomposition schema)獲得變量每一時間段的頻數信息，然后將按時間順序排列的頻數類數據每兩對分別相加和相減求均值將數據分成父類和母類因素，對父類和母類因素分別重復上述操作直到父類和母類因素無法再按相同的方式進行分割。TFPD法通過對成對變量的加和求均值和相減求均值實現對變量短期變化趨勢的捕捉。

交易和日志行為數據均通過RFM和TFPD方法提取特征。交易數據為用戶在平臺的資產總額即資金存量信息，日志行為數據為用戶登錄app頻率以及對收益類頁面的平均訪問時長。其中交易信息的時間窗口為用戶最后一筆定期到期前推16周(TFPD算法收斂的條件是時間周期為2n)，統計用戶16周內每周在該企業移動端理財app的資金平均存量。由于行為數據時間有效性較短，時間窗口設置為用戶最后一筆定期到期前推8周，統計用戶每周訪問APP平均時長和收益類頁面平均訪問時長。

2.2 分類模型及其效果評估方法

本研究使用二分類模型對企業用戶是否流失進行預測，包含LR、RF和SVM三類二分類算法。對于每一個用戶，二分類模型會根據其特征產生一個0到1范圍內的概率值用以表示一個用戶為流失用戶的概率，本研究中當概率值大于0.5時，用戶為流失用戶，否則為留存用戶。以用戶流失與否的實際情況為參照，根據分類模型對用戶流失概率的預測可計算用以衡量模型分類準確度的AUC值，根據模型對用戶流失與否的判斷可獲得分類模型混淆矩陣，進一步計算分類的精準度和召回率。

2.2.1 分類模型

本文的流失預測模型中，假設樣本為{X,Y}n，則：目標變量Y為用戶是否流失，Y=1表示流失用戶，Y=0表示非流失用戶；X為m維的樣本特征向量；n表示樣本數。

LR算法是比較常用的二分類算法，具有速度快、簡單易理解等優點，適合處理線性可分的二分類問題。在LR模型中，用戶被預測為流失用戶的概率如(1)式所示，其中wi為通過樣本學習的邏輯回歸對應變量的最優參數，對于本研究P(Y=1|x)>0.5，則用戶被判定為流失否則為留存用戶。

(1)

SVM算法可以通過核函數將特征映射到高維空間解決線性不可分問題，在處理小樣本、非線性和高維模式識別中具有優勢。SVM可以通過支持向量構造最優分類平面將正負樣本分開，超平面的公式為wx+b=0，SVM通過優化問題(2～3)確定超平面參數向量w和b，其中ξi和C是為了解決線性不可分問題引入的松弛變量及其系數，允許數據點在一定程度上偏離超平面。對于本研究若wx+b>0，則用戶被判斷為流失用戶否則為留存用戶。

(2)

subjectto:yi·(w·x+b)≥1-ξi?i,ξi≥0

(3)

RF是由眾多決策樹組合而成的分類器，具有準確率高、學習過程快等優點。RF算法的輸出結果由全體決策樹投票決定。決策樹的核心算法為分裂規則，常用算法有ID3、C4.5和Gini系數。本研究選取目前最通用的Gini系數作為分裂規則，如(4)式所示，分裂規則可計算每次分裂不同特征的重要性和最優分裂點，如(5)式所示，其中A表示特征，k表示A特征的類別數，如性別特征k=2，D表示計算該特征Gini指數時劃分樣本的樣本數。通過(4)式和(5)式可以確定一顆決策樹，對于隨機森林而言，可通過隨機選擇總樣本的多個子集、所有特征的多個子集訓練多顆決策樹，新的樣本則根據多顆決策樹從訓練樣本中學習到的規則進行投票分類。

(4)

(5)

2.2.2 分類模型效果評估

二分類預測模型效果評估常用指標包含準確率、召回率、精確度、F-score和AUC(the area under ROC curve)。其中準確率、召回率等指標要求樣本為平衡數據，因為本研究采用的是不平衡數據，所以對比RFM和TFPD特征提取方式的流失預測效果時采取AUC作為評價指標；最終模型效果解釋選擇精確度、召回率和混淆矩陣三類指標。

ROC(receiver operating characteristic)曲線用于衡量分類模型區分好壞樣本的能力[25]，通常用AUC即ROC曲線下的面積表示分類器性能好壞，AUC越大，分類器效果越理想。混淆矩陣是可視化分類器在正負樣本上具體表現的工具，矩陣的每列代表類的預測值，每行代表類的實際值。TP表示分類器將實際流失用戶預測為流失用戶的數量；FN表示將實際流失用戶預測為留存用戶的數量；FP表示實際為留存用戶預測為流失用戶的數量；TN表示實際為留存用戶預測為留存用戶的數量。通過混淆矩陣可分別計算正負樣本分類的精確度和召回率，以正樣本為例：精確度指預測結果為正樣本時預測正確的比例，計算公式為TP/(TP+FP)，召回率指預測結果為正樣本且實際為正樣本占實際正樣本的比例，計算公式為TP/(TP+FN)。

3 結果分析與討論

本研究首先使用RFM和TFPD方法從用戶的日志行為信息和交易信息中提取特征，包含RFM類日志行為特征、RFM類交易特征、TFPD類日志行為特征和TFPD類交易特征；然后利用以上特征建立不同的流失預測模型，模型使用LR、RF和SVM三類算法，對案例企業最后一筆定期到期用戶流失與否進行預測，以0.5為用戶流失與否的判斷標準，即流失概率大于0.5為流失用戶，否則為留存用戶；最后以AUC作為上述模型優劣的評價指標，模型結果如表2所示。

通過表2對比三類模型五倍交叉驗證的AUC評分可以發現：對比日志行為信息beh_TFPD和beh_RFM在三類模型上的表現，beh_RFM的AUC均值均大于beh_TFPD的AUC均值，因而針對日志行為類信息通過RFM方式提取特征建模優于TFPD方式；對比交易類信息trade_TFPD和trade_RFM在三類模型上的表現，對于RF和SVM算法，trade_TFPD的AUC均值大于trade_RFM的AUC均值，此時交易類信息通過TFPD方式提取特征建模優于RFM方式，而LR算法的結論與之相反。基于以上描述，本研究的數據對于基于LR算法的流失預測模型以RFM方式提取交易特征，基于RF和SVM算法的流失預測模型以TFPD方式提取交易特征，RFM提取行為特征較為合理。

表2 各分類模型結果數據

最后，本研究以用戶基本特征、RFM方式構建的交易特征和行為特征訓練基于LR算法的流失預測模型，以用戶基本特征、TFPD方式構建的交易特征以及RFM方式構建的行為特征訓練基于RF和SVM算法的流失預測模型，過程與各類特征單獨建模一致，從精確度、召回率以及AUC三類指標衡量模型在驗證集上的表現，包含精確度、召回率和AUC的評價結果如表3所示。

表3 流失預測模型分類結果

從表3可以看出用戶流失預測模型對流失用戶的預測效果：基于LR算法的模型召回率最大為0.75，預測出的流失用戶包含75%真正會流失的用戶；基于RF算法的模型精確度最高為0.78，能以78%的準確性預測出流失用戶，優于隨機猜測的30%。以上結果是以閾值0.5為流失與否判斷依據，實際運營環境下，可以根據企業的業務需求判斷哪一類指標更重要，調高閾值以提高精確度，調低閾值以提高召回率。現假設案例企業最后一筆定期到期用戶1000名，這些用戶的流失率為30%，現需要采取行動避免用戶流失。如果企業不了解這些用戶具體流失傾向，一是對1000名用戶均采取運營優惠活動挽留可能流失用戶；二是不采取任何措施放棄將會流失的用戶。在企業不了解用戶具體流失傾向時采取行動將變得缺乏目標且成本巨大。如果企業對用戶進行流失預測，預測具體的流失用戶群體，以基于RF算法的模型為例對流失預測分類器的效果進行解釋，用混淆矩陣展示模型效果如表4所示。

表4 基于運營假設的混淆矩陣

從表4看出，1000名用戶中實際流失用戶為336名，流失率33.6%，其中模型預測總共245名用戶為流失用戶，預測正確191名，預測正確率為78%，召回率57%。運營環境下，案例企業本需對1000名用戶都采取策略從而挽留即將流失的用戶，但通過該流失預測模型，案例企業可針對模型預測的245名流失用戶采取挽留策略。與對1000名用戶采取相同的挽留策略相比，對預測為流失的245名用戶以及根據其流失可能性的大小采取不同程度的挽留策略能為企業節省可觀的用戶關系維護成本。實際運營環境下，案例企業可根據用戶維系的目標選擇具有不同表現的模型，如果傾向于留住更多用戶則可使用召回率較高的LR模型；如果更傾向于降低用戶關系維系成本則可使用精確度較高的RF模型。

4 結論與啟示

用戶流失預測的技術相對成熟，本文認為優秀的流失預測方案有兩個重要的因素：一是對具體流失問題的認知程度；二是數據的質量和從中提取的信息量。本文以互聯網金融企業用戶流失問題為背景，通過案例企業的真實用戶數據研究用戶流失預測建模問題，針對互聯網金融用戶的流失特點，選取用戶基本信息、日志行為信息以及交易信息中對用戶流失有預判作用的信息作為建模數據，其中基本信息一定程度上刻畫用戶的人口學特征，如年齡、學歷和投資偏好等；用戶的交易信息可刻畫用戶的投資偏好和傾向，如購買量的變化；用戶的日志行為類信息則刻畫用戶的投資態度，如對平臺收益的關注度，這些信息組合在一起可以大致知道用戶是否有投資意愿、目前在平臺投資的資金是增加還是減少以及對自己的投資產品或其他產品的關注程度等。針對以上數據，本文進一步比較不同的特征提取方式優劣，采用RFM和TFPD兩類方法從行為數據和交易數據中分別提取特征，對比兩類特征提取方法在不同數據即日志行為數據和交易數據與不同模型即LR、RF和SVM上的表現，發現對于LR模型RFM提取的特征表現優于TFPD，對于RF和SVM模型，行為類信息通過RFM提取特征表現優于TFPD，交易類信息通過TFPD提取特征表現優于RFM；最后本文將用戶流失預測模型應用于企業的用戶流失管理過程，可幫助企業定位潛在流失用戶，為其開展對應的流失用戶挽留策略提供數據支持。本研究旨在為用戶流失管理提供建模技術和管理兩方面的啟示，流失建模技術方面可為數據類型選擇和特征提取方式提供參考思路與方案；流失管理啟示方面，本研究的研究成果首先可為企業定位流失用戶群體從而提升運營效率，其次可依據用戶流失的概率大小差異化設計用戶關系維系成本節省企業預算。未來我們將對用戶行為和交易信息的特征處理進行更深入的分析與研究，一方面研究更多基于數據類型的特征提取方式，另一方面嘗試挖掘數據類型與適用特征提取方式背后的聯系機理，以取得更好的預測效果和更有深度的發現。