鐵錦程



摘 要: 基于數據驅動的決策已經成為信用卡客戶經營的關鍵,各類業務場景中的決策需要大量的客戶深層次特征,同時對特征的可解釋性有較高的要求。論文借鑒RFM模型和蒙特卡洛思想,提出了一種自動構造特征、智能篩選特征的數據挖掘方法,并以客戶風險識別模型為場景進行了實驗驗證。結果表明,基于RFM模型的自動化數據挖掘方法,一方面能夠提高特征挖掘的效率,發掘更深層次的復合特征,提升模型的識別能力;另一方面產出的特征可溯源、可解釋,能更好地幫助業務人員理解模型的結果。
關鍵詞: 數據挖掘;RFM模型;自動特征構造;智能篩選
中圖分類號: TP 391
文獻標志碼: A
Tapping the Automatic Mining Method of Credit CardCustomer Features Based on RFM Model
TIE Jincheng
(Shanghai Pudong Development Bank, Shanghai 200120, China)
Abstract: Data-driven decision-making has become critical to credit card customer operations. Decision-making in various business scenarios requires a large number of deep-level features of customers, and has high requirements for the interpretability of features. In this paper, based on the RFM model and the Monte Carlo method, a data mining method is proposed to automatically construct and intelligently filter features. A numerical experiment is carried out with the customer risk identification model scenario. The results show that the automatic data mining method can improve the efficiency of feature mining and discover deeper composite features. It is also able to improve the recognition ability of the model to help people understand the results of the model.
Key words: data mining; RFM model; automatic feature construction; intelligent filtering
1 特征工程現狀及問題
1.1 特征工程重要性
分析建模一般包括數據清洗、特征構造、篩選、模型訓練、部署和監控等步驟,其中數據清洗、特征構造、篩選的過程稱為特征工程。在分析建模中,特征工程是非常重要的環節,目的是盡可能地從原始數據中提取信息供算法使用。“數據和特征決定著機器學習模型的上限”,機器學習算法結果的好壞在很大程度上取決于特征質量,因此在機器學習模型算法和參數配置相同的情況下,特征的微小變化都可能對預測結果產生較大的影響。同時,特征工程也是一項復雜并耗時的活動,往往需要人工花費大量的時間參與,且高度依賴工程師的業務經驗和直覺。
圖1展示了一般情況下建模全流程中的主要工作內容及工作量分布,特征工程占到全部工作的70%左右,是非常重要的一環。
1.2 特征工程的現狀及問題
當前,特征工程工作大多仍采用人工方式。人工方式由建模人員依靠其領域內的專業知識,通過迭代試錯、模型評估等方法來進行。這種方法具有非常大的局限性:一是加工的數據源始終局限在自己的認知范圍,很難在有限的時間內從更多角度、維度發現客戶的特征并加以構造,導致無法跟上客戶的行為變化;二是挖掘層次低,較難進行深層次的特征挖掘,難以有效地挖掘客戶潛藏的特征;三是人工加工費時費力,需要開發大量的代碼和腳本,邏輯設計、特征梳理中很大一部分工作是重復的,得到的特征還需驗證之后才能使用。同時隨著數據量的持續爆炸式增長,人工特征的構造速度已經遠遠跟不上數據的發展規模,長尾數據也很難得到有效挖掘,且隨著建模人員的流失,好的特征構造經驗也很難得到傳承。
由于特征工程的重要性,而人工特征挖掘限制較多,不少公司、組織開始嘗試用深度學習方式來實現自動特征挖掘。這種方式是通過大數據深度學習技術,通過預制的算子來實現特征的自動產出。但其也存在一些問題:一是無效特征多,由于采用固定的方法和算子,挖掘出來的不少特征只是數據間的簡單運算,很多特征無實際含義,無法發揮實效;二是深度學習產出的特征可解釋性較差,難以滿足監管要求。因此,深度學習自動產出的特征難以直接應用于金融領域。
2 基于RFM模型的自動數據挖掘方法研究
2.1 RFM模型簡介
RFM 模型是客戶關系管理的常見分析模型,是衡量客戶價值的一種常見方法。RFM 模型包括近度R (recency)、頻度F (frequency)以及金額M (monetary)三個參數。R表示用戶最近一次消費時間點距離分析時間點的時間間隔; F 表示在一段時間內用戶的交易次數; M 表示在一定時間內用戶消費的總金額。
RFM模型思路清晰、操作簡單,且能夠快速區分出不同價值的客戶群體,在客戶價值的分析中較實用。
2.2 深度特征合成算法簡介
深度特征合成算法(Deep Feature Synthesis, DFS)是一種能夠直接從關系型數據庫中自動提取信息,并轉化有意義的交叉特征的方法。該方法基于原始數據信息,按照一定的順序應用數學邏輯創造出新的特征。因為衍生是有順序的,且衍生可以是多層次的,所以產出的特征是有深度且可以解釋的。
算法的輸入是一系列有關系的實體組合,如E1,2,…,K表示有K個實體的數據集,xki,j表示第k個實體第i個實例特征j的值。算法最終衍生出三種類型的特征:實體特征efeat、直接特征dfeat、關系特征rfeat,三類特征的產生方式如下:
1)efeat: 實體本身的特征,由實體中的每個值推導出新的特征,推導過程可由公式(1)表示:
xi,j′=efeat(x:,j,i)(1)
2)dfeat: 用于兩個具有前向關系(多對一)的實體之間,可直接進行轉換,即對于屬于實體Ek的特征(i∈Ek) 可直接轉化成實體El的特征(m∈El)。
3)rfeat: 用于兩個具有后向關系(一對多)的實體之間,即在實體El中進行聚合操作,得到Ek中一系列新的特征,聚合條件為ek=i,轉化過程可由公式(2)表示:
xki,j′=rfeat(xl:,j|ek=i(2)
最終衍生出的特征數量zi可由公式(3)表示:
zi=(e·j)∑iu=0[(r·m+n)u·(e+1)u](3)
式中 i表示迭代次數;e表示efeat的個數;r表示rfeat的個數;n、m表示前向關系和后向關系的個數。
2.3 基于RFM模型的自動數據挖掘思路
本研究借鑒了RFM模型,并對參數R、F、M的含義進行了拓展。新方法中各參數的含義見表1,其中R代表時間、間隔等時間類特征,F代表次數、頻次等特征,M代表金額、數量、期數等數值類特征。
為使特征自動化產出,本研究引入了算子的概念。將數據分析人員常用的特征挖掘邏輯,即變量之間的運算關系,加工為一段固定代碼,形成一個函數,該函數就被稱為算子。一個完整的算子包含如下幾個部分,見表2。
整體衍生過程思路如下:將處理后的基礎數據劃分成R、F、M不同類別,隨后調用算子衍生出各類別的基礎特征,此類的組合是有順序的,一般是R類、F類、M類單獨,或R類和F、M類的組合,衍生出R類、F類、M類、RF類、RM類等各類別基礎特征,如R類特征“上次交易距今時間”、M類特征“金額是否大于100”、RF類特征 “近一個月交易次數是否大于5次”等。然后通過不同基礎特征間的隨機交叉組合,衍生出大量的交叉特征,如RF類特征“近一個月交易次數大于5次”和RM類特征“近一個月交易金額大于1000元”交叉組合成RFM類特征“近一個交易金額大于5次且交易金額大于1000元”。同時基礎特征、一層交叉特征及新產生的交叉特征之間還可以進行隨機交叉組合,衍生出更多、更深層次的特征。整個衍生過程中按照DFS算法進行有序的特征衍生,這樣可通過衍生層次的控制,挖掘更多潛藏的客戶特征。衍生思路如圖2所示。
3 基于RFM模型的自動數據挖掘過程
3.1 總體方案
圖3展示了基于RFM模型的自動數據挖掘總體流程,整體分為三個階段:一、數據梳理,包含數據清洗、行為數據分類兩個步驟,是對數據進行的整理和歸類工作,便于之后進行特征挖掘;二、特征構造,是特征挖掘的核心階段,包含算子開發和特征衍生兩個步驟;三、特征篩選,過濾出更加有用、區分度高、魯棒性強的特征,便于后續模型調用。
3.2 數據梳理
數據梳理階段,主要是對數據的前期整理工作,包含數據的清洗和歸類,最終梳理出有用且歸類好的數據用于后續的特征挖掘。同時,對數據進行維度分類,將雜亂無章的數據進行細分,使產生的特征具有業務含義,使得后續的特征挖掘在有序的空間內進行。這樣的特征衍生是有序的,避免暴力衍生的發生。
3.2.1 數據清洗
數據的預處理工作,主要操作如下:
1)無效數據剔除:如全空值數據、全唯一值數據等。
2)數據類型識別:識別數據的基礎類型,如布爾型、數值型、枚舉型、時間型和文本型等。
3)空值填充:數值型填充為平均值,其余類別數據填充為-999999。
4)數據處理:將時間型數據轉換為標準時間,文本型數據進行分詞等。
5)數據標準化:對數值型數據進行歸一化處理等。
3.2.2 行為數據分類
在得到干凈的數據后,依據數據描述的行為類型,對數據進行分類。根據信用卡數據的特點,將數據分成交易類、埋點類等不同大類,每個大類又包含多個小類。表3為部分分類示例。
3.3 自動特征構造
特征構造是自動特征工程中的核心部分,也是自動特征工程中的難點。在得到清洗且分類好的數據后,基于RFM衍生框架和算子匹配,得到大量、有序、有深度且可解釋的基礎特征和衍生特征。
3.3.1 算子構造
算子固化了建模人員特征加工的經驗,將其轉化為固定程序,實現了特征的自動挖掘和衍生,大幅提升了特征生成的效率。當前已梳理加工八大類219個算子,算子類型及示例如表4所示。
3.3.2 基于RFM模型的交叉特征衍生
在得到清洗過且分類好的數據后,進一步按照RFM模型,將數據劃分成R、F、M等不同類別,并調用算子生成基礎特征;隨后在RFM的框架下,按照DFS算法隨機且有序地生成大量交叉特征。
表5與表6分別是用戶交易數據和app瀏覽數據的部分字段示例。圖4為利用基于RFM模型的自動特征衍生方法特征生成路徑演示。
這種基于RFM模型框架下衍生機制的主要好處有:
1)特征衍生是有序的:交叉特征衍生基于RFM框架和DFS算法,通過不同類別特征間的有序組合,避免大量雜亂無章的特征衍生,所產生的特征都是有邏輯的。
2)特征衍生是大量的:特征間的組合是隨機的,這就保證能充分利用所有數據,盡可能全面地挖掘客戶所有特征。
3)特征衍生是有深度的:可通過控制交叉特征衍生的層次,實現特征挖掘的深度,盡可能發掘客戶潛藏的信息。
4)產生的特征是可解釋的:由于特征已按信息維度和指標維度進行分類,且數據間的衍生組合是有順序、有邏輯的,這就保證每個產出的特征都可以翻譯成業務邏輯,都是可以解釋的。
3.4 智能特征篩選
特征篩選也是非常重要的一個環節,能夠降低特征維度、減少數據冗余,保留更有效的特征。由于金融業務場景中數據特征維度較大,存在大量無關或冗余的特征,這些特征對模型的性能沒有貢獻,甚至會降低模型的效果,因此需要篩選更有用、區分能力更強的特征,減少特征維度和模型復雜度,在增強模型性能的同時降低計算迭代成本。本研究通過統計指標篩選和模型篩選來篩選出有效的特征。其中,統計指標篩選包括極值、缺失值、分位數、信息值IV等統計量指標過濾出有效的特征;模型篩選是對訓練樣本隨機抽取并建立模型,通過模型群自動篩選入模特征。
由于在建模過程中使用的是歷史數據集訓練模型,而隨著不同時間段策略、政策等因素的變化,人群結構也發生變化,這使得很多特征雖然在總體訓練集、測試集、跨時間驗證集上的效果很好,但策略發生變動后,特征的穩定性和區分度變差。因此,本研究創新性地引入多模型篩選方法,可以解決特征在不同切片數據源上不穩定的問題,使得最終產出的特征在滿足區分能力的前提下穩定性更好,在不同場景、不同數據集上的魯棒性更強。
該方法的理論基礎是蒙特卡洛法。蒙特卡洛法的基本思路是,為了求解問題,首先建立一個隨機過程,使隨機過程的參數或特征等于問題的解,然后通過抽樣實驗來計算這些參數或特征,最后給出所求解的近似值。在計算仿真中,通過構造一個系統性能近似概率模型,并進行隨機試驗,可以模擬系統的隨機特性。具體做法如下:
1)將訓練數據按7∶3切分成訓練集和測試集。
2)每隨機切割一次訓練集和測試集,進行模型訓練,統計訓練后的入模特征、特征的重要性及特征的假設檢驗,剔除不滿足的特征。
3)重復第二步,統計各特征的入模次數并結合假設檢驗,剔除不滿足條件的特征,利用最終特征集訓練模型,若測試集和訓練集區分度最優且各性能指標穩定,說明模型訓練收斂。
4)進行跨時間驗證,檢驗特征在跨時間訓練集上的穩定性,若不穩定,結合具體特征并按照同樣的方式切割數據,重復步驟1~3,直至模型收斂。
特征篩選的流程如圖5所示。
4 效果分析
本文設計的客戶特征自動挖掘方法已經在卡中心多個客戶經營場景下得到了應用,在此我們以客戶風險識別場景為例,來驗證自動挖掘方法的效果。
客戶風險識別場景是指在客戶申請信用卡時決策是否接受客戶準入的環節。銀行需要預判每個客戶的風險,如果客戶風險過高則進行攔截。傳統的方法都是基于專家經驗的評分積分卡對客戶進行打分。這種方法顆粒度較大,不僅會遺漏一些中高風險的客戶,也會攔截掉一些高質量的中低風險的客戶,因此最近幾年各銀行都采用機器學習的算法來進行建模打分。我們構建了一個機器學習模型,來評估每一位客戶的指標,其重要輸入則是客戶大量的多方面的特征,其涉及的原始數據表有11張。假設只分析1萬個客戶,則大約需要分析10萬行數據。使用本文提出的特征自動構造、自動篩選的數據挖掘方法,我們大約構建了2000個特征,然后和基于專家經驗指定的55個特征一起輸入機器學習模型。該模型中,最終入模的84個變量中,有60個特征是用此機制產出的自動特征。按重要性排序,前10個最重要特征中,有6個是自動產出的特征,如表7所示。
同時本文也對比了基于自動特征的新模型和現有模型的效果。對比6個月的模型運行數據,可以發現新模型的KS值提升4%左右。
由于采用了特征自動構造、自動篩選的數據挖掘方法,減少了分析建模人員大量的數據加工開發工作,簡化了特征篩選的過程,實現了特征挖掘效率的大幅提升,提升了建模效率。
5 總結與展望
本研究基于信用卡行業數據特點,建立的基于RFM模型的自動特征衍生機制和基于蒙特卡洛思想的模型篩選機制,極大提升了特征挖掘的效率、深度和廣度,且產生的特征具有高度的穩定性、區分能力和可解釋性,能夠實現在信用卡領域的快速應用,取得了較好的業務效果。本研究探索出一套針對信用卡領域知識的自動化特征挖掘方法,對于金融領域傳承業務經驗、規范特征管理、提升數據挖掘效率、縮短建模周期等具有借鑒意義。
本研究雖然實現了特征衍生和篩選環節的自動化、智能化,但數據分析理解環節仍需要人工參與。后續將深入研究數據業務含義自動推斷,探索信用卡數據自動分析識別機制,從而實現數據挖掘的全流程自動化,進一步解放人力,讓科技在更深、更廣的層面助力業務發展。
參考文獻:
[1] 崔嘉桐. 特征變量數據挖掘技術助力信用卡業務智慧決策[J]. 中國信用卡, 2020(11): 92-93.
[2] 高富平, 冉高苒. 數據要素市場形成論:一種數據要素治理的機制框架[J]. 上海經濟研究, 2022(9): 70-86.
[3] 黃寶鳳, 祁婷婷. 基于特征工程的個人信用風險評估組合模型[J]. 中國統計, 2021(6): 37-39.
[4] 閆永君. 基于時間特性的信息用戶行為特征挖掘研究[J]. 情報科學, 2021, 39(8): 126-131.
[5] ZHANG X, HAN Y, XU W, et al. HOBA: a novel feature engineering methodology for credit card fraud detection with a deep learning architecture[J]. Information Sciences, 2021, 557: 302-316.
[6] 王成, 王昌琪. 一種面向網絡支付反欺詐的自動化特征工程方法[J]. 計算機學報, 2020, 43(10): 1983-2001.
[7] 周俊妍, 薛文良, 魏孟媛, 等. 基于在線評論的服裝質量特征挖掘方法[J]. 東華大學學報(自然科學版), 2021, 47(5): 68-73.
[8] 朝樂門, 王銳. 數據科學平臺:特征、技術及趨勢[J]. 計算機科學, 2021, 48(8): 1-12.
[9] 卓靈, 孫昕. 一種基于改進RFM模型的數字集群用戶分類方法[J]. 計算機應用研究, 2020, 37(9): 2822-2826.
[10] KANTER J M,VEERAMACHANENI K. Deep feature synthesis:towards automating data science endeavors[C]// Proceedings of the 2015 IEEE International Conference on Data Science and Advanced Analytics. Piscataway:IEEE,2015:1-10.
[11] 潘婧, 柴洪峰, 孫權, 等. 超高維刪失數據的聯合特征篩選方法研究[J]. 系統工程理論與實踐, 2023,43(1): 1-22.
[12] RTAYLI N, ENNEYA N. Selection features and support vector machine for credit card risk identification[J]. Procedia Manufacturing, 2020, 46: 941-948.
收稿日期:2023-04-20
作者簡介:鐵錦程(1970—),男,河南開封人,博士,高級工程師,主研領域:計算機應用。