水新瑩



關鍵詞:汽車金融;行為評分卡;GPS 軌跡;數據質量;滾動率分析
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2023)14-0001-05
0 引言
近年來,隨著汽車消費金融政策陸續出臺,越來越多的車主通過汽車金融公司申請貸款購車。在市場競爭日趨激烈的背景下,為了獲取更多的市場份額,一些汽車金融公司往往會降低對客戶的審核標準,導致信用風險頻發,業務逾期率逐年攀升,給汽車金融公司造成嚴重損失[1]。為有效降低信用風險,越來越多的汽車金融公司研發信用評分卡。通常而言,信用評分卡包括申請評分卡(發放貸款前對客戶進行信用評價)、行為評分卡(發放貸款后對客戶進行信用評價)和催收評分卡(產生逾期后對客戶進行信用評價)[2]。目前,產業界和學術界的研究成果大多集中在申請評分卡,關于行為評分卡的研究較少。行為評分通過觀測客戶貸后行為特征,預測客戶未來一定時間內變成“壞客戶”的可能性,并對高風險客戶實時預警。行為評分卡利用已有客戶樣本訓練行為特征和風險的關聯性,利用機器學習算法盡可能挖掘風險出現、發展和分布的規律,輔助汽車金融機構風險管理決策。
傳統的信用風險評分卡模型多采用專家評分或回歸算法,變量少,特征維數有限,非線性規律覆蓋率低,難以挖掘客戶與風險客戶之間的相關性,難以適應當前消費貸款業務的快速發展[3]。統計方法中的線性判別分析[4]和邏輯回歸[5],因易理解和易于實現,而被經常使用。機器學習方法中比較有代表性的包括決策樹[6]、神經網絡[7]、支持向量機[8]等。然而上述研究成果都是基于貸款靜態信息的申請評分卡,很難直接用于行為評分卡。GPS定位器成為汽車金融風險管理的重要手段,在信用風險監控中應發揮作用。GPS 軌跡數據是基于時間和空間對車輛的移動過程進行采用并記錄獲得的數據,包含了車輛移動的經緯度、時間、車速、方向等信息。GPS數據蘊含了客戶豐富的出行特征,對這些特征進行分析提取,對行為評分卡建模有重要作用。本文提出了一種融合客戶GPS 軌跡數據和還款信息的行為評分卡,該模型在對客戶貸/還款相關數據和GPS數據質量評價的基礎上進行特征挖掘與衍生,并通過滾動率分析對好壞客戶進行定義,最終通過模型融合的方法構建行為評分卡。
1 數據分析與處理
1.1 數據質量評價
在構建行為評分卡之前,需要對數據資源中涉及人、車、GPS等相關數據狀況進行整體評價。本文根據《GB/T 36344-2018 信息技術數據質量評價指標》[9],選取完整性、準確性、冗余性和一致性來評價某汽車金融公司的數據質量。本文對某汽車金融公司311個數據項所產生的5 012 403條實體數據進行質量評價的結果如表1所示。
從表1可以看出:1)數據總體準確性得分較好,但客戶基本信息表中多個字段缺失值嚴重,影響了準確性得分,需要進行數據的增強與填充,以達到構建行為評分卡模型的要求;2)GPS數據在時間、經緯度、速度、方向等方面數據缺失較少,有較高的利用價值,利用可視化這些軌跡信息,可以發現客戶的日?;顒臃秶c常去地點,從而獲得用戶的主要行為模式,這部分信息可作為后續入模時的衍生信息對客戶進行建模。
1.2 數據探索性分析
數據探索性分析通過計算GPS經緯度數據及其他數據特征,并分析各特征變量的數據類型(數值型、日期型、文本型等)、分布特征(均值、方差、分位數、最大最小值)等,形成對數據初步的、輪廓性的認知。表2展示了GPS數值型數據探索性分析結果。結合數據質量評價結果,對GPS數據中每個數據字段進行統一篩查,檢測每個數據字段的缺失值、重復值、離群點、錯誤數據等數據分布情況,結合業務和常識制定針對性的處理規則進行處理,如對缺失數據較多的字段進行刪除。
從表2可以看出:經緯度數據存在明顯的錯誤數值,最大最小值均存在超出范圍的數值。因此,需要檢查該數據精度是否符合要求,對不符合的數據要予以刪除或修正。針對其他數據,對缺失的部分進行針對性的刪除或填充,同時刪除重復數據和錯誤數據,對離散數據進行分箱或歸類操作。此外,對文本型數據進行編碼處理,如歸一化、標準化、onehot、word2vec?tor 處理。對日期型數據,進行年月日劃分處理;對數值型數據,進行分類、分箱等處理。
2 滾動率分析
2.1 賬齡分析
在表現期是在觀察點之后對客戶還款情況進行監測,著重監測客戶的逾期情況。一般而言,表現期周期不應過短,而且應盡可能地將壞客戶包括其中,從而保證在接下來能在這段時間內判定哪些是“好用戶”、哪些是“壞用戶”。本文統計了某汽車金融公司貸款客戶的賬齡(MOB,Month on Book)折線圖,如圖1 所示??梢钥闯觯蛻粲馄诼试?6月之后上漲趨勢趨于平緩,暴露比為67%。
2.2 好壞客戶定義
在信貸風險管理資產質量分析中,通常使用滾動率分析來定義客戶好壞程度[10]。通過統計樣本在不同逾期狀態中的遞延狀態,進而確定好壞樣本的定義,運用滾動率分析觀察客戶在不同時間段內的滾動變化。
2.2.1 設定觀察期和表現期
根據MOB分析,本文設定觀察時點2021年1月1 日,觀察點往前推m個月定義為觀察期,觀察點往后推n個月定義為表現期,初步設定m=12,n=12。對觀察期和表現期逾期各個狀態說明如表3所示。
2.2.2 構建轉移矩陣
本文構建逾期情況矩陣,以觀察期的逾期情況和表現期的逾期情況進行交叉統計,分別形成樣本數量矩陣表和樣本占比矩陣表(即滾動率分析表)。分別統計樣本客戶在觀察期和表現期的最高逾期狀態和樣本數量分布,如表4所示。
2.2.3 客戶定義
通常而言,可以根據逾期次數和天數衡量客戶質量。在觀察期最高逾期狀態為S0、S0-1、S0-2和S0-3 的客戶,狀態保持S0之內均在70%左右,且向S4狀態轉移率均在1%左右,說明此類用戶較多仍為“好客戶”。S1-1狀態保持率在44%左右,轉好率在34%左右,轉壞率為21%左右,因此也認定為“好客戶”。S1-2狀態保持率在47%左右,向壞轉移率為38%,向好轉移率為15%,因此認定為“壞客戶”。S1-3用戶向壞轉移率為65%,向好轉移率為5%,因此也認定為“壞客戶”。S2-1狀態保持率在30%左右,且向好和壞轉移率均在30%左右,因此認定為“中間客戶”。S2-2和S2-3的客戶forward占比超過60%,且轉好率較低,說明此類客戶較多,仍為“壞客戶”。根據汽車金融業務實際需求,S3-1、S3-2和S4必須被認定為“壞客戶”。表5展示了客戶劃分的依據。
3 特征工程
如1.1節分析,GPS數據在時間、經緯度、速度、方向等方面數據缺失較少,有較高的利用價值。經緯度數據精度較好,可以計算相鄰經緯度之間的距離差,結合時間戳可以計算出客戶在指定范圍內的駕駛情況和停車情況。基于此,可以挖掘出客戶日常出行規律,從而獲得客戶的主要行為模式,這部分信息可作為后續入模時的衍生信息進行建模。圖2和圖3分別展示了上班族和貨運司機的行為模式。從圖2和圖3中可見:上班族停留點主要集中于兩點,可能是家和公司;貨運司機停留點存在較為連續的軌跡,說明其可能在固定線路上運載貨物。由于本文構建的是行為評分卡,因此客戶還款行為也是重要的特征來源。
3.1 基于GPS軌跡的特征挖掘
本文基于GPS 軌跡的特征提取流程如圖4所示。首先,利用降采樣得到車輛GPS軌跡數據。其次,根據不同客戶放款時間拆分源GPS數據。最后,獲取得到基于GPS的軌跡特征,包含基于GPS的駕駛特征、基于GPS的出行規律特征、基于GPS的異常信息特征、基于GPS的駕駛行為變化特征等幾個維度對GPS數據進行特征提取。
3.1.1 基于GPS 經緯度數據的降采樣
本文通過對GPS經緯度數據進行數據降采樣,剔除GPS數據中的冗余數據,從原始數據中提煉出有價值的數據,在保證數據正確性的情況下,減少冗余數據對特征挖掘的影響,同時提高特征提取的效率。數據降采樣的主要過程:首先對不同月份的GPS數據進行分批處理,采用數據預處理技術,剔除GPS數據中的錯誤數據,同時對待提取數據字段進行數據整合,包括數據類型統一和數據格式的確定,從而為下一步的數據降采樣提供可靠的GPS基礎數據。然后,采用Douglas-Peucker算法對待處理數據進行降采樣操作,其中,針對相鄰GPS數據頻率不一致的情況,對待處理數據進行隨機抽樣,同時結合數據可視化技術,計算出在不同步長的情況下,使用Douglas–Peucker算法的最優參數,進而實現在保證GPS數據準確性的情況下,提高數據降采樣的精度。
3.3.2 基于GPS 數據的駕駛習慣特征挖掘
本文通過對海量的GPS經緯度數據進行分析,從中提取出用戶在不同時間的駕駛習慣特征,如白天駕駛行為特征和夜間駕駛時間特征。首先,采用日期轉換方法對日期數據進行處理,統一日期數據格式,同時,根據不同模型的表現期和用戶的月還款日期,提取出對應的GPS數據。然后,針對不同用戶的GPS經緯度數據進行分批處理,采用統計學技術,計算車輛靜止的時長和與其相鄰GPS數據之間的距離,結合數據可視化技術,分析出車輛靜止和運動之間的規律,進而得出車輛靜止或運動的相關條件。然后,融合日期數據處理技術和經緯度距離計算技術,在劃定不同時間區間的情況下,完成指定時間內的駕駛時長、駕駛里程以及停車時長等特征的提取。接著,通過計算每個特征的信息增量值,提取出信息增量值較大的特征,結合業務規則,利用統計學的方法分析其對模型效果提升的深層次因素,并在其基礎進行時間區間的修改,完成相關特征變量的衍生,進而挖掘出更有價值的特征。
圖5展示了本文基于GPS經緯度數據的特征挖掘框架,主要包括駕駛行為特征、出行規律特征、軌跡異常點特征和與上月出行變化特征。
3.2 基于還款行為的特征挖掘
本文基于還款信息行為的變量衍生如圖6所示。通過數據探索性分析完成對還款行為數據的分析,并將其歸類成數值型數據和字符型數據。首先,針對數值型數據,采用數據挖掘中的分箱技術對其進行分箱操作,完成特征變量的衍生。同時,針對字符型數據,采用字符串拼接技術對其進行數據拼接。然后采用信息增量的計算方法計算衍生特征對模型預測效果的強度,進而篩選出有價值的衍生特征。
本文通過分析客戶逾期信息表,對逾期行為進行統計,得到逾期天數和次數等特征。結合客戶還款和逾期行為,構建基于還款行為的特征衍生,對近一月、近兩月和近三月的逾期情況分別統計,得到逾期天數、逾期<=3天次數以及逾期4~30天次數等特征。
4 模型訓練
4.1 模型融合
在模型訓練方面,本文采用基于邏輯回歸、XG?Boost 和LightGBM 模型作為基分類器的模型融合方法。首先,根據滾動率分析,結合歷史貸款用戶的貸款情況、還款情況、逾期情況、曾經造成相關損失情況等,對貸款客戶進行風險分類。其次,通過設置初始化模型參數,將篩選后的特征數據輸入邏輯回歸、XG?Boost和LightGBM模型中。然后,比對和分析上述三個模型的預測結果和預測性能,結合Voting融合算法對基分類器的輸出結果進行加權集成,實現多模型的融合,最終訓練出行為評分卡模型。考慮到本文中模型預測的結果為客戶處于風險狀態的概率情況,本文中使用soft-voting軟投票機制,根據各個分類器分類的概率之和作為最終分類依據。相比于硬投票取各個投票器投票結果的多數作為最終分類結果,軟投法考慮到了預測概率這一額外的信息,因此可以得出比硬投票法更加準確的預測結果:
其中,hji( x ) 是基分類器hi在類別標記cj上的輸出結果,wi是hi的權重,H(x)為輸出的類別標記。模型融合過程如圖7所示。
4.2 超參調整
本文采用貝葉斯搜索對模型的超參數進行調整優化,利用已搜索的超參數組合信息形成的模型結果來指導新的超參數組合搜索信息,從而提升選擇的下一組超參對應的模型質量以及模型整體優化速度。該方法主要由代理函數與構造采集函數構成:代理函數對目標函數進行建模,計算每一組超參對應點計算得到的函數值均值和方差;構造采集函數決定下一輪迭代時超參的選擇方向。通過組合模型結果、代理函數結果與構造采集函數結果,對超參數的采樣方向進行優化。
5 實驗分析
5.1 實驗環境
本文使用操作系統為Ubuntu 22.10,內存128GB,CPU為Intel i9-12900KF,GPU為NVIDIA Tesla A100。
5.2 數據集
為了評估行為評分卡模型的有效性,本文構建了一個由23 243個貸款客戶從2020年1月到2021年12月的數據集,其中“壞客戶”占比約為6.1%。數據集包含靜態數據和動態數據:靜態數據主要是客戶基本信息和貸后還款信息;動態數據主要是客戶每月GPS軌跡數據。本文從中選取了20 000數據作為訓練集,2 000條數據作為驗證集,1 243條數據作為測試集。
5.3 實驗結果
本文采用準確率(ACC)、精確率(Precision)、召回率(Recall)和F1值作為行為評分卡評價指標。為了驗證本文預測模型的性能,將本文模型與邏輯回歸、XGBoost、LightGBM三個子模型進行對比,同時對比了使用硬投票(Hard Voting)機制進行融合的模型,具體實驗結果如表6所示。由表可知,本文基于模型融合構建的行為評分卡在各項評價指標上均超過了其他模型的預測效果,因此證明了本文所提模型的有效性。具體來說,由于XGBoost和LightGBM均是在梯度提升迭代決策樹(Gradient Boosting Decision Tree)的基礎上進行優化,基于預測和實際值的殘差進行訓練,可以有效提升模型性能,因此取得了相較于邏輯回歸更優的模型效果;而Hard Voting Model采用硬投票機制融合了三個模型的預測結果,因此取得了相較于單個模型最優的效果;硬投票機制只融合了模型分類結果,會導致預測信息的丟失,因此本文模型使用軟投票(soft vot?ing)的方式融合了邏輯回歸、XGBoost和LightGBM三個模型的預測結果,并取得了最優的模型性能,這也說明了軟投票機制在本文模型中的有效性。
為了證明本文使用GPS作為模型特征的有效性,本文進行了消融實驗。在消融實驗中,采用去除GPS特征后的行為評分卡模型作為消融實驗模型,實驗結果表7所示。根據表中結果可以看出,本文使用GPS 特征作為模型特征可以有效提升模型預測效果,各項指標均有超過兩個百分點的提升,這說明了GPS數據對于衡量客戶風險也起到了非常重要的作用。
6 結束語
在多源異構數據融合的技術背景下,單純依靠客戶靜態信息進行行為評分卡建模難以獲得較好的性能。為此,本文提出了一種融合車輛GPS數據和客戶還款信息的行為評分卡模型。該模型的創新點在于基于GPS數據的駕駛習慣特征挖掘,包括駕駛行為特征、出行規律特征、軌跡異常點特征和與上月出行變化特征。GPS衍生特征結合基于還款行為的特征衍生能夠更好地捕獲客戶在貸款后的行為表現,對于預測客戶放款后是否發生逾期風險有著較好的預測效果。未來,將知識圖譜技術引入行為評分卡模型,通過圖計算方式提取客戶網絡特征,進一步提示模型效果。