張亮
摘 要:現有的常用風險評估算法主要基于邏輯回歸分析,存在難以處理大量多類特征,非線性能力缺失等問題,基于集成學習的多源融合算法能夠在大數據驅動下有效解決這些問題,完成個人貸款的風險評估。
關鍵詞:大數據 多源融合 風險評估
Research on Risk Assessment of Auto Finance Driven by Big Data
Zhang Liang
Abstract:The existing commonly used risk assessment algorithms are mainly based on logistic regression analysis, and there are problems such as difficulty in handling a large number of multi-type features and lack of nonlinear capabilities. Multi-source fusion algorithms based on integrated learning can effectively solve these problems under the drive of big data and fulfill risk assessment of personal loans.
Key words:big data, multi-source fusion, risk assessment
1 研究背景
隨著“互聯網大數據+金融”的不斷發展,汽車信貸規模不斷擴大,車輛貸款違約風險也隨之增大。因此,對個人貸款的信用風險評估迫在眉睫。個人信用風險評估的數據核心來源于貸款申請人在申請過程中提供的基本信息,以及汽車貸款機構收集和補充的附加信息,以此對個人信用分析進行全面調查,并采用邏輯回歸分析等分類方法或技術將貸款申請人劃分為“低風險客戶”與“高風險客戶”,以便降低貸款機構的壞賬率[1]。由于貸款機構與貸款申請人之間的數據鴻溝造成信息不對稱,如何對個人信用風險進行評估已成為學術界以及汽車、金融等行業極具研究價值的問題。
2 基于集成學習的多源融合風險評估算法
算法以多源融合為核心,大數據為驅動完成個人風險評估模型的搭建。包括以下步驟:首先對采集到的數據進行預處理;然后通過預處理之后的樣本數據訓練集成模型,輸出特征權重;并進一步構建出個人信用風險評分卡(風險評估模型);最后對用戶風險評分進行分析,確定高風險與低風險區間的分數閾值。整體的算法流程見圖1。
3 風險評估算法流程
風險評估算法的具體流程如圖2所示:
步驟一:數據預處理;如圖2中的虛線部分,由貸款申請者和貸款機構收集的數據存在數據缺失和數據異常等情況;在預處理階段,對原始數據進行數據清洗和核對[2],并經過特征向量的相關性分析篩選出強獨立性的特征,特征間的相關系數[3]如式1所示:
上式中,ri,j表示第i個特征向量與第j個特征向量之間的相關系數,cov(i,j)表示i與j的協方差,表示標準差,本文采用的數據集有34個原始特征,通過相關性分析,篩選出16個獨立性較強的特征,不僅有效剔除了冗余特征,而且大大減少了計算量。
步驟二:集成模型的搭建;結合第三方征信和貸款機構的真實人工授信數據制作訓練樣本的標簽,子模型的訓練分別采用SVM支持向量機、隨機森林以及BP神經網絡分類算法,算法的子模型輸出如式2、3、4所示[4][5][6]:
式2、3和4中,、、分別表示支持向量機、隨機森林、BP神經網絡的子模型輸出,然后采用AdaBoost集成策略將子模型的輸出融合[7],計算公式如式5所示:
上式中,H(x)為集成模型輸出,ER表示模型輸出與標簽y*之間的誤差,表示子模型的權重。其中θ的取值隨著ER的變化而不斷更新。
步驟三:輸出個人信用風險評分卡(風險評估模型);采用缺一法從首個特征開始,通過集成模型分別計算出缺失當前特征的分類正確率,將正確率歸一化至[0,1]區間內,即為每個特征向量對應的權重,進一步歸一化[8][9]至[0,100]區間,得到總分為100的個人信用風險評分卡。
步驟四:確定分數閾值;分析用戶的得分與對應標簽的匹配程度,尋找用戶風險程度(高風險、低風險)最佳劃分的分數閾值。
本文使用的數據集如表1所示:
子模型與集成模型的訓練正確率如表2所示:
由表2中各模型的正確率對比可知,集成模型能夠篩選出訓練效果較好的子模型,綜合不同算法模型的優點,提高算法的正確率和魯棒性。
個人信用風險評分卡如表3所示:
用戶得分的整體分布如圖3所示:
由圖3可知,用戶的得分主要集中在60-75分段,其中70-75分段人數最多,因此閾值的初始值選取應該在60-75之間,通過分數閾值的不斷迭代更新,得到用戶風險評估的最佳劃分[10]如表4所示:
由表4可知,選定的分數閾值為65和75,即用戶的得分在75分以上是認定為低風險的好用戶,得分在65以下認定為高風險的壞客戶,得分在65-75之間時進行人工審核。
4 結論
本文提出的風險評估算法采用多模型融合的方式,通過子模型的集成優化克服了傳統方法在處理大量多類特征時因為非線性程度太高而難以擬合的情況,通過大量數據的訓練提高了風險評估模型的正確性和泛化性,且隨著采集數據的增加,模型能夠進行實時更新;在貸款申請初期,能夠有效判定高風險與低風險用戶,大幅度降低人工審核成本。
基金:基于5G通訊及C-V2G,柳州市科技計劃項目;項目號:2019AG10202
參考文獻:
[1]Louzada F, Ferreira-Silva P H,Diniz C A R.On the impact of disproportional samples in credit scori-ng models:An application to a Brazilian bank data[J],Expert Systems with Applications,2012,39,9:8071-8078.
[2]周壽彬.基于反常擴散模型的個人信用風險評估方法[J].統計與決策,2016(13):65-68.
[3]姜志旺,張紅霞,鄭艷娟.基于BP神經網絡模型的互聯網金融信用風險評估研究[J].黑龍江科技信息,2017(16):338.
[4]鄭建國,李新.基于SVM模型的企業信用風險評估研究[J].企業科技與發展,2020(05):220-221+224.
[5]王妍.基于隨機森林的信用評估特征選擇[J].黑龍江科學,2019,10(14):159-161.
[6]李佳蓉,蔣艷莉,湯禮媛.基于BP神經網絡的P2P網貸個人信用風險評估[J].時代金融,2019(24):105-106.
[7]趙興朝. 基于BP-PSO-AdaBoost模型的P2P網貸借款人信用風險評估研究[D].西南財經大學,2018.
[8]胡賢德,曹蓉,李敬明,阮素梅,方賢.小微企業信用風險評估的IDGSO-BP集成模型構建研究[J].運籌與管理,2017,26(04):132-139+148.
[9]夏克鋼.商業銀行融資租賃業務分析和風險控制研究[J].財經界(學術版),2020(16):84-85.
[10]孫川.車貸風險控制平臺的設計與實現[D].北京交通大學,2019.