郭文博


摘要:目前汽車金融貸款的市場增長較快,各個銀行競爭激烈,同時各類汽車貸款公司、互聯網金融平臺也加入了市場競爭。在為了在市場競爭中取得一定的優勢,銀行需要提升自身的風控水平以及效率。本文在文獻研究以及理論研究的基礎上,構建基于Stacking集成學習的模型,對汽車金融貸款違約風險進行預測。
關鍵詞:金融科技;汽車金融;Stacking集成學習
一、研究背景
自2001年人大在十一五綱要中確立汽車進入家庭的政策激勵開始,汽車市場在這十五年期間發展迅速,在中國加入世貿組織迎來全球化沖擊的助推下,中國汽車市場已經成為世界第一的汽車產銷大國。2018年我國乘用車市場累計銷售超過1871萬輛,汽車保有量超過2.35億輛。隨著汽車行業的發展,汽車貸款金融市場也有了較快的增長,汽車金融占汽車產業鏈利潤結構的23%,汽車零部件占22%,汽車維修占18%,整車制造和整車銷售分別只占16%和5%。2018年12月,汽車貸款余額為9900億,預計至2020年信貸市場規模將超過1.2萬億,至2022年將超過1.4萬億元,汽車金融市場具有廣闊的市場。
目前汽車金融貸款的市場增長較快,各個銀行競爭激烈,同時各類汽車貸款公司、互聯網金融平臺也加入了市場競爭。在為了在市場競爭中取得一定的優勢,銀行需要提升自身的風控水平以及效率。目前各個互聯網金融公司逐漸開始嘗試使用數據挖掘模型來進行汽車貸款的風險控制,因此本文研究Stacking集成學習等數據挖掘模型在汽車貸款信用評價中的應用,對于提升銀行在汽車貸款中的風險控制水平具有一定的價值。
二、模型構建
Stacking 就是當用初始訓練數據學習出若干個基學習器后,將這幾個學習器的預測結果作為新的訓練集,來學習一個新的學習器。Stackking分析的原理是將樣本數據中抽取訓練數據,然后由不同的單一學習器進行學習,學習器可以訓責神經網絡、決策樹等不同的模型,這些模型的輸出結果作為單一學習器的輸入繼續進行學習,并最終輸出結果。本文設計了基于stacking的組合模型,如圖1所示。
本文采用BP神經網絡、決策樹作為第一層初級學習器,將學習結果輸出到邏輯回歸進行第二次學習,并最終輸出結果。學習過程如下:
(1)把訓練樣本集打亂,并分成兩個沒有交集的數據集;
(2)選擇第一個數據集,在此數據集上訓練決策樹以及BP神經網絡;
(3)在第二個集合測試第一個集合得出的模型;
(4)把第三步獲得的模型結果當作輸入,把正確的標記作為輸出,訓練次分類器。
本文采用R語言的caretEnsemble包實現stacking模型,caretEnsemble中的caretStack函數能夠基于不同學習器進行stacking組合,本文模型的實現代碼如圖5-4所示,其中models創建了第一層的基礎學習器,rpart代表決策樹模型,nnet代表BP神經網絡;caretStack表示第二層的學習,采用邏輯回歸(logit)對第一層的輸出進行學習。
3、實證分析
本文采用以下指標進行實證分析。
實證結果如下,Stackking模型能夠正確區分250個正常樣本中的231個樣本,有19個樣本被誤判為存在違約風險,模型對于正常樣本的預測正確率為92.4%。模型對于100個存在違約風險的樣本能夠正確識別其中94個樣本,但是對于其中6個存在違約風險的樣本進行了漏判,準確率為94%,模型的綜合準確率為92.85%。邏輯回歸模型能夠正確區分250個正常樣本中的216個樣本,但是有34個樣本被誤判為存在違約風險,模型對于正常樣本的預測正確率為86.4%。模型對于100個存在違約風險的樣本能夠正確識別其中85個樣本,但是對于其中15個存在違約風險的樣本進行了漏判,準確率為85%,模型的綜合準確率為86%。Stacking模型提高了對汽車金融違約風險的預測性能。
4、研究總結
隨著汽車行業的發展,汽車金融貸款的規模不斷增長,對貸款信用風險的評價變得越來越重要。本文構建了基于Stacking集成學習模型對汽車貸款違約風險進行預測,并使用銀行的實證數據進行了分析,Stacking集成學習模型在測試樣本集上的表現優于邏輯回歸等模型。
參考文獻:
[1]楊光飛, 崔雪嬌, 張翔. 基于抽樣和規則的不平衡數據關聯分類方法[J]. 系統工程理論與實踐, 2017, 37(4):1035-1045.
[2]崔晴. 基于PSO-LSSVM的中小企業信用風險評價研究[D]. 河北工程大學, 2017.
[3]吳煜寧. 供應鏈金融信用風險評估方法研究[D]. 西北農林科技大學, 2018.