李思雨 潘莉

摘要:為研究大學生消費信貸現狀,本文選擇成都的四所高校使用信貸產品的在校大學生作為調查研究的對象,基于R軟件運用隨機森林算法研究影響大學生消費信貸態度的重要因素,并建立分類模型對新樣本進行消費態度預測。研究結論顯示:根據隨機森林重要性度量,影響消費信貸態度的兩個重要因素是每月消費信貸產品額度和信貸產品了解度。
關鍵詞:互聯網金融;消費信貸;隨機森林
1研究背景
隨著互聯網金融的發展,互聯網消費信貸開始擴展市場至大學生市場,時常有關于大學生參與違規校園貸,并欠下巨額貸款的惡性事件。由此導致市場對大學生消費信貸產品信任度下降,大學生消費信貸市場發展受阻。為了保證大學生消費信貸市場的良性發展,信貸機構的首要目標便是爭取和引導這一群體的忠誠度和消費慣性。因此,研究大學生參與消費信貸的情況以及大學生對待消費信貸的態度,成為了信貸機構塑造產品、維護顧客忠誠度和消費慣性的重要議題。
2隨機森林算法介紹
隨機森林本質屬于機器學習的一大分支,與所有的決策系統相比,具有更高的準確性。隨機森林算法能夠降低算法復雜度,對經過訓練的隨機森林模型,可通過它來進行預測,可以滿足及時業務的需求,并可有效檢測錯誤的數據。故本文在構建消費信貸態度評估模型時引入了這一算法。
隨機森林應用隨機特征選擇方法和Bootstrap抽樣,具體實現過程如下:
(1)指定n值,即為隨機產生的n個變量用在節點上面的二叉樹,二叉樹的變量選擇也依然符合節點不純度的最小原則。
(2)應用Bootstrap自助法有放回的在原數據集中抽取m個樣本集,由此組成m棵決策樹,對于未被抽到的樣本則用來作單棵決策樹的預測。
(3)根據m個決策樹組合成的隨機森林對分類樣本進行分類或者是預測,分類原則是投票法,得票最多的為獲勝者,預測原則是簡單平均。
3基于隨機森林的消費信貸態度影響分析
3.1數據預處理與分類
本文選擇成都的四所高校,將使用信貸產品的在校大學生作為調查研究的對象,采用了分層隨機抽樣的方法,共回收有效問卷340份。
對問卷回收的定性數據,全部處理為虛擬變量,從0開始賦值。14個變量:性別、學歷、專業、每月生活費、戶籍地、使用的消費信貸產品、信貸產品每個月的授信額度、每月消費信貸產品額度、信貸產品逾期的月利率、信貸產品的一般還款期限、還款資金的主要來源、還款比例、信貸清償情況、信貸產品了解度,分別表示為D1-D14,消費信貸產品態度表示為y。
對數據預處理完成后,運用R編程對數據進行分類。將270個數據分為訓練數據集214(80%)個和測試數據集56(20%)個。訓練集是幫助我們進行模型訓練,通過訓練集的數據讓我們確定擬合曲線的參數;測試集是為了測試已經訓練好的模型精確度,測試集并不能保證模型的正確性,只是表示相似的數據用此模型會得出相似的結果。
3.2尋找最優參數mytree、ntree
隨機森林有兩個重要參數:mytree、ntree。
mytree是指樹節點預選的變量數,即單棵決策樹決策的情況,每棵樹生長越茂盛,組成森林的分類性能就越好;ntree是指隨機森林所包含的決策樹數目,是隨機森林的總體規模,ntree的值越大,模型的精度越高,但ntree值達到閥值以后,精度的提高有限。
1)、確定最優參數mytree
R建模過程將數據劃分為訓練集和測試集,并使用訓練集構建隨機森林模型,尋找最佳參數mytree。
模型對于中立態度的預測分類效果最高,誤差只有0.05;對于肯定和否定的預測分類效果較差,誤差分別為0.84和1。因為mytree參數從1至14,模型的誤差率都不變,均為0.29,故mytree參數的值對模型的結果沒有影響,所以mytree參數值在該模型中可以不用設置。
2)、確定最優參數ntree
運用R編程建模尋找最佳參數ntree時,首先將ntree的值設置為40000,可以發現當ntree>20000時,誤差(Error)不再變化,但ntree值達到閥值以后,精度的提高有限,故此處將ntree設置為120。
3.3模型分析
在隨機森林分類模型構建完成后,通過R軟件輸出影響消費信貸態度的重要因素。MeanDecreaseAccuracy變量值和MeanDecreaseGini變量值的加和作為得分來評估該因素的重要程度。
14個因素中對消費信貸的影響程度有高有低,為了更清晰的了解14個因素對于消費信貸的影響程度,使用離差標準化對原始得分進行線性變換,并將結果擴大10倍,使其落到[0,10]區間,D14信貸產品了解度的最終得分17.3是最大的,其次是D8每月消費信貸產品額度,最終得分為16.3。可以看出這兩個變量是對于消費信貸態度最重要的兩個影響因素;同時也可以看出D2學歷、D4每月生活費、D7信貸產品每月授信額度、D10信貸產品一般還款期限、D11還款資金主要來源、D12還款比例、D13信貸清償情況是影響消費信貸態度較為重要的因素;D3專業的最終得分最低為5.3,表明大學生的專業對他們消費信貸產品態度影響最弱。
綜上所述,信貸產品了解度和每月消費信貸產品額度是對消費信貸態度最重要的影響因素。在隨機森林分類模型中,掌握好這兩個因素對消費信貸態度預測至關重要。
4模型預測
通過訓練集建立的分類模型對測試集的樣本數據進行預測。將原始態度和預測態度整理成混淆矩陣,如表4.1所示。
5結論與建議
本文運用隨機森林分類模型對成都地區大學生進行消費信貸態度分析,研究結果發現,每月消費信貸產品額度和信貸產品了解度是對于信貸產品消費態度很重要的兩個影響因素。根據隨機森林篩選出的對消費信貸態度的重要影響因素,可建立隨機森林分類模型,幫助信貸機構預測大學生對待消費信貸的態度,從而推出更具針對性、更具吸引力的消費信貸產品。
參考文獻
[1]徐瑩.大學生校園網貸問題的分析與探究——基于重慶部分高校大學生網絡消費及網絡信貸現狀調查問卷[J].現代商貿工業,2021,04.057.
[2]劉瀏.基于金融素養理論的大學生消費信貸風險研究[]].佛山科學技術學院學報:社會科學版.2020,6:54-63.
[3]Mendes Da Silva.Credit card risk behavior on college campuses: evidence from Brazil[J]. 2012-09.9.3: 351-373.
作者簡介
1. 李思雨,成都信息工程大學統計學院學生
2. 潘莉,成都信息工程大學統計學院講師,碩士;研究方向:金融數量分析。