楊田毅 高煒皓 劉宇陽
摘要:本文首先進行數據預處理,將20個指標的數據正向化并標準化,運用SPSS分層抽取80%的訓練集和測試集,由于SVM對高維數據不能主動進行特征提取,我們通過C4.5決策樹算法進行降維,在有監督的情況下,通過SVM對訓練集進行訓練,并采用GWO灰狼算法對參數進行優化,求出預測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結果進行分析測試。
關鍵詞:數據預處理 ?分層抽取 ?C4.5決策樹算法
一、問題的背景
隨著我國商業銀行商業消費信貸業務的迅猛發展,個人信用評估得到的空前的重視,有研究表明,導致銀行破產的最常見原因就是信用風險。因此,科學有效的個人信用評估方法成為了商業銀行風險控制、進一步促進消費信貸發展的關鍵。
二、問題的提出
本題要求對已給出風險信息的相關屬性建立分類模型,對銀行客戶個人的信用風險進行準確評估。給出的數據集來自個人信用評分方面應用廣泛的公開數據集。該數據集一共包含 20個相關屬性(即 20個指標變量),1個類別變量(即個人信用風險優/劣)。共有 1000個樣本點,其中包括 700個優質客戶和 300個不良客戶。
本文根據以上背景,結合數學知識,設計方法完成以下問題:
(四) 對數據進行適當地數值化處理,并在數據集中分別抽取 80%的數據(560個優質客戶和 240個不良客戶)作為訓練集,建立銀行客戶的個人信用風險評估模型。
(五) 并用剩余樣本(140個優質客戶和 60個不良客戶)進行模型計算結果的測試。
三、問題分析
根據收集的1000個樣本點的數據集,需要在抽取的訓練集基礎上建立個人信用風險評估模型,并對剩余樣本進行結果測試。首先,我們對訓練集進行數值化處理,由于題目中所給出的20個相關屬性較多,過多的信息會使模型復雜度增加,因此選擇C4.5決策樹利用自身屬性篩選的方法對個人信用評價模型進行降維。其次,在數據預處理后,對于抽取的訓練集,要在已知客戶相關屬性的情況下對類別進行分類,利用支持向量機SVM評估信用好壞,以結構最小化為優化目標,在有限樣本和模型的復雜性和學習能力中尋求最佳折中。再對數據進行二分類,假設本題是線性不可分的問題,通過多項式核函數來簡化運算,之后對多項式核函數調參,在此采取灰狼算法GWO優化參數,最終得到基于決策樹和支持向量機的信用評價模型。帶入剩余樣本進行模型計算結果的測試。
四、模型建立與求解
4.1 數據預處理
由于所給指標的方向及量綱均不同,且對于部分指標而言,指標的數字大小不能代表該種情況的好壞(即虛擬變量),對指標進行整理,不同類型的指標分別包括:
極大型指標:A1,A5,A6,A7,A10,A11,A14,A15,A17;
區間型指標:A13;
極小型指標:A2,A3,A8,A12,A16,A18;
虛擬變量(數字沒有實際意義):A4,A9,A19,A20。
為此,我們通過SPSS,首先將不同類型的指標處理為正向化指標(即數字越大代表越好),然后再進行z標準化處理,虛擬變量則直接進行z標準化處理。
4.2基于C4.5決策樹的特征提取
由于支持向量機[1]對高維數據不能主動進行特征選擇,我們首先基于C4.5決策樹[2]對數據進行特征的提取,然后再通過支持向量機對數據進行訓練,具體算法過程如下:
決策樹學習采取自頂向下的遞歸方式,從樹根節點開始在內部進行屬性的測試比較,再根據屬性值確定分支, 最后在決策樹的葉子節點得到分類的結論, 整個過程在以新的節點為根的子樹上重復, 直到訓練停止得到最優決策樹。
C4.5決策樹的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要構造完整的決策樹,允許決策樹過度擬合訓練數據,然后對那些置信度不夠的子樹節點用葉節點來替代。以SPSS分層隨機抽取的80%的數據作為訓練集,剩下的作為測試集,兩組比例為4:1,查閱文獻可知,將損失比例設為2:1最佳,Boosting[3]迭代次數設置為默認值10,
假設訓練數據集中包含n類別,分別為T={t1,t2…tn},根據訓練數據集中某屬性A可能有(a1,a2…am),共m種取值,根據屬性A劃分為T={t1′,t2′…tn′},其他屬性皆類似于屬性A。我們注意到決策樹算法中的DI3算法用信息增益選擇屬性的特點,但由于DI3算法信息增益選擇屬性時偏向于選擇取值多的屬性和其只能處理離散型的屬性,我們在此基礎上選擇C4.5決策樹算法,以信息熵增益率方法測試屬性,信息熵增益率計算公式為:
其中,D為數據集,A是數據集屬性,Gain(D,A)為屬性A的信息增益,Split_info(D,A)為屬性A的分裂信息量。
通過計算所有屬性的信息增益率,選出具有最大信息增益率值的屬性作為決策樹的根點。然后,以同樣的方法確定決策樹各層的節點
五、結論
我們通過C4.5決策樹算法進行降維,在有監督的情況下,通過SVM對訓練集進行訓練,并采用GWO灰狼算法對參數進行優化,求出預測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結果進行分析測試
參考文獻
[1]曹平蘋,劉倩,毛舟. 賦能綠色低碳發展的“常德實踐”[N]. 金融時報,2021-12-28(010).
[2]唐珂,劉淼,王梅,紀曉明. 綠色金融讓白城“風光”無限[N]. 金融時報,2021-12-28(010).
[3]何穎,裴文靜.金融驅動甘肅中藥材產業融合的發展模式分析[J].農業開發與裝備,2021(12):36-39.
[4]陳衍水. 福建金融業 探尋綠水青山間的“黃金路”[N]. 農村金融時報,2021-12-27(A01).
[5]鄭長靈,蔣敏. 郵儲銀行景德鎮市分行 消費貸款助力老百姓消費升級[N]. 農村金融時報,2021-12-27(A05).