999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于C4.5決策樹對SVM的結合優化分析

2021-04-25 17:24:54楊田毅高煒皓劉宇陽
科學家 2021年24期
關鍵詞:模型

楊田毅 高煒皓 劉宇陽

摘要:本文首先進行數據預處理,將20個指標的數據正向化并標準化,運用SPSS分層抽取80%的訓練集和測試集,由于SVM對高維數據不能主動進行特征提取,我們通過C4.5決策樹算法進行降維,在有監督的情況下,通過SVM對訓練集進行訓練,并采用GWO灰狼算法對參數進行優化,求出預測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結果進行分析測試。

關鍵詞:數據預處理 ?分層抽取 ?C4.5決策樹算法

一、問題的背景

隨著我國商業銀行商業消費信貸業務的迅猛發展,個人信用評估得到的空前的重視,有研究表明,導致銀行破產的最常見原因就是信用風險。因此,科學有效的個人信用評估方法成為了商業銀行風險控制、進一步促進消費信貸發展的關鍵。

二、問題的提出

本題要求對已給出風險信息的相關屬性建立分類模型,對銀行客戶個人的信用風險進行準確評估。給出的數據集來自個人信用評分方面應用廣泛的公開數據集。該數據集一共包含 20個相關屬性(即 20個指標變量),1個類別變量(即個人信用風險優/劣)。共有 1000個樣本點,其中包括 700個優質客戶和 300個不良客戶。

本文根據以上背景,結合數學知識,設計方法完成以下問題:

(四) 對數據進行適當地數值化處理,并在數據集中分別抽取 80%的數據(560個優質客戶和 240個不良客戶)作為訓練集,建立銀行客戶的個人信用風險評估模型。

(五) 并用剩余樣本(140個優質客戶和 60個不良客戶)進行模型計算結果的測試。

三、問題分析

根據收集的1000個樣本點的數據集,需要在抽取的訓練集基礎上建立個人信用風險評估模型,并對剩余樣本進行結果測試。首先,我們對訓練集進行數值化處理,由于題目中所給出的20個相關屬性較多,過多的信息會使模型復雜度增加,因此選擇C4.5決策樹利用自身屬性篩選的方法對個人信用評價模型進行降維。其次,在數據預處理后,對于抽取的訓練集,要在已知客戶相關屬性的情況下對類別進行分類,利用支持向量機SVM評估信用好壞,以結構最小化為優化目標,在有限樣本和模型的復雜性和學習能力中尋求最佳折中。再對數據進行二分類,假設本題是線性不可分的問題,通過多項式核函數來簡化運算,之后對多項式核函數調參,在此采取灰狼算法GWO優化參數,最終得到基于決策樹和支持向量機的信用評價模型。帶入剩余樣本進行模型計算結果的測試。

四、模型建立與求解

4.1 數據預處理

由于所給指標的方向及量綱均不同,且對于部分指標而言,指標的數字大小不能代表該種情況的好壞(即虛擬變量),對指標進行整理,不同類型的指標分別包括:

極大型指標:A1,A5,A6,A7,A10,A11,A14,A15,A17;

區間型指標:A13;

極小型指標:A2,A3,A8,A12,A16,A18;

虛擬變量(數字沒有實際意義):A4,A9,A19,A20。

為此,我們通過SPSS,首先將不同類型的指標處理為正向化指標(即數字越大代表越好),然后再進行z標準化處理,虛擬變量則直接進行z標準化處理。

4.2基于C4.5決策樹的特征提取

由于支持向量機[1]對高維數據不能主動進行特征選擇,我們首先基于C4.5決策樹[2]對數據進行特征的提取,然后再通過支持向量機對數據進行訓練,具體算法過程如下:

決策樹學習采取自頂向下的遞歸方式,從樹根節點開始在內部進行屬性的測試比較,再根據屬性值確定分支, 最后在決策樹的葉子節點得到分類的結論, 整個過程在以新的節點為根的子樹上重復, 直到訓練停止得到最優決策樹。

C4.5決策樹的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要構造完整的決策樹,允許決策樹過度擬合訓練數據,然后對那些置信度不夠的子樹節點用葉節點來替代。以SPSS分層隨機抽取的80%的數據作為訓練集,剩下的作為測試集,兩組比例為4:1,查閱文獻可知,將損失比例設為2:1最佳,Boosting[3]迭代次數設置為默認值10,

假設訓練數據集中包含n類別,分別為T={t1,t2…tn},根據訓練數據集中某屬性A可能有(a1,a2…am),共m種取值,根據屬性A劃分為T={t1′,t2′…tn′},其他屬性皆類似于屬性A。我們注意到決策樹算法中的DI3算法用信息增益選擇屬性的特點,但由于DI3算法信息增益選擇屬性時偏向于選擇取值多的屬性和其只能處理離散型的屬性,我們在此基礎上選擇C4.5決策樹算法,以信息熵增益率方法測試屬性,信息熵增益率計算公式為:

其中,D為數據集,A是數據集屬性,Gain(D,A)為屬性A的信息增益,Split_info(D,A)為屬性A的分裂信息量。

通過計算所有屬性的信息增益率,選出具有最大信息增益率值的屬性作為決策樹的根點。然后,以同樣的方法確定決策樹各層的節點

五、結論

我們通過C4.5決策樹算法進行降維,在有監督的情況下,通過SVM對訓練集進行訓練,并采用GWO灰狼算法對參數進行優化,求出預測模型,通過檢驗此模型擬合效果良好,可以運用此模型對計算結果進行分析測試

參考文獻

[1]曹平蘋,劉倩,毛舟. 賦能綠色低碳發展的“常德實踐”[N]. 金融時報,2021-12-28(010).

[2]唐珂,劉淼,王梅,紀曉明. 綠色金融讓白城“風光”無限[N]. 金融時報,2021-12-28(010).

[3]何穎,裴文靜.金融驅動甘肅中藥材產業融合的發展模式分析[J].農業開發與裝備,2021(12):36-39.

[4]陳衍水. 福建金融業 探尋綠水青山間的“黃金路”[N]. 農村金融時報,2021-12-27(A01).

[5]鄭長靈,蔣敏. 郵儲銀行景德鎮市分行 消費貸款助力老百姓消費升級[N]. 農村金融時報,2021-12-27(A05).

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲一区二区三区国产精华液| 97成人在线观看| 亚洲无线视频| 国产精品女主播| 精品伊人久久大香线蕉网站| 激情五月婷婷综合网| 欧美午夜在线观看| 亚洲第一香蕉视频| 操美女免费网站| 美女免费黄网站| 狼友视频一区二区三区| 欧美国产综合色视频| 精品乱码久久久久久久| 国产网站在线看| 人妻丰满熟妇av五码区| 欧美激情视频二区三区| 国产一区在线视频观看| 国产小视频在线高清播放| 国产精品综合色区在线观看| 中文字幕有乳无码| 91麻豆精品国产高清在线| 亚洲人成网站观看在线观看| AⅤ色综合久久天堂AV色综合| 欧美成人精品一区二区| 一级一级一片免费| 欧美中文字幕在线播放| 人人澡人人爽欧美一区| 中文字幕 91| 亚洲AⅤ永久无码精品毛片| 久久精品这里只有精99品| 亚洲精品第一页不卡| Jizz国产色系免费| 亚洲国产综合精品中文第一| 亚洲日本中文字幕天堂网| 欧美三级不卡在线观看视频| 国产精品永久在线| 日韩在线第三页| 色视频国产| 日本午夜网站| 999精品视频在线| 亚洲精品福利视频| 99久久人妻精品免费二区| 欧美国产综合色视频| 国产综合亚洲欧洲区精品无码| 2024av在线无码中文最新| 亚洲AV无码乱码在线观看裸奔| 免费一级毛片完整版在线看| 久久综合丝袜日本网| 超碰免费91| 曰AV在线无码| 狠狠色丁香婷婷| 国产精品成| 国内精品伊人久久久久7777人| 国产一区成人| 无码综合天天久久综合网| 九色视频一区| 免费欧美一级| 一级毛片在线免费视频| 538国产在线| 久久99这里精品8国产| 久久香蕉国产线看观看式| 亚洲综合久久成人AV| 手机精品视频在线观看免费| 国产99久久亚洲综合精品西瓜tv| 国产jizz| 日韩福利在线视频| 毛片网站观看| 亚洲无码电影| 国产精品黄色片| 天天色综网| 男女精品视频| 在线观看精品国产入口| 欧美高清国产| 精品欧美视频| 亚洲91在线精品| 亚洲天堂免费| 欧美a级在线| 激情影院内射美女| 亚洲精品国产成人7777| 欧美一区二区三区国产精品| 亚洲欧美在线综合图区| 日韩精品久久无码中文字幕色欲|