999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樹模型的企業(yè)信用風(fēng)險(xiǎn)管理預(yù)測(cè)

2020-11-19 01:32:22
科海故事博覽 2020年5期
關(guān)鍵詞:特征方法模型

(上海對(duì)外經(jīng)貿(mào)大學(xué),上海 201620)

在數(shù)據(jù)挖掘中決策樹方法[1]是一個(gè)有效并且常用的方法。它的目標(biāo)是創(chuàng)建一個(gè)模型來(lái)預(yù)測(cè)樣本的目標(biāo)值。這種決策樹的自頂向下歸納是貪心算法[2]一種,也是目前為止最為常用的一種訓(xùn)練方法,與相對(duì)其他的訓(xùn)練方法相比,決策樹最大的特點(diǎn)是符合人類的直覺,根據(jù)某些條件進(jìn)行分類,具有很強(qiáng)的解釋性,有利于分析影響因素,[3]可使用決策樹方法分析影響違約風(fēng)險(xiǎn)因素。

隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別眾數(shù)而定。隨機(jī)森林的引入最初是由Leo Breiman[4]在一篇論文中提出的。這篇文章描述了一種結(jié)合隨機(jī)節(jié)點(diǎn)優(yōu)化和Bagging,利用了C&RT[5]過(guò)程構(gòu)建不相關(guān)樹的森林的方法。梯度提升是一種用于回歸和分類問(wèn)題的機(jī)器學(xué)習(xí)技術(shù),其產(chǎn)生的預(yù)測(cè)模型是弱預(yù)測(cè)模型的集成,如采用典型的決策樹作為弱預(yù)測(cè)模型,這時(shí)則為梯度提升樹(GBDT)。梯度提升的思想源自Leo Breiman[6]的一個(gè)觀察:可以將提升方法解釋為針對(duì)適當(dāng)成本函數(shù)的優(yōu)化算法。也就是通過(guò)不斷的弱分類模型集成最終得到一個(gè)強(qiáng)分類器。

本文第一部分概述,第二部分介紹C&RT 決策樹、隨機(jī)森林、梯度增強(qiáng)樹的基本理論,第三部分進(jìn)行數(shù)據(jù)預(yù)處理,第四部分進(jìn)行數(shù)值實(shí)驗(yàn),第五部分結(jié)論。

1 模型

在本篇文章中我們從最基本的決策樹模型開始,延伸到隨機(jī)森林、梯度提升樹,介紹這些模型的基本概念、核心思想、以及三者之間的對(duì)比差異,接下來(lái)再對(duì)三個(gè)模型進(jìn)行數(shù)據(jù)實(shí)驗(yàn),分析不同效果。

1.1 決策樹

決策樹是一個(gè)傳統(tǒng)的根據(jù)條件聚集的學(xué)習(xí)模型,在這里我們主要分析Classification and Regression Tree(C&RT)。那么我們的決策樹模型可以表示為:

其中,c 為每一個(gè)分支,G(x)為全體樹,b(x)為分枝規(guī)則,為在c 分枝時(shí)的子樹。我們主要從三個(gè)角度來(lái)討論C&RT。

(1)分枝的數(shù)量:由于是C&RT 樹,那么我們假設(shè)每個(gè)節(jié)點(diǎn)都有且只有兩個(gè)子節(jié)點(diǎn)。

(2)分枝規(guī)則:

其中h(x)是分枝函數(shù),分為左枝(c=1)和右(c=2)枝。上式第一項(xiàng)表示左(右)枝的數(shù)據(jù)集大小,第二項(xiàng)表示左(右)枝的純度大小。對(duì)于二分類決策樹來(lái)說(shuō),我們的純度用基尼指數(shù)來(lái)衡量

(3)分枝終止條件:所有的y 都一樣,也就是純度等于0。所有的x 都一樣,則無(wú)法分為左右枝。

依據(jù)以上的三個(gè)條件,我們可以建立算法表示C&RT 決策樹模型。

1.2 隨機(jī)森林

從決策樹的推導(dǎo)過(guò)程中發(fā)現(xiàn),決策樹容易重現(xiàn)過(guò)擬合現(xiàn)象,也就是說(shuō)當(dāng)我們的測(cè)試集合不一樣時(shí),預(yù)測(cè)的方差比較大,為了降低這個(gè)方差,我們引入隨機(jī)森林[8]。首先在這里引入Bootstrap[9]:采用重復(fù)抽樣方法從初始樣本中抽取一定數(shù)量的樣本,此過(guò)程允許重復(fù)抽樣。應(yīng)用這個(gè)方法我們可以估計(jì)到很多不同的目標(biāo)函數(shù),然后再來(lái)求這些目標(biāo)函數(shù)的均值即得到最終的目標(biāo)函數(shù)。我們將C&RT 與Bootstrap結(jié)合起來(lái),也就是說(shuō)我們有以下過(guò)程:

(3)返回第一步,并且重復(fù)N 次;

在實(shí)驗(yàn)的時(shí)候,我們可以控制N 的大小,進(jìn)而控制模型的擬合度。

1.3 梯度提升樹(GBDT)

首先梯度提升樹是自適應(yīng)增強(qiáng)Adaboost 和C&RT 的結(jié)合。那么我們先來(lái)介紹AdaBoost。AdaBoost 方法[10]是一種迭代算法,它通過(guò)輸入不同弱分類器,不斷的調(diào)整樣本匹配權(quán)重,得到新的弱分類器,最后將所有分類器疊加[11],那么Adaboost 可以轉(zhuǎn)化為下面這個(gè)優(yōu)化問(wèn)題:

其中h(x)是第t 次擬合數(shù)據(jù)最佳的梯度變化量,也就是先求出第t 次的gt,然后再求其對(duì)應(yīng)的最佳,最后我們求得的目標(biāo)函數(shù)是,對(duì)應(yīng)的GBDT可以轉(zhuǎn)化為下面的優(yōu)化問(wèn)題:

2 數(shù)據(jù)預(yù)處理

在這一部分我們首先對(duì)數(shù)據(jù)作簡(jiǎn)單的介紹,用python對(duì)數(shù)據(jù)做缺失值處理,為了從特征中提取更多的信息,必須對(duì)特征進(jìn)行特定屬性處理。針對(duì)本文章的數(shù)據(jù)特點(diǎn),出現(xiàn)了類別不平衡的問(wèn)題,下面我們給出具體的解決辦法。

2.1 數(shù)據(jù)介紹

數(shù)據(jù)來(lái)源于全國(guó)部分中小企業(yè)的政府登記數(shù)據(jù),樣本數(shù)量為14366 個(gè),178 個(gè)特征,1 個(gè)標(biāo)簽。特征主要有以下部分:ID、企業(yè)類型、經(jīng)營(yíng)期限至、登記機(jī)關(guān)、企業(yè)狀態(tài)、郵政編碼、投資總額、核準(zhǔn)日期、行業(yè)代碼、注銷時(shí)間、經(jīng)營(yíng)期限自、成立日期、行業(yè)門類、企業(yè)類別、管轄機(jī)關(guān)、經(jīng)營(yíng)范圍、城建稅、遞延收益、長(zhǎng)期負(fù)債合計(jì)、長(zhǎng)期借款、長(zhǎng)期應(yīng)付款、短期借款、遞延所得稅負(fù)債、非流動(dòng)負(fù)債合計(jì)、負(fù)債合計(jì)等共178 個(gè)。

2.2 缺失值處理

查看發(fā)現(xiàn)許多特征缺失嚴(yán)重。我們特別刪除缺失比例超過(guò)70%的特征:經(jīng)營(yíng)期限至,投資總額,注銷時(shí)間。

下面分析每個(gè)特征和標(biāo)簽之間的相關(guān)系數(shù),并刪除相關(guān)系數(shù)不存在的特征,即:長(zhǎng)期負(fù)債合計(jì)_年初數(shù),其他負(fù)債(或長(zhǎng)期負(fù)債)_年初數(shù),其他應(yīng)交款_年初數(shù),應(yīng)付福利費(fèi)_年初數(shù),預(yù)提費(fèi)用_年初數(shù),長(zhǎng)期負(fù)債合計(jì)_年末數(shù)等。經(jīng)查看這些數(shù)據(jù)不僅缺失嚴(yán)重,而且值變化方差很小,故刪去。

最后對(duì)類型數(shù)據(jù)處理:郵政編碼、核準(zhǔn)日期、經(jīng)營(yíng)期限、成立日期、經(jīng)營(yíng)范圍和特殊無(wú)信息特征ID,由于處理較困難,這些特征都刪去。

在這些處理之后我們有152 個(gè)特征,1 個(gè)標(biāo)簽。為簡(jiǎn)單起見,我們給每一列特征的缺失值賦值為該特征的均值。

2.3 類別不均衡處理

查看標(biāo)簽值{0,1}在樣本中所占的比例,我們發(fā)現(xiàn)未違約所占比例為93.4%,違約比例為6.6%,那么在這里我們需要處理類別不平衡問(wèn)題。在這里主要有三種方式,我們主要采用第三種方式,對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充。

(1)對(duì)較多的那個(gè)類別進(jìn)行欠采樣(under-sampling),舍棄一部分?jǐn)?shù)據(jù),使其與較少類別的數(shù)據(jù)相當(dāng)。

(2)對(duì)較少的類別進(jìn)行過(guò)采樣(over-sampling),重復(fù)使用一部分?jǐn)?shù)據(jù),使其與較多類別的數(shù)據(jù)相。

(3)對(duì)數(shù)據(jù)進(jìn)行采用的過(guò)程中通過(guò)相似性同時(shí)生成并插樣“少數(shù)類別數(shù)據(jù)”,叫做SMOTE 算法。具體SMOTE算法介紹可以參考[12],SMOTE 算法是對(duì)較少數(shù)類別的樣本進(jìn)行擴(kuò)充,擴(kuò)充的方法類似于k 近鄰方法進(jìn)行樣本間差值,最后得到新的數(shù)據(jù)集合。

3 數(shù)值實(shí)驗(yàn)

這一部分主要介紹擬合模型、參數(shù)的選擇、以及擬合的效果與分析。主要利用三個(gè)模型來(lái)進(jìn)行擬合數(shù)據(jù)。

·決策樹

·隨機(jī)森林

·梯度上升樹(GBDT)

我們將數(shù)據(jù)的70%的作為訓(xùn)練集合,數(shù)據(jù)的30%作為測(cè)試集合,并做10 層的交叉驗(yàn)證。

經(jīng)查看表,我們可以看出企業(yè)所得稅、城建稅、印花稅對(duì)企業(yè)信用風(fēng)險(xiǎn)的影響因素最大(如表1)。下面對(duì)幾個(gè)稅種做簡(jiǎn)要介紹。

企業(yè)所得稅:是對(duì)我國(guó)境內(nèi)的企業(yè)和其他取得收入的組織的生產(chǎn)經(jīng)營(yíng)所得和其他所得征收的一種所得稅。

城建稅:是以納稅人實(shí)際繳納的產(chǎn)品稅、增值稅、營(yíng)業(yè)稅稅額為計(jì)稅依據(jù)。該稅主要有以下兩個(gè)特征:(1)以納稅人實(shí)際繳納的產(chǎn)品稅、增值稅、營(yíng)業(yè)稅稅額為計(jì)稅依據(jù),分別與產(chǎn)品稅、增值稅、營(yíng)業(yè)稅同時(shí)繳納;(2)加強(qiáng)城市的維護(hù)建設(shè),擴(kuò)大和穩(wěn)定城市維護(hù)建設(shè)資金的來(lái)源。

印花稅:是對(duì)經(jīng)濟(jì)活動(dòng)和經(jīng)濟(jì)交往中訂立、領(lǐng)受具有法律效力的憑證的行為所征收的一種稅。因采用在應(yīng)稅憑證上粘貼印花稅票作為完稅的標(biāo)志而得名。

再者對(duì)比分析三個(gè)模型,我們可以得到以下結(jié)論:

(1)決策樹在識(shí)別違約企業(yè)中,準(zhǔn)確率最高。

表1

(2)隨機(jī)森林和GBDT 這兩個(gè)模型效果差不多,因此復(fù)雜模型針對(duì)風(fēng)險(xiǎn)問(wèn)題可能是無(wú)力的。

(3)說(shuō)明簡(jiǎn)單模型的在某些情況下有可能是最好的。

4 結(jié)論

在中小企業(yè)信用評(píng)估過(guò)程中,企業(yè)借款違約不歸還本金和利息是比較常見的現(xiàn)象。如何控制企業(yè)風(fēng)險(xiǎn)是中小企業(yè)健康發(fā)展的關(guān)鍵。本文站在銀行角度,研究企業(yè)這一主題的信用違約風(fēng)險(xiǎn)的方法。通過(guò)總結(jié)和比較目前信用評(píng)估模型的基本原理和優(yōu)缺點(diǎn),提出了應(yīng)用集成學(xué)習(xí)方法改進(jìn)決策樹模型來(lái)度量企業(yè)信用違約風(fēng)險(xiǎn)的思路。

本文采用的數(shù)據(jù)是全國(guó)部分中小企業(yè)的政府登記數(shù)據(jù)。我們采用協(xié)方差矩陣的形式,摘除部分步相關(guān)特征,在此數(shù)據(jù)的基礎(chǔ)上做缺失值處理。然而由于本數(shù)據(jù)類別不平衡問(wèn)題嚴(yán)重,我們采用SMOTE 算法進(jìn)行數(shù)據(jù)預(yù)處理。接下來(lái)用決策樹,隨機(jī)森林,GBDT 來(lái)進(jìn)行分類評(píng)估效果,并取得了滿意的效果。

本文的主要結(jié)論如下:

第一:本文以中小企業(yè)這一貸款主體參與主體為切入點(diǎn),研究其違約風(fēng)險(xiǎn)度量方法的問(wèn)題,目前國(guó)內(nèi)外對(duì)中國(guó)國(guó)內(nèi)中小企業(yè)信用違約風(fēng)險(xiǎn)度量較少且都不夠深入,本文將中小企業(yè)信用風(fēng)險(xiǎn)評(píng)估與集成學(xué)習(xí)聯(lián)系在一起,對(duì)中小企業(yè)的違約風(fēng)險(xiǎn)進(jìn)行了初步探究與度量。

第二:本文終結(jié)了決策樹中集中流行的風(fēng)險(xiǎn)評(píng)估方法及其它們的應(yīng)用。通過(guò)比較幾類模型的優(yōu)缺點(diǎn)和幾種模型的側(cè)重點(diǎn)得到:決策樹容易過(guò)擬合,隨機(jī)森林可以有效的降低過(guò)擬合,GBDT 可以關(guān)注于分錯(cuò)的目標(biāo),提高分類的準(zhǔn)確率,進(jìn)而得出在本數(shù)據(jù)情況下,決策樹模型在識(shí)別企業(yè)有信用違約風(fēng)險(xiǎn)有很大優(yōu)勢(shì)。

第三:本文最后得出對(duì)中小企業(yè)風(fēng)險(xiǎn)影響的重要特征有以下十項(xiàng):企業(yè)所得稅、城建稅、印花稅、增值稅、行業(yè)門類、管轄機(jī)關(guān)、企業(yè)狀態(tài)、行業(yè)代碼、注冊(cè)資本、存貨中的原材料_年末數(shù),可以看出對(duì)中小企業(yè)運(yùn)行影響最大的因素是稅收,隨著這幾年中小企業(yè)生存環(huán)境惡劣,對(duì)中小企業(yè)減稅不乏是一種很不錯(cuò)的政策。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 91麻豆国产在线| 中文字幕第4页| 国产第一页亚洲| 国产精品久久久久久影院| 色综合五月婷婷| 无码网站免费观看| 成年网址网站在线观看| 精品视频91| 国产成人一区在线播放| 99re在线免费视频| 亚洲国产日韩一区| 国内嫩模私拍精品视频| 国产美女丝袜高潮| www.精品国产| 国产欧美日韩18| 91在线一9|永久视频在线| 日韩二区三区| 性视频一区| 国产亚洲精品自在线| 国产又爽又黄无遮挡免费观看 | 国产无遮挡裸体免费视频| 国产成人凹凸视频在线| 日韩在线1| 亚洲中文字幕无码爆乳| 欧美日韩免费| 成人福利视频网| 精品视频第一页| 67194成是人免费无码| 亚洲天堂成人| 一本久道久综合久久鬼色| 亚洲不卡无码av中文字幕| 91视频99| 午夜电影在线观看国产1区| 国产黄色片在线看| 欧美亚洲另类在线观看| 免费国产黄线在线观看| 尤物午夜福利视频| 亚洲高清国产拍精品26u| 久久99热66这里只有精品一| 国内老司机精品视频在线播出| 国产va免费精品观看| 亚洲国产成人麻豆精品| 国产情精品嫩草影院88av| 色婷婷在线播放| 69av在线| 999精品视频在线| 国产人成乱码视频免费观看| 久久精品无码一区二区日韩免费| av在线手机播放| 国产精品无码久久久久久| 中文字幕日韩视频欧美一区| 露脸一二三区国语对白| 亚洲欧美日韩高清综合678| 欧美一区中文字幕| 不卡网亚洲无码| 国产福利影院在线观看| 国产午夜精品鲁丝片| 亚洲色精品国产一区二区三区| 亚州AV秘 一区二区三区| 四虎永久免费地址| 日本黄色a视频| 在线播放真实国产乱子伦| 国产高清又黄又嫩的免费视频网站| 91成人在线免费视频| 国产小视频a在线观看| 精品视频福利| 精品自窥自偷在线看| 久久精品国产在热久久2019| 激情爆乳一区二区| 久久综合九九亚洲一区| 日韩资源站| 一区二区午夜| 精品综合久久久久久97超人| 亚洲欧洲日产国产无码AV| 久久不卡精品| 国产在线视频自拍| 77777亚洲午夜久久多人| 欧美一区二区人人喊爽| 亚洲国产精品美女| 69国产精品视频免费| 暴力调教一区二区三区| 久久久久久久久18禁秘|