999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)隨機(jī)森林算法的企業(yè)破產(chǎn)預(yù)測(cè)研究

2021-08-04 01:59:04張康林葉春明
科技促進(jìn)發(fā)展 2021年4期
關(guān)鍵詞:特征提取分類模型

■ 張康林 葉春明

上海理工大學(xué)管理學(xué)院 上海 200093

0 引言

2020年,新冠肺炎疫情的爆發(fā)使世界經(jīng)濟(jì)遭受沉重打擊,許多企業(yè)也陷入了財(cái)務(wù)困境,相比于從前,它們破產(chǎn)風(fēng)險(xiǎn)劇烈增加,而企業(yè)是全球經(jīng)濟(jì)的重要組成部分,也是經(jīng)濟(jì)增長(zhǎng)的基礎(chǔ),更是社會(huì)進(jìn)步的重要推動(dòng)力,對(duì)公司進(jìn)行破產(chǎn)預(yù)測(cè)變得愈加重要[1]。同時(shí),預(yù)測(cè)公司未來的命運(yùn),一直都是金融機(jī)構(gòu)、基金經(jīng)理、貸款人、政府和經(jīng)濟(jì)利益相關(guān)者關(guān)注的重點(diǎn),破產(chǎn)預(yù)測(cè)的結(jié)果不僅能夠幫助投資者做出有效決策,還能提前警示公司管理層,幫助管理層提前實(shí)施保護(hù)措施,從而降低公司破產(chǎn)風(fēng)險(xiǎn)。

截止到2020年,企業(yè)破產(chǎn)預(yù)測(cè)研究主要從兩個(gè)角度出發(fā),分別是破產(chǎn)預(yù)測(cè)指標(biāo)的選取和破產(chǎn)預(yù)測(cè)模型的選取。

對(duì)于破產(chǎn)預(yù)測(cè)指標(biāo),1966年,Beaver 首次提出在企業(yè)破產(chǎn)預(yù)測(cè)研究中,財(cái)務(wù)指標(biāo)具有很高的研究?jī)r(jià)值[2]。自此,許多學(xué)者也都開始使用企業(yè)財(cái)務(wù)指標(biāo)進(jìn)行企業(yè)破產(chǎn)預(yù)測(cè)相關(guān)研究[3-4],比如Tian 等人[5]使用留存收益/總資產(chǎn)、總負(fù)債/總資產(chǎn)和流動(dòng)負(fù)債/銷售額3個(gè)財(cái)務(wù)比率指標(biāo)構(gòu)建了日本企業(yè)破產(chǎn)預(yù)測(cè)模型,并取得了良好的預(yù)測(cè)結(jié)果。但由于企業(yè)破產(chǎn)數(shù)據(jù)集具有高維的特性,影響模型分類性能,需要進(jìn)行特征提取,文獻(xiàn)[5]使用了自適應(yīng)LASSO 方法篩選出了3 個(gè)財(cái)務(wù)指標(biāo)作為預(yù)測(cè)變量;Kou等人[6]提出了一種兩階段多對(duì)象特征選擇算法進(jìn)行了特征提取,在中小企業(yè)破產(chǎn)預(yù)測(cè)模型中實(shí)現(xiàn)了類似的分類性能;Liang 等人[7]還使用3 種濾波器和兩種基于包裝的方法對(duì)財(cái)務(wù)比率和公司治理指標(biāo)進(jìn)行了特征選擇,通過對(duì)比預(yù)測(cè)性能,確定了最佳特征選擇方法。

對(duì)于破產(chǎn)預(yù)測(cè)模型,目前相關(guān)技術(shù)包括兩大類,分別是模式識(shí)別和機(jī)器學(xué)習(xí)。1968年,Altman[8]就根據(jù)會(huì)計(jì)知識(shí),對(duì)22 個(gè)財(cái)務(wù)比率進(jìn)行了線性鑒別分析,利用其中5 個(gè)財(cái)務(wù)比率構(gòu)建了預(yù)測(cè)模型。隨后,使用邏輯回歸[9]、神經(jīng)網(wǎng)絡(luò)[10]、支持向量機(jī)[11]來構(gòu)建公司破產(chǎn)預(yù)測(cè)模型的研究相繼被提出,比如楊毓等人[12]使用了支持向量機(jī)構(gòu)建了商業(yè)銀行破產(chǎn)預(yù)測(cè)模型,與反向神經(jīng)網(wǎng)絡(luò)模型對(duì)比發(fā)現(xiàn),支持向量機(jī)具有更好的分類性能。但由于企業(yè)破產(chǎn)預(yù)測(cè)研究中,數(shù)據(jù)集存在類不平衡問題,決策樹、K-最近鄰域分類、支持向量機(jī)和多層感知機(jī)等傳統(tǒng)分類器主要關(guān)注多數(shù)類而忽略了少數(shù)類,而解決不平衡數(shù)據(jù)的分類問題,集成學(xué)習(xí)方法具有更好的魯棒性和泛化能力[13],Le等人[14]基于不平衡的KRBDS 數(shù)據(jù)集,使用改進(jìn)的極端梯度提升器與最先進(jìn)的破產(chǎn)預(yù)測(cè)機(jī)器學(xué)習(xí)方法對(duì)比發(fā)現(xiàn),所提出的方法更優(yōu);還有Shen 等人[15]在研究中發(fā)現(xiàn)隨機(jī)森林分類器在不平衡數(shù)據(jù)分類任務(wù)中優(yōu)于決策樹、支持向量機(jī)、貝葉斯等分類模型。

綜上分析,本文選取的破產(chǎn)預(yù)測(cè)模型指標(biāo)為財(cái)務(wù)比率,選取的破產(chǎn)預(yù)測(cè)模型為隨機(jī)森林。

由于企業(yè)破產(chǎn)數(shù)據(jù)集具有高維不平衡的特性,因此會(huì)降低具有破產(chǎn)風(fēng)險(xiǎn)企業(yè)的預(yù)測(cè)精度。而針對(duì)這一問題,不同學(xué)者分別從樣本處理、變量選擇以及預(yù)測(cè)器選擇3 個(gè)方面進(jìn)行優(yōu)化。Gruszczynski[16]從不平衡樣本方面進(jìn)行研究,探討類別不平衡對(duì)破產(chǎn)模型預(yù)測(cè)精度的影響,Wagenmans[17]使用邏輯回歸、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林以及決策樹四個(gè)模型進(jìn)行破產(chǎn)預(yù)測(cè)研究,對(duì)比模型預(yù)測(cè)結(jié)果,篩選出最佳預(yù)測(cè)模型,Tuong 等人[18]使用基于GPU的極端梯度提升機(jī)器,提出了一種gXGBS_hist 算法,在不平衡的韓國破產(chǎn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),最終能夠提高模型性能并加快模型處理時(shí)間,這些研究者都僅僅只從單方面進(jìn)行優(yōu)化。Choi 等人[19]先進(jìn)行了數(shù)據(jù)平衡化處理,再通過模型組合對(duì)建筑行業(yè)承包商的財(cái)務(wù)困境進(jìn)行了預(yù)測(cè),Tuong 等人[20]使用了實(shí)例硬度閾值(IHT)的采樣方法刪除了多數(shù)類中具有較大IHT 值的噪聲實(shí)例,然后提出了一種基于集群的提升算法CBoost并用于破產(chǎn)預(yù)測(cè),而這些學(xué)者是同時(shí)結(jié)合了數(shù)據(jù)層面與模型層面的相關(guān)算法進(jìn)行了破產(chǎn)預(yù)測(cè)研究。Philippe[21]首先對(duì)包含150個(gè)變量的不平衡破產(chǎn)數(shù)據(jù)集進(jìn)行變量選擇,最后再通過一系列的模型設(shè)計(jì)構(gòu)建了最佳破產(chǎn)預(yù)測(cè)模型,采用了特征處理與模型設(shè)計(jì)相結(jié)合的流程;同樣,Kim等人[22]從代表了公司盈利能力、穩(wěn)定性、活躍性和生產(chǎn)率的111個(gè)財(cái)務(wù)比率中篩選出了53個(gè)顯著比率作為模型特征,并提出了一種DD-SVM進(jìn)行企業(yè)破產(chǎn)預(yù)測(cè)的混合方法。

通過對(duì)上述研究梳理可知,少有研究同時(shí)采用了特征提取、類平衡化、模型設(shè)計(jì)這3 種方法。本文將此3 種方法進(jìn)行了結(jié)合,彌補(bǔ)了這一方面的不足。并在指標(biāo)選取方面,對(duì)文獻(xiàn)[23]的Pearson 相關(guān)系數(shù)特征提取規(guī)則進(jìn)行了相應(yīng)的改進(jìn);在模型構(gòu)建方面,首先進(jìn)行數(shù)據(jù)平衡化處理,然后對(duì)隨機(jī)森林模型進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果表明,本文提出的研究方法在企業(yè)破產(chǎn)預(yù)測(cè)方面效果更加顯著。

1 相關(guān)算法改進(jìn)

1.1 Pearson相關(guān)系數(shù)特征提取規(guī)則

Pearson 相關(guān)系數(shù)(Pearson Correlation Coefficient)是用來衡量?jī)蓚€(gè)數(shù)據(jù)集合是否在一條線上面,從而用來衡量定距變量間的線性關(guān)系,相關(guān)系數(shù)的大小表示兩個(gè)變量屬性fi與fj之間的線性相關(guān)程度,其計(jì)算公式如(1)所示:

公式(1)中,c的取值范圍為[-1,1],c=-1 時(shí)表示fi與fj完全負(fù)相關(guān),c在(-1,0)的范圍內(nèi)時(shí)表示fi與fj為負(fù)相關(guān)關(guān)系,c=0 是說明fi與fj完全不相關(guān),c在(0,1)的范圍內(nèi)時(shí)說明fi與fj為正相關(guān)關(guān)系,c=1 說明fi與fj完全正相關(guān),c絕對(duì)值越大越接近1時(shí),說明相關(guān)性越強(qiáng),也就是說它們之間包含較多相似的信息,對(duì)于分類器來說屬于冗余變量,需要?jiǎng)h除其一。表1為c絕對(duì)值的不同取值范圍對(duì)應(yīng)的fi與fj相關(guān)強(qiáng)度。

表1 c絕對(duì)值的不同取值范圍對(duì)應(yīng)的相關(guān)強(qiáng)度

本文的Pearson相關(guān)系數(shù)特征提取規(guī)則如下:

1.計(jì)算屬性與屬性之間的相關(guān)系數(shù)以及屬性與類別標(biāo)簽之間的相關(guān)系數(shù);

2.依次判斷兩兩屬性之間的相關(guān)系數(shù)是否大于等于0.8,如果是,則跳到第3步;

3.比較兩個(gè)屬性與類別標(biāo)簽之間的相關(guān)系數(shù)大小,選擇刪除其中相關(guān)系數(shù)更小的屬性,而不是隨機(jī)選擇刪除其一;

4.直至所有屬性兩兩之間的相關(guān)系數(shù)小于0.8,停止。否則返回第2步。

1.2 改進(jìn)的隨機(jī)森林算法

Breiman[24]提出的隨機(jī)森林模型是基于決策樹方法構(gòu)建的集成機(jī)器學(xué)習(xí)工具,旨在提高決策樹的性能。傳統(tǒng)隨機(jī)森林的算法步驟如下:

1.令收集來的數(shù)據(jù)集為D={xil,xi2,…,xin,yi}(i∈[l,m]),m為樣本數(shù),特征數(shù)為N,采用Bootstrap 方法從D中抽取D1個(gè)樣本作為訓(xùn)練集。

2.使用第1 步得來的數(shù)據(jù)集D1={xil,xi2,…,xik,yi}(i∈[l,m])(其中k<

3.重復(fù)1 和2 兩個(gè)步驟K次,得到K個(gè)決策樹,組合K個(gè)決策樹得到隨機(jī)森林。

4.使用測(cè)試集進(jìn)入隨機(jī)森林的預(yù)測(cè)階段,預(yù)測(cè)公式可通過式(2)進(jìn)行表示。

(2)式中,H(x)為最后分類結(jié)果,hi(x)為第i棵決策樹的分類結(jié)果,Y為類別標(biāo)簽,I為簡(jiǎn)單投票法。

在二分類實(shí)驗(yàn)中,所謂的簡(jiǎn)單投票法就是K 個(gè)決策樹有K 個(gè)分類結(jié)果,如果該樣本被分類為A 類的結(jié)果數(shù)占比大于0.5,則可以判定該樣本屬于A 類,反之屬于B類。可以看到,其分類閾值為0.5,但是在企業(yè)破產(chǎn)預(yù)測(cè)研究中,由于存在類不平衡問題,應(yīng)該對(duì)分類閾值進(jìn)行調(diào)整,找到最佳分類閾值,提高模型整體的分類性能。

所以本文將從隨機(jī)森林算法的第4步開始進(jìn)行如下改進(jìn):

4.計(jì)算測(cè)試集樣本Dt={x1,x2,...,xz}在隨機(jī)森林模型中被判定為少數(shù)類的比率R=[rx1,rx2,...,rxz]。

5.確定最佳分類閾值搜索范圍T=[p,q],0

6.在T中確定一個(gè)分類閾值t,依次將樣本xz的比率rxz與t進(jìn)行比較,若大于t,則將其判定為少數(shù)類,反之判定為多數(shù)類。

7.基于分類閾值t得到一個(gè)測(cè)試集樣本的分類結(jié)果,再根據(jù)分類結(jié)果計(jì)算召回率特異度均值RE_meant并保留,計(jì)算公式如式(3)所示;返回第6 步,直至范圍內(nèi)所有分類閾值被判定完畢。

8.比較每一個(gè)分類閾值對(duì)應(yīng)的召回率特異度均值大小,最大召回率特異度均值對(duì)應(yīng)的分類閾值即為所求。

9.根據(jù)確定的最佳分類閾值計(jì)算模型的分類性能相關(guān)指標(biāo),判斷最終模型的好壞。

算法流程圖如圖1所示。

圖1 改進(jìn)的隨機(jī)森林算法

2 實(shí)驗(yàn)

本文所有實(shí)驗(yàn)都是在系統(tǒng)WIN10、1TB+128G(SSD)的硬盤、INTEL 酷睿I7-6700Q 的CPU 和內(nèi)存4GB 的PC機(jī)上通過python3.7 版本完成。實(shí)驗(yàn)流程圖如圖2所示。

圖2 實(shí)驗(yàn)流程圖

2.1 實(shí)驗(yàn)數(shù)據(jù)與數(shù)據(jù)預(yù)處理

本文所使用的數(shù)據(jù)來源于全球新興市場(chǎng)信息的數(shù)據(jù)庫,共10173個(gè)企業(yè),其中400個(gè)為在2013年破產(chǎn)的企業(yè),9773 個(gè)為在2013年未破產(chǎn)的企業(yè),從圖3可以明顯看出,數(shù)據(jù)存在類別不平衡問題。

圖3 企業(yè)破產(chǎn)數(shù)據(jù)集類別分布圖

每一個(gè)樣本共包含64 個(gè)屬性以及1 個(gè)預(yù)測(cè)類別,特征含義如表2所示,屬性均來自于公司2008年的財(cái)務(wù)報(bào)表。

表2 企業(yè)破產(chǎn)預(yù)測(cè)數(shù)據(jù)集特征構(gòu)成

由于所收集到的數(shù)據(jù)集存在缺失值且屬性單位不一致,需要進(jìn)行缺失值處理和歸一化處理。缺失值均屬于連續(xù)值,所以用該列的平均值進(jìn)行填充;歸一化處理計(jì)算公式如(3)所示。

式(3)中,X′i,j表示歸一化處理后的數(shù)據(jù),Xi,j表示原始數(shù)據(jù),Xmin表示第j 列中的最小數(shù),Xmax表示第j 列中的最大數(shù)。

2.2 特征提取

根據(jù)本文提出的Pearson 相關(guān)系數(shù)特征提取規(guī)則,首先計(jì)算屬性與屬性之間的相關(guān)系數(shù)以及屬性與類別標(biāo)簽之間的相關(guān)系數(shù),并用相關(guān)系數(shù)熱力圖進(jìn)行了展示。圖4為保留下來的指標(biāo)相關(guān)性熱力圖,圖5為已刪除的指標(biāo)相關(guān)性熱力圖

從圖4和圖5可以得出保留下來的特征分別是X1,X5,X6,X8,X15,X16,X20,X21,X23,X24,X27,X28,X29,X37,X41,X45,X46,X47,X50,X54,X55,X56,X57,X58,X59,X60,X61,X62,共28個(gè)。

圖4 保留下來的指標(biāo)相關(guān)性熱力圖

圖5 已刪除的指標(biāo)相關(guān)性熱力圖

2.3 類別平衡化

首先進(jìn)行數(shù)據(jù)集的劃分,70%為訓(xùn)練集,30%為測(cè)試集,訓(xùn)練集和測(cè)試集中兩類樣本數(shù)量如表3所示。

表3 訓(xùn)練集和測(cè)試集中兩類樣本數(shù)量

針對(duì)類別不平衡問題,本文使用了現(xiàn)常用的3 種處理方法。第一是SMOTE 過采樣[25],它通過生成合成樣本而不是復(fù)制少數(shù)類的樣本來對(duì)少數(shù)類進(jìn)行過采樣,包括3個(gè)步驟,首先選擇原始樣本中的K最近個(gè)樣本,然后將原始樣本與所選的K 最近個(gè)樣本之間的距離乘以從0到1 的隨機(jī)數(shù),最后將相乘距離的平均值與原始樣本相加,生成新樣本,重復(fù)3 個(gè)步驟,直至少數(shù)類和多數(shù)類樣本平衡;第二個(gè)是SMOTETomek Links 混合采樣法,它是將SMOTE 和Tomek Links兩種算法進(jìn)行結(jié)合,首先通過SMOTE 算法對(duì)數(shù)據(jù)集中少數(shù)類樣本進(jìn)行合成,然后通過Tomek Links 算法去清洗數(shù)據(jù)集,刪除采樣后數(shù)據(jù)集的中的Tomek Links 對(duì),Tomek Links 對(duì)的尋找過程如下:首先假設(shè)兩個(gè)樣本點(diǎn)x,y,樣本x 取自于少數(shù)類樣本集,樣本y取自于多數(shù)類樣本集,然后計(jì)算兩個(gè)樣本點(diǎn)的歐式距離,并記為d(x,y),最后如果不存在第3 個(gè)樣本點(diǎn)z,使得d(x,z)

本文將SMOTE中的樣本近鄰數(shù)K 統(tǒng)一規(guī)定為5,最終經(jīng)3種平衡化方法處理后的數(shù)據(jù)集如表4所示。

表4 經(jīng)四種平衡化方法處理后的樣本數(shù)分布表

2.4 評(píng)價(jià)指標(biāo)

本文研究的是一個(gè)二分類問題,所以將會(huì)采用召回率(Recall)、特異度(Specificity)、召回率特異度均值(RS_mean)、精準(zhǔn)率(Precision)以及AUC 值,計(jì)算公式為(5)至(7)所示。

TN真陰性為多數(shù)類樣本被預(yù)測(cè)為未破產(chǎn)的實(shí)例數(shù),F(xiàn)P假陽性為多數(shù)類樣本被預(yù)測(cè)為破產(chǎn)的實(shí)例數(shù),F(xiàn)N假陰性為少數(shù)類樣本被預(yù)測(cè)為未破產(chǎn)的實(shí)例數(shù),TP真陽性為少數(shù)類樣本被預(yù)測(cè)為破產(chǎn)的實(shí)例數(shù)。召回率代表所有破產(chǎn)企業(yè)實(shí)例中預(yù)測(cè)為破產(chǎn)的實(shí)例比列,用來評(píng)價(jià)少數(shù)類樣本分類準(zhǔn)確率;特異度代表所有未破產(chǎn)企業(yè)實(shí)例中預(yù)測(cè)為未破產(chǎn)的實(shí)例比列,用來評(píng)價(jià)多數(shù)類樣本分類準(zhǔn)確率;召回率特異度均值用來衡量正類與負(fù)類被預(yù)測(cè)正確的一個(gè)綜合比例,用于本文分類閾值的選擇;精準(zhǔn)率代表了所有正確預(yù)測(cè)為企業(yè)破產(chǎn)的實(shí)例數(shù)占所有預(yù)測(cè)為企業(yè)破產(chǎn)實(shí)例數(shù)的百分比。

2.5 改進(jìn)隨機(jī)森林模型建模

2.5.1 隨機(jī)森林參數(shù)選擇

隨機(jī)森林模型的預(yù)測(cè)性能取決于兩個(gè)參數(shù),分別是決策樹的數(shù)量和決策樹的深度。本文使用網(wǎng)格搜索法對(duì)以上兩個(gè)參數(shù)進(jìn)行選擇,決策樹的數(shù)量搜索范圍為range(10,101,10),決策樹的深度搜索范圍為range(3,21)。5種訓(xùn)練集下隨機(jī)森林模型的兩個(gè)參數(shù)的最終取值如表5所示。

表5 5種訓(xùn)練集下隨機(jī)森林模型兩個(gè)參數(shù)的最終取值

2.5.2 分類閾值的選擇

為了進(jìn)一步提升對(duì)少數(shù)類的預(yù)測(cè)準(zhǔn)確率以及模型的整體分類性能,本文考慮將其閾值進(jìn)行改變,觀察其對(duì)預(yù)測(cè)結(jié)果的影響,閾值的選擇有[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]九個(gè)值。

模型1-0、1-1、1-2、1-3、1-4 的召回率、特異度、召回率特異度均值變化曲線分別如圖6~10所示。

以召回率特異度均值為評(píng)價(jià)標(biāo)準(zhǔn),RS_mean 值越大,模型分類性能越好。所以可以從圖6~10 得出,模型1-0 與1-1 的最佳分類閾值為0.1,模型1-2、1-3、1-4 的最佳分類閾值為0.2。最佳分類閾值與分類閾值為0.5的結(jié)果對(duì)比如表6所示。

圖6 模型1-0召回率、特異度、召回率特異度均值變化曲線

圖7 模型1-1召回率、特異度、召回率特異度均值變化曲線

圖8 模型1-2召回率、特異度、召回率特異度均值變化曲線

圖9 模型1-3召回率、特異度、召回率特異度均值變化曲線

圖10 模型1-4召回率、特異度、召回率特異度均值變化曲線

可以從表6看出,模型1-0 在分類閾值為0.1 時(shí),Re‐call 比閾值為0.5 時(shí)高36.67%,RS_mean 比閾值為0.5 時(shí)高15.13%;模型1-1 在分類閾值為0.1 時(shí),Recall 比閾值為0.5 時(shí)高43.33%,RS_mean 比閾值為0.5 時(shí)高17.42%;模型1-2在分類閾值為0.2 時(shí),Recall 比閾值為0.5 時(shí)高43.34%,RS_mean 比閾值為0.5 時(shí)高15.13%;模型1-3 在分類閾值為0.2 時(shí),Recall 比閾值為0.5 時(shí)高45.84%,RS_mean比閾值為0.5時(shí)高16.59%;模型1-4在分類閾值為0.2 時(shí),Recall 比閾值為0.5 時(shí)高48.34%,RS_mean 比閾值為0.5時(shí)高13.44%。所以降低分類閾值后,5個(gè)模型都能提高對(duì)具有破產(chǎn)風(fēng)險(xiǎn)企業(yè)的預(yù)測(cè)準(zhǔn)確率,并獲得更好的預(yù)測(cè)性能。

表6 兩種分類閾值的預(yù)測(cè)結(jié)果對(duì)比

2.6 實(shí)驗(yàn)結(jié)果分析

根據(jù)所獲得的最佳分類閾值,5 個(gè)模型對(duì)企業(yè)破產(chǎn)預(yù)測(cè)的最終分類結(jié)果如表7所示,圖11是5 個(gè)模型的ROC曲線。

圖11 基于改進(jìn)隨機(jī)森林的五種模型的ROC曲線

從表7可以看到,模型1-1 與模型1-0 相比,召回率Recall 提升了8.33%,特異度Specificity 降低了2.12%,召回率特異度均值RS_mean 提升了3.10%,精確率Preci‐sion 提升了0.31%,AUC 值提升了0.0031,說明經(jīng)計(jì)算Pearson 相關(guān)系數(shù)并進(jìn)行特征提取的模型比未進(jìn)行特征提取的模型分類性能更佳。

表7 基于改進(jìn)隨機(jī)森林的五種模型的企業(yè)破產(chǎn)預(yù)測(cè)相關(guān)指標(biāo)結(jié)果

模型1-2 與模型1-1 進(jìn)行比較,召回率Recall 提升了6.67%,特異度Specificity降低了5.49%,召回率特異度均值RS_mean 提升了0.59%,精確率Precision 提升了0.20%,AUC 值提升了0.0056,說明對(duì)少數(shù)類采用SMOTE 過采樣技術(shù)生成的新數(shù)據(jù)集能夠顯著提升TRF分類器分類結(jié)果的各項(xiàng)評(píng)價(jià)指標(biāo)值,在處理企業(yè)破產(chǎn)預(yù)測(cè)問題上,SMOTE-TRF 模型的綜合性能要比TRF 模型更優(yōu)。

而結(jié)合綜合采樣的分類器與SMOTE-TRF 模型相比,模型1-3 即SMOTETomek-TRF 分類器在召回率上提升了2.5%,特異度Specificity 提升了0.24%,召回率特異度均值RS_mean 提升了1.37%,精確率Precision 提升了0.12%,AUC 值提升了0.0097;模型1-4 即SMOTEENNTRF 分類器在召回率上提升了12.5%,召回率特異度均值RS_mean 提升了1.17%,精確率Precision 提升了0.45%。

3 結(jié)束語

本文選取全球10173 個(gè)企業(yè)在2008年的財(cái)務(wù)比率以及在2013年的破產(chǎn)情況作為數(shù)據(jù)基礎(chǔ),通過結(jié)合特征提取、平衡化技術(shù)、改進(jìn)的隨機(jī)森林3種方法構(gòu)建了企業(yè)破產(chǎn)預(yù)測(cè)模型。得出如下結(jié)論:

(1)改進(jìn)的隨機(jī)森林模型相比于傳統(tǒng)隨機(jī)森林模型在召回率上提升了36.67%。

(2)本文提出的Pearson 相關(guān)系數(shù)特征提取規(guī)則能有效地從64 個(gè)財(cái)務(wù)比率中篩選出28 個(gè)來準(zhǔn)確衡量企業(yè)各方面的能力,降低模型復(fù)雜度的同時(shí),還提升了分類預(yù)測(cè)的各個(gè)評(píng)價(jià)指標(biāo)值,對(duì)具有破產(chǎn)風(fēng)險(xiǎn)企業(yè)的預(yù)測(cè)正確率提升最為明顯。

(3)3 種方法的結(jié)合能獲得最高的預(yù)測(cè)性能,若平衡化技術(shù)選擇綜合采樣的話,預(yù)測(cè)結(jié)果會(huì)比使用SMOTE方法更優(yōu)。

(4)本文選取的研究對(duì)象是全球不同行業(yè)的公司,所以本文的研究方法在企業(yè)破產(chǎn)預(yù)測(cè)領(lǐng)域具有更高的普適性以及更加廣闊的應(yīng)用前景。

根據(jù)以上結(jié)論,提出以下建議:第一,金融政策方面要加強(qiáng)對(duì)企業(yè)破產(chǎn)預(yù)測(cè)模型的關(guān)注,加大對(duì)其研發(fā)資金的投入和研發(fā)人員的投入,使研究出來的模型具備實(shí)用性,而不僅僅只存在于理論方面,對(duì)于未來有可能會(huì)發(fā)生的經(jīng)濟(jì)危機(jī)的防范要有所準(zhǔn)備,從而盡可能減小損失。第二,企業(yè)要加強(qiáng)自身管理,增強(qiáng)風(fēng)險(xiǎn)管理意識(shí),可以根據(jù)自身的情況建立破產(chǎn)風(fēng)險(xiǎn)預(yù)警系統(tǒng),不僅可以引入本文提出的相關(guān)財(cái)務(wù)指標(biāo),未來還可以根據(jù)外部環(huán)境和企業(yè)內(nèi)部環(huán)境的變化,考慮與業(yè)務(wù)增長(zhǎng)、公司管理和宏觀經(jīng)濟(jì)學(xué)相關(guān)的變量,進(jìn)而提高模型在預(yù)測(cè)公司破產(chǎn)時(shí)的準(zhǔn)確性,將預(yù)測(cè)結(jié)果及時(shí)提供給企業(yè)的所有者和利益相關(guān)者(包括債權(quán)人、工會(huì)、政府機(jī)構(gòu)、雇員、客戶和供應(yīng)商),從而使企業(yè)提前一步發(fā)現(xiàn)問題并采取戰(zhàn)略行動(dòng),改善公司環(huán)境,達(dá)到減少損失甚至消除破產(chǎn)風(fēng)險(xiǎn)的目的。第三,要加強(qiáng)內(nèi)部管控,保障所提供的財(cái)務(wù)數(shù)據(jù)真實(shí)準(zhǔn)確,例如建立一套有效的管理信息系統(tǒng),包括嚴(yán)密的授權(quán)及批準(zhǔn)制度并要求全員執(zhí)行,相關(guān)員工要定點(diǎn)盤點(diǎn)存貨、加強(qiáng)會(huì)計(jì)系統(tǒng)控制等。第四,要提高公司主營(yíng)業(yè)收入或者降低產(chǎn)品成本,提高盈利能力;合理有效地安排資本結(jié)構(gòu),加快資金周轉(zhuǎn)率,提高營(yíng)運(yùn)能力,進(jìn)而提高公司的盈利能力和償債能力。

猜你喜歡
特征提取分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲成年人片| 天天色天天综合| 99这里只有精品免费视频| 国产一级无码不卡视频| 亚洲女人在线| 99在线视频精品| 国产精品浪潮Av| 欧美翘臀一区二区三区 | 免费在线一区| 大香伊人久久| 国产欧美日韩另类精彩视频| a毛片在线免费观看| 99热6这里只有精品| 国产乱人免费视频| P尤物久久99国产综合精品| 99热这里只有精品在线观看| 天天综合亚洲| 国产色婷婷| 亚洲第一区在线| 91小视频在线观看免费版高清| 亚洲精品制服丝袜二区| 亚洲国内精品自在自线官| 久久久久免费看成人影片 | 亚洲一级毛片在线观播放| 日韩欧美高清视频| 国产精品一区在线麻豆| 亚洲第一区欧美国产综合| 国产在线第二页| 国产农村1级毛片| 成人亚洲国产| 狠狠久久综合伊人不卡| 欧洲免费精品视频在线| 国产成年女人特黄特色毛片免 | a亚洲视频| 国产91导航| 色偷偷一区| 99久久精彩视频| 国内精品久久人妻无码大片高| 亚洲VA中文字幕| 尤物视频一区| 99这里只有精品6| 色婷婷狠狠干| 青草国产在线视频| 精品国产免费人成在线观看| 人妻精品全国免费视频| 欧美国产日韩在线观看| 99精品伊人久久久大香线蕉| 青青操视频在线| 秋霞午夜国产精品成人片| 国产成人1024精品下载| 国产91线观看| 国产福利在线观看精品| 亚洲福利网址| 成人一区专区在线观看| 毛片一区二区在线看| 99ri精品视频在线观看播放| 情侣午夜国产在线一区无码| 国产精品无码久久久久久| 高清色本在线www| 真人免费一级毛片一区二区| 亚洲中文字幕av无码区| 亚洲AV无码乱码在线观看裸奔| 亚洲视频在线观看免费视频| 欧美一区日韩一区中文字幕页| 国产浮力第一页永久地址| 99热这里只有精品国产99| 亚洲第七页| 亚洲精品国产精品乱码不卞| 亚洲精品无码久久久久苍井空| 亚洲黄色高清| 欧美yw精品日本国产精品| 人妻91无码色偷偷色噜噜噜| 国产精鲁鲁网在线视频| 日本AⅤ精品一区二区三区日| 日韩色图在线观看| 国产精品欧美激情| 国产日产欧美精品| 99久久国产综合精品2020| 精品国产自在现线看久久| 亚洲欧美日韩成人在线| 四虎成人精品在永久免费| 中国国产A一级毛片|