999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hybrid-隨機森林財務危機預警模型研究

2021-06-25 14:18:20張俊涵
軟件導刊 2021年6期
關鍵詞:特征模型

張俊涵

(上海工程技術大學數理與統計學院,上海 201620)

0 引言

隨著經濟全球化,世界各地的經濟聯系愈發緊密,市場競爭也愈發激烈,增加了企業陷入財務困境的可能性,而遭遇財務困境會使利益相關者蒙受損失,嚴重情況下會破壞市場環境。企業如果能夠建立一個長期有效的財務預警機制,使財務狀況剛出現危機時就能被及時發現,隨后采取相關舉措以避免財務危機,就能夠在激烈競爭的市場中生存壯大。因此,利用上市公司公開的財務數據建立財務危機預警模型,對上市公司及其利益相關者預警非常重要。

財務危機預警相關研究有:Kim 等[1]利用bagging 和boosting 方法構建財務危機預警模型,實驗結果表明,集成學習方法的預測能力要優于單一模型;溫重偉[2]利用3 種不同的核函數構建支持向量機財務危機預警模型,實驗結果表明,RBF 核函數的效果最佳,同時還構建了BP 神經網絡財務危機預警模型并與之對比,結果證明,雖然在訓練集上神經網絡表現較好,但在測試集上支持向量機的表現遠好于BP 神經網絡模型;陳志君[3]以中國通信行業為研究對象,選取3 家被特別處理的公司(ST)和16 家財務正常的公司為研究樣本,選取21 個財務指標利用KMO 檢驗和相關性檢驗進行篩選,最終得到6 個財務指標,利用邏輯回歸算法構建財務危機預警模型,整體準確率達到79%;黃衍[4]將BP 神經網絡、隨機森林、SVM 支持向量機這3 種模型的分類性能進行比較,結果證明隨機森林性能最好;孟杰[5]通過隨機森林算法建立財務危機預警模型,與邏輯回歸、SVM支持向量機模型、CART 分類樹模型和神經網絡模型的預測結果進行對比,結果表明隨機森林模型預測精度更高;連曉麗[6]利用隨機森林算法與Lasso-邏輯回歸算法分別建立財務危機預警模型,實驗結果表明,隨機森林預測能力更勝一籌;游甜[7]將支持向量機與BP_Adaboost、KNN 模型相對比,結果證明支持向量機預測效果更佳;吳睛宇[8]通過主成分分析對初選指標進行降維,然后利用神經網絡構建財務危機預警模型,對上市公司財務狀況的預測效果良好;周廷煒[9]利用網格尋優算法與支持向量機 相結合對上市公司財務狀況進行預測;鄧旭東等[10]分別建 立邏輯回歸財務危機預警模型與Z-score 模型,實驗表明邏輯回歸模型的預測正確率要高于Z-score 模型;張培榮[11]利用 因子分析對特征指標進行約簡,然后利用Xgboost 與Logistic 分別建立財務危機預警模型,實驗結果表明,通過Xgboost 算法建立的財務預警模型預測效果更好;范雍禎[12]分別構建PCA-Cox 模型和BP_Adaboost 模型,實驗結果表明,BP_Adaboost 模型的綜合正確率優于PCA-Cox 模型;石先兵[13]利用主成分分析方法對指標進行降維,得到4 個主成分因子,將這4 個主成分因子代入支持向量機模型中,實驗表明通過主成分分析與支持向量機結合的模型具有良好的預測能力;Xu 等[14]在指標體系中引入非財務指標,通過因子分析進行降維,通過邏輯回歸算法分析構建金融危機預警模型,實驗結果證明,因子分析與邏輯回歸結合構建的模型具有較高的預測正確率;李嘉東[15]利用隨機森林構建財務危機預警模型,然后分別構建支持向量機模型、判別分析模型以及Logistic 模型進行對比分析,實證結果表明,隨機森林構建的財務預警模型性能要優于其它3 個模型。

以上文獻都是直接對比分類器性能的優劣從而確定模型,但是對指標篩選的關注較少。本文將3 種不同特征指標篩選方法分別與隨機森林算法相結合,得到3 個不同財務危機預警模型,通過對比這3 個模型的優劣得到與隨機森林算法結合的最優特征選擇算法,最后將該模型與決策樹模型、邏輯回歸模型進行對比研究。

1 隨機森林

隨機森林是Bagging 的一個擴展變體。隨機森林正如其名,是由許多棵決策樹組成,同時在決策樹模型訓練過程中加入隨機屬性。

隨機森林是樹結構的分類器,由多個決策樹集合構成。Θk是獨立同分布的隨機向量,當輸入變量X 確定時,每個元決策樹h(x,Θk)都會擁有投票權,通過選取得出最優的分類結果。

隨機森林可以分成隨機分類森林與隨機回歸森林這兩種類型。隨機分類森林應用更加普遍。隨機分類森林最終得到的結果通過簡單多數投票法得到,公式如下:

h(xm)代表第N 個最終樣本的組合分類器結果,其中,I()是示性函數,Y 代表輸出變量,hi是單個決策樹模型。

2 數據準備

2.1 樣本來源

本文將證監會特殊處理帶有ST 或ST*帽子的上市公司判定為遭遇了財務困境的公司。樣本選取A 股市場2016 年、2017 年、2018 年3 年被證監會特殊處理的上市公司,從國泰安數據庫中查詢到共計69 家上市公司,將其作為財務危機樣本。2016 年有11 家被特殊處理的上市公司,2017 年有22 家被特殊處理的上市公司,2018 年被特殊處理的上市公司有36 家。

財務預警研究關于樣本選取的方法主要有3 種:①采取配對抽樣的方式進行選取,選取行業相同、規模相近的正常公司進行1∶1 配對;②一般用于非平衡數據,利用重抽樣方法擴大ST企業的數量;③適當擴大配對比例,一般選取1∶3 的比例,然后隨機抽取,不考慮行業與規模。

上述3 種方法各有千秋,本文研究的是不同特征指標篩選方法選取重要特征的能力,而不同行業企業的重要指標可能會略有不同,且規模不同會對財務指標造成影響,因此本文選擇第1 種方法,即選取行業相同,規模相近的正常企業進行一比一配對。

關于數據的選取,公司被特殊處理的當年認定為T 年,選擇該公司T-3 年數據。因為證監會是通過T-1 年的財務數據判斷該公司是否被ST,所以用T-1 年的數據進行預測無法起到預測作用,而且上市公司連續兩年出現虧損會被標記為ST*,因 此本文將采用T-3 年的數據進行預測。

2013 年抽取11 家正常公司,2014 年抽取22 家正常公司,2015 年抽取36 家正常公司,共計69 家正常公司。

2.2 數據篩選原則

有些上市公司在部分特征指標上存在數據缺失情況,對于有數據缺失的公司,如果該公司是正常公司,以行業相同規模相近為前提,盡可能選取數據較為完整的上市公司,如果該公司是被特別處理的公司(ST),由于財務危機的公司數量較少,那么對于缺失的數據就以該指標的平均值進行填充。最終得到138 個樣本作為本文實驗數據。

2.3 特征指標初選

特征指標的科學性是一個模型能夠良好運行的首要條件,所以本文在前人基礎上進行指標的初步選擇,選取原則如下:在以往相關的文章中出現頻率較高且該指標較顯著,能夠較好解釋財務危機。初選特征指標如表1 所示。

2.4 數據處理

利用Python 計算出每個初選特征的各類指標:最大值、最小值、平均值、四分之一分位數、二分之一分位數、四分之三分位數,然后根據這些指標找出數據中的異常值,將異常值用上邊緣的值進行替代。

Table 1 Summary of primary indicators表1 初選指標匯總

3 特征篩選

各個財務指標之間一般具有相關性。由于初選的指標較多,可能很多指標并不能很好地解釋財務危機現象,所以要進行特征篩選。

本文采取Shuffle、Embedd、Hybrid 這3 種特征選擇方法對初選指標體系進行篩選。

3.1 基于Shuffle 的特征選取

Shuffle 的特征篩選原理是基于AUC 指標進行篩選。Shuffle 利用控制變量法,通過控制所有特征指標對應的數據保持不變,選取其中一個特征指標,將該列的所有數據打亂后隨機排序,然后查看AUC 是否變化,如果變化就認為該指標重要,保留該指標;反之,如果AUC 沒有變化則去除該指標。基于Shuffle 選取出的特征指標如表2 所示。

Table 2 Characteristics of Shuffle screening表2 Shuffle 篩選的特征指標

3.2 基于Embedd 的特征選取

Embedd 特征提取原理主要是根據OOB(Out of Bag)原則。如果某個特征是重要的,那么在此特征的數據分布式中引入一定的噪聲,僅對此特征變化之后的數據進行RF訓練,則模型性能會有較大變化(較明顯地變差);反之,如果某個特征不重要,重新訓練后的模型性能變化不會太大。基于Embedd 算法得到的特征指標如表3 所示。

3.3 基于Hybrid 的特征選取

Hybrid 算法進行特征篩選原理主要是基于AUC 進行選取,逐個添加指標后觀察AUC 是否變化,如果AUC 發生變化,則說明這個指標是重要的,予以選取;反之,如果AUC 沒有發生變化則說明這個指標不重要,予以剔除。基于Hybrid 算法篩選的特征指標如表4 所示。

Table 3 Characteristic indicators selected by Embedd表3 Embedd 選取的特征指標

Table 4 Characteristic indicators selected by Hybrid表4 Hybrid 選取的特征指標

4 模型性能評估

對于分類模型的性能評估一般用混淆矩陣進行考察,以本文正常公司以及ST 公司為例,混淆矩陣可以將其分為4 類:

TP:將ST 公司判斷為ST 公司

TN:將正常公司判斷為正常公司

FP:將正常公司判斷為ST 公司

FN:將ST 公司判斷為正常公司

通過混淆矩陣計算出這4 個類別的所有數目,這樣就可輕松得出模型分類的準確率。

準確率=正確預測的數目/總數

誤分類率=錯誤預測的數目/總數

正例覆蓋率=正確預測的ST 數目/實際ST 數目

正例命中率=正確預測的ST 數目/預測ST 數目

負例的覆蓋率=正確預測的非ST 數目/實際非ST 數目

負例命中率=正確預測的非ST 數目/預測非ST 數目

企業利益相關者最重視的指標是正例命中率與正例覆蓋率。正例覆蓋率指預測到的ST 公司占實際被ST 公司的比例;正例命中率指被ST 企業的管理者發現財務預警時,采取合適的措施能使多大比例的企業擺脫財務危機。

4.1 基于Shuffle 的隨機森林

本文隨機抽取50% 的樣本作為訓練集,50%作為測試集,通過測試集的結果對模型性能進行評價,測試集的ROC曲線如圖1所示。

從圖1 和表5 可以看出,正例命中率為81.82%,正例覆蓋率為72.97%,整體正確率為76.81%,AUC 為0.8666。如果根據測試集結果對這些被預測為ST 的企業提前3 年進行預警,那么這些企業通過采取正確措施將有81.82%可以逃離被ST 的命運。

Fig.1 ROC curve based on Shuffle test set圖1 基于Shuffle 測試集的ROC 曲線

Table 5 Random forest confusion matrix based on Shuffle表5 基于Shuffle 的隨機森林混淆矩陣

4.2 基于Embedd 的隨機森林

重復以上步驟,得到的ROC 曲線如圖2 所示。從圖2和表6 可以看出,根據測試集結果,如果對被預測為ST 的企業提前3 年給予預警信號,采取正確措施的企業將有84.85%可以逃離被ST 的命運。

Fig.2 ROC curve based on Embedd test set圖2 基于Embedd 測試集ROC 曲線

Table 6 Random forest confusion matrix based on Embedd表6 基于Embedd 的隨機森林混淆矩陣

4.3 基于Hybrid 的隨機森林

將數據代入Hybrid 模型得到ROC 曲線如圖3 所示。從圖3 和表7 可以看出,根據測試集的結果,如果對被預測為ST 的企業提前3 年給予預警信號,這些企業采取正確措施將有91.18%可以逃離被ST 的命運。

Fig.3 ROC curve based on Hybrid test set圖3 基于Hybrid 測試集ROC 曲線

Table 7 Random forest confusion matrix based on Hybrid表7 基于Hybrid 的隨機森林混淆矩陣

4.4 三種特征選取方法比較

由表8 可以看出,Hybrid-隨機森林模型的正例命中率、正例覆蓋率、整體正確率以及AUC 均明顯高于Shuffle-隨機森林模型與Embedd-隨機森林模型。Hybrid-隨機森林模型明顯要比其他兩個模型的分類性能優越。

Table 8 Comparison of accuracy rate表8 正確率對比 (%)

因此得出結論:Hybrid 相比Shuffle 和Embedd 更能選取到顯著特征,能幫助投資者更好地避免踩雷,幫助企業管理者更早發現企業的問題。

4.5 基于決策樹構建財務危機預警模型

在Hybrid 建立特征指標體系基礎上,利用該特征指標體系建模,得到基于Hybrid 的決策樹模型。由表9 得知,TP 為27,TN 為26,FP 為6,FN 為10,其結果與Shuffle-隨機森林模型相同,通過計算可知測試集正例命中率為81.82%,正例覆蓋率為72.97%,整體正確率為76.81%。

Table 9 Confusion matrix of decision tree model表9 決策樹模型的混淆矩陣

4.6 基于邏輯回歸構建財務危機預警模型

在利用Hybrid 特征選擇算法得到的特征指標體系基礎上,利用邏輯回歸構建預警模型。

如表10 所示,TP 為20,TN 為22,FP 為13,FN 為14。通過計算可知,測試集的正例命中率為60.61%,正例覆蓋率為58.82%,整體正確率為60.87%。

Table 10 Confusion matrix of logistic regression model表10 邏輯回歸模型的混淆矩陣

5 結語

A 股上市公司的財務報表中有較多的財務指標,而且各個不同的指標之間具有相互關聯的特點。本文運用Shuffle征擇算法、Embedd特征選擇算法、Hybrid特征選擇算法,對初選的特征指標體系進行進一步的篩選,得到了三個特征指標體系并利用隨機森林算法分別進行建模,得到三個財務危機預警模型,實驗表明,Hybrid 與隨機森林結合構建的財務預警模型效果較為優良,然后在Hybrid 建立的特征指標體系的基礎上利用決策樹算法與邏輯回歸算法構建財務危機預警模型,實驗表明,隨機森林算法構建的財務危機預警模型效果更佳。

Hybrid-隨機森林預警模型可以為上市公司進行準確預警,便于上市公司管理者提前制定防范風險的戰略措施。投資者可對Hybrid 所約簡得到的六個財務指標重點關注,且可利用有限的公開財務數據進行預測,具有一定的實際應用價值。

本文仍存在不足之處,如在開始進行特征指標篩選時是基于前人研究結果與經驗初選特征指標體系,沒有選入的指標不代表該指標對財務危機沒有反應,但又不能將所有指標納入選擇范圍,因為過多的變量會對建模分析結果造成影響。未來研究要考慮行業特性,構架一個全面的特征指標初選體系。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美色视频网站| 草逼视频国产| 亚洲免费三区| 久久精品波多野结衣| av在线5g无码天天| 57pao国产成视频免费播放| 中文字幕第4页| 91精品最新国内在线播放| 亚欧成人无码AV在线播放| 成人在线第一页| 就去色综合| 亚洲精品麻豆| 亚洲自偷自拍另类小说| 国产精品国产主播在线观看| 国产不卡一级毛片视频| 国产成人精品男人的天堂下载 | 国产欧美日韩在线在线不卡视频| 亚洲中文字幕av无码区| a毛片免费在线观看| 女人天堂av免费| 毛片久久网站小视频| 在线观看免费AV网| 欧美一区二区丝袜高跟鞋| 精品伊人久久久久7777人| 久久精品国产电影| 国产亚洲美日韩AV中文字幕无码成人| 四虎国产在线观看| 亚洲日韩国产精品综合在线观看 | 久久99国产乱子伦精品免| a级毛片免费播放| 少妇被粗大的猛烈进出免费视频| 天天摸夜夜操| 伊人成人在线| 第一页亚洲| 国产成人精品男人的天堂下载| 欧美成人免费一区在线播放| 激情视频综合网| 成人午夜福利视频| 亚洲人成人伊人成综合网无码| 久久这里只有精品免费| 亚洲 成人国产| 99一级毛片| 午夜色综合| 熟女视频91| 欧美日本中文| 久久香蕉国产线| 国产在线第二页| 亚洲AV无码久久精品色欲| 亚洲天堂网视频| a天堂视频| 国产不卡网| 精品丝袜美腿国产一区| 在线色综合| 免费a级毛片视频| 粉嫩国产白浆在线观看| 亚洲高清无在码在线无弹窗| 欧美在线网| 国产美女精品一区二区| 亚洲码一区二区三区| 亚洲青涩在线| 国产人人乐人人爱| h网站在线播放| 久久中文电影| 91精品国产福利| 色悠久久综合| 99精品在线视频观看| 3D动漫精品啪啪一区二区下载| 一区二区影院| 一级毛片免费不卡在线视频| 99热亚洲精品6码| 99热这里只有精品国产99| 欧美h在线观看| 亚洲男人的天堂网| 亚洲成网777777国产精品| 中文字幕在线一区二区在线| 高清无码一本到东京热| 乱码国产乱码精品精在线播放| 看av免费毛片手机播放| 国产自视频| 亚洲精品在线影院| 欧美国产日韩另类| 亚洲h视频在线|