宋思遠,王洛鋒,張新生,暴子旗
(1.西安建筑科技大學資源工程學院,陜西 西安 710055; 2.洛陽欒川鉬業集團股份有限公司,河南 洛陽 471500; 3.西安建筑科技大學管理學院,陜西 西安 710055)
目前煤炭仍然是中國的主體能源[1],近年來,全球煤炭產量呈現震蕩走勢,2017—2019年全球煤炭產量保持連續增長,2020年受新冠肺炎疫情影響,全球煤炭產量增勢未能延續,導致需求下滑、產量下降、國際煤炭貿易萎縮,煤炭價格在上半年大幅下降,且煤炭銷售價格易受到煤炭市場價波動影響,從而易出現產業虧損等問題。在這種情況下,煤炭企業如何在金融市場上進行有效的融資成為其發展的原動力,而能否有效融資與企業自身的信用風險密切相關,信用風險是借款人因各種原因未能及時、足額償還債務或銀行貸款而違約的可能性,其高低直接決定了融資力度的強弱。大中型煤炭企業不同于小微企業,其風險特點和表現形式均不同,具體表現為宏觀市場經濟關聯度高、隱蔽性較高、風險損失大等,因此大中型煤炭企業一旦出現經營狀況,對于銀行、投資者以及企業本身來說都損失巨大。
隨著人工智能、大數據技術不斷深入各行各業,對企業進行信用風險的標準化評估顯得尤為重要,信用評價是一個開放式評價過程,指標的選擇往往決定評價結果的準確性,因此信用風險評價分為指標體系建立與指標篩選兩個方面。在指標體系建立方面,業界流行的“5C原則”[2]是企業信用評價指標體系的主要標準之一,“5C原則”通過資本(capital)、品德(character)、擔保(collateral)、能力(capacity)、環境(condition)五個方面對借款人如期償還本息的意愿和能力進行評價。在煤炭企業的信用風險評估方面,張濤等[3]使用簽約合同金額履約率作為評價指標來構建風險預警指標體系;唐海偉[4]選取礦產資源儲量、生產能力、產品方案、采選技術指標和生產成本作為評估參數;HUANG等[5]通過供應鏈、行業狀況、企業創新能力、盈利能力、償債能力和宏觀經濟環境等建立了企業信用評級體系;林軍[6]從礦產資源型企業風險入手,從宏觀環境風險、行業市場風險、勘查風險、開采風險、經營風險、資源枯竭風險等六大方面進行模型構建。在指標篩選方面,HUI等[7]利用T檢驗方法降低指標體系信息冗余度,使用Logistic回歸方法與多目標規劃模型構建評分模型;孟斌等[8]采用方差齊性檢驗和R聚類對指標進行篩選,建立能顯著區分違約狀態與否的債信評級指標體系;林宇等[9]使用偏相關分析以及Twin-SVR模型構建信用風險預測模型;LABORDA等[10]分別使用Filter和兩種Wrapper方法降低信用風險評估中出現的維數災難問題,實驗表明前向搜索方法在使用的分類器性能中表現最佳;ELSSIED等[11]針對特征空間數據維數高等問題,基于單項方差分析F檢驗進行特征選擇。
綜上所述,現有研究在上市企業的信用風險評價方面已經取得了一定的進展,但也存在兩個問題:一是大部分指標體系仍是遵循著金融類企業的指標體系原則所建立,不能很好地表現煤炭企業的特點;二是在指標的篩選上,現有方法存在刪除變量過多、不能很好預測違約狀態等問題?;诖耍紫仍谕ㄓ弥笜诉x擇上結合煤炭企業風險因素提出兩個新指標:抗風險能力、煤炭及加工產品業務銷售毛利率,然后構建Filter-Wrapper兩階段特征選擇算法對信用風險指標體系進行篩選并預測,建立大中型煤炭企業信用風險評估模型。
通過廣泛梳理國內外經典文獻,基于業界普遍認可“5C原則”,在大部分企業構建的信用風險要素的基礎上,多方面考慮大中型煤炭企業的風險特點,最終從煤炭企業外部環境、企業財富創造能力、償債來源三大類別進行分析。一方面,針對現有煤炭企業指標體系較少涉及信用風險因素的問題,提出了兩個新指標:抗風險能力、煤炭及加工產品業務銷售毛利率,以適用于大中型煤炭企業;另一方面,全面將定性指標與定量指標相結合,使指標體系更加完整?;诖?,選擇煤炭企業外部環境等3個一級指標,行業風險、企業狀況等6個二級指標,抗風險能力、司法訴訟等22個三級指標開展評價,建立如圖1所示的大中型煤炭企業信用風險評價指標體系。
1.1.1 抗風險能力(ARA)
為了對煤炭行業經濟進行整體把握,同時可以分析煤炭行業變動狀況,并反應煤炭企業的抗風險能力,在此引入了煤炭行業景氣指數與企業的凈利潤增長率。
行業景氣指數又稱為景氣度,它是對企業景氣調查中的各種指標進行加權編制,綜合反映某一特定調查群體或某一社會經濟現象所處的狀態或發展趨勢的指標;凈利潤增長率是一個企業經營的最終成果,凈利潤增長率的多少代表著企業經營效益的優劣,它是衡量一個企業經營效益的主要指標。由此,通過式(1)可得出抗風險能力指標。
ARAi=

(1)
式中:ARAi為企業第i年抗風險能力;Ni為第i年凈利潤;Ni-1為第i-1年凈利潤;CPi為第i年煤炭行業景氣指數;CPi-1為第i-1年煤炭行業景氣指數。
抗風險能力表示煤炭企業在每年行業景氣變化情況下穩定和發展的能力,是評判企業信用風險的重要指標。
1.1.2 煤炭及加工產品業務銷售毛利率(CPPM)
大中型煤炭企業大多以煤炭開采及加工產品為主營業務,主營業務銷售毛利率反映了主營業務的獲利能力,也體現了企業的財富創造能力,而利潤率卻不能完全體現企業的生產經營狀況,因此考慮將煤炭及加工產品業務銷售毛利率作為企業財富創造能力的指標,計算見式(2)。

(2)
式中:CPPMi為企業第i年煤炭及加工產品業務銷售毛利率;CPPRi為第i年煤炭及加工產品業務收入;CPPCi為第i年煤炭及加工產品業務成本。
煤炭及加工產品業務銷售毛利率體現了大中型煤炭企業的財富創造能力,獲利能力強弱與信用風險有著直接的關系。
1.2.1 特征選擇方法框架
構建大中型煤炭企業信用風險評價模型的最大挑戰是判斷哪些指標與違約狀態密切相關,不相關或冗余的數據特征都可能使得評價模型出現判斷失誤等情況。當數據空間隨著維度或特征數量的增長而以非常快的速度增長時,就會出現維數災難。休斯現象指出,在同等條件下,分類器或回歸器的預測能力隨著特征數量的增加而增加,但在數量達到臨界點后下降[12]。多特征的模型往往很復雜,復雜的模型也需要更多的時間來擬合數據,易造成過擬合。因此在數據量相對較小的情況下,可以通過減少特征數量來緩解這種情況,主要包括Filter、Wrapper、Embedded三種方法。
本文采用的是結合Filter方法與Wrapper方法的兩階段特征選擇方法,首先以Filter法——假設檢驗的算法(互信息和方差齊性檢驗)完成特征變量的預篩選,篩選出對違約樣本與非違約樣本的非顯著性特征,從而降低數據維度,保證后續Wrapper方法運算量能夠控制在合理的程度;然后在Wrapper階段,結合使用序列前向選擇算法(sequential forward selection,SFS)進行特征最優子集的搜索,進一步篩選變量。算法流程圖如圖2所示。

圖2 兩階段特征選擇算法流程Fig.2 Two-stage feature selection algorithm flow
1.2.2 階段一:Filter方法
Filter方法也稱為過濾式方法,一般依據評價準則來增強特征與類的相關性,弱化特征之間的相關性。特征屬性分為兩種類型:連續性和離散型,而目標屬性為離散型。根據屬性類型的不同,可以分為兩種情況:①X和Y都是離散型屬性;②X是連續型屬性,Y是離散型屬性。針對以上情況,使用互信息和F檢驗來實現,互信息主要用于篩選離散值屬性,方差分析用于篩選連續型屬性。
1) 針對X和Y都是離散型的情況,通過互信息檢驗X和Y的獨立性,評價自變量對因變量的相關性。互信息是衡量不同變量之間相關性的有效標準,描述兩個變量之間的共享信息。設X有s種可能取值,x為隨機變量X的具體取值,Y有t種可能取值,則Pi=P(X=xi)(i=1…s),p(x,y)為X和Y的聯合分布,通過互信息式(3)計算得出每個變量與Y之間的互信息。

(3)
由互信息的定義得知,當隨機變量X和Y沒有共享信息時,互信息為最小值0;當隨機變量X和Y間的共享信息越多或者說兩變量依賴程度越強,他們之間互信息的值越大。通過設置閾值來篩掉互信息值較小的特征。
2) 針對連續型屬性特征進行F檢驗,F檢驗又稱為ANOVA、方差齊性檢驗,是用來捕捉標簽與每個特征之間線性關系的過濾方法,通過檢驗各總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。F檢驗的計算如下所述。
令X={x1,x2,…,xn}和Y={y1,y2,…,yn}為兩個服從正態分布的獨立時間序列,則有兩個序列的均值表示為式(4)。

(4)
兩個序列的方差為式(5)和式(6)。

(5)

(6)
由此可計算出F(n-1,m-1),見式(7)。

(7)
F檢驗會返回F值與P值兩個統計量,在進行F檢驗時,可以根據樣本的某個特征的F值判斷特征對預測類別的幫助,F值越大,預測能力也就越強,相關性就越大。而P值是結果可信水平的一個遞減指標,樣本中變量的關聯可以認為是總體中個變量關聯的可靠指標,P值越小,特征的預測能力就越強。
1.2.3 階段二:Wrapper方法
Wrapper方法也稱為包裹式方法,其評價的策略是使用后續學習算法的分類性能來評價特征子集的優勢,該方法需要回歸器或分類器來進行特征選擇,嘗試不同的特征組合,并通過在驗證集上測試模型來對每個子集進行評分。
階段一的Filter方法雖然能夠過濾數據集中無關的特征,但無法去除一些冗余特征,因此本階段利用Filter階段所選出的共有特征子集作為Wrapper階段的原始特征子集,采用序列前向選擇進一步對特征進行過濾,并以AUC值作為衡量指標構建特征評價值,以RF(random forest)作為分類器檢測分類的效果,從而獲得最終特征子集。SFS選擇步驟如所述。
Step1:根據評估標準,選擇返回最佳性能的特征作為初始特征。
Step2:將初始特征與剩余所有特征進行雙特征組合,選擇最佳性能的一對。
Step3:通過前向選擇繼續添加新的特征,并選擇最佳性能的組合。
Step4:到達設定特征個數條件即停止,輸出所選擇的特征組合。
2.1.1 數據來源
考慮到數據的可獲取性、真實性和有效性,選取的相關財務數據來自于Choice金融終端,非財務數據來自于天眼查與中國執行信息公開網。其中,選取38家煤炭行業上市公司2000—2018年的相關數據對大中型煤炭企業信用風險進行實證研究,數據中違約是指公司被滬深證券交易所標記為ST(special treatment)的情況,未被標記的則認定為非違約。
由于ST狀態是指上市公司經審計兩個會計年度出現財務狀況或其他異常狀況,導致其股票存在上市風險,從而在下一年實行風險警示。因此以在t年某公司被標記為ST為例,意味著公司在t-1年、t-2年連續兩年虧損,若是以這兩年的x來預測t年的違約風險變量y,則不符合實際預測情形,不具有說服力和時效性。因此,當構建樣本過程中出現此種情形時,以t-3年的x來預測t年的ST狀態。
2.1.2 樣本處理
1) 違約樣本的選取。由于單個年份的煤炭類上市公司違約樣本數量太少,不利于建模,為了充分利用每一年的違約樣本,本文包括了煤炭企業從2000—2020年所有被標記為ST的年份,共選取了40個被標記為ST的違約樣本,并使用t-3年的數據進行預測。
2) 非違約樣本的選取。選取2000—2020年未被標為ST的年份作為非違約樣本,由于違約狀態的年份均為2018年以前,則對于非違約樣本也采用2018年之前的指標數據進行建模。
3) 樣本預處理。首先將違約樣本與非違約樣本合并為一個數據集,然后對數據完整度低于90%的年份進行刪除,由于煤炭企業信用風險指標量綱不統一,最后進行指標數據歸一化。
正向指標是指數值越大、企業經營狀況越好、信用狀況越好的指標,如利潤總額等指標;負向指標是指數值越小、企業償還能力越強、信用狀況越好的指標,如償債保障比率等指標。設xij為第i個指標第j個企業的標準化值;vij為第i個指標第j個企業的原始數值;n為樣本總數。根據正向指標和負向指標的標準化公式見式(8)和式(9)。

(8)

(9)
2.2.1 指標集
根據數據類型情況,將大中型煤炭企業數據年份劃分為ST與非ST兩種情況,被標為ST的標簽為1,非ST的標簽為0,具體指標情況見表1。

表1 指標集Table 1 Index set
2.2.2 分類指標選擇
實驗所選指標為準確率(Accuracy)、AUC(Area under curve)、F1分數(F1-score)、精確率(Precision)、召回率(Recall)以及特異度(Specificity),從各個方面表現對違約樣本的識別效果以及模型的穩健程度,計算公式見式(10)~式(14),TP、TN、FP、FN見表2。

(10)

(11)

(12)

(13)

(14)

表2 混淆矩陣Table 2 Confusion matrix
2.2.3 預選學習算法
表3為六個預選算法在大中型煤炭企業信用風險原始數據集中的表現。由表3可知,RF相較于其他5個模型而言,6個指標表現均較好,可以有效識別違約非違約樣本,因此選用RF作為階段二特征篩選的學習算法,算法均采用5折交叉驗證進行實驗,實驗結果為10次實驗的平均值。
2.2.4 階段一選擇結果
圖3為互信息篩選離散型特征結果,圖3(a)為互信息值,互信息用于衡量離散型變量與標簽的信息相關程度,互信息值越大,依賴程度越大,因此借助圖3(a)可得到圖3(b)的學習曲線,表現為刪除特征個數對應的模型準確率結果。圖3(b)最高點為刪除x19(失信被執行記錄)與x22(大股東性質3)這兩個特征,模型準確率可達到最高,為0.942 8,說明篩選出的特征對煤炭企業是否違約的分類準確率較好,因此在互信息這一步驟中,刪去這兩個特征作為結果。
圖4和表4為方差齊性檢驗結果,用于判斷連續型變量對因變量是否有顯著影響, 所得F統計量越大、P統計量越小,預測能力越強,而在許多研究領域,0.05的P值通常被認為是可接受錯誤的邊界水平,因此在16個連續型變量的分析中,保留P≤0.05的9個變量(即x1、x2、x7、x8、x9、x10、x11、x15、x16)作為預選連續型特征集。另一方面,由圖4和表4可以看出,指標x1(ARA)與x2(CPPM)處于相對靠前的位置,證明了這兩個指標與是否是違約狀態具有強相關性,驗證了指標的有效性。

表3 六個預選算法在初始數據集中的表現Table 3 The performance of six preselection algorithms on the initial data set

圖3 互信息篩選Fig.3 Mutual information screening

圖4 F檢驗篩選Fig.4 F-test screening

表4 方差齊性檢驗Table 4 Test for homogeneity of variance
2.2.5 階段二選擇結果
在階段一Filter方法篩選出來的13個候選特征的基礎上,階段二Wrapper使用基于RF的序列前向搜索方法選擇最優特征子集。根據1.2.3部分的描述,使用AUC值作為特征集效果評價指標,采用序列前向選擇算法從空集逐步增加特征,直至達到最優,經過多輪的迭代最終選擇出了10個優選特征。由圖5可以看出,當指標為10個時,AUC值表現最好,即保留x1、x2、x7、x8、x9、x11、x17、x18、x20、x21作為最終優化特征集。
2.2.6 實驗結果說明
表5為原始數據、階段一篩選之后的特征、階段二篩選之后的特征分別使用分類器預測之后的實驗結果。由表5可知,經歷兩個階段的特征篩選之后,各類指標均得到了增長,模型具有較高的Specificity與Recall,說明對正負樣本可以有針對性地進行識別,對煤炭企業信用風險的分類預測效果較好且穩健,指標由22個刪減到10個,大大增加了模型計算效率。本文使用最后選擇出的特征子集進行模型訓練既可以保證良好的預測效果,又可以保證沒有冗余變量干擾分類,這在大中型煤炭企業信用風險預測中具有較大的現實意義。

圖5 特征個數與AUC值的關系Fig.5 The relationship between the feature number and AUC value
表6為無x1(ARA)、x2(CPPM)特征的情況下,原始數據、階段一篩選之后的特征、階段二篩選之后的特征使用分類器的預測結果,圖6~圖8為有無x1、x2特征的情況下的實驗對比結果。實驗結果表明,x1、x2對于模型的分類精度以及穩健程度具有重要作用,各類指標均優于無x1、x2的指標,證明了所提出的兩個指標的有效性。

表5 實驗結果對比Table 5 Comparison of experimental results

表6 無x1、x2特征實驗結果對比Table 6 Comparison of experimental results without x1 and x2 features

圖6 原始數據對比Fig.6 Raw data comparison

圖7 階段一之后數據對比Fig.7 Data comparison after stage one

圖8 階段二之后數據對比Fig.8 Data comparison after stage two
本文建立了基于Filter-Wrapper兩階段特征選擇方法的大中型煤炭企業信用風險評估模型,根據大中型煤炭企業的特點,在通用指標選擇上結合煤炭企業風險因素提出兩個新指標:抗風險能力、煤炭及加工產品業務銷售毛利率;構建的Filter-Wrapper兩階段特征選擇方法通過實驗證明對ST狀態的分類準確率高、對煤炭企業信用風險違約樣本識別率較高且提高了預測效率,準確率高達95%,對違約樣本識別率高達96%;實驗結果將特征選擇前后的數據集進行預測對比,驗證了煤炭企業信用風險評估指標的有效性以及特征選擇方法的可行性,說明該模型能夠很好地對煤炭企業信用風險進行預測,從而合理防范風險、調控市場、減少銀行、投資者以及企業本身的損失。