趙雪峰 ,吳偉偉 ,吳德林 ,國 旭 ,時輝凝
(1.哈爾濱工業大學(深圳)經濟管理學院,廣東 深圳 518006;2.哈爾濱工業大學 經濟與管理學院,哈爾濱 150001;3.華為技術有限公司財經財務管理部,廣東 深圳 523808;4.中國工商銀行集約運營中心,廣東 佛山 528010)
十三屆全國人大三次會議中,李克強總理指出,伴隨疫情爆發,我國近6 億人民月收入不足千元。可見,在疫情導致經濟面臨較大下行壓力的背景下,一方面需采取紓困政策保障基本民生,另一方面需穩住市場,防止惡性事件沖擊市場帶來經濟驟速下滑[1-2]。其中,惡性事件以公司危機而進行財務造假為突出代表,由于財務造假不僅給債權人、投資人帶來巨大投資風險[3-5],而且會發生多米諾骨牌效應,造成我國經濟雪上加霜[6-7]。因此,及時有效地對財務危機進行預警預測,可為扭轉財務危機局面的公司提供充足的操作空間[8],降低破產可能性,也可及時規避投資風險,保護各利益相關方權益[9]。另外,在我國乃至全球經濟下滑的環境中,對重塑人民信心也起到積極作用[10-11]。
目前,國內外涌現出很多以財務特征為基礎構建的財務風險預測模型,有效地推動了財務危機的智能預警,且每個學者的研究側重點也不盡相同,但可主要分為模型構建及特征選取兩個方面。
從模型構建上而言,逐漸從傳統機器學習延伸至深度學習及集成學習中。在以傳統機器學習為基礎的構建中,Altman 等[12]構建優化Zeta 評判模型,提高了財務風險預測的準確率。Beaver[13]基于控制變量原則,利用單變量方法預測企業財務危機。張茂軍等[14]基于Aalen可加模型,實證分析出上市公司違約概率與財務預警指標間的關系,結果表明,總資產規模、營業利潤率、運營資金/資產總金額以及留存收益/資產總金額4個指標均影響上市公司陷入財務困境的強度。鮑新中等[15]構建了基于面板Logit模型的財務困境預警模型,并分別檢驗了非財務指標對財務預警模型的影響、行業差異對財務預警模型的影響以及預警臨界點的選擇對模型的影響。顧曉安等[16]將應計盈余管理變量與真實盈余管理變量引入至Logistic財務預警模型中,并對由盈余管理行為導致的財務信息偏差進行糾正,減少了因財務信息失真造成的預警模型誤判。鮑新中等[17]從32個財務與非財務指標中選取11個指標作為財務預警典型指標,在此基礎上,建立COX 比例風險模型。Kumar等[18]利用Logistic回歸、隨機森林和支持向量機,可對不均衡預警財務數據進行修正。黃超等[19]基于雙正交小波在非線性信號處理方面的良好性能,構造基于雙正交小波混合核函數的KPCA-SVM 財務危機預警模型。王威[20]將Lasso和Logistic兩種模型進行結合,提高財務風險預測的魯棒性。石先兵[21]結合降維算法和支持向量機的優勢,創建PCA-SVM 預警模型,有效提高模型泛化能力。
在以深度學習及集成學習為基礎的構建中,王玉冬等[22]采用果蠅算法和粒子群算法構建神經網絡預警模型,解決了財務危機預警時收斂速度慢,易導致局部最優解無解的缺陷。Niu 等[23]提出一種基于兩階段特征選擇的深度學習模型,在有效地捕捉多元金融時間序列非線性的同時,采用誤差修正模型對預測結果進行校正,提高了模型泛化性及預測準確率。吳沖等[24]利用可動態調整參數的粒子群算法,優化概率神經網絡的平滑參數,進而解決概率神經網絡平滑參數確定及空間結構復雜的問題。肖毅等[25]集成文本挖掘和深度學習構建企業財務風險預警模型,提出融合卷積神經網絡和長短期記憶網絡的財務風險預警動態建模方法,并以中國信息服務業上市公司為樣本開展實證研究。劉小萌等[26]分別利用傳統多變量區別分析方法及基因類神經網絡建立預測模型,以檢驗兩者中何者具有更高的預測能力,表示基因類神經網絡模型的預測效果有更佳的一般性,更能讓外部關系人將模型應用于樣本外的企業風險預測。
從特征選擇上而言,從影響公司財務狀況的角度,可將特征分為財務特征和非財務特征,不同研究人員對于特征研究的側重點也不同。李江宇等[27]從證券公司對上市公司財務指標的預期差角度分析,定量考察財務數據預期差的價值發現能力,分析驗證了財務預期差因子對于超額收益的解釋力度。Huang等[28]選取加權平均利率、全國房地產繁榮指數、貨幣供應量M2、宣布有效匯率、深圳成分指數等18個替代指標,建立金融狀況指數,分析表明,利率、房地產價格、貨幣供應量、匯率和股票價格,可有效地反映我國實際金融狀況,同時證明在財政緊縮時,可通過金融指標的變化實現預警。王昱等[29]從經營效率、財務效率、融資效率和人力資本效率4個維度的效率特征出發,分別提出相對應的投入產出指標體系,并采用數據包絡法評價上市公司對各個維度的相對有效性,并在此基礎上,將得到的多維效率指標與財務指標相融合。Yan等[30]利用無約束分布滯后模型和支持向量機(SVM),引入3~5個周期滯后的財務比率和宏觀經濟因素,從而檢測出公司內外部的早期變化對其財務狀況的影響。王蓮喬等[31]發現,融資強度對PPP 項目財務風險有正向影響,私營部門投資比例負向調節了這一影響,且該調節作用依賴于國家宏觀環境的財務風險結論。尹建華等[32]發現,重污染企業往往選擇犧牲環境績效來提高財務績效,企業規模越大,環境績效對財務績效的負向影響越小,而企業所有制形式對兩者關系的調節效應不顯著,另外也發現,企業客觀特征對環境績效和財務績效之間的調節作用還依賴于積極的環境信息披露。劉端等[33]研究得出客戶關系越集中,重要程度越大,則企業的財務績效水平越高,客戶關系集中度對存貨資源效率、營銷資源效率以及應收賬款資源效率具有顯著的正向影響,企業的這三大有形資源效率是客戶關系集中度作用于企業財務績效。
根據文獻內容綜合分析,相比于深度學習預警模型而言,傳統機器學習預警模型主要圍繞控制特征或修正特征偏差等作為研究切入點,如通過控制變量原則,研究單變量下的企業財務危機[13]、將盈余管理變量引入至Logistic財務預警模型中,并對由盈余管理行為導致的財務信息偏差進行糾正,減少預警模型誤判[16]等。而深度學習預警模型相比于傳統機器學習預警模型,由于深度學習內部參數眾多、結構更復雜,故更傾向于研究模型組合及模型結構優化,如將卷積神經網絡和長短期記憶網絡融合[25]、利用可動態調整參數的粒子群算法,優化概率預警神經網絡的平滑參數[24]等。但通常而言,傳統機器學習預警模型受限于結構較為簡單,難以適應復雜企業場景下的預警分析,同時,通過特征控制、修正等方案也可能存在主觀因素,因而在一般情況下預警表現不如深度學習預警模型。但深度學習預警模型也因結構復雜、內部參數多等因素,在預警分析之前,需在訓練階段利用大量準確無誤的訓練數據集調整優化內部參數,一方面,收集大量準確無誤的訓練數據集難度高;另一方面,當訓練數據集數量或純潔度不滿足模型要求時,又容易出現預警表現差的現象[41]。因此,為了解決因模型結構簡單或訓練數據集缺失而導致的傳統機器學習或深度學習預警表現下滑問題,本文在CART 樹對訓練數據集不敏感的前提下,集成多棵CART 樹得到集成分類器,從而達到提高模型復雜度的同時,規避訓練數據集缺失的問題,從而整體優化預警表現。
在影響企業財務危機的特征研究中,目前多數僅以某一類特征為前提,分析該類特征對財務造假的影響,由于考慮特征單一,而實際企業財務出現危機,也歸咎于眾多因素的綜合影響,從而導致該方法運用至實際場景有限;少數研究方法雖綜合多種可能影響企業財務危機的特征因素,但缺乏對不同特征之間的因果關系分析,從而造成企業預警分析時,因特征維度過大,造成特征冗余現象,又因特征冗余容易造成模型過擬合,導致模型預警表現下滑的現象[27]。因此,為了解決因特征單一導致財務預警應用場景受限,或因特征維度過大造成模型過擬合的問題,本文對所收集的高維特征執行因果分析,從而優化出合理維度范圍的特征集合,并基于上述集成分類器和已優化的特征集合完成企業預警,從而有效規避因財務特征影響預警表現的現象。
目前預警模型構建及預警特征選擇相對獨立,從模型構建角度而言,機器學習多以變量控制法,深度學習多以訓練調參法預測企業財務危機,并沒有考慮不同企業特征對預警模型的影響;從預警特征選擇角度而言,利用特征選擇法實現特征選擇,并通過實證數據研究特征選擇法的有效性。可見,在企業財務預警研究中,特征選擇與模型構建相對獨立且割裂,缺乏一種可有效從海量特征中選擇出價值特征,并直接實現企業預警的端到端方法。
除此之外,關于預警模型的應用價值,主流方向還是通過實證數據或仿真數據,驗證其預警準確率,客觀而言,準確率確實在某種程度上可衡量出模型實用價值,但不同預警模型在不同特征維度范圍內,其預警效果是否也各不相同? 即不同財務預警模型可能具有不同的特征最優維度,當在特征最優維度下,其預警表現最優。然而,目前研究中,缺乏對預警模型與特征維度的實證探討,從而無法得到更具指導意義的研究價值。
綜上所述,本文結合現有研究成果,以克服機器學習及深度學習構建預警模型的弊端、特征維度造成預警場景受限、預警表現不佳為目的,構建出以特征因果關系分析為基礎的集成財務預警模型(An boosted model of corporate financial early warning based on characteristic causality analysis,簡稱CFW-Boost模型),從而完成特征優化與企業預警端到端的實現,并通過中國A 股上市公司實證數據訓練CFW-Boost后,進一步探究CFW-Boost模型與其他預警模型在不同特征維度的預警表現,在確定存在特征最優維度的結論下,對比分析與其他模型的異同點,進一步體現CFW-Boost的優勢性,進而得出管理結論。
根據財務預警要求和CFW-Boost模型特征,財務預警中的CFW-Boost模型分為3個模塊,分別為平穩性檢驗、特征因果分析及集成分類器預測,3個模塊的主要構建過程如圖1所示。
其中,CFW-Boost模型的核心在于特征因果分析及集成分類器預測,其中特征因果分析主要基于高維特征集X與低維特征集的映射關系,將高維特征集X降維至低維特征集,進而利用集成分類器,構建低維特征集的目標函數,并優化目標函數得到財務預警結果。
X——高維特征集,且X=,…,表示公司在t時刻下可能影響公司財務狀況的第i個特征
——低維特征集,利用X求解得到的,,且n≥m,T≥R
q——高維特征集的樣本總量
p——低維特征集的樣本總量,且p≤q
——表示低維特征集中第j樣本對應的公司財務真實標簽,j=1,2,…,p
——表示低維特征集中第j樣本對應的公司財務預測標簽,j=1,2,…,p
fk)——表示編號為k的CART樹根據第j個樣本生成的目標函數,k=1,2,…,K
Tun?[34]指出,公司財務狀況應綜合多個維度多個指標進行分析,故本文所述的高維特征集的特征數量不少于上百個,但如何從上百個特征中選擇與公司財務狀況息息相關的特征,是CFW-Boost模型首先需要做的工作。
一般情況下,影響公司財務特征均是平穩隨機過程生成的時間序列數據,根據Song等[35]所述,以平穩時間序列數據為基礎的經濟分析具有有效性,故先構建平穩性檢驗方程,檢查高維特征集的平穩性,且僅保留具有平穩性的特征。平穩性檢驗方程為
當利用平穩性剔除部分高維特征后,進一步利用高維特征集構建映射到低維特征集的期望函數,并最優化期望函數的參數值,反向求解得到低維特征集。
綜上可知,首先構建高維特征集X映射到低維特征集的映射關系:
在式(2)中,Λ是變化矩陣,維度為n×m,在低維特征集的每個特征,均滿足標準正態分布(0,I)的假設下,變化矩陣的作用是將的維度從m變為n,將的均值由0變為μ,同樣地,噪點ò滿足高斯分布ò~N(0,φ)。根據多元高斯分布求解式(2)的聯合分布為
根據協方差公式分別計算式(4)的方差:
結合式(6)~(10),得出方差為
進一步,當最優化出參數μ,Λ,φ,即可計算出。根據最大似然估計法與p的概率分布,構建包括μ、Λ、φ的似然函數:
由Jensen不等式知,若函數f(x)為凸函數,則f(x)的期望函數大于或等于函數的期望,對應的數學表達式為f(E[x])≤E[f(x)],因此,似然函數為
當Jensen不等式等號成立時,當且僅當x為常量時,f(E[x])=E[f(x)],故式(13)的值為
在式(2)中,在假設每個特征均滿足標準正態分布(0,I)時,聯立式(12)、(14)得出:
結合式(11)、(15)和式(16),分別求得μ、Λ、φ、原始樣本X和低維特征集的關系表達式為:
進一步,迭代出μ、Λ、φ參數的最優解,并聯立μ、Λ、φ的最優解和式(2),求解得到低維特征集,從而將高維特征集中n個特征降低至低維特征集的m個特征。
當完成降維操作后,根據集成分類器可處理多種特征,并依然保持較高準確度的優點[36],將CART 決策樹作為集成分類器中的最小單元,并在不同的企業預警場景中,集成不同數量的CART 決策樹,當利用低維特征集集成多棵CART 樹得到集成分類器時,假設集成分類器生成公司財務預測標簽的分類函數為
當集成K棵CART 樹的分類函數為
集成CART 樹的數量K與分類準確度并非是正比關系,即并非K值越大,預測標簽越接近真實標簽[37],因此,在集成每棵CART 樹時,需要利用目標函數衡量集成后的分類器,是否比集成前的分類器在分類效果上更優異。其中,目標函數為
式中:objectK為集成了K棵CART 樹時的目標函數;為公司財務真實標簽與預測標簽的誤差函數。
進一步,在集成分類函數中引入正則化項Ω(fk),當在集成CART 樹過程時,正則化項會依賴CART 樹葉子節點個數、每個葉子節點的輸出值,從而防止集成分類器在預警過程中特征過擬合現象的發生。另外,本文在構建集成分類器時,不同CART 樹的不同葉子節點對應不同的權重系數,從而規避僅依賴于單棵或少部分CART 樹時,造成預警泛化能力差的問題。進一步,懲罰項Ω(fk)為
式中:S為CART 樹的葉子結點數;ωj為CART 樹葉子結點的權重,結合式(22)、(23),得到目標函數:
constant表示常數項,基于泰勒展開法則進一步展開目標函數,得到
式中,gj、hj分別為的一階和二階偏導:
聯立式(25)~(27)得
進一步求解權重的一階偏導,可得
結合式(30)、(31),可得最終的目標函數為
進一步,利用基尼指數衡量每次增加CART 樹后的集成分類器,比未增加CART 樹時的分類器,在預測標簽上的表現是否更優異,直至增加CART樹后的集成分類器,無法比未增加時的分類器表現得更優異,則得到適用于企業財務風險預警的多層CART 數集成模型,即CFW-Boost模型。
利用國泰安證數據庫、各類企業網站等,獲取上市公司對應的特征集,并根據CFW-Boost模型的理論構建過程,將研究分為訓練階段和測試階段,其中訓練階段流程如圖2所示。
步驟1從公開數據庫、各類企業網站等爬取企業特征數據集及對應的公司財務真實標簽集,將企業特征數據集分為模型訓練集和模型測試集。進一步,參照王昱等[29]以經營、財務、融資和人力資本等維度拆分指標,以及葛興浪等[38]所研究出的企業信息指標體系,將模型訓練集劃分為非財務高維特征集和財務高維特征集,利用CFW-Boost對非財務高維特征集和財務高維特征集進行平穩性檢驗,剔除少量非平穩性數據得到平穩性的高維特征集。
另外,本文所述公開數據包括國泰安等數據庫,而爬蟲手段主要是構建爬蟲程序進入佰騰網(https://www.baiten.cn/),并搜索目標公司的專利申請,并獲取對應的專利指標,特別是公司專利申請的申請類別(發明、實用新型和外觀設計)、專利所涉及的技術領域及主要核心技術三部分指標。
步驟2構建μ、Λ、φ與高維特征集的關系表達式及最優化關系表達式,將高維特征集降維成低維特征集,其中,低維特征集包括非財務低維特征集及財務低維特征集。
步驟3利用低維特征集訓練集成分類器,得到公司財務預測標簽集。
步驟4利用公司財務預測標簽集和步驟1中的公司財務真實標簽集,計算出預測準確率,若預測準確率小于預設的準確率閾值,調整集成分類器的內部參數并返回步驟3,重新計算公司財務預測標簽集,直至預測準確率大于或等于預設的準確率閾值時,組合平穩性檢驗、降維及集成分類器,得到CFW-Boost模型。
步驟5利用步驟1 中的模型測試集測試CFW-Boost模型的準確率,從而得到相關結論。
從國泰安等數據庫中提取2000~2020 年共3 812份上市公司的企業數據集,在數據清洗后,以是否處于ST(特別處理,Special Treatment)狀態劃分企業數據集,得到472份ST 企業數據集及3 167份正常企業數據集。另外,根據數據集中所記錄的公司信息,整理出以財務特征及非財務特征為分類原則的高維特征集。
根據表1知,本文以財務指標和非財務指標劃分企業特征,并基于經營能力、盈利能力、成長能力以及管理層結構進行多級劃分,從而得到訓練集和測試集。

表1 高維特征部分展示
在ST 企業數據集中,假設公司在本文研究時間范圍內屢次被ST,則以首次被ST 的時間線為準,并根據首次被ST 的時間線或正常數據集中所記錄的時間線,對ST 數據集及正常數據集進行平穩性檢驗,當完成平穩性檢驗后,按照CFW-Boost的降維步驟構建代碼,迭代訓練得到與高維特征表對應的低維特征集。
按照圖2將低維特征集(包括非財務低維特征集、財務低維特征集)作為第一訓練數據集訓練集成分類器,通過監視目標函數的函數值objectK,構建出函數值與訓練次數的曲線圖。同時,為了對比低維特征相比于高維特征集,在集成分類器訓練過程中的優異性,將高維特征集(包括非財務高維特征集、財務高維特征集)作為第二訓練數據集,訓練集成分類器,得到低維特征集與高維特征集在集成分類器的訓練對比圖(見圖3)。
根據圖3可得出,利用低維特征集訓練集成分類器時,當訓練次數達到700次后,目標值變化幅度趨于穩定,目標值的平均值為0.051 9,集成分類器訓練完成。利用高維特征集訓練集成分類器時,在訓練次數達到900次后,目標值變化幅度才趨于穩定,且目標值的平均值為0.063 6。可見,利用CFW-Boost模型中的特征因果分析后得到的低維特征集,不管從訓練次數還是目標值大小及穩定性上,都更有利于集成分類器的訓練。
進一步,Lasso 和Logistic 結合得到Lasso-Logistic[20],與利用降維算法和支持向量機創建得到的PCA-SVM[21]都是較為典型的具有特征分析及財務預警作用的模型。為了探究CFW-Boost相比于Lasso-Logistic、PCA-SVM 的優劣勢,對上述第二訓練數據集進行數據豐富得到第三訓練數據集,依次訓練CFW-Boost、Lasso-Logistic及PCASVM,得到對比圖(見圖4)。
根據圖4 可得出,在訓練周期上,CFW-Boost周期最長,需達到1 500次左右目標函數值才趨于穩定,PCA-SVM 次之,目標函數值趨于穩定需約1 000次訓練,Lasso-Logistic最少僅需1 000次;在目標函數值上,當各模型訓練完成后,CFW-Boost的目標函數值最小,平均值0.055,PCA-SVM 目標函數值均值為0.081,Lasso-Logistic為0.067。可見,CFW-Boost對第三訓練數據集的適應力最好,預警準確率最高。
當CFW-Boost訓練完成后,參照2.1所述測試階段,本文以機器學習及深度學習為劃分依據選擇對比模型,其中,機器學習模型,依次選擇模型結構簡單、訓練速度較快的Logistic,添加平穩性檢驗以提高模型魯棒性的Lasso-Logistic,低維特征集下表現優異的支持向量機(SVN)、添加降維操作的PCA-SVM、高維特征集下表現優異的隨機森林;而深度學習模型選擇典型代表的卷積神經網絡及長短期記憶網絡,進一步評估CFW-Boost的實際預警表現。
首先將包括83個維度的測試數據集平均分為3組,利用各模型分別測試在每組的準確率,如表2所示。

表2 各模型測試準確率
結合表2各模型表現,以機器學習和深度學習區別點的角度:①深度學習相比于機器學習,雖然在圖像及自然語言方向具有較為明顯的優勢[39-40],但在公司財務預警方向上,以機器學習為基礎構建的預警模型,預警表現并不一定比深度學習差,如PCA-SVM,其訓練準確率及測試準確率,都明顯優異于卷積神經網絡及長短期記憶網絡;②單個機器學習算法構建的預警模型,一般不具有特征篩選功能,如Logistic、支持向量機等,但可通過組合模型的方式,克服不具有特征篩選的缺點,如Lasso-Logistic、PCA-SVM 等,且組合后的模型,預警表現一般可進一步提高。
結合①、②所述,在公司財務預警上,相比于深度學習模型,合適的組合多個機器學習會得到更優異的預警表現。因此,本文以該思想,集成多棵CART 得到CFW-Boost。
從每個模型具體表現的角度看,8組模型都可實現財務預警的作用,但CFW-Boost模型相比于其他7組模型,準確率更高,在本文設定每組模型均訓練2 000次的前提下,CFW-Boost訓練準確率達到最高的95.77%,優異于表現次好的PCA-SVM。另外,CFW-Boost也具有更優秀的特征篩選能力,與卷積神經網絡、長短期記憶網絡、PCA-SVM 以及Lasso-Logistic等,同樣具有特征篩選的其他模型對比,CFW-Boost測試準確率領先于其他組模型,達到85.56%。因此,綜合來講,CFW-Boost具備較強的特征篩選能力,且有效提高公司財務預警準確率。
為了進一步探究企業數據集中,特征維度變化對CFW-Boost預警表現的影響,通過按比例去除特征的原則,對上述測試數據集共83組特征執行去除操作,如依次去除測試數據集中25%特征、50%特征及75%特征,分別得到25%測試數據集、50%測試數據集和75%測試數據集,對應的原測試數據集簡稱0%測試數據集,表示未執行特征去除操作。之后依次用0%、25%、50%及75%共4組測試數據集,評估上述8組模型的預警表現,如表3所示。

表3 比例去除特征下各模型測試準確率
可見,隨著測試數據集中特征維度的不斷變少,不同模型的準確率變化幅度也有較大差異。其中,特征維度變化對PCA-SVM 及Lasso-Logistic的測試準確率影響最小,變化幅度值不大于2.5%,對CFW-Boost、卷積神經網絡及長短期記憶網絡的準確率影響最大,且隨著特征維度的不斷變少,卷積神經網絡及長短期記憶網絡的準確率不斷降低。
為進一步探究特征維度變化對CFW-Boost預警表現的影響,按照每組測試數據集依次遞減5%的方法,得到0%,5%,10%,…,80%,85%,共18組測試數據集。其中,0%測試數據集依然表示未剔除特征,85%測試數據集表示已剔除85%特征數后的數據集。
匯總每個模型在上述18組測試數據集的準確率,構建得到準確率與特征去除比例的點線圖(見圖5)。
進一步,利用4階多項式擬合圖5中每條點線,得到準確率與特征去除比例的擬合曲線圖(見圖6)。
由圖6 各擬合曲線的總體表現可見,CFWBoost及Logistic、PCA-SVM、隨機森林等機器學習類模型,在伴隨企業特征維度減少時,準確率會呈現小范圍內波動,總體趨于平緩下降的現象;而以深度學習為代表的長短期記憶網絡和卷積神經網絡,準確率則會出現無波動的急劇下降現象。因此,CFW-Boost及機器學習類模型,相比于長短期記憶網絡和卷積神經網絡,具有更強的模型穩定性和魯棒性。
重要地,每組模型都對應特征最優維度,即相比于模型在非最優維度的表現來看,在最優維度數下的預警表現往往最好。其中,CFW-Boost的特征最優維度約為[63,82](對應圖6中X軸[0,23]),此時測試準確率高達87.26%,明顯優于其他模型;而當特征數去除比例大于23%后,CFW-Boost的預警表現逐漸下滑,在[47,63]區間內(對應圖6中X軸[23,42]),CFW-Boost的預警表現被PCA-SVM反超,即[47,63]變為PCA-SVM 的特征最優維度。換言之,CFW-Boost相比于其他模型,其特征最優維度較大(如本文所給定的測試數據集,其財務特征最優維度數為[63,82]),進而得到CFW-Boost對低維特征的財務預警表現力一般,但在高維特征中具有明顯優勢,預警準確率較大幅度高于其他模型。
本文在多數模型執行企業財務預警時,由于考慮特征維度單一,進而影響預警準確率的背景下,以分析特征因果關系為基礎,集成多棵CART 樹構建得到CFW-Boost,并利用實證數據進行訓練,進一步分析CFW-Boost相比于其他預警模型在實證數據中的預警表現,進而得出:
(1)企業財務受多種因素影響,因此,根據財務指標及非財務指標識別出多類財務特征,并通過特征因果分析降低多類財務特征的特征維度后,基于CFW-Boost內的CART 樹分析每種財務特征對企業風險的影響,構建面向特征因果分析的CFWBoost企業財務風險預警模型。經過數值分析及與其他財務預警模型的對比分析發現,本文構建的模型在提高預警準確率的同時,通過特征因果分析可有效降低多類特征的特征維度,避免因特征維度過高產生特征冗余,造成CFW-Boost過擬合,模型魯棒性下降的現象。
(2)通過集成多棵CART 樹得到的CFWBoost,在與其他組合模型及深度學習模型對比中發現,CFW-Boost雖需更高的訓練周期,但無論在訓練階段還是測試階段,其預警準確率更高、預警表現也更穩定;同時,特征維度的變化會影響CFWBoost的預警準確率,在特征從高維降為低維的過程中,CFW-Boost的準確率會呈現局部范圍內波動,總體平緩下降的現象。因此,在高維特征時選擇CFW-Boost進行企業預警時效果更優。
(3)各財務預警模型均具有各自對應的特征最優維度,在特征最優維度下,對應的財務預警模型的預警表現最優。其中,CFW-Boost的特征最優維度相比于其他預警而言,其維度數值最大,表示CFWBoost相比于其他預警模型,在高維特征中預警準確率更高,優異性更強。
基于本文研究結論,可對企業及市場監督部門提出如下建議:由于不同模型的預警準確率及穩定性上均具有差異性,每組模型一般都對應特征最優維度,故在應用模型對企業進行財務預警時,需實際結合企業性質,選擇出最適合企業的預警模型。其中重要地,可依賴所實際結合的企業性質,確定企業的特征最優維度,在最優維度內可選擇出企業所對應的最優預警模型。進一步,當特征最優維度的數值較大時,CFW-Boost的預警表現優異于其他模型,實際應用價值更高,因而合理選擇CFW-Boost進行企業財務預警,可有效提高預警準確率,避免因模型的錯誤預測,給予企業及市場造成經濟風險。