吳 沖, 陳曉芳, 苗博威
(哈爾濱工業大學 經濟與管理學院,黑龍江 哈爾濱 150001)
隨著信息技術的逐步突破與落地應用,信息技術行業進入蓬勃發展時期,同時其高風險,高收益的標簽也被顯現。信息技術類企業容易陷入財務困境的原因在于,首先,上市初期資金投入力度大,研發過程和時效性存在不確定性;其次,技術產品更新迭代速度快,相關產品生命周期短,導致企業未來收益的不確定;最后,信息技術類企業面臨償債能力差且經營風險大的市場狀況,一旦技術研發失敗,極易造成資金鏈斷裂等問題。因此,信息技術行業急需建立具有行業針對性的財務危機預測(financial distress prediction, FDP)模型,使企業管理層及時監控企業財務及運營狀況,避免財務危機發生。
探索有效的FDP模型一直是學術界和實務界共同關注的重要研究課題[1]。學者們將研究聚焦于FDP模型算法和指標選擇上。經典的統計FDP模型包括單變量分析模型[2]、多元判別分析模型[3]、線性模型[4]、logistic回歸模型[5]等。近年來,由于財務指標維度增加,數據類型復雜化,基于統計的FDP模型已經無法滿足需求。為了尋求更高的準確率,機器學習算法被引入FDP領域。如決策樹[6]、神經網絡[7]、支持向量機[8]、隨機森林[9]等。單一的分類器模型存在一定的弊端和局限性,而集成模型能夠弱化單一分類器的缺點,提高模型的預測性能和泛化能力。
輕量化梯度提升機(Light Gradient Boosting Machine, LightGBM)[10]作為集成算法被廣泛應用于預測領域。沙靖嵐[11]將lightGBM算法應用到P2P行業的違約預測中,結果表明采用lightGBM進行分類預測是有效的。賈鵬翔[12]采用lightGBM算法預測二手車的價格,與Xgboost和隨機森林算法相比lightGBM具有更小的殘差值。顧桐等[13]研究發現lightGBM算法在預測方面優于決策樹,支持向量機等機器學習方法,具有預測潛力。與同類型的GBDT, Xgboost等集成算法相比,lightGBM算法采用基于梯度的單邊采樣(Gradient-based One-Side Sampling, GOSS)算法、互斥特征綁定(Exclusive Feature Bundling, EFB)算法、直方圖算法、直方圖差加速和葉子生長策略等方法進行優化,減少數據實例和特征數量,降低了計算的復雜度,提升了訓練速度[14]。因此,本文采用lightGBM算法構建FDP模型。
在FDP模型的指標選擇上,多數學者選擇財務指標進行研究。一方面源于財務指標的易得性,另一方面源于其能直觀地反映企業的財務狀況[15]。然而僅使用財務指標進行財務危機預測,難以全面反應企業的狀況。財務指標只是財務危機發生的表象,并不能顯現財務危機發生的原因[16]。因此有學者將非財務指標納入FDP模型中。非財務因素如公司治理、企業經營效率、資本市場股價信息等對財務危機的發生具有重要影響[17]。已有研究[18,19]表明財務指標與非財務指標結合能顯著提高預測準確度。
市場信息能夠顯示企業的運營狀況,但上市公司的市場變化難以捕捉。利用市場信息中的股票信息構建金融網絡,能夠為決策者提供市場變化的依據。研究發現網絡測度指標在一定程度上能夠提升分類器的預測能力[20,21]。隨著復雜網絡在預測領域的興起,利用其進行預測的研究層出不窮,例如對顧客流失[22]和股票價格[23]等進行預測。因此本文采用企業的股票收益構建金融網絡,將股票信息以金融網絡指標的形式輸入預測模型,以此探究市場信息對FDP的影響。本文研究豐富了企業財務危機預測結果的內涵,同時也為FDP模型的構建提供了新思路。
資本市場的各個企業與機構之間存在著經營聯系,交叉持股等現象,企業之間存在高度關聯性,因此可以將金融市場看作金融網絡。在金融網絡中,網絡的節點為各個企業,網絡的邊指代各個企業之間的往來關系,如投資行為、經營行為、持股行為等。在金融市場中,這種往來關系可以用企業股票價格序列的相關性來抽象化。
金融網絡由大量企業節點構成,其內部節點之間具有復雜的交互作用,由于選取的企業樣本時間跨度較大,且截取的數據為上市公司T-3年末的面板數據。因此對每個企業取其T-3年末前500個交易日的日收盤價,形成收盤價時間序列。對于每個公司樣本i,t日的日收益率ri(t)可以表示為:
ri(t)=lnPi(t)-lnPi(t-1)
(1)
其中pi(t)為企業i在第t日的收盤價,pi(t-1)為企業i在第t日前一個交易日的收盤價。企業i,j的相關系數cij公式表示如下:
(2)

(3)
在網絡中,通常使用網絡特征指標衡量網絡的性能。本文在經濟社會理論研究的基礎上,選擇度中心性、接近中心性、中介中心性、Pagerank值這四種指標來衡量金融網絡的性能。
度中心性指一個節點上的直接聯系數。在加權網絡的分析中,度中心性一般被擴展為節點所連接邊的權重之和,公式如下。
CD(i)=∑cij
(4)
接近中心性通常定義為節點平均距離的倒數,用以表示節點與節點之間的接近特性,即:
(5)
中介中心性的概念在于,一個具有高度中介中心性的企業會對其他企業產生重要影響,因為它可以影響通過它的信息。中介中心性是基于網絡路徑的概念,由Freeman提出,公式如(6)。其中,σjk為節點j到k的最短路徑的總數,σjk(i)是j到k的最短路徑中通過節點i的路徑數。
(6)

(7)
α為跳轉概率,一般取值為0.85。顯然PR值越高,代表節點的重要性越高。
通過對網絡性質的研究,本文采用信息技術類上市公司的股價波動信息構建金融網絡,可得到企業在網絡中的指標,并將其作為FDP模型的輸入變量。
LightGBM算法是一個基于梯度決策樹的框架,該算法在梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)的基礎上進行優化[24]。GBDT是一種廣泛使用的機器學習算法,具有高效、準確和可解釋性,其以固定大小的回歸樹作為基學習器,使用梯度提升方法進行改進。假設每顆樹的葉子個數為S,每棵樹將輸入空間劃分為s個不相交的區域R1m,R2m,…,Rsm,并預測Rsm的恒定值bsm?;貧w樹可以形象化的表示為:
(8)
當x∈Rsm時I(*)值為1,其他情況則為0。模型更新方程fm(x)和梯度下降的步長ρm可以表示為:
fm(x)=fm-1(x)+ρmgm(x)
(9)
(10)
在上式中,L(yi,fm(x)為GBDT的損失函數,每步的優化條件為使損失函數最小。在梯度提升方法中,使用回歸樹代替gm,則公式(9)和(10)可以表示為:
(11)
(12)
在算法迭代的過程中,每一輪算法所產生的殘差都將成為下一輪的學習目標,如此循環,直到全局殘差值小于設定的閾值或迭代次數達到最大值時結束,然后輸出最終的結果。傳統的GBDT需要掃描每個特征的所有數據實例,估計所有可能分裂點的信息增益。因此,它們的計算復雜性將與特征數量和實例數量成正比,使得GBDT在處理大量數據時非常耗時。GOSS算法和EFB算法減少數據實例和特征數量,提高算法的訓練速度,同時保證訓練的準確率。


(13)
其中,Al={xi∈A:xij≤d},Ar={xi∈A:xij>d},Bl={xi∈B:xij
EFB算法通過對特征采樣,將互斥特征結合為一個特征,達到降維的目的。EFB算法利用特征之間的關系構造一個加權無向圖,用貪婪算法尋找可以捆綁的特征。算法通過設置最大互斥率平衡準確度和效率。通過對互斥特征中的一個特征增加偏移變量,實現互斥特征的合并,保證原始特征能從合并的特征中分離出來?;コ馓卣鹘壎ê笥嬎愕膹碗s性從O(#data×#feature)變為O(#data×#bundle),有效地降低了計算的復雜性,提高了訓練速度。
為了降低算法復雜度,減少訓練時間消耗并提高預測準確度,lightGBM使用直方圖算法、葉子生長策略、直方圖差加速等方式尋找最佳分裂點。通過這些方法降低計算復雜度,大幅提升模型學習效率。本文采用lightGBM算法構建信息技術類上市公司財務危機預測模型,并提出了基于lightGBM算法的調參集成策略。通過參數調節,選擇準確率最高的lightGBM算法模型作為基礎模型,然后對基礎模型進行單一參數調節獲得新的模型。將調節后的模型與基礎模型的結果進行經典投票法選擇,得到最終預測結果。
本文數據來自國泰安CSMAR數據庫,Wind數據庫和年報手動收集。選取我國滬深A股行業分類代碼為C39,I63,I64,I65的信息技術類企業。根據我國資本市場的機制,將上市企業是否被特殊處理(Special treatment, ST,*ST)作為判斷企業是否發生財務危機的標準。研究樣本選取由連續兩年凈利潤為負導致被ST的企業,其他原因予以剔除;使用T-3年的年報數據為基準,選取同年度、同行業且資產規模類似的企業,被ST企業為正樣本,非ST企業為負樣本。研究選取102家上市公司,包含24家ST企業及78家非ST企業。
本文的預測指標主要包括財務、非財務及金融網絡指標。初始階段包括三大類59個指標,如表1所示。在信息技術企業中企業的技術創新能力尤為重要,因此非財務指標主要從創新能力入手。其次,企業治理結構影響企業的穩定程度,外部評價則主要體現為財務審計情況。

表1 模型指標體系表
對數據進行預處理,首先采用中位數對缺失值進行填充。其次,對財務指標進行規范化處理,轉化為0到1之間的浮點數,消除量綱的影響。最后,針對非財務指標采取分箱化處理,根據離散數值分布情況,劃定不同區間,統計進入每個區間的樣本,以區間標號替換原數據。
為了篩選出識別能力強的指標,需要對上述59個指標進行Mann-Whitney U顯著性檢驗,考察對應指標是否對財務危機企業有足夠的敏感性。最終,共有38個指標通過顯著性檢驗。如表2所示。

表2 被選指標
研究將含財務與非財務指標的模型定義為基礎lightGBM模型,經過調參集成后的模型定義為集成lightGBM模型,將引入金融網絡指標的lightGBM模型定義為FNI-lightGBM模型。數據分析平臺為SPSS22和Python3.7。在建模的過程中,參數的調節非常重要,對lightGBM算法來說更是如此。
首先確定boosting_type,設定為gbdt,表示使用梯度提升決策樹類算法;其次設定learning_rate值,這里取0.05;再次n_estimators,默認為200;最后調節樹深度及葉子節點數,主要作用是防止過擬合,基礎設定max_depth為4,num_leaves一般要滿足,因此設定葉子節點數為15。
根據調參集成策略對lightGBM進行調節,調節后的模型參數如表3所示。lightGBM1為基礎模型,lightGBM2是調節樹最大深度后的模型,lightGBM3修改了提升算法,lightGBM4和lightGBM5分別調節了學習率和葉子最小記錄數。集成lightGBM的結果由lightGBM1-5投票產生。

表3 模型調優參數
準確率,精度和召回率是最為常見的實驗結果評價標準。一般來說精度越高召回率越低。本文著重考慮真正財務危機的企業是否被識別,因此選用準確率和召回率作為評估指標。
本文從三個方面進行對比實驗的設計與分析。第一組實驗將基礎lightGBM模型與調參后生成的集成lightGBM模型進行對比,驗證調參集成策略是否有效;第二組實驗在第一組實驗的基礎上,增添金融網絡指標,對比FNI-lightGBM與lightGBM模型的準確率和召回率,以此驗證金融網絡指標對FDP模型的影響;第三組實驗將lightGBM模型與常用的FDP模型進行對比,并在此基礎上將金融網絡指標引入常用的預測模型,進一步證明lightGBM模型預測的優異性以及金融網絡指標對FDP模型的影響。
為驗證模型的穩健性,將模型進行10折交叉驗證。本文將基礎lightGBM模型與集成lightGBM模型進行比較,結果如表4所示。從表4可以看出集成lightGBM模型具有更高的預測性能,證明調參集成策略是有效的。

表4 模型評估指標比較
FNI-lightGBM模型進行相同的調參集成處理,結果如表5所示。集成lightGBM模型的準確率和召回率低于FNI-lightGBM模型,初步說明金融網絡指標的引入提高了FDP模型的準確性,即股票信息的引入能夠提高FDP模型的預測性能。

表5 多個模型對比結果
基于相同樣本數據,使用常見的模型,如Logistic回歸(Logistic Regression, LR)、支持向量機(Support Vector Machine, SVM)、隨機森林(Random Forest, RF)分別構建普通模型與加入金融網絡指標的模型,與集成lightGBM模型和FNI-lightGBM模型進行結果對比,如表5所示。從表5可以看出,集成lightGBM模型與FNI-lightGBM模型分類的準確率均高于常見模型,且兩個模型準確度均高于90%,其中FNI-lightGBM模型的召回率達到了93.75%,分類效果更優。
圖1和圖2分別為LR,SVM,RF和集成lightGBM四個算法模型加入金融網絡指標前后的準確率和召回率。從圖1中可以看出集成lightGBM模型的準確率和召回率更高,預測性能更好。從圖2中可以看出引入金融網絡指標后,lightGBM模型預測性仍能更好。

圖1 普通模型結果對比

圖2 加入金融網絡指標模型結果對比
圖3為四個模型在引入網絡指標前后準確率和召回率的變化,從中可以看出,LR,SVM,RF和集成lightGBM模型在引入網絡指標后,預測性能有所提升。上述結果首先說明本文所提出的調參集成策略是有效的,通過模型之間的信息互補,提高了模型的預測性能;其次,股票信息的引入是有效的,將市場信息引入財務危機預測模型能夠進一步提升模型的準確率。

圖3 普通模型與加入金融網絡指標模型結果對比圖組
本文以我國的滬深A股信息技術上市公司為研究對象,構建考慮了金融網絡指標的信息技術類上市公司企業財務危機預測模型。為解決市場信息難以捕捉的問題,研究采用股票收益信息顯示市場變化,并將股票信息以網絡指標的形式輸入預測模型。為了發揮集成算法在FDP模型中的作用,同時解決單一分類器無法充分使用數據的問題,本文采用lightGBM集成算法構建預測模型,并提出了基于lightGBM算法的調參集成策略。通過參數調節,獲得五個lightGBM模型,模型最終的預測結果由經典投票法選擇。選取102家企業進行實證研究,結果顯示,包含網絡指標的lightGBM模型預測效果更好,且其它模型在引入網絡指標后,準確率和召回率也明顯提升;相比于基礎lightGBM模型,經過調參集成的模型準確度有所增加,且明顯高于其他常用的財務危機預測模型。網絡指標的優異性說明股票信息能夠提高模型的預測效果,即含有市場信息的指標適用于信息技術類企業財務危機的預測。lightGBM調參集成策略也為FDP研究提供了新思路。