Benford與XGBoost模型融合的財務風險預警研究
——基于2000-2021年滬深A股上市公司數據分析

2024-02-19 11:44:36劉亞麗

財會研究 2024年1期

王沖劉亞麗

一、引言

公司的經營必然會與風險相伴，這讓公司的未來充滿了更多的不確定因素。如果公司沒有控制好自己的風險，就會導致公司陷入財務危機。一般而言，公司倒閉危機初期總會出現一些局部問題。在財務方面，它會呈現為單個和與之有關的指標的異常，這就是所謂的財務風險預警。一個有效的財務風險預警系統，可以對企業運營管理進行預警，防止企業破產。企業的財務風險受多種因素的影響，而各種因素的作用最后又會通過財務指標反映到企業。所以，要對財務危機企業和正常企業在財務指標上存在的不同點進行分析，找到財務風險與財務指標之間的關系，構建出危機預警模型，這樣能夠使公司高管及時判斷、預防及管控財務危機。

隨著信息化進程的加快，財務風險的預測已由傳統的統計學方法向更加智能、更加精確的人工智能方法發展。流行的基于機器學習（ML）的財務風險預警模型包括樸素貝葉斯（NB）、神經網絡（NNS）、K-近鄰（KNN）、支持向量機（SVM）、決策樹（DT）等。集成學習算法是將多個弱分類器聚合為一個較強分類器，被認為是主流的基于ML 的模型（Pavlicko et al.，2021；Yan et al.，2020）。像梯度提升樹模型（GBDT）（Liu et al.，2022）這樣的增強集成方法被認為是財務風險預警的流行解決方案。

然而現有研究較少考慮財務數據質量的問題，最近幾年國家一直在加強對上市公司的監督。但是財務舞弊仍然時有發生，迫切需要探索一種新的財務風險預警模式（錢蘋和羅玫，2015）。財務舞弊指的是一家公司為了虛報利潤，來美化價值表現，利用各種手段，刻意修改自己的財務指標數據，從而高估自己的資產或低估自己的負債（余思明等，2020）。會計造假會造成會計信息的扭曲，使會計信息質量下降，從而對會計信息的風險預警能力產生很大的影響。在構建財務風險預警模型的時候，一定要對財務數據質量問題所帶來的影響進行充分的考量，從而提升對財務風險預警模型進行預測的精度（楊貴軍等，2019）。

本文考慮到財務舞弊等原因對財務數據質量的影響，以我國A股上市公司2000-2021年的財務數據為研究樣本，根據Benford 律構造Benford 因子，構建基于集成方法XGBoost的財務風險預警模型，本文的研究成果將為企業在危機發生前預警、防范風險、提升企業經營效率等提供參考。

二、財務風險預警研究進展

1930 年至今，針對企業財務風險預警的研究方法從開始的趨勢分析、判別分析，再到現在的人工智能技術，從傳統的計量模型再到機器學習模型和深度學習模型的應用，財務風險預警模型的研究日漸成熟，為企業財務風險預警研究奠定了基礎。

對公司破產危機預警的研究，國外相對更早一些。1920 年起，針對財務比率的分析就已經在企業財務狀況分析中占據重要地位，例如著名的杜邦分析法，通過幾個重要財務指標之間的分解和聯系，從而綜合分析企業的財務狀況。這是一種經典的財務業績評價方法，一直被沿用至今。而學術界認可的最早的財務風險預警研究，即單變量分析，也是基于財務指標進行預測。單變量預警模型最早由Beaver（1966）所提出的，該模型是研究某個單一的財務指標的變化趨勢，從而對公司未來的危機進行預警。他的研究選取了158 家企業作為樣本量，并采用AB測試，即79家為危機企業，再找79家行業和規模與之相匹配的正常企業進行對比分析，選取了30個財務指標進行研究，時間窗口為1954-1964 年期間。研究表明正常企業和陷入財務危機的企業財務指標之間存在較大差異，通過單變量的差異分析對財務風險預警有一定作用。然而該模型的問題也很明顯，僅通過單一變量去預測企業整體財務狀況是不準確的。單變量預警模型隨機性和抗干擾性較弱，容易受到外部因素的干擾而得出錯誤結論。于是，Ratios（1968）提出了基于Beaver單變量模型的改進模型多元變量模型，也就是著名的Z-Zscore 模型。該模型的核心是采用多元線性判別方法，用多個指標測試財務風險，然后通過賦權綜合計量得出一個計量值Z 值。通過判斷Z 值的大小來預測企業整體財務風險的可能性，該值越大發生危機的可能性越高，相反則越低。雖然該模型改進了單變量模型的不足之處，但實際應用中很難滿足該模型苛刻的統計假設前提。

在國外學者提出將判別模型應用于財務風險預警研究并取得顯著效果后，國內的學者通過借鑒國外的經驗在該領域的研究也迅速發展起來。最早由吳世農和黃世忠（1987）將判別模型應用與國內企業財務風險預警，驗證了該模型在國內企業同樣適用。后來的陳靜（1999）同樣借鑒了國外的研究方法，選取國內ST 和非ST 配比公司各27 家做AB 測試對比實驗，并分別進行單變量和多變量判別模型預測，研究驗證了多元判別模型的預測準確性效果更好。隨后的張玲（2000）在陳靜的研究基礎上，以A 股上市公司為研究樣本進行實驗，結果進一步驗證了上述結論。周首華等（1996）在改進Z-score 模型基礎上提出F-score 模型，與Z 計分模型相比，F-score加入了現金流量自變量，充分考慮了在財務危機預警中現金流量比率這一有效變量。

無論是單變量模型還是多元線性判別模型都存在其方法論的假設條件，如樣本需滿足高斯分布，且變量之間不存在多重共線性及配比樣本均方差矩陣相等。為了提高模型的適用性和有效性，Martin（1977）選擇了較低樣本分布要求并且適用性更廣的Logistic 回歸模型，與線性回歸模型相比，logistic 不要求樣本數據服從正態分布以及相關嚴苛的前提條件，打破了傳統線性判別方法難以實際應用的困境。Martin的研究表明，與傳統線性判別模型相比，Logistic模型的財務風險預測效果更好。Ohlson（1980）截取1970-1976 年間105 家危機企業和2058 家非危機企業為研究對象，發現非財務指標，如企業規模、資本結構等也能預測財務風險。吳世農和盧賢義（2001）以國內企業為樣本采用相同指標體系，進行多元判別模型和Logistic 模型預測財務風險對比實驗，驗證了logistic模型的預測精度更高。此后一些學者對Logistic回歸預警模型的參數估計方法進行研究，如Jabeur（2017）應用偏最小二乘法對于精模型進行求解，并考慮了缺失數據的處理。

人工智能的發展加速了各個領域的研究發展，越來越多的學者傾向于將計算功能強大的人工智能技術引入財務風險預警研究。神經網絡算法是人工智能技術的一個基礎算法，源于模擬人腦神經的研究。相較于線性判別模型和logistic 這些傳統數量統計計量模型，神經網絡對樣本要求較低，沒有統計假設前提，適用性更強而且預測準確性高。Dutta（1988）在研究債權等級分類時最早引入神經網絡進行研究。Odom（1990）在對財務風險預警研究中，將線性判別模型和神經網絡做對比，發現神經網絡模型的預測效果更好。我國最早關于神經網絡財務風險預警的研究是1995年黃小原發表的文章，但也僅是理論闡述。王玉冬等（2018）分別對比了FOA和PSO這兩種算法優化后的BP模型的預測效果，研究發現后者的性能更優。

除神經網絡外，作為機器學習中備受歡迎的支持向量機（SVM）算法也被應用于財務風險預警研究。它是一種以統計理論為基礎的ML 方法。該方法泛化能力強，在各種實際問題中表現優秀。Li et al.（2014）將SVM、Logistic 和Z 模型進行對比實驗，結果顯示SVM 的預測準確性更高。劉玉敏等（2017）構造了PCA-PSO-SVM 財務風險預警模型，先用PCA降維，再用粒子群算法對SVM進行優化，得到比單一SVM預測性能更好的優化模型。

隨著人工智能技術漸漸成熟，研究者開始傾向于融合多個模型的集成學習算法，集成學習方法是將多個弱分類器整合起來構造一個強分類器，通過整合多個學習器，可以得到比單一分類器明顯優越的泛化性能，目前被認為是基于ML 的主流研究方法。West et al.（2005）為了使單一分類器盡可能有較大的差異，于是采用bagging 提升方法構造企業風險預警模型，并和神經網絡模型對比，實驗證明了集成學習算法的優越性。同年謝紀剛等（2005）也采用bagging 方法，以國內上市企業為樣本構造了國內企業財務危機預警模型。Choi et al.（2018）提出了一種基于集成分類器的承包商財務困境預測模型，將六個單分類器，如支持向量機（SVM）、人工神經網絡（ANN）、邏輯回歸（LR）、決策樹（CART）、K 近鄰（KNN）和樸素貝葉斯（NB）分別和綜合這六個模型的集成分類器相比較，利用2007-2012 年韓國承包商的財務報表評估了模型的預測準確性，研究顯示集成分類模型的預測性能比單一分類器的效果好。Wang et al.（2018）發現在以往的研究中，文本信息，情緒信息等非財務信息預測信息和階層失衡問題往往被忽略，于是他們用CSMAR 數據庫中的上市公司為研究樣本，將情感和文本信息結合到集成隨機子空間方法（ISTRS）中進行財務風險預警。結果表明，該方法能夠顯著提高財務困境預測性能。Xu et al.（2021）將定性分類器（專家系統法，ES）和定量分類器（卷積神經網絡，CNN）相結合，并且引入互聯網搜索指數作為財務困境預測的新變量，通過構建每個分類器的軟集表示，然后利用軟集上的最優決策來識別企業的財務狀況，結果表明該模型的準確性和穩定性方面有較好的表現。Liu et al.（2021）提出了一種用于信用評分的多粒度多層梯度增強決策樹（GBDT）。多層GBDT考慮了基于樹的模型的顯示學習過程和區分申請人好壞的表示學習能力的優勢。在6個信用評分數據集上的實驗結果表明，分層結構可以有效的減少信用評分數據集的類內距離，增加信用評分數據集的類間距離，從而進一步提高信用評分的性能。

國內外大量文獻均已證實了機器學習人工智能對公司財務風險預警的良好表現，但少有關注財務數據質量對集成學習模型預測準確性影響的研究。現實中，為了避免持續虧損導致的“退市”，企業常常會產生“粉飾”的心理，隨著企業的經營業績不斷惡化，企業對會計信息的控制也會不斷增強。所以，在上市公司存在著財務數據操縱的情況下，財務風險預警研究應該將企業的財務數據質量作為重點，建立預警指標體系并建立預警模型時，應該將財務指標和數據質量結合起來。Benford定律是一種基于財務數據開頭數字的分布規則，它可以用來檢驗財務指標數據的質量。如果一組數據的頭位數字的觀察頻率與Benford 律不符合，則很大概率有人為操縱的嫌疑（Nigrini &Mittermaier，1997）。而Benford 定律可以有效地鑒別出各類財務信息的造假行為，并被廣泛地應用于會計理論與實踐中。趙瑩等（2007）利用Benford 定律，對危機和正常兩類公司的凈利潤特征第一個數值分布情況進行了檢驗，并得出了A股凈利潤的數值操作規則。羅琪（2020）也是用相同的方式，把Benford 因子加入到SVM中，最后得出的結論是，Benford因子可以幫助預測一家公司是否會出現財務危機，帶有Benford因子的組合模型的預測效果更好。楊貴軍等（2022）除了構造Benford 因子外，還根據Myer 指標構造了Myer 因子，帶入到BP 模型進行預測，研究表明：兩種因子都提高了BP 模型預測的精度。因此，本文用Benford 律來檢驗財務指標的有效性和真實性，構造Benford-XGBoost預警模型，一方面既發揮了XGBoost集成分類器的優勢，又能保證用于預警的數據集的數據質量，從而保證預警模型的有效性。

三、Benford因子

（一）Benford定律

Benford 定律是指任何未經過人工刻意設計的自然數據，其第一個數字的排列分布具有一定的規律。即數字1 到9 的概率分布是單調遞減的，Hill（1995）給出了Benford定律的數學公式。記d=1，2，3，...，9，首位數字D為d的概率為：

在一組數據中，統計每個樣本的第一順位數字出現頻率，若滿足上述公式，即表明數據的質量好。判斷第一順位數字分布律是否滿足Benford律的一般方法為χ2擬合優度檢驗，公式如下：

公式（2）中N 為樣本量、fd為d 的觀測頻率、fB，d為Benford定律。若χ2值超過10%顯著的臨界值，則否定原假設，并且財務數據第一位數字的頻率被認為與Benford定律不一致。然而通過這種方法，只能總體評判出該組數據質量的好壞，但并不能定位到某個具體樣本點。因此，本文參考楊貴軍等（2022）的研究，構造Benford因子帶入XGBoost模型。

（二）數據質量因子的構造方法

假設X（ii=1，2，3，...n）為不符合Benford定律有質量問題的變量數據，記Xi第一位數字d的觀測頻率fd與Benford定律的理論頻率fB，d的差值為。

依據Benford定律的顯著性檢驗原理，指標Xi（i=1，2，3，...n）的某個首位數字觀測頻率不同于理論頻率極有可能存在舞弊操作，并且這種操作往往會存在某種傾向，實際表現為首位數字的觀測頻率會遠大于理論頻率。因此，本文將首位數字中觀測頻率高于理論頻率的最大數字視為風險值。記差值最大且為正數的首位數字為ui，差值最小且為負數的首位數字為ni，有如下公式：

考慮到差值的正負，有兩種指標Xi（i=1，2，3，...n）的Benford 質量因子構造方式。記為Ci s和Cs，如公式（6）和（7）所示：

公式（6）和（7）中，若觀測樣本點S的指標Xi，s的首位數字滿足ui，則取值1，否則取值0，Cs同理。

（三）基于Benford定律的XGBoost模型

在已收集的數據集E={（X1，Y1），（X2，Y2），...，（Xn，Yn）}（其中Xi=（Xi，1，Xi，2，...Xi，k）表示自變量，Yi表示分類變量，n 為樣本量，k 為指標個數）的基礎上，利用Benford 定律理論對數據集E 進行數據質量檢驗并構造Benford因子。根據公式（6）和（7）將構造好的Benford 因子與數據集E 整合，再帶入模型進行實驗。

四、模型構建方法

（一）模型構建流程

本實驗選取XGBoost 算法進行財務風險預警建模。整個基于XGBoost 的A 股上市公司財務風險預警及其特征分析模型的構建流程如圖1所示，主要包括因子構造、模型訓練、超參數優化、多模型對比以及模型解釋分析等核心模塊。

圖1 財務風險預警及特征分析模型流程圖

（二）XGBoost模型

XGBoost 是一種新型的梯度增強算法，由于其高效的并行訓練和基于ML應用的顯著改進，在ML應用的比賽中很受歡迎。XGBoost是集成方法GBDT的變體，它結合了梯度增強優化策略和DT分類器，即將多個DT組合成一個梯度提升框架，迭代優化訓練目標。GBDT是由m個基學習器加成組合模型，若第m 次迭代訓練的樹模型為fm（xi），則GBDT的表達式為：

其中，L（m）表示的是真實值yi與其預測值之間的差值。為了緩解過擬合問題，XGBoost 在損失函數中增加了正則化項∑kΩ（fm），結合上述兩個公式，可以得到如下的XGBoost損失函數：

然后對上述公式進行二階泰勒展開，去除常數項，公式推導如下：

其中，gi、hi分別表示目標函數的一階導數和二階導數：

而正則化項Ω（fm）用來衡量樹的復雜度，分別由葉子結點數量和葉子結點權重兩部分組成。展開式中，T代表葉子結點的個數、w表示葉子結點的權重，為防止過擬合通過系數γ 和λ 進行控制。正則化項表達式如下：

定義一棵樹fm（x）=wq（x），w∈RT，q：Rt→{1，2，...，T}，包括兩部分：葉子結點的權重向量w 和葉子結點的映射關系q。將fm（x）和正則化項展開式帶入（13）式：

五、中國A股上市公司財務風險預警分析

（一）財務風險預警指標體系

現有財務風險預警研究大都是用財務指標數據，本文參考現有研究，分別從償債能力、盈利能力、發展能力、營運能力和現金流量這五個方面選取財務指標進行模型訓練，如表1所示。

表1 財務風險預警指標

（二）樣本選取與數據來源

本文參考現有文獻，選取2000-2021 年A 股上市公司中標記為ST 的公司為研究對象，并選擇被標記為ST 的上一年的財務數據作為實驗數據，然后在相同年份同一行業中按照資產規模相近原則匹配正常公司，即未被標記為ST 的上市公司。實驗數據剔除了金融業的上市企業。經過缺失值處理后，各得到174家上市公司。將列為ST的上市公司標記為1，未列為ST的公司標記為0，并作為模型的預測變量。以上數據來源于CSMAR數據庫。

（三）指標變量的篩選

在進行Benford 因子構造前，先對財務指標特征進行差異性檢驗，通過差異性檢驗對指標進行初選，可以過濾掉一些對預警模型無效的指標。本文采用SPSS23.0 先對各項指標進行K-S 正太分布檢驗，若不滿足正太性，則采用非參數Wilcoxon檢驗。結果如表2所示：

表2 ST公司與正常公司財務指標的差異性檢驗

由表2 中的K-S 檢驗結果可以看出，p 值均顯著，表明拒絕原假設，14 個特征均不滿足正太分布。因此用非參數Wilcoxon 對上述14個特征進行差異性檢驗，從表2的p值可以看出，在本文選取的14 個財務指標中，除存貨周轉率（X6）和每股經營活動產生的凈流量增長率（X13）的非參數檢驗不顯著外，其余12 個財務指標都可以顯著地區分ST公司和正常公司。因此刪掉存貨周轉率（X6）和每股經營活動產生的凈流量增長率（X13），用剩余的12個指標構造Benford因子帶入模型。

（四）構造Benford因子

表3 是篩選出的12 個指標的觀測頻率和理論頻率的卡方擬合優度檢驗結果，顯著性水平10%的檢驗臨界值是20.09。當χ2值大于20.09 時，則表明該指標存在質量問題。

表3 財務指標首位數字觀測頻率與卡方擬合優度檢驗結果

從表3 中的χ2檢驗的結果可以看到，利息保障倍數（X2）、凈資產收益率（X9）和營業利潤增長率（X12）的χ2都超過了臨界值，說明這三個指標的首位數字分布頻率不滿足Benford 定律，觀察指標X2、X9、X12 的首位數字，可以發現其與Benford 理論頻率正向差值最大的數字分別是1、7、1，根據公式（6）構造相應的因子并標記為B1、B2、B3。X2、X9和X12的首位數字中與Benford理論頻率負向差值最大的數字分別是5、3、2，根據公式（7）構造相應的Benford質量因子，記為B4、B5、B6。將構造好的這6個因子以及上述12個財務指標帶入XGBoost模型進行訓練。

（五）構建基于Benford定律的XGBoost模型

將上述構造的因子和原來的12個財務指標全部帶入XGBoost模型。根據交叉驗證思想，將數據集劃分為訓練集和測試集，其中訓練集占80%、測試集占20%。通過訓練集建立基于Benford 定律XGBoost 的初始模型，用測試集的預測準確率判斷模型的優劣。利用中國A 股上市公司財務數據建立的基于Benford定律XGBoost模型的預測準確率。結合學習曲線對加入Benford因子和未加因子的模型進行最優參對比，圖2和圖3是加入Benford因子的XGBoost 財務風險預警模型和未加因子的預警模型，在不同n_estimators 參數下的交叉驗證準確率的學習曲線，可以看到加入Benford 因子和未加因子的模型在n_estimators參數200左右時，兩個模型的預測準確率都比較高。并且，由圖2 和圖3 可以看出，加入Benford 因子的模型在參數25-200 范圍內的整體交叉驗證準確率均高于未加因子的模型。

圖2 加入Benford因子的不同n_estimators下交叉驗證準確率

圖3 未加因子的不同n_estimators下交叉驗證準確率

為進一步說明加入Benford 因子的XGBoost 模型的預測效果，計算模型的準確率（Accuracy）、精確率（Precision）、召回率（Recall）、F1值。其中準確率（Accuracy）作為最基本的一個評價指標，是指將實際非ST公司分類為正常公司或將實際ST公司分類為ST 的比例。精確率（Precision）是指實際ST 公司樣本中被分類為ST樣本的比例。召回率是指分類正確的ST公司樣本占整個數據集中所有實際ST公司個數的比例。分類矩陣見表4，計算公式如下：

表4 分類結果混淆矩陣

將加入Benford 因子和未加因子的XGBoost 模型的預測效果進行對比，實驗結果如表5 所示，可以看到，加入Benford 因子的XGBoost 模型的準確率、精確率、召回率和F1值都高于未加因子的XGBoost 模型。且加入Benford 因子的預測準確率比原有模型的預測準確率提升了3%。

表5 加入Benford因子和未加因子的XGBoost模型的預測效果對比

為使建模更具有說服力，將上述模型的建模過程分別重復100 次、200 次、500 次和1000 次，分別計算含有Benford 因子的XGBoost 財務風險預警模型和不含因子的XGBoost 模型的AUC、準確率、精確率、召回率、F1值，得到表6。可以看到不同迭代次數下，含因子的模型整體預測效果優于不含因子模型的預測效果。

表6 加入Benford因子和不加因子的XGBoost模型預測效果對比

（六）與已有工作的實驗對比

將XGBoost模型與已有的基于邏輯回歸（LR）、KNN、極端森林（DF）、決策樹（DT）以及GBDT 幾種模型進行對比實驗，結果見表7 和圖4。從表中可以看出，與其他模型相比，XGBoost 模型的預測性明顯優于其他模型。

表7 模型性能對比

圖4 多模型性能對比

（七）模型參數優化

通過上述實驗結果，我們可以得出結論：XGBoost 模型具有較好的預測性能。為了進一步提高XGBoost模型的預測性能，本文對模型進行了參數調優。常用的超參數調參方法包括網格搜索、隨機搜索和貝葉斯優化。其中，網格搜索是應用最廣泛的超參數搜索算法，相當于窮舉法且計算資源消耗較大。隨機搜索則是從指定的分布中采樣固定數量的參數設置，它一般比網格搜索要快一些，但結果不確定。貝葉斯調參是一種使用貝葉斯定理指導搜索以找到目標函數的最小值或最大值的方法，它會在進行一次迭代的時候，回顧之前的迭代結果，避免搜索那些結果太差的參數值，從而大大提高搜索效率。因此，本文選擇貝葉斯調參方法來優化XGBoost 模型，進一步提高其預測性能。通過調參找到參數最優值，其中learning_rate 的最優值為0.3、max_depth 最優值為7、n_estimators 最優值為79，此時模型的預測效果達到最優，準確率達到92.86%，AUC值達到99.02%，相比未經過調參的XGBoost模型的準確率提高了1.43%，AUC 值提高了1.1%。

六、XGBoost模型指標貢獻度分析

雖然XGBoost 算法的預測性能很好，但是和大多數機器學習方法一樣存在可解釋性差的問題，如同一個“黑盒子”無法衡量每個指標的貢獻。因此，本文通過引入SHAP 模型計算出每個財務風險影響因子的shap value 值，以增強模型的可解釋性。SHAP的全稱是SHapley Additive exPlanation，這是一種可以用來解釋較復雜的機器學習模型的后驗推理方法。通常情況下，機器學習模型都是一個黑箱，只要在前端輸入用于預警的指標，通過模型訓練后就可以直接得出預測結果。然而，對于模型內部是怎樣進行預測的，以及每個輸入的特征在模型預測中發揮了多大的作用，我們并不清楚，尤其是一些較為成熟的集成學習模型，其解釋能力更低，而SHAP模型則能很好的解決這一難題。SHAP以合作博弈論理論為基礎，其關鍵在于對模型中的各個指標計算Shapley Value。SHAP將每個變量都當作“貢獻者”，而且還可以計算出單個樣本的預測值以及單個樣本中各個變量的貢獻值。

設第n 個樣本為xn，樣本xn的第m 個特征為xnm，模型對該樣本的預測值為yn，整個模型的基線為ybase，則Shapley Value滿足下列公式：

其中f（xnm）為xnm的SHAP 值，即為第n 個樣本中第m個指標對最終預測值yn的貢獻值，當f（xnm）＞0，表示該指標有積極作用，可以提高預測值。若f（xnm）＜0，則表示會降低預測值。

（一）全局歸因分析

圖5向我們展示了每個特征的Shap影響，每行代表一個特征，而每個點則代表一個樣本。通過觀察圖5，我們可以清晰地了解每個特征對模型預測結果的影響程度，進而在優化模型的過程中有針對性地對特征進行調整。同時，圖6則展示了各特征Shap值絕對值的均值，以此反映了每個特征的重要性。根據表中的數據，我們可以發現在XGBoost模型中，凈資產收益率（X9）、營業利潤率（X10）、資產報酬率（X8）、應收賬款周轉率（X5）以及經營活動產生的現金流量凈額÷負債合計（X3）這五項特征，對于預測企業的財務風險預警模型具有重要的貢獻。這些特征反映了企業的盈利能力、營運能力以及償債能力，是影響企業財務風險的重要因素。此外，Benford 因子B2、B3、B4 在模型中也扮演了預測貢獻的角色。這些結果為我們提供了更深入的洞察和優化模型的依據，進一步幫助我們理解模型預測結果的形成過程，提高模型預測的準確性和穩定性。

圖6 XGBoost模型特征SHAP全局均值

（二）局部歸因分析

SHAP方法是一種具有局部精確性質的特征重要性評估方法。它可以在單個樣本上取得每個指標對當前模型預測結果的影響，這對于理解模型的預測結果非常有幫助。以測試集中的山東東方海洋樣本為例，我們使用XGBoost模型對其當年的財務風險特征值進行預測，并使用SHAP圖進行可視化解釋。如圖7所示，山東東方海洋2018年的最終值為5.34。我們發現凈資產收益率（X9）、固定資產周轉率（X7）、資產報酬率（X8）、應收賬款周轉率（X5）、經營活動產生的現金流量凈額÷負債合計（X3）和利息保障倍數（X2）等特征值均為負數，并且表現為負數的特征值所占長度越長，預測結果為存在財務風險的概率越高。這些特征變量的影響可以通過SHAP圖直觀地展示出來，幫助我們更好地理解模型的預測結果。

圖7 山東東方海洋2018年XGBoost模型SHAP圖

七、結論

鑒于上市公司財務數據質量會對危機預警模型的預測效果產生偏差，本文根據Benford 定律構造了Benford 因子帶入XGBoost 模型，通過帶有Benford 因子的XGBoost 模型和未加Benford 因子的XGBoost 模型的預測精度、準確率等各項指標進行比較，實證檢驗結果表明，數據質量會影響財務危機預警模型的預測效果，并且通過Benford 因子還可以定位到那個樣本點存在財務高風險。根據上述實驗結論，本文還將帶有Benford 因子的數據集用其他模型進行實驗，對比邏輯回歸（LR）、K-近鄰（KNN）、極端森林（DF）、決策樹（DT）、GBDT 幾種模型和XGBoost模型的預測效果，結果表明XGBoost 模型的預測性能最好。基于機器學習模型的可解釋性較差，本文引入了SHAP 模型對XGBoost 模型的特征貢獻度進行分析，可以從全局進行歸因分析，也可以從具體樣本點進行歸因分析，通過計算SHAP 值對模型中財務風險的影響因素進行解釋分析，增強了模型的可解釋性。

Benford與XGBoost模型融合的財務風險預警研究——基于2000-2021年滬深A股上市公司數據分析