


















【摘要】近年來, 全球經濟一體化與金融市場發展導致上市公司財務舞弊頻發。隨著上市公司財務數據積累和財務比率多樣性增加, 大數據與機器學習方法在識別舞弊中的應用成為研究熱點。然而, 機器學習模型受限于其“黑盒”特性, 如何在提高模型精度的同時, 增加其透明度和可解釋性, 已成為學界和業界共同面臨的挑戰。本文引入一種基于XGBoost框架的可解釋機器學習模型, 使用加權交叉熵損失函數處理非均衡樣本, 通過將加權模型簡化為單棵決策樹, 以清晰的樹狀結構為業界決策者提供明確的邏輯解釋。同時, 創新性結合上市公司年報中的MD&A文本信息, 實證檢驗文本變量在提升財務舞弊識別性能上的有效性。研究結果表明: 加入文本變量后, 模型識別準確率達到89.32%, 較僅考慮財務與非財務指標時提升了15.73%; 利用加權交叉熵為少數類樣本賦予更高權重后, 召回率提高至86.51%。本文引入的可解釋機器學習方法以其簡單、 透明及高準確性的特點, 為財務舞弊識別提供了一種可解釋的代價敏感解決方案, 為業界決策者提供了指導。
【關鍵詞】財務舞弊;可解釋性;機器學習;文本分析
【中圖分類號】F275;TP181 【文獻標識碼】A 【文章編號】1004-0994(2024)19-0020-9
一、 引言
近年來, 全球經濟融合與證券市場發展推動了上市公司財務舞弊現象的增加。盡管2020年修訂的《證券法》加強了監管, 但疫情加大了企業的生存壓力, 部分公司通過粉飾財務報表應對嚴苛的上市標準, 導致惡性財務舞弊數量上升(羅黨論等,2022)。此類行為不僅會損害公司聲譽及投資者利益, 還會威脅金融市場穩定與社會公共利益。
隨著上市公司財務數據積累和財務比率多樣性增加, 傳統方法如邏輯回歸(LR)和線性判別分析難以捕捉經濟指標之間的非線性關系, 而大數據和機器學習方法在財務舞弊識別中展現出巨大潛力。同單分類器相比, 集成學習算法以其減少偏差和方差的能力而聞名, 在破產預測、 欺詐檢測、 信用評分等金融領域被廣泛應用。Boosting算法如自適應提升算法(Adaptive Boosting,AdaBoost)(Bao等,2020)、 梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)(Hancock和Khoshgoftaar,2021)、 極端梯度提升(eXtreme Gradient Boosting,XGBoost)(Lei等,2020), 通過串行迭代訓練分類器并分配不同權重, 有效減小訓練誤差, 提高分類性能。最近的證據表明, XGBoost在預測上市公司財務舞弊方面取得了成功(周衛華等,2022)。
傳統基于機器學習的財務舞弊識別模型從歷史財務數據中學習正常和異常模式, 強調對異常模式的檢測和對多樣化舞弊手法的適應性。財務舞弊識別模型屬于典型的不平衡學習問題, Cheng等(2021)、 伍彬等(2022)通過重采樣策略操縱財務舞弊數據集的分布以解決不公平偏見問題, 但這種操作可能引發過擬合或欠擬合等問題?,F有的基于機器學習的財務舞弊識別方法研究側重于開發高精度的模型, 忽視了財務舞弊識別模型背后的決策邏輯。機器學習模型的“黑盒”特性使財務舞弊識別在實際應用中變得難以解釋, 因而難以向投資者和監管者等利益相關方傳遞透明且可理解的信息。
上述局限促使我們引入一種可解釋的失衡財務舞弊識別模型, 以實現準確的財務舞弊識別。Liu等(2022)在研究財務困境預警問題時, 提出了一種基于加權XGBoost的樹模型(XGBoost-W-BT), 旨在降低對未被分類為財務困境公司的誤判。該方法首先考慮魯棒性較高的XGBoost集成框架, 以減小預測誤差; 其次構建一個代價敏感優化目標任務并嵌入Boosting框架, 以解決非均衡數據集的問題; 最后采用近似機制, 將代價敏感的XGBoost簡化為一棵樹, 使其提出的方法XGBoost-W-BT成為可解釋性財務困境預警模型的代價感知解決方案。因此, 本文從處理非平衡樣本和提高模型可解釋性雙重視角出發, 借助Liu等(2022)提出的可解釋機器學習方法構建財務舞弊識別模型, 利用貝葉斯優化調整模型參數, 增強對舞弊公司的識別。同時, 通過對財務舞弊識別模型決策邏輯進行可視化與引入本福特定律(Benford's Law), 提升模型的可靠性。此外, 本文結合文本分析技術, 從情感、 可讀性和相似性角度分析年報中的管理層討論與分析(Management Discussion and Analysis,MD&A)文本, 識別潛在的誤導信息, 增強舞弊檢測機制。
二、 文獻回顧
(一) 上市公司財務舞弊識別指標
財務舞弊識別指標的研究主要聚焦在財務和非財務指標上, 財務數據因易于獲取而被廣泛利用。Beneish(1999)提出的M-Score模型利用財務比率識別異常行為, 成為經典工具, 并在后續研究中得到驗證(Repousis,2016)。Zhao和Bai(2022)、 Islam等(2024)分析了交易數據與財務指標, 強調流動比率和資產周轉率在異常檢測中的重要性。隨著研究的深入, 非財務指標(如公司治理和內部控制)在財務舞弊檢測中的作用被逐步認可(Jan,2021), 劉云菁等(2022)結合財務與非財務指標提升了模型表現。同時, 一些研究開始關注財務報告中的文本信息, Craja等(2020)、 趙納暉和張天洋(2022)通過提取MD&A文本特征, 發現其能提高模型準確性。綜上, 有效利用指標的組合可以提高財務舞弊識別的準確性。
(二) 上市公司財務舞弊識別方法
早期財務舞弊識別主要依賴統計分析和判別分析模型, 如F-Score、 M-Score和Z-Score等經典模型。隨著科技的進步, 研究者開始運用機器學習構建更高效的模型, 如錢蘋和羅玫(2015)基于M-Score和F-Score模型開發的C-Score模型, 以及周衛華等(2022)基于XGBoost構建的X-Score模型, 均表現出較好的預測性能。盡管判別分析法在財務舞弊識別中發揮了重要作用, 但其嚴格的統計假設和有限的指標數量帶來了一定的局限性。機器學習算法被廣泛應用于財務舞弊識別, 常見算法如LR(洪文洲等,2014)、 決策樹(Decision Tree,DT)(Eweoya等,2019)、 支持向量機(Support Vector Machine,SVM)(曹德芳和劉柏池,2019)等提升了檢測準確性。隨著單分類器性能瓶頸的顯現, 集成學習算法因其能夠整合多個模型的優勢, 逐漸成為主流。例如, 隨機森林(Random Forest,RF)作為Bagging算法的代表, 在比較研究中展示出超越LR、 SVM、 DT等單分類器模型的優越性(Ye等,2019)。Stacking算法則通過集成多個基學習器的預測, 進一步優化了模型表現, Zhang等(2022)以RF、 AdaBoost和GBDT為基學習器, 研究發現Stacking集成學習模型要優于LR、 SVM和RF模型。Boosting算法則通過迭代串行訓練加權分類器以減小誤差, 包括AdaBoost、 GBDT和XGBoost算法等。Ali等(2023)基于XGBoost算法并結合合成少數類過采樣技術(Synthetic Minority Over-sampling Technique,SMOTE)處理數據不平衡, 研究發現優化之后XGBoost的預測結果優于LR、 DT、 SVM、 AdaBoost、 RF模型。
綜上所述, 國內外已有大量學者致力于財務舞弊識別研究, 并取得了豐碩的研究成果, 尤其是基于機器學習模型的嘗試。然而, 同單分類器相比, 集成方法通過聚合多個不同的假設, 其日益增加的復雜性限制了財務舞弊識別的可解釋性。本文試圖從可解釋性角度構建一個我國上市公司財務舞弊識別模型并予以應用。
三、 基于可解釋機器學習的上市公司財務舞弊識別模型
本文采用Liu等(2022)提出的基于XGBoost算法的可解釋機器學習模型(簡稱“改良XGBoost”), 該模型具備高準確性、 強泛化能力以及特征重要性解釋能力。改良XGBoost以XGBoost算法為基礎, 通過加權融合方法, 整合決策規則, 生成新的決策樹。為適應財務舞弊數據集, 本文引入貝葉斯優化方法, 利用其自適應性智能地進行超參數優化, 以進一步提升模型的準確性和泛化能力。基于改良XGBoost構建的上市公司財務舞弊識別模型原理如圖1所示。
(一) 優化XGBoost目標函數
XGBoost是一種基于梯度提升框架的機器學習算法, 通過迭代地添加弱學習器(如決策樹)構建強學習器。與GBDT相比, XGBoost采用獨特的目標函數, 由訓練損失和正則項組成。訓練損失用于衡量模型預測值與實際值的差異, 正則項用于控制模型復雜度以防止過擬合。XGBoost的高效性和強大的適應性使其成為適用于多種任務的數據處理工具。改良XGBoost通過引入加權交叉熵損失函數, 減少了分類任務中不同錯誤的影響, 具體優化后的損失函數為:
Loss=y×aFP×lnp+(1-y)×aFN×ln(1-p) (1)
其中: y是實際標簽, 表示樣本的正、 負類別; p是模型的預測概率; aFP與aFN是用于調整錯誤權重的系數。
與Liu等(2022)通過網格搜索確定最優權重, 重點關注在財務困境預測中減少假陰性錯誤不同, 本文采用貝葉斯優化來確定最佳參數。優化完成后, 重新訓練XGBoost模型, 并用平均假陽率[Average False Positive Rate,aFP=FP/(FP+TN)]和平均假陰率[Average False Negative Rate,aFN=FN/(FN+TP)]替代aFP與aFN, 以更好地反映財務舞弊檢測中不同類型錯誤的影響。
(二) 加權融合XGBoost的決策規則
由于改良XGBoost算法的本質是通過一棵可解釋的決策樹來近似加權NokW4xemNUgKnW0oSsxMqqb1otQoz1OUx8rsy8lw+zg=XGBoost, 為了更好地評估模型在不同時間點上的泛化能力與性能變化, 采用決策規則合并機制: 通過比較相鄰決策樹的決策路徑, 識別出具有相同特征但取值不同的規則, 進行相應調整, 形成交叉規則集, 并計算其準確率。以下為決策路徑合并時更新其新決策路徑概率的核心公式:
pt,i←[12](pt,i+pt-1,j) (2)
其中, pt,i表示第t棵決策樹的決策路徑集合中第i條路徑的概率, pt-1,j表示第t-1棵決策樹的決策路徑集合中第j條路徑的概率。通過加權融合t和t-1兩棵相鄰決策樹的決策路徑形成一條新的決策路徑, 實現更為平穩的樹結構。交叉規則集的準確率計算公式為:
Rule_Acc=[ 2] (3)
其中, Rulet表示第t棵決策樹的決策路徑準確率, Rulet-1表示第t-1棵決策樹的決策路徑準確率, 計算兩者均值即得到Rule_Acc。
(三) 使用融合規則生成新決策樹
在循環合并XGBoost輸出的所有決策樹規則后, 獲得決策路徑交集RT。為控制新決策樹的復雜度, 改良XGBoost算法根據決策路徑的預測概率排序, 選擇排名前L條決策路徑構成規則集合, 同時將該規則集合中的規則按分裂特征提取并存儲在哈希表中。隨后, 通過優先使用最佳規則從上到下逐層構建決策樹, 一直到達設定的決策樹深度, 旨在逼近原始加權XGBoost的決策邏輯。
在構建新決策樹時, 改良XGBoost算法通過最大化信息增益(Information Gain, IG)選擇最佳分裂特征, 并遞歸構建樹結構。信息增益基于損失函數公式(1), 在每個決策節點的分裂過程中, 通過最小化每個節點的損失, 減小整體的預測誤差。信息增益計算公式如下:
-E(Rule) (4)
其中, |RuleL|和|RuleR|分別表示左子集和右子集的規則數量, E(RuleL)和E(RuleR)分別表示左子集和右子集的損失, E(Rule)表示選擇所有路徑的損失。
四、 實證研究與結果分析
(一) 樣本及數據來源
本文選取2013 ~ 2022年首次受到中國證監會、 財政部和滬深證券交易所處罰的上市公司作為舞弊樣本, 這些公司因涉嫌虛列資產、 虛構利潤、 虛假記載和重大遺漏而受到了處罰, 標記為1。同時, 將未涉及上述違規行為的上市公司作為非舞弊樣本, 標記為0。訓練集和測試集的比例為8∶2。為確保研究的準確性, 在樣本篩選過程中剔除金融行業、 存在缺失值的樣本以及上市不足3年的上市公司。最終獲得927個舞弊公司樣本和4348個非舞弊公司樣本, 詳見表1。
本文的財務和非財務數據來源于CSMAR數據庫, 包括違規處理、 財務指標分析、 治理結構和財務報告審計意見等數據庫。此外, 文本數據來自CNRDS數據庫的管理層討論與分析(CMDA)數據庫。
(二) 灰色樣本剔除
在財務舞弊識別中, 灰色樣本指尚未明確為舞弊但可能存在異常的樣本。為提高數據可靠性, 本文采用周衛華等(2022)提出的本福特風險因子排除非舞弊樣本中的灰色樣本。當滿足以下任一條件時, 非舞弊樣本被視為灰色樣本: 本福特定律相關系數r<0.9; 第二位數字“0”的χ2>0.18; 卡方檢驗(置信度95%)結果為“拒絕”。
任務1: 計算本福特定律首位或第二位數字的理論分布概率X; 計算上市公司資產負債表、 利潤表、 現金流量表數據的首位和第二位數字的實際分布概率Y; 計算X與Y的相關系數r。其中r的計算公式如下:
[r= ] (5)
任務2: 計算上市公司資產負債表、 利潤表、 現金流量表數據的首位數字或第二位數字“0”的頻數Oi與理論頻數Ei; 計算上市公司資產負債表、 利潤表、 現金流量表財務數據的χ2統計量與χ2標準值; 比較χ2統計量與χ2標準值的大小, 若χ2統計量>χ2標準值(置信度95%), 則判斷為假, 拒絕原假設。其中, χ2統計量的計算公式如下:
χ2= (6)
通過對本福特風險因子進行判斷, 本文發現非舞弊樣本中存在1554條灰色樣本。剔除后, 非舞弊樣本從4348個減少至2794個。整個樣本中, 舞弊樣本占比從17.57%增加至24.91%。同時, 訓練集中舞弊樣本占比由17.58%增加至24.92%。
(三) 研究變量選擇
1. 財務與非財務指標。本文的變量選取基于Zhang等(2022)的研究, 遵循科學性、 系統性和全面性原則, 從財務指標分析數據庫中提取出反映上市公司財務狀況和經營成果的財務指標, 同時從治理結構數據庫和財務報告審計意見數據庫中提取出顯示公司內部控制情況的非財務指標, 初步建立一個涵蓋財務與非財務指標的體系。在此基礎上, 進一步增加財務比率結構指標, 以及內部控制是否存在缺陷、 內部控制是否有效、 審計費用合計、 會計師事務所是否變更等非財務指標。具體指標詳見表2。
2. 文本分析與指標計算。文本分析即文本挖掘, 是將非結構化文本轉化為結構化數據的過程。財務領域常用方法包括自然語言處理、 詞袋法(Bag of Words,BOW)和機器學習。Zhang等(2022)和Choi等(2020)的研究表明, 詞袋法在分析MD&A文本中表現優異。本文借鑒Li等(2023)的多維度分析方法, 使用詞袋法從情感、 可讀性和相似性三個維度分析MD&A文本。
詞袋法的關鍵在于詞典的選擇。姚加權等(2021)基于LM金融情感詞典及眾多中文詞庫構建了金融領域中文情緒詞典。在本文的文本分析過程中, 筆者采用了該中文情緒詞典中正式和非正式的積極與消極情感詞匯。
MD&A文本能有效補充財務報表數據, 幫助識別財務舞弊行為。已有研究表明, 舞弊企業的管理層更傾向于使用積極詞匯描述公司運營情況和前景, 以及使用長句或專業性強的語句降低文本可讀性(Gao等2020;Yang等,2023)。因此, 本文借鑒Gao等(2020)的研究, 基于Python中的jieba分詞工具進行分詞處理, 使用姚加權等(2021)構建的情緒詞典分析MD&A文本的凈積極語調(V1)與情感極性[包括積極(V2)和消極(V3)]; 使用搜狗細胞詞庫中財經金融詞匯大全詞典分析文本中的專業術語(V4), 并結合平均句子長度(V5)和文本長度(V6)衡量文本可讀性。同時, 基于余弦相似性評估MD&A的文本相似性(V7)(Li等,2023)。文本指標選取與量化如表3所示。
(四) 特征提取
本文選取了91個財務指標、 11個非財務指標和7個MD&A文本指標, 構成財務舞弊識別模型的初始特征集。考慮到不同指標對財務舞弊識別的貢獻不同, 選擇對模型貢獻較大的特征, 以提高模型的效率。此外, 過多指標之間的相關性可能導致過擬合, 從而影響預測準確性。因此, 本文采用統計學方法中的卡方檢驗和相關系數法對特征進行篩選, 利用Python工具輔助實現, 旨在提升特征集的整體質量。
第一步, 進行描述性統計與卡方檢驗。本文通過計算財務與非財務指標的均值、 標準差、 中位數以及四分位數等描述性統計量, 評估數據分布的均勻性。通過觀察表4的結果可知, 財務與非財務指標的數據分布可分為集中型和分散型兩種: 集中型指標展示出較小的標準差和接近的均值與中位數, 如X1、 X2、 X3等; 分散型指標則顯示出較大的標準差和顯著不同的均值與中位數, 如X4、 X21、 X22、 X23等。卡方檢驗是基于卡方統計量(Chi-Squared Statistic)來評估特征與標簽之間的相關性??ǚ街翟酱?, 代表特征與標簽之間的相關性越強, 對目標變量的預測貢獻度也就越大。然而, 卡方檢驗只能處理離散變量, 不能處理連續變量。因此, 本文首先對財務與非財務指標中的連續變量進行離散化處理。結合表4的分析結果, 對集中型指標采用等距離散化方法, 將連續的數據按照相等的間隔劃分為若干個類別; 對分散型指標采用K均值(K-means)聚類算法, 將數據集劃分成K個不重疊的簇。然后, 合并離散化后的連續變量與離散變量。接著, 計算各個變量與目標變量之間的卡方值和P值。最后, 選擇卡方值高且P<0.05的前30個特征作為候選特征集A, 如表5所示。
第二步, 采用相關系數法剔除高度相關的指標。通過計算財務與非財務指標中所有連續變量的相關系數, 移除其中相關系數超過0.7的變量, 此過程保留了53個指標, 構成候選特征集B, 包括X4、 X8、 X12、 X13、 X16、 X17、 X18、 X20、 X21、 X22、 X23、 X24、 X25、 X27、 X28、 X29、 X35、 X44、 X45、 X47、 X48、 X49、 X50、 X51、 X52、 X53、 X54、 X56、 X60、 X62、 X63、 X64、 X65、 X66、 X67、 X69、 X70、 X74、 X86、 X87、 X90、 X91、 X92、 X93、 X94、 X95、 X96、 X97、 X98、 X99、 X100、 X101、 X102。
第三步, 提取最終特征。通過合并候選特征集A和B, 并去除重復項, 共得到68個財務與非財務指標。結合7個文本指標, 本文最終為上市公司財務舞弊識別模型保留了75個特征。
(五) 數據標準化
為了消除不同特征之間的量綱差異, 提高模型的穩定性和準確性, 本文采用Z-Score標準化法對所有財務指標數據進行歸一化處理。該處理將數據轉換為均值為0、 標準差為1的標準正態分布, 其轉換公式如下:
[zi=xi-μiσi] (7)
其中, xi是原始特征的值, μi是原始特征xi的均值, σi是原始特征xi的標準差, zi是標準化后的特征值。
(六) XGBoost超參數優化
本文引入的改良XGBoost算法以XGBoost為整體框架, 基于XGBoost模型訓練輸出的規則構建新的決策樹。在模型訓練過程中, 需要指定模型參數, 本文選取貝葉斯優化方法作為參數調整策略, 旨在最大化XGBoost模型的準確率。本文參考Dalal等(2022)的研究, 選擇colsample_bytree、 gamma、 max_delta_step、 max_depth、 min_child_weight、 subsample作為待優化參數。經過50次迭代訓練, 最終確定一組最優參數, 詳見表6。
(七) 實證結果分析
如表7所示, 二分類問題最終會有以下四組分類結果: TP表示被模型準確預測為舞弊的樣本數; FP表示被模型預測為舞弊但標記為非舞弊的樣本數; TN為被模型準確預測為非舞弊的樣本數; FN表示被模型預測為非舞弊但標記為舞弊的樣本數。
為了全面有效地比較模型性能, 本文選擇了一系列常用的分類任務指標, 包括準確率(Accuracy)、 精確率(Precision)、 召回率(Recall)、 F1分數、 真正率(True Positive Rate, TPR)、 真負率(True Negative Rate, TNR)、 G-mean和AUC值。準確率指模型將樣本正確分類的比例, 該值越接近1, 模型分類效果越好; 精確率指被分類為舞弊的樣本中實際為舞弊的比例; 召回率指所有實際為舞弊的樣本中被模型正確分類的比例; F1分數是精確率和召回率的調和平均數, 數值越接近1, 表示模型在精確率和召回率上的表現越好; TPR同召回率; TNR表示模型正確識別非舞弊樣本的比例; G-mean是一種適用于不平衡數據集的二分類模型評估指標, 它綜合考慮了模型對舞弊和非舞弊樣本準確預測的比例; AUC值是ROC曲線下的面積, 以假正率(FPR)為橫軸、 真正率(TPR)為縱軸, 該值越接近1, 模型性能越好。以下是上述部分指標的計算公式:
Accuracy=[TP+TNTP+FP+TN+FN]×100% (8)
Precision=[TPTP+FP]×100% (9)
Recall=TPR=[TPTP+FN]×100% (10)
[F1=2× ]×100% (11)
TNR=[TNTN+FP]×100% (12)
G-mean= (13)
1. 模型識別結果分析。為驗證上市公司財務報告中的MD&A文本信息對提高財務舞弊識別效果的增量作用, 本文對比分析了僅考慮財務與非財務指標(標記為“F”)和引入文本指標(標記為“T”)兩種情況下的分類結果, 詳見表8。
研究結果顯示, 納入MD&A文本指標后財務舞弊識別模型的性能顯著提升, 其中準確率、 精確率、 召回率、 F1分數、 真正率、 G-mean和AUC值均有所改善, 盡管真負率下降了0.19%, 但準確率與召回率分別提高了15.73%和29.35%, 提升幅度較大, 說明MD&A文本為識別財務舞弊提供了有效補充。具體而言: 文本指標的引入豐富了模型的特征集, 使其能夠捕捉到更為復雜的舞弊模式; 同時, MD&A文本通過提供細致的財務表現和風險描述, 揭示了傳統財務指標所未涉及的關鍵信息。因此, 結合財務和文本分析對提升財務舞弊識別的準確性至關重要。
2. 與其他分類器模型的對比分析。
(1) 與未經平衡處理的財務舞弊識別模型對比。本文通過對比分析基于改良XGBoost算法及文本信息構建的上市公司財務舞弊識別模型與未經數據平衡處理的其他分類器模型的性能(如LR、DT、SVM等傳統模型), 驗證了改良XGBoost在財務舞弊識別任務中的有效性。改良XGBoost能夠自適應處理不平衡的數據集, 而傳統模型未特別針對數據集的不平衡性進行調整, 這些模型通常用于處理相對平衡的數據集, 簡稱“平衡模型”。與平衡模型的分類結果對比如表9所示。
由表9可知, 改良XGBoost能夠自適應處理不平衡數據, 具有較好的召回率和F1分數表現。在不平衡數據集上, 改良XGBoost的真正率與真負率更為均衡, 召回率達86.51%, 優于其他平衡模型。此外, 雖然改良XGBoost的精確率低于RF和LightGBM, 但其F1分數最優。盡管其AUC值低于其他大部分模型, 但也超過了86%, 顯示了模型在處理不平衡數據時的穩健性和泛化能力。由于財務舞弊識別誤判成本較高, 改良XGBoost憑借較高的召回率展現出優勢。
(2) 與經平衡處理的財務舞弊識別模型對比。同理, 對比分析發現, 基于改良XGBoost算法及融合文本指標構建的上市公司財務舞弊識別模型與其他經過數據平衡處理的分類器模型相比性能有所提升。特別地, 本文選取了若干處理數據不平衡問題的代表性算法進行深入比較, 包括隨機欠采樣(Random Under Sampling,RUS)、 隨機過采樣(Random Over Sampling,ROS)、 SMOTE、 RUSBoost、 SMOTEBoost及AdaCost等, 這些模型常用于處理不平衡數據集, 簡稱“失衡模型”。與失衡模型的分類結果對比如表10所示。
從表10可以看出: 改良XGBoost和RUSBoost展現了最高的準確率, 分別為89.32%和89.17%; ROS以92.50%的精確率表現處于領先位置; AdaCost以89.72%的召回率表現最佳。盡管AdaCost在召回率上表現突出, 但其準確率、 精確率、 真負率及G_mean指標值相對較低, 表明該模型在識別正類樣本時過于激進, 從而增加了將負類樣本錯誤分類為正類樣本的風險。同時, SMOTEBoost和RUSBoost在精確率上的表現不盡如人意, 暗示這些模型在將樣本預測為正類時可能產生較多的誤判。因此, 無論是從提升模型整體的準確性, 還是關注不遺漏任何正類樣本(追求高召回率), 或是在維持正、 負類樣本之間良好平衡的目標來看, 改良XGBoost均為最為理想的選擇。
3. 模型解釋性分析。圖2展示了基于改良XGBoost和文本信息構建的財務舞弊識別模型應用于不平衡數據集(訓練集)上的淺層決策樹可視化結果, 圖中包括分裂特征與分裂值, 不同分裂條件下的訓練樣本數量(samples)、 正負樣本數量(value[負樣本數,正樣本數])及該條件下的舞弊概率(Prob)。從圖中可以觀察到, 該決策樹以文本相似性(V7)指標作為根節點, 其分裂值為0.6726。文本相似性指標指的是上市公司在連續兩年年報MD&A文本中重復出現的文本(單詞或短語)的比例, 最早由Brown和Tucker(2011)提出, 并將其作為評估年報信息變化的一種方式。他們的研究指出, MD&A文本的高度相似性可能預示著公司對資本市場的積極回應。然而, 過高的文本相似性意味著公司存在隱瞞或欺詐行為的可能。通常情況下, 公司每年的經營狀況和戰略均有所變化, 理應在MD&A文本中披露出新的經營信息。當文本過于雷同時, 意味著管理層有意回避披露最新的經營情況, 說明其通過信息掩蓋或誤導性的行為蒙蔽投資者等利益相關者。
(1) 特征重要性分析。全局可解釋性的核心目標是確保決策模型的運作過程及其內在的決策邏輯對用戶透明且可理解。DT因其訓練高效、 決策邏輯可解釋而被廣泛應用于檢測上市公司的財務舞弊活動。而改良XGBoost本質上近似于一棵決策樹, 通過分析該模型中決策樹的重構過程, 可以輸出排名前十的特征重要性得分, 從而幫助解釋模型的運作機制。圖3展示了特征重要性得分排在前十位的指標, 其中文本相似性作為決策樹的根節點是最重要的特征, 表明MD&A的文本相似性(V7)越高, 公司存在財務舞弊的可能性越大。期間費用率(X46)、 消極(V3)、 營業收入增長率(X67)等特征與財務舞弊行為相關, 當公司年報中MD&A的文本相似性(V7)處于較高水平時, 若期間費用率(X46)與消極(V3)較高且營業收入增長率(X67)較高, 則公司被標記為舞弊的可能性較大。同理, 當公司年報中MD&A的文本相似性(V7)較低時, 信息披露較為真實, 無論是MD&A文本中的專業術語(V4)較多且流通股比例(X95)較高, 還是專業術語(V4)較少但文本長度(V6)適當, 均表明公司被標記為舞弊的可能性較低。因為專業術語(V4)體現出公司對自身業務的深入理解和對未來發展的規劃; 流通股比例(X95)則與公眾投資者掌握的公司股票有關, 體現投資者對公司經營狀況的監督??傮w來看, 改良XGBoost的全局解釋與語義信息高度一致, 增強了模型的邏輯連貫性和可解釋性。
(2) 決策路徑分析。局部可解釋性使分析者能夠了解人工智能模型是如何對每個財務舞弊樣本進行預測的。給定一個記錄公司財務與MD&A文本信息的樣本, 改良XGBoost會根據其訓練的結構和決策節點條件, 為樣本指派最適合的決策規則。圖4展示了一個示例, 說明了改良XGBoost如何識別財務舞弊案例并提供局部解釋。改良XGBoost將該樣本分類為舞弊公司, 圖中虛線表示給定測試樣本的決策路徑, 其概率為0.88。當文本相似性(V7)=0.779756時, 超過閾值0.6726, 說明MD&A的文本相似性偏高, 可能缺乏透明性, 同時期間費用率(X46)>0.0599且消極(V3)>0.0196, 表明公司可能在費用控制上較松懈, 或存在人為調整跡象, 增加了財務舞弊的可能性。
五、 結論
本文基于可解釋機器學習和文本信息構建了上市公司財務舞弊識別模型, 并以2013 ~ 2022年首次舞弊的公司為樣本, 通過提取情感語調、 情感極性、 可讀性和相似性等文本指標, 驗證了MD&A文本指標對于財務舞弊識別的增量貢獻。此外, 識別和解釋上市公司的財務舞弊對投資者等利益相關者至關重要。然而, 舞弊公司和非舞弊公司之間的不平衡分布為財務舞弊的識別帶來了挑戰。為了追求效率并降低誤識成本, 傳統的不平衡財務舞弊識別的解決方案試圖以集成方式提高模型的復雜性, 但忽略了財務舞弊識別模型的可解釋性。為了平衡性能和解釋性之間的關系, 本文引入一種可解釋機器學習算法, 該算法通過合并和篩選XGBoost中的決策規則來構建新決策樹, 旨在近似于原模型, 但更為簡化和易于解釋。本文的研究結論如下: 第一, 引入MD&A文本指標后, 模型準確率提升至89.32%, 比僅考慮財務與非財務指標時提升了15.73%。第二, 本文采用加權交叉熵損失函數解決類別不平衡問題, 無需額外處理數據集, 在實際操作上更為簡單直接, 通過給予數目較少的類別更大的權重以減少模型的偏見, 提升了少類別的預測準確性, 本文構建的財務舞弊識別模型的召回率達到86.51%。本文引入的改良XGBoost為業界提供了透明且高效的財務舞弊識別工具, 簡化了復雜模型。
【 主 要 參 考 文 獻 】
曹德芳,劉柏池.SVM財務欺詐識別模型[ J].東北大學學報(自然科學版),2019(2):295 ~ 299+304.
洪文洲,王旭霞,馮海旗.基于Logistic回歸模型的上市公司財務報告舞弊識別研究[ J].中國管理科學,2014(S1):351 ~ 356.
劉云菁,伍彬,張敏.上市公司財務舞弊識別模型設計及其應用研究——基于新興機器學習算法[ J].數量經濟技術經濟研究,2022(7):152 ~ 175.
羅黨論,黃悅昕,何建梅.上市公司財務舞弊的治理:經驗與理論分析[ J].財會月刊,2022(22):29 ~ 37.
錢蘋,羅玫.中國上市公司財務造假預測模型[ J].會計研究,2015(7):18 ~ 25+96.
伍彬,劉云菁,張敏.基于機器學習的分析師識別公司財務舞弊風險的研究[ J].管理學報,2022(7):1082 ~ 1091.
姚加權,馮緒,王贊鈞等.語調、情緒及市場影響:基于金融情緒詞典[ J].管理科學學報,2021(5):26 ~ 46.
趙納暉,張天洋.基于MD&A文本和深度學習模型的財務報告舞弊識別[ J].會計之友,2022(8):140 ~ 149.
周衛華,翟曉風,譚皓威.基于XGBoost的上市公司財務舞弊預測模型研究[ J].數量經濟技術經濟研究,2022(7):176 ~ 196.
Ali A. A., Khedr A. M., El-Bannany M., et al.. A powerful predicting model for financial statement fraud based on optimized XGBoost ensemble learning technique[ J].Applied Sciences,2023(4):2272.
Bao Y., Ke B., Li B., et al.. Detecting accounting fraud in publicly traded U.S. firms using a machine learning approach[ J].Journal of Accounting Research,2020(1):199 ~ 235.
Beneish M. D.. The detection of earnings manipulation[ J].Financial Analysts Journal,1999(5):24 ~ 36.
Brown S. V., Tucker J. W.. Large-sample evidence on firms' year-over-year MD&A modifications[ J].Journal of Accounting Research,2011(2):309 ~ 346.
Cheng C. H., Kao Y. F., Lin H. P.. A financial statement fraud model based on synthesized attribute selection and a dataset with missing values and imbalanced classes[ J].Applied Soft Computing,2021(108):107487.
Choi J., Suh Y., Jung N.. Predicting corporate credit rating based on qualitative information of MD&A transformed using document vectorization techniques[ J].Data Technologies and Applications,2020(2):151 ~ 168.
Craja P., Kim A., Lessmann S.. Deep learning for detecting financial statement fraud[ J].Decision Support Systems,2020(139):113421.
Dalal S., Seth B., Radulescu M., et al.. Predicting fraud in financial payment services through optimized hyper-parameter-tuned XGBoost model[ J].Mathematics,2022(24):4679.
Eweoya I. O., Adebiyi A. A., Azeta A. A.. Fraud prediction in bank loan administration using decision tree[ J].Journal of Physics: Conference Series, 2019(1299):012037.
Gao Y., Liang N., Niu G., et al.. A method for company-specific risk factors analysis in the view of cross analysis[ J].Procedia Computer Science,2020(174):375 ~ 381.
Hancock J. T., Khoshgoftaar T. M.. Gradient boosted decision tree algorithms for medicare fraud detection[ J].SN Computer Science,2021(4):1 ~ 11.
Islam S., Haque M., Karim A. R.. A rule-based machine learning model for financial fraud detection[ J].International Journal of Electrical and Computer Engineering,2024(1):759 ~ 771.
Jan C. L.. Detection of financial statement fraud using deep learning for sustainable development of capital markets under information asymmetry[ J].Sustaina-
bility,2021(17):9879.
Lei S., Ke X. U., Huang Y. Z., et al.. An XGBoost based system for financial fraud detection[ J].E3S Web of Conferences,2020(214):02042.
Li J., Li N., Xia T., et al.. Textual analysis and detection of financial fraud: Evidence from Chinese manufacturing firms[ J].Economic Modelling,2023(126):106428.
Liu W., Fan H., Xia M., et al.. Predicting and interpreting financial distress using a weighted boosted tree-based tree[ J].Engineering Applications of Artificial Intelligence,2022(116):105466.
Repousis S.. Using Beneish model to detect corporate financial statement fraud in Greece[ J].Journal of Financial Crime,2016(4):1063 ~ 1073.
Yang F., David J. M., Chang C. C.. Detecting financial statement fraud through multidimensional analysis of text readability[ J].Journal of Forensic Accounting Research,2023(1):74 ~ 96.
Ye H., Xiang L., Gan Y.. Detecting financial statement fraud using random forest with SMOTE[ J].IOP Conference Series: Materials Science and Enginee-
ring,2019(5):052051.
Zhao Z., Bai T.. Financial fraud detection and prediction in listed companies using SMOTE and machine learning algorithms[ J].Entropy,2022(8):1157.
Zhang Z., Ma Y., Hua Y.. Financial fraud identification based on stacking ensemble learning algorithm: Introducing MD&A text information[ J].Computational Intelligence and Neuroscience,2022(4):1 ~ 14.