基于機器學習算法的企業財務舞弊預測及可解釋性分析

2023-05-10 14:03:42童潔蔣紅艷

中國市場 2023年11期

童潔蔣紅艷

摘?要：?財務舞弊不僅損害了投資者信心，也對資本市場產生極大影響。為預測企業的財務舞弊行為，文章選取2016-2020未發生舞弊行為與首次發生舞弊行為的企業作為研究對象，依據Python機器學習算法建立決策樹、支持向量機、神經網絡及邏輯回歸模型，基于舞弊三因素理論選取44個指標預測企業財務舞弊行為，并通過SHAP可解釋性工具重點關注單個指標變化對財務舞弊預測的重要性程度，同時分析財務指標以及非財務指標對預測財務舞弊的相互作用、預測錯誤的樣本查看的影響。研究結果表明支持向量機對于預測舞弊效果最優，邏輯回歸在模型的精確度表現最佳。

關鍵詞：?財務舞弊;?機器學習;?預測;?可解釋性分析

中圖分類號：F275;F406.7?文獻標識碼：A??文章編號：1005-6432（2023）11-0000-04

[DOI]10.13939/j.cnki.zgsc.2023.11.000

1??引言

近些年來，部分上市公司出于維持股價、避免退市等動機，存在虛構資產、虛構利潤等財務舞弊行為，給投資者們造成了巨大的損失，也對資本市場的穩定產生影響[1]。由于審計機構的獨立性有限[2]，僅依靠審計意見無法有效預測企業的財務舞弊行為，故而如何有效識別出企業財務舞弊行為，是一直存在的亟待解決的難題。

隨著大數據和人工智能的興起，機器學習在模擬對象具體特征、處理復雜及大量的數據時具有優越性，通過對大數據進行多維度統計分析，剔除干擾信息，可得到預測準確率較高的結果。所以，利用機器學習方法對財務舞弊因素進行研究具有一定的優勢。

本文的創新之處：一是本文根據舞弊理論，選取預測指標共44個，涵蓋財務指標和非財務指標，相比以往研究更全面；二是在決策樹模型中，除使用網格搜索外，還編制程序自行改變樹深參數進行訓練；三是可解釋性分析全面嚴謹，使用多個可解釋性工具進行分析，其結論均可互相驗證和補充。

2??模型與算法

2.1支持向量機

支持向量機是一種廣義線性分類器[3]，應用于解決復雜的回歸和分類問題，以間隔最大化為原則，將線性不可分數據擴展到多維空間中，并運用超平面進行劃分，尋找全局最優解，增強模型的泛化能力，從而解決對小樣本、非線性的統計預測。

若利用支持向量機進行財務舞弊識別，首先要找到舞弊和非舞弊的樣本點中離這個超平面最近的點，并使這個點到超平面的距離最大化，從而區分出舞弊樣本和非舞弊樣本，確定的這個超平面也就可以作為判斷樣本是否舞弊了的分類器[4]。

其中，Q為最優化目標值；W為權重系數。

最后通過Lagrangian函數，轉化為對偶形式，以求取最優超平面，設，為拉格朗日因子；為核函數，包括以線性核函數、多項式核函數、RBF核函數等[5]，得到回歸函數如下：

2.2邏輯回歸

邏輯回歸作為比較常用的機器學習方法，屬于廣義回歸模型。邏輯回歸模型的因變量為二分類變量[6]，利用已有訓練集樣本數據進行模型擬合，利用所得模型對測試集進行預測，公式如下：

2.3決策樹

決策樹由結點和有向邊構成，是一種以樹狀結構進行表達的預測模型[7]。決策樹從根節點開始在不同屬性空間進行最優屬性選擇，以此分裂不同的分支并繼續在屬性空間中進行最優屬性選擇，直至屬性分純。其中，C5.0以信息熵的下降速度作為確定最佳分支變量和分割閥值的依據。

2.4神經網絡

神經網絡是經典的機器學習算法，根據給定的訓練樣本，不斷將誤差項作為反饋信號進行多層次的算法訓練，調整神經網絡參數。神經網絡主要包含輸入層、隱含層和輸出層三層，不同層之間的神經元可以利用通道進行信息傳輸[8]。本文將個財務指標的樣本數據作為輸入層，將是否舞弊作為輸出層。

2.5SHAP模型

除去模型自身特征重要度衡量指標，SHAP模型也可反映某個特征對整體模型和結果的貢獻程度。計算某個特征（指標）的歸因值（shap?value），將模型的預測值解釋為每個輸入特征的歸因值之和，使其輸出結果具有可加一致性[9]。

對于每一個預測樣本，模型輸出預測值，shap?value為該樣本中每個特征（指標）分配到的數值[10]。

其中表示樣本的shap?value，使用這種方法既可以確保貢獻值加和為最終預測結果，也能消除模型間結構性差異帶來的可解釋性差異。如果某指標在大多數樣本上表現出了一致的趨勢，那么說明模型認定這一指標具有重要的正向或者負向作用。

3??數據及變量選擇

3.1樣本數據選取

本文預選取從2016-2020年發生財務舞弊的樣本進行研究，依據國泰安CSMAR數據庫，根據違規類型篩選出“虛構利潤、虛假記載、虛列資產、重大遺漏、披露不實”五大類型舞弊公司樣本共288個。由于需要獲取樣本對應的數據資料，我們選取首次舞弊年份作為樣本的研究年份；且為了統一樣本股票類型，篩后保留A股主板樣本共205個。

本文根據《中國上市公司質量評價報告》選取非舞弊公司樣本，將報告中公司進行違規處理篩選，選取在2016-2020年間非舞弊樣本共205個。

根據選取的樣本進行樣本清洗并收集數據，因退市或未核算等原因，不同指標均含有缺失值，由于同一指標的缺失值數量較少且是面板數據，本文利用刪除指標缺失值對應樣本的方式進行樣本刪除。經整理，選取262個樣本，包括舞弊樣本124個，非舞弊樣本138個。

由于選擇的指標存在正向指標和逆向指標，故而對數據進行標準化處理，具體方法如下：

3.2變量選擇

根據舞弊三因素理論，企業財務舞弊的發生需要滿足三個前提，分別是舞弊機會、舞弊壓力以及舞弊借口[11]。舞弊機會主要是指企業的內部制度存在漏洞或其他原因允許企業進行財務舞弊。舞弊壓力是指當企業面對較大的破產風險或其他財務風險承受的壓力。舞弊借口是指企業認為財務舞弊行為不易被發現且在下一年的財務報表可以調整今年財務舞弊帶來的影響。根據三因素主要選擇以下財務指標以及非財務指標。

進行財務指標數據與非財務指標數據收集時，利用wind金融終端和國泰安CSMAR數據庫獲取各樣本指標數值，并利用Python軟件對數據進行整理和指標計算。

選取財務指標：流動比率、資產負債率、利息保障倍數、年化總資產凈利率、營業成本率、凈利率、管理費用增長率、總資產增長率、可持續增長率、營業收入增長率、存貨周轉率、應收賬款周轉率、總資產周轉率、經營杠桿、財務杠桿、綜合杠桿、全部現金回收率、營業收入現金含量、托賓Q值、賬面市值、破產風險（Z值）、避免退市或者ST和資產減值準備增長率/

選取非財務指標：董事長與總經理兼任情況、董事人數、獨立董事比例、監事人數、高管前3名薪酬總額、第一大股東控制度、股權集中度、總資產凈利潤率行業比值、銷售費用率行業比值、營業外收入占比行業比值、資產負債率行業比值、營業收入增長率行業比值、審計意見類型、審計師規模、會計事務所變更次數、交易方關聯程度、總資產周轉率前年比值、總資產凈利潤率前年比值、銷售費用率前年比值、營業收入現金含量前年比。

數據預處理：由于本文選擇的指標數量較多，為提升模型擬合效果，在建立模型前對變量進行低方差過濾，過濾掉差異小的變量。同時為了避免不同變量的量綱差異對模型預測產生影響，進行了特征標準化處理。上述處理完成后進行了降維處理，減少指標數量。

4??實證分析

4.1模型識別及效果分析

在特征標準化及降維至20維的數據處理方法下，神經網絡及支持向量機模型準確率均分別達到最大值83.02%及86.79%；決策樹以及邏輯回歸模型在特征標準化的處理方法下，準確率分別達到最大值67.92%及86.79%。在特征標準化處理下，除決策樹模型外，剩余三種模型的準確率均得到大幅提升。且數據進行標準化處理后，降維至20維的數據在所有模型中準確率最高。

由圖1不同模型的分類結果對比圖得，除決策樹模型外，其余模型的準確率均達到87%以上。邏輯回歸的精確率最高，支持向量機的召回率與F1分數最高。

由圖2不同深度的決策樹效果對比得，深度為9層的決策樹模型識別效果最好，準確率、精確率、F1分數均達到最大值。深度為5層的決策樹模型的召回率最大。隨著決策樹層數的增多，四項模型性能參數均出現先減小后增至最高點，再減小的趨勢。

4.2決策樹結果討論

根據最佳樹深和降維選擇，生成決策樹部分規則如下：

第一，高管前3名薪酬總額小于等于4394700元且總資產凈利率小于等于8.577的上市公司更容易發生舞弊行為。

第二，高管前3名薪酬總額小于等于4394700元、總資產凈利率大于8.577且交易方關聯度小于等于0.002的上市公司更容易發生舞弊行為。

第三，高管前3名薪酬總額大于4394700元且全部現金回收率小于等于0.032的上市公司更容易發生舞弊行為。

以上規則是C5.0決策樹經過迭代結果后，最終選擇出來的規則。通過以上規則發現影響變量的重要性因素分別有“總資產周轉率”、“高管前3名薪酬總額”、“全部現金回收率”等。

4.3可解釋性分析

由圖3特征排列重要性圖得，企業的年化總資產凈利率、高管前3名薪酬總額對企業是否舞弊最為重要，營業收入增長率、經營杠桿以及資產負債率行業比值的影響次之，賬面市值比、總資產凈利潤率行業比值等因素對企業舞弊行為的發生存在一定影響，但影響較小。財務杠桿以及總資產周轉率等因素對預測企業是否舞弊貢獻度低。

如圖4所有樣本按照相似性排列的summary?plot所示，從相似性角度分析，相似的非舞弊公司共同具體的特征為高管前3名薪酬總額較低、全部現金回收率較低；相似的舞弊公司共同具體的特征為年化總資產凈利率較大、營業收入現金含量前年比較高。

由圖5發生財務舞弊樣本的force?plot圖得，樣本企業發生舞弊概率低于基準線，發生舞弊的概率為低風險。樣本企業的年化總資產凈利率、高管前3名薪酬總額以及賬面市值比對發生舞弊行為均具有負向貢獻，三者的負向影響程度依次遞減。

5??結論

本研究得出以下結論：支持向量機與神經網絡、決策樹以及邏輯回歸相比，財務舞弊的預測效果最好。采用邏輯回歸模型預測時，模型的精確度最高；采用支持向量機預測時，模型的召回率以及F1分數最高。隨著決策樹深度的增加，模型的預測效果先升后降；且在不同深度的決策樹模型中，財務舞弊的預測效果在深度為9的模型中最佳。

其次，總資產凈利率、股權集中度以及高管前三名薪酬總額等指標對預測財務舞弊十分重要，應當重點關注。其中，高管前三名薪酬總額、交易方關聯度與企業發生財務舞弊的可能性存在負相關關系。總資產凈利率與企業發生財務舞弊的可能性主要存在正相關關系。

根據以上結論得出以下建議：完善企業內部控制制度，保證董事以及監事數量，落實其監督責任。采用股權激勵等多種薪酬激勵方式，提升管理層積極性。建立風險預警制度，及時識別經營風險；同時企業內外部的監管者應當加強對企業的監督以及處罰措施，對于發生了財務舞弊的公司要監督其進行整改。審計人員應當建立完備的審計程序，針對容易發生舞弊的項目應當要重點審查。

參考文獻

李輝.基于Logistic模型的深度貧困地區貧困人口致貧因素分析[J].西北民族研究，2018（4）：51-58.

[作者簡介]童潔，女，安徽安慶人，研究方向：?統計分析、機器學習；蔣紅艷，女，湖南衡陽人，研究方向：財務會計。