基于特征選擇的我國上市公司財務欺詐識別研究

2024-04-14 00:00:00郭雋含

中小企業管理與科技·下旬刊 2024年12期

【摘" 要】近年來，上市公司財務欺詐案件頻發，嚴重影響金融市場的健康發展。為更精確地識別上市公司財務欺詐情況，論文在傳統指標的基礎上引入第三方機構指標，構建基于特征選擇的財務欺詐識別模型。經過兩次特征篩選后第三方機構指標保留在最優指標組合中，且加入這個指標使模型精度有所提升，說明第三方機構指標的加入能夠有效提升模型的識別性能。論文為財務欺詐識別指標體系構建提供了新思路，為有關部門的監管擴充了新的視角。

【關鍵詞】特征選擇;非均衡樣本;財務欺詐識別;XGBoost;SMOTE

【中圖分類號】F832.5;F406.7" " " " " " " " " " " " " " " " " " " " " " "【文獻標志碼】A" " " " " " " " " " " " " " " " " " " " " " " " "【文章編號】1673-1069（2024）12-0037-03

1 引言

財務欺詐是資本市場的一顆毒瘤，實施欺詐的上市公司雖是少數，但損害了上市公司群體形象，嚴重擾亂資本市場秩序、動搖投資者信心、侵犯投資者權益。盡管監管層“嚴”字當頭，卻依然有上市公司鋌而走險，采取的欺詐手段還更加多樣和隱蔽。因此，本文構建的財務欺詐識別模型能夠較準確地識別上市公司的財務欺詐行為，對企業自身、投資者和整個資本市場的健康發展都有重要意義。

2 文獻綜述

2.1 財務欺詐識別指標選取研究

徐靜等[1]研究得出營運資金與總資產比、資產負債率等5個變量的重要性值（1-p值）大于0.95，是表征財務報表舞弊的關鍵指標。葉欽華等[2]的研究發現，財務欺詐公司的非財務異常特征出現次數明顯多于財務異常特征，其中股東行為異常特征出現最為頻繁。

2.2 財務欺詐識別指標篩選方法研究

陳朝焰等[3]引入信息熵來度量引入某個指標帶來的好處，從而選擇熵值更大的指標。李愛華等[4]先通過計算得到各特征間的相關性，保留相關性系數0.8以下的特征。

2.3 財務欺詐識別方法研究

楊貴軍等[5]提出將Benford律和Logistic模型相結合的一種財務欺詐識別方法，利用中國上市公司財務數據模擬研究后發現，包含Benford因子的Logistic模型具有更高的正確率。黃志剛等[6]在探尋最適合用于財務欺詐識別的機器學習算法的研究時發現隨機森林在測試集中識別性能最好。

綜上，本文從現有研究的局限入手，在指標海選時，引入客觀性和真實性更高的外部機構的ESG評價指標。在篩選指標時，采用基于XGBoost算法的嵌入式特征選擇方法，根據模型計算結果反推最優欺詐識別特征指標組合，這樣構建的指標體系更客觀、有效。且根據識別結果可知，相比其他機器學習模型，XGBoost的識別效果更好、泛化能力更強，能夠提升識別的準確度。

3 我國上市公司財務欺詐識別模型構建

3.1 樣本數據處理

3.1.1 指標數據標準化

不同性質的指標存在著不同的量綱和數量級，如果不消除這種差異而是直接采用原始數據，那么會導致識別結果不合理。所以，模型構建之前需要對原始指標數據進行標準化處理，本文選擇將其縮放到[0，1]的范圍內的方式。

3.1.2 基于SMOTE的非平衡樣本處理

SMOTE算法是一種用于處理類別不均衡問題的過采樣方法，其原理是通過在少數類樣本附近進行隨機插補合成新的少數類樣本的方式使數據集達到平衡。本文所研究的上市公司財務欺詐識別是一個明顯的正負樣本不均衡的二分類問題。為了讓模型更好地學習欺詐樣本的特征，盡可能多地識別出欺詐企業，本文選擇SMOTE算法通過合成新的欺詐樣本的方式來平衡數據集。

3.2 指標體系的構建

第一步，開拓更廣泛的視角進行指標海選，爭取涵蓋更全面的信息;第二步，進行指標初篩，刪掉數據無法獲取、信息難以觀測的指標;第三步，依靠XGBoost算法進行基于特征選擇和欺詐識別的第二次指標篩選。

3.3 基于XGBoost的財務欺詐識別模型的構建與評估

3.3.1 XGBoost算法

XGBoost（Extreme Gradient Boosting）算法是一種集成學習方法。集成模型的基本理念是，通過構建一系列弱基礎模型來構建一個強大的模型。XGBoost的核心算法思想是在訓練出一棵樹的基礎上再訓練下一棵樹預測它與真實分布間的差距。通過不斷訓練用來彌補差距的樹，最終用樹的組合實現對真實分布的模擬。

3.3.2 模型評估

對于財務欺詐識別問題，由于數據集的正負樣本不平衡，因此僅使用準確率（Accuracy）并不能很準確地評判模型的分類性能。本研究希望能夠盡可能多地查出正樣本（即欺詐樣本），從而使用召回率（Recall）作為重要的評價指標;只考慮單一指標也無法準確評估模型效果，因此引入AUC和G-mean值。這兩個綜合性指標常用于評價正負樣本不均衡的二分類模型的性能。

模型精度評估通常要根據混淆矩陣進行計算。混淆矩陣中TP為欺詐樣本被正確識別出來的數量;FP為未欺詐樣本被錯誤識別成欺詐的數量;FN為欺詐樣本被錯誤識別成未欺詐的數量;TN為未欺詐樣本被正確識別出來的數量。根據混淆矩陣，進一步給出4個模型評估指標的計算公式如下。

準確率可由公式（1）計算。

Accuracy=" " " " " （1）

召回率可由公式（2）計算。

Recall=" " " " " "（2）

AUC值是ROC曲線下的面積，以假陽率FPR為橫軸，真陽率TPR為縱軸。TPR和FPR可分別使用公式（3）、公式（4）計算。

TPR=" " " " " （3）

FPR=" " " " "（4）

G-mean可由公式（5）計算。

G-mean=" " " " "（5）

4 實證研究

4.1 樣本選取及數據來源

本研究中用到的上市公司內部數據獲取自中國經濟金融研究數據庫，ESG得分獲取自華證指數平臺，外部宏觀數據獲取自中國經濟社會大數據研究平臺。

欺詐樣本來自CSMAR數據庫中的上市公司財務違規信息表，排除金融行業，選擇因“虛構利潤”“虛列資產”“虛假記載（誤導性陳述）”“重大遺漏”和“披露不實”而被處罰上市公司。非欺詐樣本選取自2012-2021年從未發生過欺詐的非金融業上市公司，每家公司每一年的數據作為一個樣本，最終得到13 435個非欺詐樣本，1 487個欺詐樣本，屬于不平衡數據集。

4.2 指標體系的構建

首先，盡可能全面地海選能夠識別出財務欺詐的指標，得到的海選指標體系中共包含251個指標。然后刪掉數據缺失率較高的指標，初步篩選保留了海選指標體系中的224個指標。

4.3 樣本數據處理

將原始數據中正、負向指標分別進行標準化。對初篩后的非均衡樣本采用SMOTE方法進行非均衡樣本處理。將樣本按8∶2的比例進行5次分層抽樣，然后采用十折交叉方法將80%部分劃分為訓練和驗證樣本，剩余20%作為測試樣本。

4.4 建立基于XGBoost的財務欺詐識別模型

4.4.1 模型選擇

將經初始劃分的80%訓練集樣本數據輸入模型，讓模型學習其特征和標簽，然后用另外的20%測試集樣本數據檢驗模型。通過對模型精度和降維效果兩方面的綜合考慮，最終確定本文模型。

4.4.2 指標體系確定

模型的計算過程即第二次指標篩選的過程，篩選結果如表1所示。

4.5 ESG指標特征有效性對比分析

為了驗證ESG得分指標有利于提高模型的識別精度，本部分安排設計將兩個差別僅在于是否包含ESG得分指標的特征組分別輸入模型。

兩個特征組輸入模型后得到的實驗結果為，未加入ESG指標的模型精度為Recall=80.13%，AUC=84.15%，acc=71.66%，G-mean=75.28%。加入ESG指標的模型精度為Recall=81.14%，AUC=84.79%，acc=73.20%，G-mean=76.61%。

由此得知，輸入含有ESG得分指標特征組的模型識別性能更好，各個評價指標數值都高于另一組，這表明本文加入的第三方機構指標（ESG得分指標）在識別財務欺詐方面有提升模型性能的作用。

4.6 模型精度對比分析

本文選取了6個常用的機器學習模型與XGBoost模型進行對比。7個模型的欺詐識別精度對比如表2所示。

從模型欺詐識別精度對比分析可以發現，在欺詐識別中更為看重的Recall指標值的比較中，XGBoost模型位居首位，且遠遠優于其他模型。再考慮其他綜合評價指標結果，XGBoost模型的平均精度也最高。

此外，XGBoost模型降維后的指標個數為55，是所有參與對比模型中指標體系規模最小的。因此，綜合降維效果和識別精度兩方面考慮，XGBoost模型更適合用于本文上市公司財務欺詐識別的研究。

5 結論

第三方評級指標（ESG得分）對識別上市公司財務欺詐有一定作用。根據識別結果可知，在財務欺詐識別模型指標體系中加入第三方機構指標（ESG得分）后，模型的識別效果更好。因此在上市公司財務欺詐識別中，不僅要考慮上市公司自身披露的相關指標，也要重視第三方機構的評級指標。只有逐漸擴大監管的范圍，豐富監管的視角，這樣才能應對欺詐手段越來越多樣和隱蔽的現狀。

基于XGBoost的上市公司財務欺詐識別模型，能夠得出識別欺詐的最優指標組合，更準確地識別上市公司財務欺詐行為。本文模型在保證識別精度的前提下，根據計算結果反推出了最優指標組合，既能有效識別出欺詐企業，又從指標組合的識別效果角度篩選指標，構建最終的指標體系，便于實際操作，可解釋性更強。

【參考文獻】

【1】徐靜，李俊林，唐少清.上市公司財務異常與舞弊疑點檢測研究[J].中國軟科學，2021（S1）：421-428.

【2】葉欽華，黃世忠，葉凡，等.嚴監管下的財務舞弊分析——基于2020～2021年的舞弊樣本[J].財會月刊，2022（13）：10-15.

【3】陳朝焰，韓冬梅，吳馨一.融合新聞文本和時序信息的上市公司財務欺詐預警[J].財會月刊，2023，44（12）：30-39.

【4】李愛華，王迪文，續維佳，等.基于多數據源融合的創業板上市公司財務造假異常檢測[J].數據分析與知識發現，2023，7（05）：33-47.

【5】楊貴軍，周亞夢，孫玲莉.基于Benford-Logistic模型的企業財務風險預警方法[J].數量經濟技術經濟研究，2019，36（10）：149-165.

【6】黃志剛，劉佳進，林朝穎.基于機器學習的上市公司財報舞弊識別前沿方法比較研究[J].系統科學與數學，2020，40（10）：1882-1900.

【基金項目】遼寧省社會科學規劃基金項目“遼寧經濟發展質量評價研究”（L18DTJ001）;遼寧省教育科學規劃課題：政府會計制度下高校預算績效評價研究（JG20DB070）。

【作者簡介】郭雋含（2001-），女，吉林長春人，碩士研究生在讀，研究方向：技術經濟管理與風險分析。

中小企業管理與科技·下旬刊2024年12期

中小企業管理與科技·下旬刊的其它文章: 企業財務會計核算體系規范化建設的路徑研究; 企業財務管理存在的問題與解決對策; 國禎環保逆向混改財務協同效應研究; 科技型中小企業融資中技術評價的應用與思考; 企業會計報表在投后項目評價中的應用研究; 企業財務管理中的問題和對策