999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非平衡數據集下基于XGBoost模型的財務舞弊識別研究

2023-04-29 00:00:00王琦熊莎麗娜詹柔張露楊鑫張健
計算機時代 2023年12期

摘" 要: 針對現實中舞弊樣本與非舞弊樣本存在的數量不平衡情況,通過25個財務指標與2個非財務指標,運用過采樣、欠采樣技術及XGBoost模型進行財務報表舞弊識別研究。結果表明,SMOTE過采樣方法與XGBoost模型的結合在非平衡數據集下具有較好的整體識別效果,對上市公司財務報表舞弊的智能識別有一定參考意義。

關鍵詞: 非平衡數據集; 財務報表舞弊識別; SMOTE; XGBoost

中圖分類號:TP311.1;F275.5" " " " " 文獻標識碼:A" " "文章編號:1006-8228(2023)12-59-05

Research on financial fraud identification based on XGBoost model in unbalanced datasets

Wang Qi, Xiong Shalina, Zhan Rou, Zhang Lu, Yang Xin, Zhang Jian

(School of Mathematics and Science, Southwest Forestry University, Kunming, Yunnan 650224, China)

Abstract: In view of the unbalance in the number of fraud samples and non-fraud samples in reality, a study on financial statement fraud identification is conducted by applying over-sampling, under-sampling techniques and XGBoost model to 25 financial indicators and 2 non-financial indicators. The results show that the combination of SMOTE over-sampling method and XGBoost model has a good overall identification effect in the unbalanced dataset, which has certain reference significance for the intelligent identification of financial statement fraud of listed companies.

Key words: unbalanced dataset; identification of financial statement fraud; SMOTE; XGBoost

0 引言

財務報表是會計信息使用者了解企業實情,做出決策的重要依據。近年來,財務報表舞弊事件屢禁不止,實施舞弊的手法也不斷進化,對會計信息使用者造成了深重的傷害。由于會計師事務所自身的缺陷,財務舞弊難以被及時發現[1]。因此,在提升審計人員自身技術水平和職業道德的同時,也應該利用大數據分析技術為審計賦能,提高快速發現財務報表舞弊的能力。

1 研究現狀

財務舞弊的計算機識別模型構建是近年來國內外審計領域和計算機領域交叉研究的一個熱點問題。張曾蓮、高雅(2017)選取2005-2013年證監會公布的財務舞弊上市公司61家及對比公司61家,以邏輯回歸的向后逐步法構建財務舞弊識別模型,模型識別率達到77.9%[2];王珮伊(2022)選取2000-2020年批發業舞弊上市公司為樣本,并按1:1的比例選擇配對樣本,研究不同降維方法與機器學習的組合,能夠實現對批發零售業上市公司財務舞弊的高效識別[3];梁功梟(2021)選取2016-2019年上市公司數據,利用隨機森林算法構建模型對上市公司財務造假情況進行有效識別預警[4]。Mengshuang Du(2021)采用規范分析與實證研究相結合的研究方法,以CRIME理論為基礎,建立財務舞弊識別模型[5];Meng C (2020)以某互聯網金融機構的真實在線交易數據為基礎,分別研究了XGBoost算法在原始數據集、欠采樣和SMOTE數據集上的性能[6];濮雙羽等(2021)選取68家舞弊企業與68家非舞弊企業構成1:1配對樣本,建立Logistic回歸模型,整體識別率為86.87%[7];吳貞如(2022)以1:2配比選擇283個舞弊樣本和566個非舞弊樣本,使用四種機器學習算法進行舞弊識別研究,結果表明XGBoost效果最好,準確度為86.95%,召回率為83.61%[8]。

通過梳理文獻,大部分學者在研究財務舞弊識別的問題中,舞弊與非舞弊樣本通常采用1:1或者1:2人工配對,這樣做會使得舞弊識別率虛高。本文的特點在于:在非舞弊樣本與舞弊樣本極不平衡數據集下,分別使用過采樣和欠采樣技術構建基于XGBoost算法的舞弊識別模型,避免了人工配對下舞弊識別率虛高的問題,得到的識別結果更加符合實際,為大數據環境下上市公司財務報表舞弊智能識別研究提供參考。

2 數據來源

本文以國泰安(CSMAR)數據庫中我國A股上市公司2010-2020年的財務年報數據為樣本,舞弊企業數據來自于違規處理數據庫中的“違規信息總表”,排除金融保險類企業,選擇出因“虛構利潤”、“虛列資產”、“虛假記載(誤導性陳述)”和“披露不實”而被處罰的舞弊企業,共篩選出259家企業的490條舞弊記錄。

非舞弊樣本選取了2010-2020年從未發生過舞弊的非金融業上市公司的財務報表數據,每家公司每一年的年報數據作為一個樣本,得到24893個為非舞弊樣本。其中有大量樣本存在一個或多個指標缺失的情況,刪除帶有缺失值的表報數據,最終得到8621個非舞弊樣本,355個舞弊樣本,非舞弊樣本與舞弊樣本之比為24:1,屬于極不平衡數據集。

3 指標選取

通常采用財務指標與非財務指標結合的方式選擇舞弊識別指標。結合文獻[8-9],本文選取了29指標,其中包括27個財務指標、2個非財務指標。如表1所示。

4 算法原理

4.1 XGBoost算法

以往研究表明,基于XGBoost算法構建的財務報表舞弊識別模型在所有性能指標上都優于邏輯回歸、支持向量機和隨機森林算法[8],因此本文采用XGBoost作為主要算法。XGBoost是由華盛頓大學的陳天奇博士在2015年對梯度提升算法進行改進而來,其求解損失函數的極值時使用了牛頓法,并將損失函數泰勒展開到二階,另外在損失函數中加入了正則項。訓練時目標函數由梯度提升算法損失和正則項組成,其中梯度提升算法損失衡量模型相對于訓練數據的預測效果,正則項則是控制模型的復雜程度,降低過擬合的風險,這樣做使得預測模型更符合機器學習中的偏見方差權衡的原則[9-10]。

4.2 SMOTE算法

由于舞弊樣本只占全部數據集中的極少數,這樣的問題稱為類失衡。類失衡問題往往會導致模型的訓練結果出現較大的偏差。解決類失衡問題主要有過采樣和欠采樣方法。

SMOTE是一種過采樣技術,它的思想是少數類樣本中附近的樣本依舊是少數類樣本,基于此SMOTE的做法是:確定距離某個少數類樣本最近的[K]個近鄰樣本,并在[K]個近鄰樣本中選取[N]個樣本([Nlt;K]),然后在該樣本與其近鄰樣本的連線上隨機選取一點來生成少數類樣本。SMOTE算法公式[9]:

[Xnew=X+rand(0,1)×(X-X)]" ⑴

如圖1中五角星為少數類、圓圈為多數類,方塊則為生成的“少數類樣本”,即式⑴中的[Xnew]。

應用SMOTE算法可以“合成少數類”,將不平衡樣本轉化為平衡樣本。

5 實驗結果與分析

5.1 模型評價指標

上市公司財務舞弊識別是一個二分類問題,混淆矩陣可直觀的看出模型預測正確和預測錯誤的識別結果,如表2所示。

根據混淆矩陣,可以定義如下評估指標:

⑴ 準確率 表示預測正確的樣本數占全部樣本數的比率,計算公式:

[Accuracy=TP+TNTP+FP+TN+FN]" ⑵

⑵ 精確率 預測正確的正例樣本數占所有預測為正例樣本數的比例,計算公式:

[Precision=TPTP+FP]" ⑶

⑶ 召回率(命中率) 表示預測正確的正例數占全部正例的比例,計算公式:

[Recall=TPTP+FN]" ⑷

⑷ F1系數 精確率和召回率的調和平均,計算公式:

[F1=2?Precision?RecallPrecision+Recall]" ⑸

在舞弊識別問題中,重點在于盡可能識別出舞弊企業,因此常以準確率和召回率作為最主要的指標。

5.2 實驗結果分析

5.2.1 直接使用原始數據

本文將全部8976個樣本數據隨機劃分為訓練集和測試集,其中80%的數據作為訓練集,20%的數據作為測試集,正負例的分布如表3所示。

對原始數據劃分為訓練集和測試集后,采用訓練集對XGBoost模型進行訓練,然后用訓練后的模型對測試集進行預測,模型參數取默認值。

根據預測結果,得出混淆矩陣如表4所示。

由混淆矩陣可知,測試集中的1728個非舞弊樣本有1726個預測正確,只有2個誤判為舞弊樣本;68個舞弊樣本中有61個被誤判為非舞弊樣本,只有7個預測正確。模型整體準確率為96.5%,但召回率(舞弊樣本命中率)只有10.3%。原因在于原始數據中96%的樣本為非舞弊樣本,模型為了提高整體準確率,會盡可能擬合優勢類,導致將大量的樣本都判斷為非舞弊樣本。

5.2.2 SMOTE-XGBoost算法

對模型進行訓練前,先使用SMOTE過采樣算法合成舞弊樣本,得到平衡數據集。使用SMOTE算法后正負例分布如表5所示。

使用XGBoost算法進行訓練和預測,得混淆矩陣如下:

由表6可以看出,測試集中1728個非舞弊企業,有1683個預測正確;68個舞弊企業,有38個預測正確。預測整體準確率為95.4%,召回率為44.1%,說明加入SMOTE算法后,模型的召回率有較大提升,同時準確率沒有明顯下降。

5.2.3 欠采樣-XGBoost算法

欠采樣是從多數類樣本中,隨機抽取和少數類樣本一樣多的樣本,構成平衡樣本。欠采樣后的訓練集正負例分布如表7所示。

用欠采樣后的數據訓練模型,結果如表8的所示,非舞弊企業有1309個預測正確,419個被誤判為舞弊企業;舞弊企業有47個預測正確,21個被誤判為非舞弊企業。

欠采樣方式下,模型的準確率只有75.5%,這主要是因為大量非舞弊樣本信息沒有被利用所致。由于采用的都是真實樣本而沒有“合成樣本”,此時舞弊樣本的召回率是最高的,達到69.1%。

5.3 結果對比分析

根據表9可知,在非平衡數據集下,采用SMOTE過擬合方法后,召回率提升到44.1%,同時準確率仍然保持95.4%的高水平,說明此方法在保持高準確率的條件下,極大提升了舞弊企業的命中率;而采用欠采樣方式,可以命中近70%的舞弊企業,對舞弊企業的識別最為有利,但是整體的識別率只有75.5%,存在大量的誤判樣本。

圖2是三種模型下的ROC曲線圖。ROC曲線越接近左上角,曲線下面積(AUC)越接近1,表明模型的分類效果越好。在商業實戰中,AUC值能達到0.75以上就已經可以接受[11],因此,以上三種方法的結果都是可以接受的。

6 結論

現實的財務報表舞弊識別問題中,由于舞弊樣本的稀有性,面對的是極不平衡數據集下少數類樣本識別問題,已有文獻基本未能解決此問題[12]。本文在極不平衡平衡數據集下,基于過采樣及欠采樣方法及XGBoost模型進行財務舞弊識別研究。研究結果表明,引入SMOTE過采樣算法能夠提升非平衡數據集下的舞弊識別效果,模型的整體準確率達到95.4%,但模型的召回率僅為44.1%,對舞弊樣本的識別效果不夠理想。由于財務舞弊的稀有性、多變性、隱蔽性與復雜性,在實際中的非平衡數據集情況下,如何利用機器學習算法快速有效地識別出舞弊樣本,尚需要進一步研究。

參考文獻(References):

[1] 黃世忠,葉欽華,徐珊,等.2010~2019年中國上市公司財務

舞弊分析[J].財會月刊,2020,No.882(14):153-160.

[2] 張曾蓮,高雅.財務舞弊識別模型構建及實證檢驗[J].統計與

決策,2017,No.477(9):172-175.

[3] 王珮伊.基于機器學習的批發零售業上市公司財務舞弊識

別[D].重慶:西南大學,2022(2).

[4] 梁功梟.企業財務造假識別預警研究[D].成都:四川大學,

2021(8).

[5] Du Mengshuang.Corporate governance: five-factor

theory-based financial fraud identification[Z].Journal of Chinese Governance,2021.

[6] Cuizhu Meng,Li Zhou,Bisong Liu.A Case Study in Credit

Fraud Detection With SMOTE and XGBoost[Z].Proceedings of 2020 4th International Conference on Electrical, Mechanical and Computer Engineering(ICEMCE 2020)(VOL.4),2020.

[7] 濮雙羽,趙洪進.上市公司財務報表舞弊識別的實證研究

——基于Logistic回歸模型[J].農場經濟管理,2021,No.299(2):47-50.

[8] 吳貞如.基于XGBoost算法的上市公司財務報表舞弊識別

研究[J].計算機時代,2022,No.362(8):29-33.

[9] 曾曙蓮,王濤,段亞窮.基于XGBoost模型的上市公司財務

風險預警應用[J].商業會計,2023,No.746(2):62-66.

[10] Tianqi Chen,Carlos Guestrin.XGBoost: A Scalable Tree

Boosting System.[Z].CoRR,2016.

[11] 王宇韜,錢妍竹.Python大數據分析與機器學習商業案例

實戰[M].北京:機械工業出版社,2020:223.

[12] 劉云菁,伍彬,張敏.上市公司財務舞弊識別模型設計及其

應用研究——基于新興機器學習算法[J].數量經濟技術經濟研究,2022,39(7):152-175.

主站蜘蛛池模板: 亚洲天堂日韩在线| 欧美精品v欧洲精品| 国产欧美自拍视频| 老司机aⅴ在线精品导航| 91久久夜色精品| 亚洲AV免费一区二区三区| 国模粉嫩小泬视频在线观看| 中文无码精品A∨在线观看不卡| 国产成人亚洲无吗淙合青草| 国产凹凸视频在线观看| 亚洲美女AV免费一区| 国产成人精品日本亚洲| 久久国产精品无码hdav| 72种姿势欧美久久久大黄蕉| 一级爆乳无码av| AV不卡无码免费一区二区三区| 国产手机在线ΑⅤ片无码观看| 亚洲精品国偷自产在线91正片| 无码精品国产dvd在线观看9久| 精品一区二区无码av| 国产成年女人特黄特色毛片免| 自慰网址在线观看| 97人人做人人爽香蕉精品| 精品三级网站| 91黄色在线观看| 日韩一区二区在线电影| 免费可以看的无遮挡av无码| 欧美亚洲国产视频| 99久久精彩视频| 日本午夜三级| 激情五月婷婷综合网| 欧美在线中文字幕| 无码日韩精品91超碰| 欧美国产日产一区二区| 思思热在线视频精品| 亚洲国产亚洲综合在线尤物| 玖玖免费视频在线观看| 成年网址网站在线观看| 狠狠色成人综合首页| 亚洲大尺度在线| 国产亚洲男人的天堂在线观看| 精品久久久久无码| 高清视频一区| 超碰91免费人妻| 日韩欧美综合在线制服| 国产9191精品免费观看| 久久久久免费看成人影片 | 欧美无专区| 国产乱人乱偷精品视频a人人澡| 福利视频一区| 九色在线观看视频| 多人乱p欧美在线观看| 亚洲伊人久久精品影院| 欧美第二区| 无码一区18禁| 欧美成人午夜在线全部免费| 久久99热66这里只有精品一| 成人在线欧美| 中文字幕亚洲精品2页| 欧美一级高清视频在线播放| 91年精品国产福利线观看久久 | 亚洲一区二区三区香蕉| 日韩在线观看网站| 99热国产这里只有精品9九| 国模粉嫩小泬视频在线观看| 午夜无码一区二区三区| 久久久久国产精品嫩草影院| 久久黄色毛片| 黄色不卡视频| 久久综合丝袜日本网| 国产男人天堂| 欧美在线三级| 久久精品亚洲中文字幕乱码| 日韩国产精品无码一区二区三区| 欧美午夜视频在线| 在线观看国产精品第一区免费| 日韩欧美国产区| 伊人色在线视频| 日韩在线视频网| 亚洲精品波多野结衣| 久久人体视频| 精品无码人妻一区二区|