999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于代價敏感學習的財務造假識別研究

2022-03-09 06:35:14宋海濤
財會研究 2022年2期
關鍵詞:分類財務模型

■/ 張 悅 宋海濤

一、引言

財務造假是一個長期困擾市場發展的世界性問題,放眼國內外,安然、世通、泰科等商業巨擘轟然倒塌,藍田股份、銀廣夏等商業神話陸續破滅。由于我國證券市場發展時間相對較短,近幾年財務造假現狀愈發嚴峻,不斷有上市公司前赴后繼:樂視IPO 造假、瑞幸被渾水公司做空而后退市、康美連續三年造假,等等。財務造假不僅損害投資者切身利益,還對市場發展產生無法磨滅的深遠負面影響。然而隨著財務造假的加劇,審計、法務會計、舞弊審查師等專業人員受時間、精力、成本等限制逐漸無法滿足監管需要,以機器學習與深度學習為主的數據挖掘技術為財務造假識別提供了有力的幫助。財務造假識別是一個典型數據不平衡問題,同時具有嚴重的代價敏感性,盡管發生概率相對較小但造成的損失極大。

現實世界的數據往往呈現長尾分布,數據分布空間存在偏斜,不同類別的數據存在數量級的差異,盡管財務造假公司數量攀升,但相對于龐大的上市公司基數仍舊是小樣本,這就是數據不平衡(Data imbalance)。另一方面,遵循著“二八定律”,少數類數據往往包含著更重要的信息,在財務造假識別上漏報成本遠遠高于錯報成本,這種誤分類成本的不同引發了代價敏感性問題(Cost sensitivity)。目前機器學習和深度學習的標準算法研究大多基于類分布平衡或誤分類成本相同假設,即認為數據集中的各類樣本無顯著差異,這將導致學習會因偏向數量多的類別而在財務造假識別的應用上效率低下甚至失效。

本文針對財務造假識別的數據不平衡與代價敏感性,首先構建代價敏感決策樹作為財務造假識別模型,接著根據舞弊成因理論選擇特征指標,再以2015年我國上市公司作為研究對象進行對比實驗,以驗證代價敏感學習模型的有效性,并通過對比實驗結果的分析輸出財務造假識別路徑。

二、文獻綜述

在機器學習與深度學習中,數據不平衡和代價敏感性是阻礙分類性能的巨大挑戰,其技術解決取決于三個因素:數據分布、分類器的選擇和性能測量方法,對應著數據層、算法層、評估層方法。數據層面是在預處理階段對數據集進行平衡,主要采用重采樣技術,包括以SMOTE、Borderline-SMOTE、ADASYN、MWMOTE、DBCSMOTE 為代表的過采樣,及以NearMiss、ENN、CNN、CBO 為代表的欠采樣。算法層面以代價敏感學習為代表,主要對學習模型進行改造及參數調整,對誤分類成本進行修正。集成學習將數據層與算法層方法結合,如EasyEnsemble、BalanceCascade。評估層面是一種事后處理,通過評價指標評價學習的有效性。另外,半監督學習和自監督學習經過驗證也能夠有效提高學習表現,通過對無標簽數據的利用在數據和算法層面實現學習。

代價敏感學習通過引入代價矩陣描述不同類別的誤分類成本來解決不平衡問題,其目標不在于誤報率最小化,而在于誤分類成本最小化,學習途徑包括模型選擇與損失函數改進。決策樹常被看做是最適合解決樣本不均衡問題的模型,因此學者們展開了對決策樹的代價敏感學習,主要從決策閾值移動、中間節點分裂標準以及剪枝進行。Domingos(2002)提出MetaCost,根據貝葉斯風險理論將代價矩陣引入,為后續研究提供重要基礎。Zouboulidis&Kotsiantis(2012)將集成學習、MetaCost 與代價敏感決策樹相結合,用于希臘上市公司財務報表造假預測。Sahin et al(2013)提出了一種代價敏感決策樹用于檢測信用卡欺詐,分類效果優于其他標準算法。Kim et al(2016)結合MetaCost 構建出多分類代價敏感模型MLogit,識別出92%的故意財務錯報。Moepya et al(2017)在SVM、KNN 和NB的基礎上構建代價敏感模型,并在南非上市公司樣本集取得良好效果,隨后又對決策樹與隨機森林模型進行改造,并利用缺失值處理改善財務造假識別模型。Lin et al(2020)提出Focal Loss,通過改造交叉熵損失函數解決目標檢測中的樣本不平衡問題。從評估指標來看,可以考慮代價信息對標準指標賦予權重以改進。Sahin et al(2013)提出了Saved Loss Rate 用于衡量分類效果。Hajek&Henriques(2017)利用財務造假損失金額和審計費用度量分類錯誤成本,為錯報率與漏報率賦予不同權重。Long et al(2020)提出一種均衡準確度為TPR和TNR賦予不同權重。

針對數據不平衡與代價敏感性問題,國外學者從不同角度進行算法研究并應用于欺詐檢測,而國內研究主要集中在理論與算法上,相對缺乏對財務造假識別的應用。本文主要從算法層和評估層入手,選取決策樹模型進行代價敏感學習,通過對損失函數和評價指標進行改進以優化財務造假識別模型。

三、模型構建

財務造假識別是一個典型的二分類問題,常用的分類算法有邏輯回歸、支持向量機、決策樹、神經網絡等,但標準算法受不平衡數據集與代價敏感性的影響向多數類(正常)偏移。由于決策樹作為ifthen規則集合具有可解釋性強的優點,因此選擇對決策樹進行代價敏感學習。

決策樹是基于樹結構進行決策的分類與回歸模型,由一個根結點、若干中間結點(特征)和葉結點(決策結果)構成。決策樹學習主要包括特征選擇、決策樹生成和修剪:特征選擇基于信息增益和基尼系數最大化原則,剪枝通常是基于整體損失函數最小化達成。經典算法有ID3、C4.5、CART,前兩者只能處理離散變量,而CART算法還可以處理連續變量。輕型梯度提升樹(LightGBM)是基于決策樹的集成學習算法,在梯度上升決策樹(GBDT)的基礎上,通過直方圖算法和具深度限制的leaf-wise生長策略等改善在訓練速度緩慢、內存占用過大及過擬合方面的問題,且自身能夠進行特征選擇、分類特征處理與缺失值處理。

代價敏感決策樹主要通過引入代價矩陣,對損失函數和評價指標進行修改,從而實現性能優化。

(一)代價矩陣

二分類問題的代價矩陣(見表1)涉及4個分類成本,即CTN、CFP、CFN、CTP。可以認為預測正確的情況下不產生誤分類成本,即CTN=CTP=0。誤分類成本比CFP:CFN源于數據不平衡性與代價敏感性,其中數據不平衡性可以用樣本不平衡度NN:NP衡量,代價敏感性來自上市公司審計費用與財務造假費用比值,即CostA:(CostF+CostA)。兩者之間的關系通過尋優法進行確定。

表1 代價矩陣

(二)損失函數

代價敏感學習通過引入代價矩陣對損失函數進行改造,用代價敏感交叉熵函數(CS_logloss)代替標準交叉熵損失函數(logloss):

(三)評價指標

集成學習在迭代過程中,利用代價敏感總損失(CS_costs)進行評價:

四、實驗及結果分析

(一)樣本選擇與指標構建

1.樣本選擇。本文對2010—2020 年我國上市公司展開初步研究,數據來源于國泰安經濟數據庫、中國證監會等。霍華德M·施利特等(2012)將財務報表造假定義為“故意錯報或漏報財務報表內容,使得在和其他可獲得信息一并考慮時具有誤導性,影響使用者判斷或決策,以欺騙其他方如利益相關者和監管者”。基于此,我們對國泰安上市公司違規信息數據庫截至2020 年12 月31 日的違規數據進行篩選:選擇違規類型為虛構利潤、虛列資產、虛假記載、推遲披露、重大遺漏、披露不實、欺詐上市、一般會計處理不當的數據,并結合證監會的處罰公告《行政處罰決定》進行準確篩選;剔除金融行業上市公司、關鍵數據缺失公司、上市前造假公司。

統計發現(見圖1),2010—2020年的75起財務造假事件,共涉及73家上市公司,且財務造假行為具有連續性;財務造假的識別具有時滯性。2015年是財務造假高發年,共有27家上市公司財務舞弊,因此選擇2015年國內上市公司作為研究對象。

圖1 2010-2020年財務造假上市公司統計

2.指標構建。目前對財務造假成因理論的研究主要包括三角理論、鉆石理論、3C模型、GONE理論、風險因子理論與冰山理論,盡管表現不同但其含義相互聯通(見圖2)。其中Bologna et al(1993)提出的GONE理論認為,貪婪與需要是舞弊者造假的主觀因素,機會與暴露為舞弊行為創造客觀條件,共同導致舞弊行為得以實現。“貪婪”反映舞弊者的道德水平及價值判斷;“需要”反映舞弊動機,主要來自各類壓力;“機會”主要指在公司內部與權力相關的因素,由于缺乏監督與制約而讓舞弊者有機可乘,包括企業缺乏內部控制、無法正確進行工作質量評估、缺乏懲罰措施、信息不對稱、能力不足以及審計制度不健全;“暴露”作為客觀條件中的外部環境因子,包括舞弊行為被發現的可能性以及披露后對舞弊者的懲罰性質與程度,與“機會”共同促使舞弊行為的發生。

圖2 財務造假成因理論

結合財務造假成因理論與財務造假案例的研究,從貪婪、需要、暴露、機會等角度將上市公司特征劃分為財務數據與非財務數據以進行定性與定量分析(見圖3),包含了說明性信息和特征信息。

圖3 財務造假特征

說明性信息包括上市公司的所處行業、上市交易所、成立時間、上市時間等;非財務特征信息包含了公司的股本結構、股權性質、內部治理以及審計信息;財務特征信息主要從償債能力、經營能力、盈利能力、獲現能力、發展能力、綜合表現、風險水平以及結構分布等,由當年靜態數據和動態增量數據共同構成。

(二)實驗與結果分析

1.實驗過程。首先對數據集進行劃分。針對2015 年國內上市公司創建樣本集,正常樣本與造假樣本2815:27,以4:1 等比例劃分訓練集與測試集,并保證子集數據分布與原數據集一致。

基準模型(邏輯回歸與支持向量機)需要進行預處理,包括獨熱編碼、缺失值處理、標準化處理等。由于輕型梯度提升樹內嵌相關功能,因此無需進行其他預處理操作。

訓練過程中利用網格搜索與交叉驗證(Grid-SearchCV)對訓練模型進行參數優化,涉及的主要超參數包括learning_rate、max_depth、num_leaves等。

2.評估指標。混淆矩陣是評估的基礎,由四個一級指標構成(見表2)。

表2 混淆矩陣

根據混淆矩陣,構成單一標準的二級分類評估指標:

由于在標準評價指標的鼓勵下大部分方法識別正常樣本比識別造假更準確,因此,在這類問題上需要明確,查全率(recall)比查準率(precision)更重要,高敏感性(sensitivity)比高特異性(specificity)更重要。F-score能夠同時衡量查全率與查準率間的關系,而受試者工作特征曲線(ROC)可根據特征曲線下的面積(AUC)同時衡量TPR和FPR。

3.實驗結果。根據尋優法發現,誤分類成本CFP:CFN=1:50 時性能最佳,考慮到數據不平衡度與代價敏感性兩者的共同作用有所交叉。

選擇標準邏輯回歸(LR)、支持向量機(SVM)和輕型梯度上升樹(LGBM)作為基準模型,各個模型在測試集的預測結果如表3所示:

表3 實驗結果

在標準算法中:三種算法在總體準確度上表現都很出色,能達到95%以上;從綜合表現來看,輕型梯度上升樹明顯優于其他兩種算法,在保證正常樣本識別率達到98%的基礎上能夠正確識別40%的造假樣本;但三種方法對于造假樣本的正確識別率都非常低,其中支持向量機的造假查全率甚至為0。實驗結果驗證了標準算法在不平衡數據集上會出現向多數類的偏移,導致實際應用效率低下。

經過代價敏感學習的輕型梯度上升樹(CS_LGBM)在各個方面性能都有所提升,尤其是對于財務造假公司的識別,正確率能夠達到60%,并輸出樹形結構(見上圖4)與特征重要性(見圖5),反映與財務造假風險相關的關鍵指標。例如,當上市公司成立年數為14、17、18、19、27、28、32 時,每股凈資產大于3.44,且資本支出與折舊攤銷比小于等于0.389時,財務造假概率較大。

圖4 決策樹

圖5 特征重要性

4.結果分析。根據對比實驗,將LGBM與CS_LGBM的輸出結果進行可視化對比,發現兩個模型的異同,并聚焦于代價敏感模型(見圖6),其中節點大小代表不同特征的重要性。

圖6 CS_LGBM模型特征

通過對代價敏感模型的輸出結果進行進一步的聚類與分析,發現財務造假行為的識別可以從財務壓力引起的動機、公司的綜合能力以及可能存在隱患的異常項目三個方面展開(見圖7)。

圖7 財務造假識別路徑

根據成因理論,壓力與需要是公司財務造假的重要因素,而過高財務杠桿與償債壓力將提高公司的財務造假動機。償債能力可通過流動負債比率、利息保障倍數、經營活動產生現金流金額與流動負債比進行衡量。另外,當負債居高不下的同時存款也很高時,是財務造假的一個重要信號。公司處于不同發展階段將面臨不同的發展壓力,因此成立時間也可能是識別財務造假的入手點。

經營能力、盈利能力、獲現能力、發展能力等特征是評估公司綜合能力的重要方面,在一定程度上從現實反映公司財務造假的可能。銷售費用的異常增長是財務風險的重大信號,隱含著盈利問題,以瑞幸和新大地為代表。現金滿足投資比率偏低表明企業經營活動產生的現金無法支持資本支出、存貨增加以及現金股利發放,暴露公司經營能力的不足。營運資金對流動資產比率衡量資產結構健康程度,綜合收益增長率衡量公司持續發展能力,每股凈資產綜合衡量上市公司的內在價值,是財務風險的重要衡量指標。

為虛增現金流與利潤,財務造假的一般手段包括虛構資產、虛減費用與損失,反映為一些重要項目的異常。固定資產、在建工程等長期資產項目是公司虛增資產的重要手段,例如康美藥業通過將不滿足會計確認和計量條件工程項目納入報表以達到虛增固定資產的目的,因此過高的固定資產增長率值得警戒。一些公司還會通過對長期資產的費用資本化并對折舊、攤銷、減值的操縱以低估費用與損失,可通過資本支出與折舊攤銷比分析。經營現金流凈額利潤比和現金利潤比可對利潤與現金流的來源進行檢測,以防虛增利潤資金。另外,實驗結果表明,異常的審計支出也是一個關鍵點。

五、結論

為應對財務造假識別的數據不平衡與代價敏感性問題,研究提出了一種基于代價敏感學習的輕型梯度提升樹模型,通過向損失函數與評價指標引入代價矩陣實現。理論研究和對比實驗表明:一是代價敏感輕量梯度提升樹比其他標準模型綜合表現更好,能夠在保證總體準確度83%的同時,將造假公司識別率提高到60%;二是對上市公司財務造假的識別可以從“動機+現實+可能”出發研究財務壓力、公司綜合能力及異常項目三個方面,對財務杠桿、流動負債比率、現金滿足投資比率、營運資金比率、綜合收益增長率、每股凈資產、銷售費用增長率、固定資產增長率、現金流與利潤比等指標展開分析。

雖然如此,但研究仍有不足:一方面,樣本標簽源于證監會對財務造假行為的披露,然而由于造假行為的隱秘性及造假披露的時滯性,可能存在部分造假公司隱匿于正常公司中;另一方面,模型對財務造假公司識別的準確率盡管有所提高,但仍未達到較高水平,以神經網絡為代表的深度學習分類能力更為出眾,但由于其黑箱模型的本質對財務造假識別缺乏解釋性。針對不足,半監督學習可以通過少量標簽利用大量無標簽樣本,另外,隨著人工智能步入后深度學習時代,融合認知和推理的雙驅動可解釋人工智能成為研究熱點,如何用知識增強數據也將是未來研究的一個重要方向。

猜你喜歡
分類財務模型
一半模型
黨建與財務工作深融合雙提升的思考
現代企業(2021年2期)2021-07-20 07:57:18
分類算一算
重要模型『一線三等角』
論事業單位財務內部控制的實現
重尾非線性自回歸模型自加權M-估計的漸近分布
欲望不控制,財務不自由
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 久久青草免费91观看| 99re精彩视频| 成人午夜在线播放| 97成人在线观看| 91精品专区国产盗摄| 亚洲无码91视频| 国产福利大秀91| 亚洲无码37.| 亚洲区欧美区| 国产精品成人观看视频国产 | 国产情侣一区| 福利一区在线| 四虎成人在线视频| 久草热视频在线| 久久不卡国产精品无码| 久久精品无码专区免费| 亚洲精品无码av中文字幕| 亚洲大学生视频在线播放| 激情综合网址| 亚洲无码在线午夜电影| 青青青国产视频| 欧美日韩一区二区在线播放| 成人a免费α片在线视频网站| 国产91久久久久久| 伊人查蕉在线观看国产精品| 一区二区三区毛片无码| 国产性生交xxxxx免费| 国产女人水多毛片18| 国产XXXX做受性欧美88| 国产小视频网站| 少妇精品网站| 97国内精品久久久久不卡| 国产成人免费手机在线观看视频 | 欧美日韩第三页| 精品国产99久久| 国产一区免费在线观看| 亚洲熟妇AV日韩熟妇在线| 国产精品太粉嫩高中在线观看| 亚洲人成亚洲精品| 国产美女精品一区二区| 日韩精品一区二区三区免费在线观看| 人与鲁专区| 午夜国产不卡在线观看视频| 欧美精品亚洲精品日韩专区va| 亚洲国产AV无码综合原创| 人妻一区二区三区无码精品一区| 波多野结衣在线一区二区| 亚洲精品大秀视频| 91麻豆精品国产91久久久久| 毛片免费在线视频| 91福利国产成人精品导航| 亚洲国产成人精品一二区| 国产精品福利在线观看无码卡| 日韩精品亚洲人旧成在线| 91po国产在线精品免费观看| 亚洲男人的天堂网| 啊嗯不日本网站| 国产免费自拍视频| 国产一级精品毛片基地| 国产精品熟女亚洲AV麻豆| 久久综合色天堂av| 国产精品无码作爱| 成人在线观看一区| 久久综合婷婷| 一区二区理伦视频| 天天躁日日躁狠狠躁中文字幕| 精品国产成人三级在线观看| 国产在线精彩视频二区| 日韩麻豆小视频| 天堂网亚洲综合在线| 97色伦色在线综合视频| 99视频在线观看免费| 亚洲无码四虎黄色网站| 久久精品丝袜| 亚洲一区色| 久久黄色视频影| 国产中文在线亚洲精品官网| 日韩精品一区二区三区免费在线观看| 丝袜无码一区二区三区| a级毛片免费播放| 伊人久久久久久久| 日韩人妻无码制服丝袜视频|