吳貞如
(南京審計(jì)大學(xué)信息工程學(xué)院,江蘇 南京 211815)
財(cái)務(wù)報(bào)表是反映公司財(cái)務(wù)狀況、經(jīng)營(yíng)業(yè)績(jī)以及可持續(xù)發(fā)展情況的結(jié)構(gòu)性描述,是投資者、股東、債權(quán)人、公司員工以及其他利益相關(guān)者決策的主要的參考文件。目前,財(cái)務(wù)報(bào)表的真實(shí)性主要依賴于管理者的道德標(biāo)準(zhǔn)、財(cái)務(wù)報(bào)表的穩(wěn)健審計(jì)以及審計(jì)師出具的審計(jì)報(bào)告和意見(jiàn)。但是,大多數(shù)財(cái)務(wù)報(bào)表舞弊是在管理層意識(shí)到或同意的情況下實(shí)施的。近年來(lái),國(guó)際資本市場(chǎng)的一體化和經(jīng)濟(jì)模式的復(fù)雜化給新興市場(chǎng)投資帶來(lái)巨大的商業(yè)挑戰(zhàn),操縱財(cái)務(wù)報(bào)表以逃避本國(guó)稅收或?qū)①Y本轉(zhuǎn)移到海外的動(dòng)機(jī)和機(jī)會(huì)持續(xù)增加。相關(guān)文獻(xiàn)研究表明,當(dāng)前財(cái)務(wù)報(bào)表舞弊現(xiàn)象十分嚴(yán)重:犯罪分子越來(lái)越擅于規(guī)避監(jiān)管機(jī)制,舞弊行為越來(lái)越復(fù)雜。此外,根據(jù)美國(guó)注冊(cè)舞弊審查員協(xié)會(huì)發(fā)布的《2020 年全球職務(wù)舞弊與濫用職權(quán)調(diào)查報(bào)告》數(shù)據(jù),雖然財(cái)務(wù)報(bào)表舞弊的發(fā)生頻率低于資產(chǎn)挪用和腐敗等因素,但是造成的經(jīng)濟(jì)損失卻遠(yuǎn)高于其他舞弊,嚴(yán)重?fù)p害了資本市場(chǎng)的可持續(xù)發(fā)展。因此,識(shí)別財(cái)務(wù)報(bào)表舞弊行為,對(duì)維護(hù)投資者的利益和保障資本市場(chǎng)的可持續(xù)發(fā)展具有重要意義。
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,各領(lǐng)域進(jìn)入大數(shù)據(jù)和人工智能時(shí)代,機(jī)器學(xué)習(xí)因?yàn)槟軌蚩焖儆行У靥幚泶罅繑?shù)據(jù)被廣泛應(yīng)用。基于機(jī)器學(xué)習(xí)算法構(gòu)建財(cái)務(wù)報(bào)表舞弊行為識(shí)別模型能夠改善傳統(tǒng)財(cái)務(wù)報(bào)表舞弊識(shí)別方法過(guò)度依賴人力的不足。因此,本研究基于機(jī)器學(xué)習(xí)中的XGBoost 算法構(gòu)建財(cái)務(wù)報(bào)表舞弊識(shí)別模型,提高財(cái)務(wù)報(bào)表使用者對(duì)潛在舞弊的意識(shí),識(shí)別財(cái)務(wù)報(bào)表舞弊行為,減少因財(cái)務(wù)報(bào)表舞弊行為造成的損失,維護(hù)資本市場(chǎng)的可持續(xù)發(fā)展。
Hamal和Senvar認(rèn)為財(cái)務(wù)報(bào)表舞弊識(shí)別需要復(fù)雜的分析工具和技術(shù),而不是審計(jì)師所采用的傳統(tǒng)方法。財(cái)務(wù)報(bào)表舞弊識(shí)別是一個(gè)典型二分類(lèi)問(wèn)題。作為人工智能的重要分支,機(jī)器學(xué)習(xí)是解決分類(lèi)問(wèn)題最前沿的方法和技術(shù)。Gupta 和Mehta通過(guò)實(shí)驗(yàn)證明使用機(jī)器學(xué)習(xí)算法構(gòu)建的財(cái)務(wù)報(bào)表舞弊識(shí)別模型比傳統(tǒng)的方法具有更高的準(zhǔn)確性。相比于傳統(tǒng)的統(tǒng)計(jì)方法,基于機(jī)器學(xué)習(xí)算法不但可以處理大量數(shù)據(jù)進(jìn)行更準(zhǔn)確的分類(lèi)和預(yù)測(cè),而且不需要像傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行假設(shè),可以更有效地處理非線性問(wèn)題。
近年來(lái),諸多學(xué)者基于機(jī)器學(xué)習(xí)方法構(gòu)建財(cái)務(wù)報(bào)表舞弊識(shí)別模型,并從不同的角度,使用不同的方法進(jìn)行研究。Chyan-Long分別使用人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)篩選出重要的財(cái)務(wù)變量和非財(cái)務(wù)變量,然后使用分類(lèi)回歸樹(shù)、卡方自動(dòng)交互檢測(cè)器、C5.0 和快速無(wú)偏高效統(tǒng)計(jì)樹(shù)等四種決策樹(shù)進(jìn)行分類(lèi),通過(guò)實(shí)驗(yàn)證明用人工神經(jīng)網(wǎng)絡(luò)篩選并用分類(lèi)回歸樹(shù)處理變量構(gòu)建的財(cái)務(wù)報(bào)表舞弊識(shí)別模型準(zhǔn)確率最高。Yao等人分別采用逐步回歸和主成分分析降低變量維度,使用支持向量機(jī)、分類(lèi)與回歸樹(shù)、反向傳播神經(jīng)網(wǎng)絡(luò)、邏輯回歸、貝葉斯分類(lèi)器六種機(jī)器學(xué)習(xí)方法識(shí)別財(cái)務(wù)報(bào)表舞弊行為,通過(guò)實(shí)驗(yàn)表明基于逐步回歸和支持向量機(jī)融合方法構(gòu)建財(cái)務(wù)報(bào)表舞弊識(shí)別模型的準(zhǔn)確率最高。黃志剛等人使用邏輯回歸前向步進(jìn)的方法篩選出敏感指標(biāo)并構(gòu)建整體舞弊敏感指標(biāo)集輸入到樸素貝葉斯、隨機(jī)森林、K 鄰近算法、支持向量機(jī)等機(jī)器學(xué)習(xí)算法中,并發(fā)現(xiàn)隨機(jī)森林、支持向量機(jī)在識(shí)別上市公司財(cái)務(wù)報(bào)表舞弊行為的準(zhǔn)確率都超過(guò)了80%。
本研究使用的數(shù)據(jù)來(lái)源于中國(guó)股票市場(chǎng)與會(huì)計(jì)研究(CSMAR)數(shù)據(jù)庫(kù)中的2011-2020年深滬A股上市公司年度財(cái)務(wù)報(bào)表,其中選取了283個(gè)舞弊財(cái)務(wù)報(bào)表,共涉及126 家上市公司。為控制外部環(huán)境和行業(yè)因素,本研究在選取非舞弊樣本時(shí)參照兩個(gè)準(zhǔn)則:一是舞弊樣本數(shù)據(jù)和非舞弊樣本數(shù)據(jù)涉及的上市公司屬于同一個(gè)行業(yè),二是舞弊樣本數(shù)據(jù)和非舞弊樣本數(shù)據(jù)來(lái)自同一個(gè)年度。按照這兩個(gè)準(zhǔn)則,并以1:2 的匹配比例選取252 家上市公司共566 個(gè)非舞弊財(cái)務(wù)報(bào)表。最終,本研究選取849 個(gè)財(cái)務(wù)報(bào)表作為財(cái)務(wù)報(bào)表舞弊識(shí)別模型的檢測(cè)樣本,共涉及378 家上市公司。樣本行業(yè)類(lèi)型匯總和樣本年份分布情況如表1和圖1所示。

表1 樣本行業(yè)類(lèi)型匯總

圖1 樣本年份分布情況
從表1 可以看出,制造業(yè)上市公司涉及財(cái)務(wù)報(bào)表舞弊最多,占比超過(guò)50%。從圖1 可以看出,2015~2017年期間,財(cái)務(wù)報(bào)表舞弊發(fā)生的頻率偏高。
2.2.1 變量初選
為提高模型預(yù)測(cè)的準(zhǔn)確率,選擇合適的財(cái)務(wù)舞弊識(shí)別指標(biāo)十分關(guān)鍵。因此,在現(xiàn)有的研究基礎(chǔ)上,基于五個(gè)維度,即償債能力、經(jīng)營(yíng)能力、盈利能力、發(fā)展能力和治理結(jié)構(gòu),本研究初步選取26個(gè)用于衡量財(cái)務(wù)報(bào)表舞弊的指標(biāo),分別由22 個(gè)財(cái)務(wù)變量和4 個(gè)非財(cái)務(wù)變量組成,如表2所示。

表2 初選變量
2.2.2 變量篩選模型
信息值(IV)可以評(píng)價(jià)變量對(duì)目標(biāo)影響程度的指標(biāo),即衡量變量的預(yù)測(cè)能力。信息值的計(jì)算是基于證據(jù)權(quán)重(WOE),一種通過(guò)分組處理原始變量的編碼形式。對(duì)于第i組,證據(jù)權(quán)重的計(jì)算如下。

其中(x|X)是分組后本組財(cái)報(bào)舞弊樣本數(shù)占總財(cái)報(bào)舞弊樣本數(shù)的比例;(y|Y)是分組后本組財(cái)報(bào)非舞弊樣本數(shù)占總財(cái)報(bào)非舞弊樣本數(shù)的比例。因此,證據(jù)權(quán)重越大,財(cái)報(bào)舞弊樣本數(shù)量越多。信息值是通過(guò)證據(jù)權(quán)重的加權(quán)求和計(jì)算得來(lái)的,其計(jì)算如下。

由公式⑵可知,信息值為非負(fù)數(shù)。變量的信息值越大,表明該變量對(duì)目標(biāo)分類(lèi)的預(yù)測(cè)能力越強(qiáng)。因此,本研究引入信息值構(gòu)建財(cái)務(wù)舞弊指標(biāo)篩選模型,各個(gè)初選指標(biāo)的信息值如圖2所示。

圖2 財(cái)務(wù)舞弊識(shí)別初選指標(biāo)信息值
信息值大于0.03 為具有預(yù)測(cè)能力的指標(biāo)。因此,本研究最終選取了21個(gè)指標(biāo):流動(dòng)比率(X01)、速動(dòng)比率(X02)、存貨周轉(zhuǎn)率(X05)、應(yīng)付賬款周轉(zhuǎn)率(X06)、應(yīng)收賬款周轉(zhuǎn)率(X07)、應(yīng)收賬款與收入比(X08)、總資產(chǎn)周轉(zhuǎn)率(X09)、存貨與收入比(X10)、股東權(quán)益周轉(zhuǎn)率(X11)、資產(chǎn)報(bào)酬率(X12)、投入資本回報(bào)率(X13)、總資產(chǎn)凈利潤(rùn)率(X15)、長(zhǎng)期資本收益率(X17)、總資產(chǎn)增長(zhǎng)率(X18)、營(yíng)業(yè)總收入增長(zhǎng)率(X20)、營(yíng)業(yè)總成本增長(zhǎng)率(X21)、每股凈資產(chǎn)增長(zhǎng)率(X22)、獨(dú)立董事所占比例(X23)、董事會(huì)持股比例(X24)、監(jiān)事會(huì)持股比例(X25)、十大股東持股比例(X26)。
XGBoost 算法基于梯度提升樹(shù)算法,在目標(biāo)函數(shù)中增添了正則化項(xiàng),可以降低模型的復(fù)雜度,避免過(guò)擬合,其目標(biāo)函數(shù)如公式⑶和公式⑷所示:


XGBoost算法在目標(biāo)函數(shù)的求解過(guò)程中進(jìn)行迭代操作以及二階泰勒展開(kāi),如公式⑸所示,提高了求解速度和模型的訓(xùn)練速度。

XGBoost 算法提前對(duì)特征值進(jìn)行排序,然后保存為塊結(jié)構(gòu),所以能夠最大化地確定分割點(diǎn)的標(biāo)準(zhǔn)。此外,為滿足數(shù)據(jù)處理后的特征值是稀疏的情形,XGBoost 算法對(duì)缺失值設(shè)置一個(gè)確定的引流,進(jìn)而大幅度地提高算法的效率。
本次研究共抽樣849 個(gè)數(shù)據(jù)樣本,涉及378 家上市公司,并通過(guò)指標(biāo)篩選模型確定了21 個(gè)指標(biāo),其中包括17 個(gè)財(cái)務(wù)變量和4 個(gè)非財(cái)務(wù)變量。經(jīng)過(guò)數(shù)據(jù)歸一化,使用五折交叉驗(yàn)證方法將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,并采用XGBoost 算法作為分類(lèi)器構(gòu)建財(cái)務(wù)報(bào)表舞弊識(shí)別模型。研究設(shè)計(jì)流程如圖3所示。

圖3 研究設(shè)計(jì)流程
利用網(wǎng)格搜索對(duì)XGBoost設(shè)置參數(shù)如表3所示。

表3 XGBoost參數(shù)設(shè)置
模型在訓(xùn)練過(guò)程中會(huì)產(chǎn)生樣本記憶,如果訓(xùn)練集用于測(cè)試會(huì)導(dǎo)致測(cè)試結(jié)果偏高,影響模型的性能。因此,本研究采用五折交叉驗(yàn)證的模型驗(yàn)證方法,以提高模型的泛化能力。
本研究使用邏輯回歸、支持向量機(jī)、隨機(jī)森林三種機(jī)器學(xué)習(xí)算法與XGBoost 算法作為財(cái)務(wù)報(bào)表舞弊識(shí)別分類(lèi)器進(jìn)行了對(duì)比,各機(jī)器學(xué)習(xí)算法分類(lèi)結(jié)果如表4所示。

表4 各機(jī)器學(xué)習(xí)算法分類(lèi)結(jié)果評(píng)價(jià)指標(biāo)對(duì)比
綜合考慮各個(gè)評(píng)價(jià)指標(biāo)可知,基于XGBoost 算法構(gòu)建的財(cái)務(wù)報(bào)表舞弊識(shí)別模型的預(yù)測(cè)效果是最好的。
集成學(xué)習(xí)將多個(gè)個(gè)體學(xué)習(xí)器的方差和偏差結(jié)合起來(lái),是一個(gè)更全面的強(qiáng)監(jiān)督學(xué)習(xí)算法,能夠獲得更好的性能。所以基于集成學(xué)習(xí)算法中的隨機(jī)森林、XGBoost算法構(gòu)建的財(cái)務(wù)報(bào)表識(shí)別模型的性能顯著高于基于邏輯回歸、支持向量機(jī)等個(gè)體學(xué)習(xí)器構(gòu)建的模型。隨機(jī)森林的每個(gè)決策樹(shù)隨機(jī)選擇特征子集,而XGBoost 算法使用貪心算法確定最優(yōu)特征子集,并串行地生成一系列個(gè)體學(xué)習(xí)器,然后使用預(yù)測(cè)值與真實(shí)值之差作為目標(biāo)函數(shù)來(lái)優(yōu)化參數(shù),最終預(yù)測(cè)值是個(gè)體學(xué)習(xí)器預(yù)測(cè)值之和。所以,對(duì)于不平衡數(shù)據(jù)集,基于XGBoost算法構(gòu)建的預(yù)測(cè)模型分類(lèi)效果更好。
本文得出以下結(jié)論:①比較多個(gè)機(jī)器學(xué)習(xí)算法構(gòu)建的預(yù)測(cè)模型,通過(guò)實(shí)驗(yàn)證明基于集成學(xué)習(xí)算法構(gòu)建的財(cái)報(bào)舞弊識(shí)別模型優(yōu)于個(gè)體學(xué)習(xí)器。②比較同屬于集成學(xué)習(xí)算法的隨機(jī)森林算法和XGBoost算法,通過(guò)實(shí)驗(yàn)證明基于XGBoost 算法構(gòu)建的財(cái)報(bào)舞弊識(shí)別模型的預(yù)測(cè)能力更佳。