黃 犚,陳巧珍
(南京郵電大學 經(jīng)濟學院,江蘇 南京 210023)
當前,我國經(jīng)濟已由高速增長階段轉向高質量發(fā)展階段,習總書記強調,“制造業(yè)是國家經(jīng)濟命脈所系”。黨的十九大明確提出到本世紀中葉建成社會主義現(xiàn)代化強國,對制造業(yè)高質量發(fā)展提出了新的要求。黨的十九屆五中全會通過的《中共中央關于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二○三五年遠景目標的建議》指出,“要堅定不移建設制造強國,保持制造業(yè)比重基本穩(wěn)定”。推動制造業(yè)高質量發(fā)展,就要落實制造業(yè)的科技創(chuàng)新、產(chǎn)業(yè)融合和企業(yè)的優(yōu)勝劣汰,需要完善金融支持機制,健全資本市場,提高直接融資的比重。
近年來,金融領域推行了一系列改革,設立科創(chuàng)板并試點注冊制,完善再融資、并購重組等資本市場制度,加大直接融資對制造業(yè)的支持;出臺了一系列新規(guī),通過信貸指標、績效評價要求金融行業(yè)將金融資源由地產(chǎn)轉而投向制造業(yè)實體經(jīng)濟,這是邁向“新階段、新理念、新格局”的政策破局之舉。制造業(yè)上市公司通過資本市場直接融資,給投資者帶來了收益并促進消費、進一步擴大投資,實現(xiàn)中國經(jīng)濟的良性內部循環(huán)。
然而,由于IPO市場加速擴容,資本市場違規(guī)成本較低,欺詐發(fā)行、財務舞弊事件也有所增加,根據(jù)國泰安數(shù)據(jù)庫違規(guī)信息顯示,2018—2020年制造業(yè)上市公司財務舞弊違規(guī)信息增加了71%。由于上市公司數(shù)量的激增和財務舞弊手段的多樣性和隱蔽性,涉及的會計科目繁多,產(chǎn)生了大量的高維數(shù)據(jù),對財務舞弊識別提出了更高的要求。因此,設計合適的評價指標,構建有效的財務舞弊識別模型,是近年來學界研究的熱點。本文采用機器學習的方法來解決財務舞弊識別問題, 克服大數(shù)據(jù)環(huán)境下人工識別弊端,從數(shù)據(jù)挖掘的角度,對不同的指標和數(shù)據(jù)進行選取,構建基于多種降維方法的混合分類模型,并在此基礎上明確財務舞弊的重要影響指標,從而提高財務舞弊的識別效率,有利于資本市場的優(yōu)勝劣汰,維護資本市場健康有序發(fā)展,實現(xiàn)資本市場服務于制造業(yè)和投資者的功能,促進制造業(yè)高質量發(fā)展。
1.財務舞弊的識別研究
在我國的會計準則中,財務舞弊是指企業(yè)為了獲得高額利益,違反會計準則,故意編制虛假的財務報告,隱瞞真實的財務信息[1]。財務舞弊的識別研究主要包括財務舞弊的動因研究和影響因素研究兩部分。財務舞弊動因理論主要有冰山理論、Gone模型、舞弊三角形理論和舞弊風險因子理論等。對比中外的財務舞弊現(xiàn)象,發(fā)現(xiàn)國外舞弊主要由壓力因素導致,中國財務舞弊主要來源于機會因素[2],汪建新(2008)[3]提出舞弊的壓力來自于工作和經(jīng)濟,舞弊的機會來源于公司內部控制和外部審計的缺失。范海敏(2015)[4]通過實證研究發(fā)現(xiàn)舞弊人員的人品素質、對權勢的欲望和公司的內部治理及外部監(jiān)督等多方面因素造成了財務舞弊現(xiàn)象。此外,企業(yè)性質、CEO權力強度、高管背景[5-7]等因素也是我國企業(yè)財務舞弊的影響因素。
2.財務舞弊指標的研究
正確選擇模型的輸入變量以及在眾多指標中篩選出關鍵變量可以提高模型的判別能力。目前,財務舞弊研究的指標選取分為三個方向:第一,基于財務舞弊概念理論,張曾蓮(2017)[8]從“壓力、機會、借口”這三個方面選取指標,并將財務舞弊的影響因素選為輸入指標;第二,基于企業(yè)發(fā)布的財務報告信息選擇財務舞弊研究指標,劉志洋和韓麗榮(2018)[9]利用歷史財務指標的波動性作為舞弊模型的輸入變量取得了較好的識別效果;第三,考慮指標應具有全面性和代表性,董事會規(guī)模[10]、獨立董事比、股權結構[11]、監(jiān)事會規(guī)模和企業(yè)內部控制等非財務指標對于識別財務舞弊有影響[12],熊方軍(2016)認為可以從財務信息和非財務信息兩方面選擇指標[13]。由于指標變量之間難免會存在相關性,因此,在建立模型之前,需要篩選出重要的特征,目前,較為常用的特征選擇方法主要有主成分分析、因子分析、方差膨脹法、Lasso法、Boruta法和Relief法[14-17]等。
3.財務舞弊數(shù)據(jù)質量的研究
財務數(shù)據(jù)真實、可靠是進行分析的重要前提,早期的研究運用比較分析法、趨勢分析法[18]等方法,通過對比財務數(shù)據(jù)前后的差異來查找異常數(shù)據(jù)。估計期望值和估計數(shù)據(jù)預期分布[19]方法,根據(jù)財務數(shù)據(jù)之前的分布與發(fā)展規(guī)律預測其之后的分布,檢驗其與實際值的偏離程度。隨著技術的發(fā)展,離群數(shù)據(jù)挖掘法[20]等數(shù)據(jù)挖掘技術被逐漸運用,從財務數(shù)據(jù)中根據(jù)距離、分布或者深度來挖掘異常值。一類支持向量機[21]等機器學習方法可以學習大量的財務數(shù)據(jù)并識別數(shù)據(jù)的流通規(guī)律,查找其中偏離正常流向的異常數(shù)據(jù)。目前,較多使用Benford法則檢測上市企業(yè)財務數(shù)據(jù)的質量,通過比較財務數(shù)據(jù)中數(shù)字出現(xiàn)的概率與自然情況下數(shù)字的隨機概率是否一致,得到異常樣本[22]。除了單獨使用上述方法之外,還可以將不同方法結合使用,如將Benford法則和logistic模型、廣義線性模型、數(shù)據(jù)挖掘技術[23-25]等相結合,提高尋找舞弊樣本點的正確率。
4.財務舞弊識別模型的研究
關于財務舞弊識別模型主要有兩類,一類是以logistic模型為主的傳統(tǒng)識別模型,如韓麗榮(2015)[26]等人采用指數(shù)型變量建立logistic回歸模型,對財務舞弊行為進行識別。另一類是以機器學習算法為主的識別模型,將神經(jīng)網(wǎng)絡模型[27]、決策樹[28]、文本和電子郵件挖掘[29]、遺傳算法和支持向量機[30]等算法應用于財務舞弊識別,并取得了較好的效果。如金花妍(2014)[31]等人構建了支持向量機模型、夏明(2015)[14]等人建立了RBF-BP神經(jīng)網(wǎng)絡模型提高了對財務舞弊行為的識別準確率。
綜上所述,財務舞弊領域的研究成果較為豐富,財務舞弊識別方面的理論已經(jīng)相當成熟,但在指標選擇方面尚無公認的標準,大多數(shù)研究直接將初始指標納入模型,而不進行指標的篩選。由于財務指標眾多且有多重共線性,指標的篩選是影響分類模型的識別效果的主要因素。本文首先采用局部線性嵌入方法和自適應彈性網(wǎng)方法分別對初始指標進行篩選與降維,得到兩組指標數(shù)據(jù)集,再對初始指標集和兩組降維后指標集分別建立AdaBoost分類模型,比較指標降維前后分類模型的識別效果,探尋對財務舞弊識別具有重要影響的指標。
上市公司的財務指標之間有較高的多重共線性,直接進行分析會高估模型的識別效果,而局部線性嵌入方法使數(shù)據(jù)降維后保持原有的拓撲結構,自適應彈性網(wǎng)方法可以很好地處理指標間的多重共線性問題,所以采用這兩種方法對指標進行降維處理。與其他機器學習算法不同,AdaBoost是加法模型,考慮每個子模型的分類效果,它的核心之處是在迭代時,根據(jù)之前模型的分類效果,對于分類錯誤的樣本會在下一次訓練時給予較大的權重,這樣不斷更新樣本權重,直到達到設定的迭代次數(shù),提高模型的識別效果。
1.局部線性嵌入方法(LLE)
局部線性嵌入方法(LLE)可以使降維后的數(shù)據(jù)保持原來的結構,維持數(shù)據(jù)局部線性特征不變。它的核心思想是某個樣本xi,可以用它領域中的k個樣本線性表示,如式(1)所示。

(1)
其中,xij表示xi的第j個緊鄰點(1≤j≤k),wij是權重系數(shù),假設樣本D={x1,x2,…,xm},投影后樣本集為d={y1,y2,…,ym},投影時最小化損失函數(shù)為:
(2)
在降維前后,保證wij不發(fā)生變化或最小變化,降維后的樣本將保持原有的結構。
2.自適應彈性網(wǎng)方法(AEnet)
自適應彈性網(wǎng)方法(AEnet)是自適應Lasso方法和彈性網(wǎng)相結合的變量篩選方法,AEnet方法是對L1懲罰部分進行了加權處理,對不同重要性的系數(shù)施加不同的權重[32]。自適應彈性網(wǎng)懲罰函數(shù)如式(3)所示。
(3)
3.AdaBoost算法
AdaBoost算法是一種集成學習方法,它是對同個訓練集擬合多個分類模型,再根據(jù)分類模型的分類效果計算各個模型的誤差,將多個分類模型線性組合成一個最終分類模型。假設訓練集D={(x1,y1),(x2,y2),……,(xN,yN)},初始時樣本等權重開始迭代,得到多個弱分類器hm(x),計算每個弱分類器hm(x)的分類誤差率(em)與話語權(αm),如式(4)、式(5)所示。

(4)
(5)
em越小的弱分類器越好、話語權越大,即其在最終分類模型中的比重越大,根據(jù)每個分類模型在最終模型中的比重進行線性組合,得到最終模型式(6)。

(6)
1.樣本選擇
CSMAR數(shù)據(jù)庫(國泰安)將財務舞弊企業(yè)定義為因虛構利潤、虛列資產(chǎn)和虛假記載(誤導性陳述)行為被處罰的上市企業(yè)。根據(jù)該數(shù)據(jù)庫公布的違規(guī)信息總表,篩選出舞弊年份在2010—2019年間的制造業(yè)上市企業(yè)為舞弊樣本,刪除因財務異常被特別處理的公司。若某公司此期間的不同年份都發(fā)生舞弊行為,則選取最近舞弊的一年作為舞弊年份,根據(jù)此方法篩選出99個舞弊樣本。在選擇非舞弊樣本時主要遵循以下幾點:(1)行業(yè)相同,不同行業(yè)有不一樣的經(jīng)濟特征,其可比性不高,所以本文選擇的控制樣本與舞弊樣本的行業(yè)相同;(2)市值相近,控制樣本為在舞弊當年與舞弊樣本市值相近的企業(yè);(3)舞弊年度相同,選擇與舞弊公司舞弊年度一樣的樣本,確保控制樣本在此期間沒有因財務舞弊行為被處罰。為了減少非平衡樣本帶來的影響,本文將舞弊樣本與非舞弊樣本比例設定為1:1,由上述信息選取出99個配對的非舞弊樣本。由舞弊樣本和配對的非舞弊樣本,組成99組實驗樣本。
2.初始指標集
本文在滿足指標體系構建的全面性、科學性和可操作性等原則的條件下,選擇財務指標和非財務指標構成初始指標集。
國泰安數(shù)據(jù)庫從償債能力、盈利能力、經(jīng)營能力、披露財務指標、比率結構、現(xiàn)金流分析等多方面定義了200多個財務指標,全面包含了公司的財務信息。剔除數(shù)據(jù)缺失的指標和具有明顯共線性的指標,本文從償債能力、盈利能力、經(jīng)營能力、每股指標和比率結構這5個方面選取了28個財務指標,如表1所示。

表1 財務指標
企業(yè)償債能力能夠體現(xiàn)一家企業(yè)是否可以長久健康的發(fā)展下去,盈利能力是指企業(yè)獲得利潤的能力,經(jīng)營能力體現(xiàn)了企業(yè)對內部條件及其發(fā)展的經(jīng)營決策能力;比率結構反映了公司的資產(chǎn)分布。通常償債能力、盈利能力、經(jīng)營能力越弱和比率結構不合理的企業(yè)越有可能發(fā)生財務舞弊。
根據(jù)舞弊三角理論中機會因素可知,舞弊成功是需要機會的。公司治理機制的良好運行離不開內部控制和外部監(jiān)管的有效結合,如果治理機制存在問題,就會大大增加舞弊行為發(fā)生的可能性,因此,企業(yè)的治理機制也經(jīng)常被認為是判別上市公司是否舞弊的因素之一。本文以此為基礎得到如表2所示的非財務指標。其中股權集中度體現(xiàn)了公司股權集中情況,股權過度集中會增大股東之間的利益矛盾。董事會是公司治理機制的核心,獨立董事的存在會減少董事會被高層控制的可能性,而董事長兼任總經(jīng)理的情況會增加董事會被管理層掌控的可能性,這樣可能會引發(fā)財務舞弊行為。監(jiān)事會體現(xiàn)了企業(yè)的內部監(jiān)督能力,缺乏企業(yè)內部監(jiān)督會增加財務舞弊的發(fā)生。

表2 非財務指標
本文的響應變量為上市公司是否有財務舞弊行為,記為y,當企業(yè)有財務舞弊行為時,y為-1;當企業(yè)沒有舞弊行為時,y為1。數(shù)值型變量的描述性統(tǒng)計如表3所示。

表3 數(shù)值型變量的描述性統(tǒng)計分析
3.數(shù)據(jù)來源與預處理
篩選出實驗樣本后,基于指標體系從CSMAR數(shù)據(jù)庫獲取2010—2019年的財務數(shù)據(jù)和非財務數(shù)據(jù),按照指標定義處理數(shù)據(jù)。數(shù)據(jù)集的劃分遵循兩個原則:一是訓練集樣本數(shù)不得少于樣本總量的一半,確保訓練集與整體數(shù)據(jù)集訓練出的模型接近;二是測試集樣本量不能過少,確保評估準確率。一般會將2/3~4/5的樣本劃分為訓練集,剩下的樣本為測試集[33]。本文嘗試以8:2、7:3和6:4劃分樣本為訓練集和測試集進行試驗,最終確定最佳比例為7:3,以訓練集樣本擬合識別模型,再用測試集數(shù)據(jù)驗證模型的識別效果。
4.模型建立
以局部線性嵌入降維方法和自適應彈性網(wǎng)降維方法分別和AdaBoost算法結合建立識別模型作為實驗組,比較降維方法的優(yōu)劣,并以降維前的初始指標建立的AdaBoost模型作為對照組。本文先用訓練集樣本擬合AdaBoost模型、LLE-AdaBoost模型和AEnet -AdaBoost模型,再用測試集驗證以上三個模型的識別效果,比較三個模型的優(yōu)劣。
(1)AdaBoost模型
AdaBoost模型是指不對初始指標集做降維處理,直接使用AdaBoost算法建立的識別模型。將所有初始指標作為模型的輸入特征,對訓練集樣本建立AdaBoost識別模型,作為降維后模型的對照組(如表4所示),以檢驗降維方法的效果。其訓練集中舞弊樣本的預測準確率為72.73%,整體的識別準確率為69.57%。

表4 AdaBoost模型訓練集效果
變量重要性是指該變量引起的信息增益減少量的歸一化值,可以用來判斷模型中每個變量所起作用。圖1由大到小展示了AdaBoost模型中各變量的重要性,如圖1所示,對AdaBoost模型產(chǎn)生重要影響的變量排名前三的是應付賬款周轉率、每股未分配利潤和每股凈資產(chǎn),而每股凈資產(chǎn)、流動資產(chǎn)比率、每股收益、股權集中度等變量的重要性較為接近,企業(yè)性質、獨立董事比等變量的重要性相對較小。

圖1 變量的重要性排名
(2)LLE-AdaBoost模型
LLE-AdaBoost模型是將局部線性嵌入方法與AdaBoost算法相結合的分類模型。不同于線性降維方法,局部線性嵌入不體現(xiàn)新指標與原始指標之間的聯(lián)系,因此,將新指標分別命名為f1、f2、f3、f4、f5、f6,并將樣本在新指標上的分布展示出來。首先對數(shù)據(jù)進行維數(shù)測定,得到數(shù)據(jù)的本質維數(shù)是6維,其次用局部線性嵌入方法將初始指標降到6維,分別命名為f1、f2、f3、f4、f5、f6,舞弊樣本和非舞弊樣本在這6個新指標上的表現(xiàn)分別如圖2和圖3所示。如圖2所示,舞弊樣本在指標f1、f5特別突出,其次是f2;如圖3所示,非舞弊樣本f3指標最為突出,其次是f2、f6指標比較突出。這表明舞弊樣本和非舞弊樣本在這6維新指標中的表現(xiàn)存在差異性,可以通過這6個指標識別財務舞弊。

圖2 舞弊樣本的LLE指標情況

圖3 非舞弊樣本的LLE指標情況
最后用6個新指標對訓練集建立AdaBoost分類模型,該模型記為LLE-AdaBoost模型,該模型擬合效果如表5所示,其訓練集舞弊樣本識別率為39.39%,整體預測準確率為50%。

表5 LLE-AdaBoost模型訓練集效果
(3)AEnet-AdaBoost模型
AEnet-AdaBoost模型是指將自適應彈性網(wǎng)方法與AdaBoost算法結合的分類模型。首先采用自適應彈性網(wǎng)方法對初始指標集進行降維處理,最終篩選出了7個重要的指標。自適應彈性網(wǎng)系數(shù)體現(xiàn)了指標的重要性,從該系數(shù)觀察,股權集中度的系數(shù)最大,說明股權集中度對模型的影響最大,其次是總資產(chǎn)凈利潤率、資產(chǎn)負債率等指標對模型有著次要的影響,應付賬款周轉率對識別模型的影響相對最小,篩選出的指標及系數(shù)如圖4所示。

圖4 變量的自適應彈性網(wǎng)系數(shù)
利用篩選出的指標對訓練集建立識別模型AEnet-AdaBoost,得到的模型效果如表6所示,其舞弊樣本的預測準確率為62.12%,整體預測準確率為65.94%。

表6 AEnet-AdaBoost訓練集效果
(4)模型預測效果對比
以上對訓練集擬合了AdaBoost模型、LLE-AdaBoost模型和AEnet -AdaBoost模型,為了比較各個模型的識別效果,表7展示了三個模型在測試集上的預測結果。如表7所示,在測試集中,AdaBoost模型舞弊樣本識別準確率為63.64%,整體識別效果為66.67%。使用LLE降維后的指標建立的分類模型效果沒有得到提升,其整體識別效果僅為51.67%。AEnet-AdaBoost模型識別效果最好,舞弊樣本識別的準確率為66.67%,整體的識別準確率為75%,較降維前識別效果提高了8.30%。

表7 測試集模型預測結果對比
在模型的變量重要性方面,不同的機器學習方法衡量重要性的標準不同,遵循模型在測試集上的準確性即預測準確率才是判定模型好壞的最佳準則[34],由于AEnet -AdaBoost模型的預測準確率最高,表明自適應彈性網(wǎng)方法從初始指標中篩選出了更加重要的變量,并賦予變量自適應彈性網(wǎng)系數(shù),該系數(shù)越大說明變量越重要,因此,通過自適應彈性網(wǎng)方法,研究發(fā)現(xiàn)股權集中度、總資產(chǎn)凈利潤率、速動比率、資產(chǎn)負債率和每股未分配利潤等指標對于識別財務舞弊行為具有顯著的作用。
本文在制造業(yè)上市公司中,以2010—2019年期間同一年度發(fā)生財務舞弊的公司和非舞弊公司為實證研究對象,從償債能力、盈利能力、經(jīng)營能力、每股指標和比率結構等5個方面選取了28個財務指標,從公司治理機制的角度選取7個非財務指標,共計35個指標建立指標體系,使用局部線性嵌入方法和自適應彈性網(wǎng)方法對初始指標進行降維處理,建立了AdaBoost識別模型,經(jīng)過實證分析得到以下結論。
其一,通過比較AdaBoost模型、LLE-AdaBoost模型和AEnet -AdaBoost模型,發(fā)現(xiàn)局部線性嵌入方法的降維處理降低了模型的識別效果,自適應彈性網(wǎng)方法降維后的模型整體識別準確率為75%,比降維前提高了8.30%,說明自適應彈性網(wǎng)方法具有較強的變量篩選能力,有助于快速地識別主要的影響指標,提高舞弊識別效果。自適應彈性網(wǎng)方法可以通過篩選出的重要性指標提高財務舞弊的甄別效率,局部線性嵌入方法的降維處理無法分辨指標對識別模型的影響。
其二,通過自適應彈性網(wǎng)方法,發(fā)現(xiàn)非財務指標中股權集中度對于識別財務舞弊的作用最大,說明企業(yè)股權結構對于研究企業(yè)舞弊行為十分重要。財務指標中總資產(chǎn)凈利潤率、速動比率、流動比率、資產(chǎn)負債率、應付賬款周轉率和每股未分配利潤等指標對于分析財務舞弊行為有重要的作用。
上述研究結果也對保護投資者權益、公司治理和有效監(jiān)管有一定的啟示作用。投資者應該收集上市公司歷史經(jīng)營狀況,分析其財務信息和公司管理層架構。尤其是速動比率、流動比率、資產(chǎn)負債率和每股未分配利潤等指標,若是債務較多,其資產(chǎn)的流動性和變現(xiàn)性較差,說明該公司有經(jīng)營風險,投資者還可以從每股未分配利潤指標直觀地了解公司的經(jīng)營情況,若是該指標為負值,則體現(xiàn)了公司目前尚有虧損,還沒有扭虧為盈,需要謹慎投資。投資者發(fā)現(xiàn)有問題的公司時應積極舉報,充分發(fā)揮外部監(jiān)督人的作用。
上市公司應保證合理的股權結構。研究可知,股權集中度指標對于識別財務舞弊有著重要作用,股權過于集中不利于股東間的監(jiān)督制衡,從而增大財務舞弊發(fā)生的概率,因此,企業(yè)一方面要優(yōu)化股權結構,保證各股東意志的正常體現(xiàn);另一方面,要保證監(jiān)督部門的獨立性,發(fā)揮其應有的作用。公司治理要有風險意識,內審部門重點關注償債能力指標,對這些指標設定一個風險閾值,保證企業(yè)正常發(fā)展的同時,資產(chǎn)具有較好的流動性和變現(xiàn)性,可以隨時應對市場風險和突發(fā)意外。
落實金融支持制造業(yè)高質量發(fā)展的目標任務,離不開制度環(huán)境的完善。監(jiān)管部門應加強證券執(zhí)法和司法工作,從嚴設置財務舞弊退市量化指標,加強退市執(zhí)行力度,加強對審計人員技能和素養(yǎng)的培訓,用先進的技術方法定位財務報告中虛假的信息,提高審計效率。