袁 濤(博士),黃 寰(博士生導(dǎo)師)
內(nèi)部控制作為企業(yè)經(jīng)營管理的重要手段,在防范風(fēng)險和保障企業(yè)可持續(xù)發(fā)展方面發(fā)揮著關(guān)鍵作用(劉啟亮等,2012)。我國自2006年頒布《上市公司內(nèi)部控制指引》開始,就要求企業(yè)每年對內(nèi)部控制詳細情況發(fā)布內(nèi)部控制評價報告(劉瑾和趙納暉,2022)。2008年,財政部聯(lián)合五部委頒布了《企業(yè)內(nèi)部控制基本規(guī)范》,要求企業(yè)不僅要出具內(nèi)部控制評價報告,還要聘請有資質(zhì)的中介機構(gòu)對報告進行鑒證。2010 年,為了配合基本規(guī)范的執(zhí)行,財政部又聯(lián)合五部委頒布了《企業(yè)內(nèi)部控制配套指引》等文件,規(guī)定了企業(yè)在內(nèi)部控制評價報告中應(yīng)當披露的詳細內(nèi)容。至此,我國企業(yè)內(nèi)部控制體系初步形成(喻彪和楊剛,2022)。
上市公司對內(nèi)部控制的有效性進行自我評價,有助于其發(fā)現(xiàn)隱藏的內(nèi)部控制缺陷,并通過制定整改和糾正措施,規(guī)避和減少內(nèi)部控制缺陷給企業(yè)帶來的風(fēng)險(曾慶超和許諾,2022)。但是,上市公司對內(nèi)部控制信息的披露容易受到諸多因素的影響。一方面,企業(yè)管理層為了避免披露內(nèi)部控制缺陷信息對企業(yè)聲譽造成不利影響,會減少對內(nèi)部控制缺陷信息的披露,甚至可能會人為篡改內(nèi)部控制缺陷評價報告。另一方面,企業(yè)投資者對于企業(yè)披露的內(nèi)部控制缺陷信息十分關(guān)注,如果企業(yè)向外界傳達了企業(yè)內(nèi)部控制有效性欠缺等內(nèi)控缺陷信息,勢必影響投資者的投資選擇,從而增加企業(yè)投融資的壓力,給企業(yè)帶來不良的經(jīng)濟后果(黃志剛等,2020)。為了規(guī)避上述風(fēng)險,企業(yè)存在選擇性披露和隱藏內(nèi)部控制缺陷信息的動機(蔣盛益等,2010)。
但是,如果企業(yè)不能夠及時準確地披露內(nèi)部控制缺陷信息也同樣會面臨風(fēng)險。一方面,這會對企業(yè)的信譽造成一定程度的損害;另一方面,內(nèi)部控制缺陷如果不能及時披露和整改,必然會增加企業(yè)在未來的經(jīng)營風(fēng)險(倪靜潔和吳秋生,2020)。另外,錯誤的內(nèi)部控制缺陷信息披露也會誤導(dǎo)和欺騙企業(yè)的利益相關(guān)者,提高利益相關(guān)者遭受損失的可能性。因此,通過開展企業(yè)內(nèi)部控制缺陷研究,對可能存在的企業(yè)內(nèi)部控制缺陷進行預(yù)測,并將預(yù)測結(jié)果提供給企業(yè)的利益相關(guān)者,對于完善企業(yè)內(nèi)部控制體系具有重要的現(xiàn)實意義。
現(xiàn)有文獻對于企業(yè)內(nèi)部控制缺陷的研究主要以理論研究為主,而利用大數(shù)據(jù)和信息技術(shù)手段對企業(yè)內(nèi)部控制缺陷進行預(yù)測研究的文獻較少。因此,本文以機器學(xué)習(xí)算法為基礎(chǔ),構(gòu)建了邏輯回歸、判別分析、支持向量機、決策樹和隨機森林模型,利用我國上市企業(yè)的財務(wù)信息和非財務(wù)信息作為特征變量來預(yù)測企業(yè)的內(nèi)部控制缺陷。這為企業(yè)內(nèi)部控制缺陷的研究提供了新的思路,豐富了企業(yè)內(nèi)部控制缺陷研究的內(nèi)容,也為機器學(xué)習(xí)技術(shù)運用于企業(yè)內(nèi)部控制缺陷預(yù)測研究提供了可能。
本文以2012 ~2021 年我國A 股上市企業(yè)為研究對象。根據(jù)《企業(yè)內(nèi)部控制基本規(guī)范》和《內(nèi)部控制——整合框架》等文件以及現(xiàn)有文獻的做法,內(nèi)部控制缺陷可以按照缺陷嚴重程度或缺陷成因等進行分類。考慮到本文主要研究不同嚴重程度的內(nèi)部控制缺陷,故只按照缺陷嚴重程度對內(nèi)部控制缺陷進行劃分,將企業(yè)內(nèi)部控制缺陷按照嚴重程度分為重大缺陷、重要缺陷和一般缺陷。其中,將內(nèi)部控制存在重大缺陷的樣本企業(yè)標記為正樣本,將不存在重大缺陷的樣本企業(yè)標記為負樣本。另外,選取相對應(yīng)上市企業(yè)的財務(wù)狀況、企業(yè)治理和審計監(jiān)管信息作為預(yù)測數(shù)據(jù)。
為了保證樣本數(shù)據(jù)的規(guī)范性和完整性,本研究剔除了130多家金融類上市企業(yè),并對數(shù)據(jù)不全或缺失的樣本進行了剔除。通過篩選整理,最終獲得26230個樣本。其中:企業(yè)內(nèi)部控制存在重大缺陷的正樣本7856 個,占全樣本的比例為30%;不存在重大缺陷的負樣本18374 個,占全樣本的比例為70%。正負樣本比例約為1∶2,兩組樣本的數(shù)量趨向平衡,不存在類別不平衡的問題,因此,本研究的數(shù)據(jù)集不需要通過欠采樣或者過采樣等方法來緩解類別不平衡的問題。另外,為了防止預(yù)測模型出現(xiàn)過擬合問題,本研究在預(yù)測模型中加入正則化項或罰項來緩解預(yù)測模型的過擬合問題。為了更好地評估機器學(xué)習(xí)算法對企業(yè)內(nèi)部控制缺陷的預(yù)測性能,本文按照7∶3的比例將正負樣本劃分成模型的訓(xùn)練集和測試集,訓(xùn)練集的樣本數(shù)據(jù)用來擬合訓(xùn)練模型,測試集的樣本數(shù)據(jù)用來進行模型預(yù)測和性能評估。所有樣本數(shù)據(jù)均來源于CSMAR數(shù)據(jù)庫和企業(yè)年報。
1.財務(wù)狀況與企業(yè)內(nèi)部控制缺陷。財務(wù)狀況信息能夠反映企業(yè)內(nèi)部控制情況。通常來說,財務(wù)績效和經(jīng)營狀況越差的企業(yè),其內(nèi)部控制有效性越低,內(nèi)部控制質(zhì)量也越差(葉康濤等,2015;Askari 和Anwar,2020)。已有研究表明,企業(yè)在進行投資、融資等生產(chǎn)經(jīng)營活動時,內(nèi)部控制缺陷出現(xiàn)的概率最高,相應(yīng)企業(yè)的財務(wù)績效水平也處于行業(yè)平均水準以下(劉啟亮等,2013)。基于上述分析,本文選取部分財務(wù)指標來對企業(yè)的財務(wù)狀況進行衡量,具體包括:以利息保障倍數(shù)、流動比率和資產(chǎn)負債率來衡量企業(yè)的償債能力;以總資產(chǎn)增長率、凈利潤增長率、營業(yè)收入增長率和營業(yè)成本增長率來衡量企業(yè)的發(fā)展能力;以應(yīng)收賬款周轉(zhuǎn)率、應(yīng)付賬款周轉(zhuǎn)率和固定資產(chǎn)周轉(zhuǎn)率來衡量企業(yè)的營運能力;以總資產(chǎn)凈利率、凈資產(chǎn)收益率和營業(yè)凈利率來衡量企業(yè)的盈利能力。另外,存在內(nèi)部控制缺陷的企業(yè),抵抗風(fēng)險能力普遍較弱,因此還選取經(jīng)營杠桿和財務(wù)杠桿指標來衡量企業(yè)的風(fēng)險水平。
2.公司治理與企業(yè)內(nèi)部控制缺陷。公司治理與內(nèi)部控制之間存在著相輔相成、相互促進的關(guān)系,二者具有高度的相關(guān)性(李萬福等,2011;Tan等,2020)。已有研究表明,健全的內(nèi)部控制機制要有完善的公司治理結(jié)構(gòu)作為支撐,而內(nèi)部控制的創(chuàng)新和深化也將促進公司治理結(jié)構(gòu)的完善。健全的公司治理是內(nèi)部控制有效運行的基礎(chǔ)和保障。在完善的公司治理結(jié)構(gòu)環(huán)境下,股東大會、董事會、監(jiān)事會和管理層各司其職、相互制衡,以此保證內(nèi)部控制制度的建立和實施,有利于企業(yè)內(nèi)部控制系統(tǒng)的良好有序運行,從而達到提高企業(yè)經(jīng)營效率與加強企業(yè)信息披露的目的。反之,如果公司治理結(jié)構(gòu)不完善,無論多么有效的內(nèi)部控制制度設(shè)計也會流于形式(Kim 和Arun,2014;Du,2014)。因此,本文選取實際控制人兩權(quán)分離率、股權(quán)制衡度、機構(gòu)投資者持股比例、是否兩職合一、董事會規(guī)模、獨立董事比例等指標衡量公司治理。
3.審計監(jiān)管與企業(yè)內(nèi)部控制缺陷。相關(guān)研究顯示,超過70%的內(nèi)部控制缺陷是在對企業(yè)進行審計的過程中發(fā)現(xiàn)的。而設(shè)置審計委員會、聘請會計師事務(wù)所對企業(yè)財務(wù)報告進行外部審計,體現(xiàn)了企業(yè)管理層對內(nèi)部控制的重視程度。變更會計師事務(wù)所則體現(xiàn)了企業(yè)的審計監(jiān)管是否連續(xù),已有研究表明,頻繁進行會計師事務(wù)所變更的企業(yè),發(fā)生內(nèi)部控制缺陷的比例通常更高。而是否披露內(nèi)部控制審計報告和披露審計意見類型則反映了企業(yè)獨立審計的客觀性。一般而言,對于內(nèi)部控制質(zhì)量差、經(jīng)營狀況不佳以及風(fēng)險較高的企業(yè),會計師事務(wù)所會投入更多的人力和資源來開展審計工作,因此會收取比內(nèi)部控制質(zhì)量較好企業(yè)更高的審計費用。除此以外,會計師事務(wù)所的規(guī)模和專業(yè)化程度也是影響其審計收費的因素之一。上述主要特征變量定義如表1所示。

表1 變量定義
支持向量機是在一個二分類數(shù)據(jù)集合中,通過學(xué)習(xí)給定數(shù)據(jù)集合的特性,判斷新輸入的數(shù)據(jù)屬于哪個分類數(shù)據(jù)集的非概率性二進制線性分類模型。支持向量機模型的應(yīng)用范圍比較廣,在線性和非線性分類模型中均可使用。支持向量機模型的優(yōu)化通常是通過轉(zhuǎn)換核函數(shù)來實現(xiàn),因此核函數(shù)的選擇決定了最終支持向量機械模型的準確性。常見的核函數(shù)模型包括Linear、Poly、Rbf 和Sigmoid。
邏輯回歸是一種離散選擇方法模型,一般常用于二分類問題,是具有表示兩個不同范疇的輸出變量結(jié)果的分類模型。如果樣本類別為正的概率在0.5以上,樣本視為正,否則為負。判別分析是根據(jù)線性函數(shù)值來進行分類的算法。判別分析的基本思想是投影,選擇合適的投影方向?qū)⒃瓉碓诟呔S空間的樣本數(shù)據(jù)投影到低維空間,再在低維空間進行分類。通過投影將每個樣本的差異最小化,使得投影樣本的間隔盡可能大,然后對處理后的樣本進行判別和分類。判別分析由于應(yīng)用的限制條件較少,因此應(yīng)用范圍較廣。決策樹是一種使用非參數(shù)數(shù)據(jù)挖掘方法對所要分析的數(shù)據(jù)以樹形數(shù)據(jù)結(jié)構(gòu)來展示決策規(guī)則和分類結(jié)果的模型,它是一種主要應(yīng)用于數(shù)據(jù)科學(xué)領(lǐng)域?qū)ふ易罱咏繕藳Q策的分類方法。隨機森林是由Leo Breiman在2001年提出的一種分類算法模型,它是在決策樹模型的基礎(chǔ)之上通過Bootstrap 方法,從原始訓(xùn)練樣本集中重復(fù)隨機抽取生成新的訓(xùn)練樣本來訓(xùn)練,最終生成多棵決策樹,從而組成隨機森林。隨機森林模型實質(zhì)是對決策樹模型的一種改進,該方法基于多個決策樹,進一步提高了準確度,以此輸出分類或平均預(yù)測值。
1.混淆矩陣。表2中,機器學(xué)習(xí)混沌矩陣是表示實際值和預(yù)測值關(guān)系的矩陣,行由實際值構(gòu)成,列由預(yù)測值構(gòu)成,這樣構(gòu)成的矩陣的各個值表示滿足該情況的個數(shù)。本研究利用機器學(xué)習(xí)技術(shù),將企業(yè)的內(nèi)部控制評價結(jié)果分為內(nèi)部控制不存在重大缺陷(數(shù)值取0)和內(nèi)部控制存在重大缺陷(數(shù)值取1)兩種。樣本根據(jù)實際值和模型預(yù)測值的組合,形成了4個類別,這些類別分別為TP(True Positive)、FP(False Positive)、TN(True Negative)和FN(False Negative)。TP 表示的是企業(yè)內(nèi)部控制缺陷的預(yù)測值和實際值均為1(內(nèi)控存在缺陷)的情況個數(shù)。TN表示的是企業(yè)內(nèi)部控制缺陷的預(yù)測值和實際值均為0(內(nèi)控不存在缺陷)的情況個數(shù)。FP表示的是預(yù)測值為1但實際值為0的情況個數(shù)。FN表示的是預(yù)測值為0、實際值為1的情況個數(shù)。這四類樣本加起來就是完整的數(shù)據(jù)集,分類結(jié)果的混淆矩陣如表2所示。

表2 混淆矩陣
2.準確率、召回率、精準率和F1-score。根據(jù)表2的混淆矩陣,可以計算出準確率、召回率、精準率和F1-score。其計算公式分別如下:
準確率為:Accuracy=(TP+TN)/(TP+FP+TN+FN)
精準率為:Precision=TP/(TP+FP)
召回率為:Recall=TP/(TP+FN)
F1-score 為:F1-score=(2×Recall×Precision)/(Recall+Precision)
準確率(Accuarcy)表示的是分類無誤的樣本數(shù)據(jù)與全部樣本數(shù)據(jù)的比值,準確率越高,模型的分類效果越好。相對于其他評價指標,準確率最直觀。精確率(Precision)代表的是正確預(yù)測為1(Positive)的占全部預(yù)測為1(Positive)的比例,精確率越高,1(Positive)的樣本識別越精確。召回率(Recall)是與精準率存在矛盾關(guān)系的分類指標,它代表的是正確預(yù)測為1(Positive)的占全部實際為1(Positive)的比例。為了更加準確地評價模型的識別能力,一般還會選擇F1-score(對精確率和召回率進行綜合計算后的指標)來參與模型的預(yù)測評價。
3.ROC曲線和AUC值。ROC曲線是以真正類率(TPR)為縱軸、偽正類率(FPR)為橫軸,隨著分類閾值不斷變化形成的一條特征曲線。AUC(Area Under Curve)值被定義為ROC 曲線下的面積。一般而言,AUC 值越大,預(yù)測結(jié)果的正確率越高。
1.數(shù)據(jù)歸一化。為了縮小數(shù)據(jù)間的差異,提高預(yù)測模型的算法效率,需要對特征變量的數(shù)據(jù)進行歸一化處理。公式如下:x*=(x-μ)/σ。其中,μ為樣本均值,σ為樣本標準差。歸一化操作之后數(shù)據(jù)的均值為0,標準差為1。
2.多重共線性檢驗。為了防止特征變量之間因存在多重共線性,而對之后的預(yù)測模型產(chǎn)生誤差影響,本文需要先對相關(guān)指標進行共線性檢驗。本研究使用方差擴大因子方法對選用的特征變量進行共線性檢驗,檢驗的結(jié)果通過得到的VIF 值來判斷,如果0<VIF<10,則表明不存在共線性。檢驗結(jié)果如表3所示,特征變量的VIF值都在1.00 ~1.57 之間,滿足檢驗要求,可以進行模型預(yù)測。

表3 描述性統(tǒng)計和共線性診斷結(jié)果
表3 是本研究所選特征變量的描述性統(tǒng)計結(jié)果。根據(jù)結(jié)果顯示,內(nèi)部控制存在缺陷的樣本和內(nèi)部控制不存在缺陷的樣本在財務(wù)狀況、公司治理和審計監(jiān)管等特征變量上存在顯著差異。
在財務(wù)狀況方面,內(nèi)部控制存在缺陷樣本的償債能力明顯弱于內(nèi)部控制不存在缺陷的樣本,具體表現(xiàn)為前者的利息保障倍數(shù)、流動比率的均值都小于后者且均值差在1%的水平上顯著。資產(chǎn)負債率前者明顯高于后者且在1%的水平上顯著。除此以外,內(nèi)部控制存在缺陷樣本的發(fā)展能力和盈利能力也弱于內(nèi)部控制不存在缺陷的樣本。具體表現(xiàn)為前者的總資產(chǎn)增長率、凈利潤增長率、總資產(chǎn)凈利潤率、凈資產(chǎn)收益率和營業(yè)凈利率的均值都小于后者且均值差在5%或1%的水平上顯著。而對企業(yè)風(fēng)險水平和運營能力的特征進行比較發(fā)現(xiàn),雖然上述特征變量的均值差不顯著,但是內(nèi)部控制存在缺陷樣本的經(jīng)營杠桿、財務(wù)杠桿和應(yīng)付賬款周轉(zhuǎn)率的均值都明顯高于內(nèi)部控制不存在缺陷的樣本。應(yīng)收賬款周轉(zhuǎn)率和固定資產(chǎn)周轉(zhuǎn)率也都明顯低于內(nèi)部控制不存在缺陷的樣本,這說明內(nèi)部控制存在缺陷的樣本企業(yè)面臨的經(jīng)營財務(wù)風(fēng)險更大,發(fā)生壞賬損失的可能性更大,其運營能力更低。
在公司治理方面,內(nèi)部控制存在缺陷的樣本在實際控制人兩權(quán)分離率和機構(gòu)投資者持股比例方面高于內(nèi)部控制不存在缺陷的樣本。同時,內(nèi)部控制存在缺陷樣本的股權(quán)制衡度和是否兩職合一的比例低于內(nèi)部控制不存在缺陷的樣本。另外,在董事會規(guī)模和獨立董事比例方面,內(nèi)部控制存在缺陷的樣本與內(nèi)部控制不存在缺陷的樣本的差異不太明顯。這說明相對于內(nèi)部控制不存在缺陷的樣本,內(nèi)部控制存在缺陷的樣本具有實際控制權(quán)較為集中、股權(quán)制衡度不高、管理職權(quán)分散等特點。
在審計監(jiān)管方面,內(nèi)部控制存在缺陷樣本在披露內(nèi)控審計報告中的比例高于內(nèi)部控制不存在缺陷樣本;負責審計的會計師事務(wù)所的變更前者也更頻繁;審計意見類型前者對審計結(jié)果的看法和所持的態(tài)度也比后者更消極;在審計費用的支出上,前者也明顯高于后者。上述特征變量的樣本均值差都在1%的水平上顯著。綜上所述,內(nèi)部控制存在缺陷的企業(yè)在財務(wù)狀況、公司治理和審計監(jiān)管方面與內(nèi)部控制不存在缺陷的企業(yè)存在差異,且前者弱于后者。
本研究使用判別分析、支持向量機、邏輯回歸、決策樹和隨機森林等機器學(xué)習(xí)算法,構(gòu)建了企業(yè)內(nèi)部控制缺陷預(yù)測模型。各模型的預(yù)測結(jié)果見表4。

表4 機器學(xué)習(xí)模型的預(yù)測結(jié)果
在預(yù)測模型的準確率方面:首先,隨機森林的準確率最高,為71%;其次為支持向量機Linear核函數(shù)模型的70%;然后是Rbf核函數(shù)、判別分析、邏輯回歸、Sigmoid核函數(shù)和決策樹模型,均為69%;最后是Poly 核函數(shù)模型,為68%。準確率反映了模型對企業(yè)內(nèi)部控制存在缺陷和不存在缺陷預(yù)測的預(yù)測正確情況。對于預(yù)測模型的精準率,最高的是隨機森林、決策樹和支持向量機Rbf核函數(shù)模型,為63%;其他模型的精準率均位于56%~61%之間。精準率衡量的是模型出現(xiàn)誤判的概率。對于預(yù)測模型的召回率,最高的是隨機森林,然后是判別分析和決策樹模型,最低的是支持向量機的Sigmoid 核函數(shù)和Linear核函數(shù)模型,所有模型的召回率均在50%以上。召回率反映的是模型對企業(yè)內(nèi)部控制缺陷識別的漏檢率,召回率越高,漏檢的概率就越小。對于預(yù)測模型的F1-Score值,隨機森林的F1-score 最高,為58%;最低的是支持向量機的Linear 核函數(shù)和Sigmoid 核函數(shù)模型。F1-score 值越大,說明模型的質(zhì)量越高。除上述可以評估模型預(yù)測性能的指標以外,本文也會使用ROC 曲線和AUC 值來對模型進行評價,ROC曲線是根據(jù)混淆矩陣以FPR為橫坐標、以TPR 為縱坐標所繪制的曲線。而ROC 曲線圍成的面積就是AUC 值,一般AUC值越大,模型預(yù)測效果就越好。根據(jù)表4,所有模型的AUC 值都大于0.5,表明機器學(xué)習(xí)模型具有預(yù)測價值。其中AUC值最大的模型是隨機森林,達到了0.77。這說明相對于其他模型,隨機森林的預(yù)測效果最好。上述結(jié)果表明,根據(jù)機器學(xué)習(xí)算法建立的模型能夠?qū)ζ髽I(yè)內(nèi)部控制是否存在缺陷進行預(yù)測,并且通過準確率、精準率、召回率、F1-score 以及ROC 曲線和AUC 值對各個模型進行評價后發(fā)現(xiàn),隨機森林模型的預(yù)測效果最好。
本研究還需確認對預(yù)測企業(yè)內(nèi)部控制缺陷貢獻度最高的特征變量。特征變量重要性的計算方式是通過構(gòu)建樹類模型,并使用Feature_Importances 方法獲得在樹模型中每個特征變量的特征分裂次數(shù)以及利用該特征分裂后的增益來計算特征變量的重要性。根據(jù)上述各機器學(xué)習(xí)模型的預(yù)測性能,最終選擇了表現(xiàn)較好的隨機森林模型來計算特征的重要性。為了便于觀察,按照特征變量的貢獻度,從大到小進行了排列,根據(jù)圖1特征變量的重要性可以發(fā)現(xiàn),每個特征都對模型的學(xué)習(xí)效果產(chǎn)生了影響。其中,影響力排名前三的特征變量分別是審計費用、機構(gòu)投資者持股比例和總資產(chǎn)增長率,其特征貢獻度分別為5.57%、3.24%和2.21%。這說明審計費用、機構(gòu)投資者持股比例和總資產(chǎn)增長率對企業(yè)內(nèi)部控制缺陷的預(yù)測起到了重要作用。

圖1 特征變量重要性
為了進一步挖掘特征變量影響企業(yè)內(nèi)部控制缺陷發(fā)生的重要因素和影響方式,本研究采用SHAP方法對企業(yè)內(nèi)部控制缺陷預(yù)測模型的運作過程和貢獻分布進行可視化分析。Shapley值常用于研究合作博弈中各參與方的價值,后被用于解釋復(fù)雜模型中特征的價值。SHAP方法的工作原理是將每個特征值的貢獻分配到不同的特征變量中,然后計算每個特征變量的Shapley 值,最后將計算得到的Shapley值與特征值相乘得到該特征變量對于預(yù)測結(jié)果的貢獻。SHAP 方法有助于理解機器學(xué)習(xí)模型的預(yù)測結(jié)果,識別預(yù)測模型不足之處并加以改進,進而提高模型的預(yù)測能力。
在圖2中,左側(cè)顯示各個特征變量的名稱,右側(cè)對應(yīng)的是各特征變量映射SHAP value(SHAP 值)后的取值范圍和大小。圖2中Feature value(特征值)的顏色由淺色到深色,表示特征取值由小到大。當橫坐標SHAP value 的值大于0時,代表該特征正向提升了預(yù)測模型的貢獻值;當SHAP value 的值小于0時,代表該特征降低了預(yù)測值,起反向作用。根據(jù)圖2可知,審計費用對預(yù)測模型的貢獻度最高,且審計費用深色樣本的SHAP value均小于0,這說明審計費用降低了企業(yè)內(nèi)部控制缺陷出現(xiàn)的概率,審計費用有助于企業(yè)內(nèi)部控制目標的完成。機構(gòu)投資者持股比例的深色樣本也基本落在SHAP value 小于0 的一側(cè),這說明外部投資也能夠抑制企業(yè)內(nèi)部控制缺陷出現(xiàn)的概率。總資產(chǎn)增長率的深色樣本絕大多數(shù)落在SHAP value 大于0 的一側(cè),這說明企業(yè)資產(chǎn)經(jīng)營規(guī)模擴張的速度越快,公司內(nèi)部控制缺陷出現(xiàn)的概率就越高。具有類似性質(zhì)的還有是否兩職合一、流動負債比率和實際控制人兩權(quán)分離率等。

圖2 特征變量對預(yù)測模型的貢獻分布
本研究以2012 ~2021 年在我國A 股上市的企業(yè)為研究對象,通過選取衡量企業(yè)財務(wù)狀況、公司治理和審計監(jiān)管的26 個特征變量的26230 個數(shù)據(jù)為樣本,構(gòu)建了判別分析、邏輯回歸、支持向量機、決策樹和隨機森林等利用機器學(xué)習(xí)算法預(yù)測企業(yè)內(nèi)部控制缺陷的模型,并對各個模型的預(yù)測性能進行了評價。評價的結(jié)果顯示,隨機森林模型的預(yù)測性能優(yōu)于其他預(yù)測模型,可運用于企業(yè)內(nèi)部控制缺陷的預(yù)測。研究還發(fā)現(xiàn),在使用隨機森林模型預(yù)測企業(yè)內(nèi)部控制缺陷的過程中,審計費用、機構(gòu)投資者持股比例和總資產(chǎn)增長率等變量的特征貢獻度最高,對企業(yè)內(nèi)部控制缺陷的預(yù)測起到了重要作用。最后,采用SHAP方法對特征變量進行貢獻分布可視化分析,深度挖掘了特征變量影響企業(yè)內(nèi)部控制缺陷出現(xiàn)的影響機理。
保障企業(yè)生產(chǎn)經(jīng)營活動正常運行、控制和防范各類風(fēng)險是企業(yè)實施內(nèi)部控制的目的。而企業(yè)實施內(nèi)部控制的關(guān)鍵是準確識別內(nèi)部控制缺陷。因此,研究利用機器學(xué)習(xí)算法預(yù)測企業(yè)內(nèi)部控制缺陷,有助于企業(yè)管理層識別潛在的風(fēng)險,完善企業(yè)的內(nèi)部控制體系,減少各類風(fēng)險給企業(yè)帶來的經(jīng)濟損失,并為企業(yè)的投資、融資以及經(jīng)營管理等重大決策提供參考。
【 主要參考文獻】
黃志剛,劉佳進,林朝穎.基于機器學(xué)習(xí)的上市公司財報舞弊識別前沿方法比較研究[J].系統(tǒng)科學(xué)與數(shù)學(xué),2020(10):1882 ~1900.
蔣盛益,汪珊,蔡余沖.基于機器學(xué)習(xí)的上市公司財務(wù)預(yù)警模型的構(gòu)建[J].統(tǒng)計與決策,2010(9):166 ~167.
李萬福,林斌,宋璐.內(nèi)部控制在公司投資中的角色:效率促進還是抑制?[J].管理世界,2011(2):81 ~99+188.
劉瑾,趙納暉.基于機器學(xué)習(xí)的企業(yè)內(nèi)部控制重大缺陷預(yù)測[J].財會月刊,2022(3):123 ~131.
劉啟亮,羅樂,何威風(fēng)等.產(chǎn)權(quán)性質(zhì)、制度環(huán)境與內(nèi)部控制[J].會計研究,2012(3):52 ~61+95.
劉啟亮,羅樂,張雅曼等.高管集權(quán)、內(nèi)部控制與會計信息質(zhì)量[J].南開管理評論,2013(1):15 ~23.
倪靜潔,吳秋生.內(nèi)部控制有效性與企業(yè)創(chuàng)新投入——來自上市公司內(nèi)部控制缺陷披露的證據(jù)[J].山西財經(jīng)大學(xué)學(xué)報,2020(9):70 ~84.
葉康濤,曹豐,王化成.內(nèi)部控制信息披露能夠降低股價崩盤風(fēng)險嗎?[J].金融研究,2015(2):192 ~206.
喻彪,楊剛.內(nèi)部控制重大缺陷與企業(yè)勞動投資效率[J].財會月刊,2022(13):32 ~40.
曾慶超,許諾.機器學(xué)習(xí)對上市公司年報錯報的識別研究——財務(wù)重述預(yù)測的視角[J].中國注冊會計師,2022(2):43 ~48.
Askari Sikdar.,Anwar Hussain.IFDTC4.5:Intuitionistic Fuzzy Logic Based Decision Tree Fore-transcational Fraud Detection[J].Journal of Information Security and Applications,2020(52):1 ~13.
Du X..Does Religion Mitigate Tunneling?Evidence from Chinese Buddhism[J].Journal of Business Ethics,2014(2):299 ~327.
Kim Soo Y.,Arun Upneja.Predicting Restaurant Financial Distress Using Decision Tree and Ada-Boosted Decision Tree Models[J].Economic Modelling,2014(36):354 ~362.
Tan Duojiao,Bilal,Simon Gao,Bushra Komal.Impact of Carbon Emission Trading System Participation and Level of Internal Control on Quality of Carbon Emission Disclosures:Insights from Chinese State-Owned Electricity Companies[J].Sustainability,2020(5):1788.