














摘" 要:針對上市公司財務造假預測問題,采用結合了LightGBM與遞歸特征消除法(RFE)的方法進行數據建模。LightGBM以其超參數量少、強大的穩健性及對不平衡數據的高敏感性等特點著稱。RFE作為一種封裝式特征選擇方法,能高度匹配所用預測模型,并通過設定特征子集評價函數作為停止條件,自動確定最優特征數量,這在特征選擇領域具有較大優勢。此外,選用平衡精度(BAcc)作為模型預測性能的評估指標,并通過調整LightGBM的分類權重參數來解決樣本不平衡的問題。在5個不同行業財務數據集上的實驗結果表明,所提出的RFE-LGB模型在上市公司財務造假預測任務中表現出良好的平衡性、穩健性和泛化性。該模型能有效識別與財務造假相關的關鍵指標,且僅使用較少的核心特征即可達到較高的預測精度。
關鍵詞:上市公司;財務造假;LightGBM;遞歸特征消除;特征選擇
中圖分類號:TP39;TP183" 文獻標識碼:A 文章編號:2096-4706(2024)11-0145-08
Analysis and Prediction of Financial Fraud in Listed Companies Based on
RFE-LGB Algorithm
CHEN Mengyuan, NAN Jiaqi, WANG Jingsai
(School of Finance, Henan Finance University, Zhengzhou" 450046, China)
Abstract: To address the issue of financial fraud prediction in listed companies, a method combining LightGBM and Recursive Feature Elimination (RFE) is adopted for data modeling. LightGBM is known for its low number of hyper parameter, strong robustness, and high sensitivity to imbalanced data. RFE, as an encapsulated feature selection method, can highly match the prediction model used and automatically determine the optimal number of features by setting a feature subset evaluation function as a stopping condition, which has significant advantages in the field of feature selection. In addition, the balanced accuracy (BAcc) is selected as the evaluation index for the predictive performance of the model, and the problem of sample imbalance is solved by adjusting the classification weight parameters of LightGBM. The experimental results on five different industry financial datasets show that the proposed RFE-LGB model exhibits good balance, robustness, and generalization in predicting financial fraud in listed companies. This model can effectively identify key indicators related to financial fraud, and can achieve high prediction accuracy with only a few core features.
Keywords: listed company; financial fraud; LightGBM; recursive feature elimination; feature selection
0" 引" 言
近年來,市場上屢見上市企業財務造假及爆雷事件,2020年更是出現了流動性困境和信用債違約等現象。這一系列事件凸顯了監管部門嚴格監管上市公司的重要性。監管部門已進一步強化了對上市公司的監管措施,對于那些存在嚴重財務數據造假行為或已喪失持續經營能力的企業,強制其退市成為必要的手段。然而,這樣的退市必然會給投資者帶來經濟上的損失。因此,投資者只有在對上市公司的財務數據進行了全面深入的分析和研究后,才能做出投資與否的決策,以此確保投資的安全性。作為專業投資者,研究一家上市公司的財務數據是否穩健,實質上是對該公司的信用風險進行評估預測。信用風險評估的關鍵在于檢測出公司財務造假的財務指標,這些風險因素可能存在于各種難以察覺的細微之處。鑒于此,人們開始借助一些數理統計方法來建立風控模型,篩選關鍵指標對上市公司多年的財務數據進行跟蹤分析和研究,識別真偽,避免投資踩雷。
隨著數據科學的快速發展,機器學習技術開始應用到不同的領域。由于機器學習方法具有無須嚴格假設,擅長處理非線性數據等優勢,該類方法廣泛運用于金融風控(建模)領域,包括支持向量機、決策樹及神經網絡等。尤其是基于決策樹構建的模型具有解釋性強、超參數少、模型復雜度小、易于訓練等優點,表現得更加突出[1],典型代表如隨機森林、梯度提升決策樹(Gradient Boost Decision Tree, GBDT)等,其中的GBDT及其改進算法如Chen [2]提出的極端梯度提升算法XGBoost,Ke等[3]提出的輕量級梯度提升機(LightGBM)等,無論在理論研究還是工業應用層面都表現出優良的性能。然而,眾多財務指標之間往往存在著較強的相關性和冗余性,如果將這些指標直接用于建模,將會極大地影響模型的效果。此外,數據采集成本也會大幅提升。因此,許多研究中都采用特征選擇方法對數據進行預處理,旨在剔除一些無關的冗余指標,以較少的指標來刻畫反映風險的主要特征,使得所構建的模型簡潔、穩健,最終達到既提高模型預測準確性,又能清晰反映信用風險與其主要影響因素之間聯系的目的,同時還降低了數據采集的成本。顯然,特征選擇已成為影響風控建模效果的關鍵一環。
特征選擇方法主要分為過濾式(Filter)、封裝式(Wrapper)和嵌入式(Embedded)三大類。其中,封裝式方法特別注重特征選擇與學習器的結合。這種方法將學習器的預測效果作為特征子集的評價標準,實現了對學習器的優化,因此預測效果往往更好[4]。其中遞歸特征消除法(Recurisive Feature Elimination, RFE)是現在較為常用的封裝式方法,其思想是對于含有特征權重的學習器,每訓練一次便剔除權重絕對值最小的特征,依此準則不斷循環遞歸直至模型在驗證集上的某個評估指標達到最優。吳辰文等[5]采用基于隨機森林的RFE方法對乳腺癌相關數據進行特征選擇,實驗結果表明該方法在剔除無關變量的同時還提高了模型的性能,取得了較為理想的效果。
另外,用于建模的二分類數據具有高度的樣本不平衡性,即財務造假的公司在整個樣本集中占比很小。針對這一問題,李豫等采用SMOTE算法對上市公司數據進行過采樣,以此解決數據不平衡的問題,然后結合BP神經網絡進行財務造假分析[6]。代價敏感學習是另外一種應對上述問題的常用方法[7]。對于樣本類別不平衡的問題,可通過調整分類權重(Class Weight)的方式來削弱其影響。通過對誤判代價大的類施加更高分類權重的方式來放大該類的損失,這樣在訓練過程中學習器就會更加偏重樣本數較少的一類,從而提高該類的識別率。張悅等通過構建基于成因理論的財務造假因子庫和代價敏感的輕型梯度提升決策樹模型,有效提升了對2015年中國上市公司財務造假的識別準確率[8]。
在模型預測性能評估方面,許多研究都是以分類精度(Accuracy, Acc)作為模型效果評判標準,而Dushimimana等[9]指出,分類精度并不是一個合適的模型評價指標,對風險檢測任務而言,預測潛在造假公司是最為重要的。因此,有學者選取平衡精度(Balanced Accuracy, BAcc)作為模型評價標準[10],BAcc是測試集兩類查全率(Recall)的平均值,它可以很好地反映出分類模型預測的均衡性。
綜上所述,本文將LightGBM(LGB)和RFE方法相結合,以BAcc作為模型評估指標構建了RFE-LGB模型,該模型可以有效識別出存在財務造假的公司以及造假相關的數據指標。
1" 相關理論介紹
1.1" 遞歸特征消除法
遞歸特征消除(RFE)的核心思想是不斷迭代模型以識別并保留有效特征,通過逐一剔除不重要特征的方式來實現,直至所有特征均已被評估。在這一過程中,特征的去除順序形成一個特征重要性的排列,這個策略基本上是一種以貪心算法尋求最理想特征子集的手段。
此外,確立模型選擇特征的準確性的驗證機制也是必不可少的一步。采用交叉驗證作為驗證機制,可以在RFE流程內部對不同的特征集進行驗證,以確定各個特征對目標變量的貢獻程度,并據此挑選出最佳特征集,上述方法被稱為RFECV(Recursive Feature Elimination with Cross-Validation),是遞歸特征消除法(RFE)的一個擴展,它結合交叉驗證尋找模型性能最優的特征數量。通過使用交叉驗證,RFECV能夠更加穩健地評估每個特征子集的性能,從而選擇出最佳的特征集合。
RFECV的基本步驟如下:
1)選擇模型和交叉驗證策略。首先確定一個基本的機器學習模型和適用的交叉驗證策略(如K折交叉驗證)。
2)訓練模型并評估特征。RFECV會訓練模型并根據模型的特征重要性指標來評估每個特征的重要性。
3)移除特征和交叉驗證。移除一個或多個重要性較低的特征,然后基于剩余的特征通過交叉驗證來評估模型性能。
4)記錄性能和重復。記錄每次交叉驗證后的模型性能,并重復特征移除和模型評估的過程。
5)確定最優特征數量。在所有的特征子集中,找到交叉驗證評估中性能最優的特征集合。
RFECV的優勢在于它能自動調整特征的數量,找到一個在交叉驗證下表現最佳的特征子集,這有助于提高模型的穩健性并減少過擬合的風險。但是,由于需要多次進行交叉驗證和模型訓練,RFECV的計算成本比單純的RFE要高。
1.2" LightGBM算法
GBDT是一種以分類和回歸樹(CART)為基學習器的加性集成模型,LightGBM是GBDT框架下的一種改良算法。設學習器 = f(X), 表示對目標值y的預測值,分類任務的損失函數為L(Y,F(X)),假設迭代次數為T,用ft(X)表示第t次迭代的基學習器,用Ft(X)表示第t次迭代的強學習器(t = 0,1,2,…,T),則上一次迭代得到的強學習器為Ft-1(X),對應的損失函數為L(y,Ft-1(X)),第t次迭代的目標是找到最優的基學習器ft*(X),令損失函數L(y,Ft(X))達到最小值。第t次迭代的目標函數可由式(1)表示:
(1)
由于是加性組合模型,第t次迭代得到的強學習器Ft(X)可由式(2)表示:
(2)
故式(1)也可寫為式(3):
(3)
最優化的方法為:第t次迭代使用的目標變量數據不再是原始目標變量y的樣本值,而是第t-1次迭代的損失函數的負梯度值,即式(4):
(4)
通過上述方法可以找到每次迭代的最優基學習器ft*(X),t = 1,2,…,T。將這些基學習器相加就得到如式(5)所示的最終強學習器:
(5)
由于GBDT在評估每個特征的所有潛在分割點的信息增益時需要遍歷所有樣本,因此在處理高維度和大數據量情況下,其訓練效率較低。為了解決這個問題,LightGBM通過引入兩種創新方法來降低計算成本:基于梯度的單側采樣(GOSS)和排他性特征打包(EFB)。GOSS的核心思想是,在計算信息增益時梯度較大的樣本更為重要,因此,在進行下采樣時應優先保留這部分樣本,而對梯度較小的樣本進行隨機采樣,這樣既減少了計算負擔,又保持了估算精度。EFB的策略基于一種現象:在高維數據中,很多特征是稀疏且互斥的,即它們不會同時是非零值。LightGBM通過將這些互斥特征合并為單一特征,有效降低了特征的維度,進而在不犧牲模型準確度的前提下顯著提升了訓練速度。
另外,LightGBM在決策樹生長策略方面也有所改進,決策樹學習算法一般是按層分裂,即每次不加區分地分裂同一層的全部節點,這種方法被稱為“level-wise樹生長策略”,如圖1所示。實際上,很多節點的分裂增益較低,沒有必要進行分裂。
LightGBM實施的是如圖2所示的基于葉子的生長策略(即leaf-wise方法),它在所有當前層的節點中選擇具有最高分裂增益的節點進行擴展。這種策略傾向于創建較深的樹結構,可能導致過擬合,故有必要控制樹的最大深度。與傳統的按層生長(level-wise策略)對比,leaf-wise在相同的分裂次數下能夠大幅減少損失,提高模型的效率和精度。leaf-wise樹生長策略如圖2所示。
1.3" 網格搜索參數優化
在機器學習中,“學習算法”通過學習“訓練數據”自動確定“模型參數”。而算法本身也有一些參數,這些參數無法通過訓練數據學得,算法的參數被稱為“超參數”,如神經網絡中的連接權重是模型參數,而神經網絡的層數和每層神經元個數就是超參數。確定超參數的方式有兩種:人工設定和自動搜索,人工設定超參數需要由調參者對當前建模任務或同類型任務有足夠豐富的實踐經驗,并且需要花費相當長的時間。自動搜索只需設置一定的參數范圍,然后讓計算機根據某種策略進行參數選擇。自動搜索超參數從本質上來說是一種優化過程:我們以某個模型評估指標為目標函數,通過搜索策略嘗試進行各種超參數的組合,目的是尋求使目標函數在驗證集上達到極值的參數組合。當學習算法的超參數較少時,一種常用的搜索策略是網格搜索法(Grid Search)。為每一個超參數設定一個離散的有限值集,對這些超參數集合進行笛卡爾乘積運算后就得到一個個的超參數組合,網格搜索遍歷每組超參數訓練模型,最終選擇驗證集效果最好的超參數組合[11]。
顯然,網格搜索的關鍵在于對目標函數的選擇,以不同的模型評估指標作為目標函數將得到不同的最優超參數。
2" 模型構建
2.1" 模型性能度量指標
在預測任務中,給定樣本集D = {(x1,y1),(x2,y2),…,(xm,ym)},其中yi表示特征樣本xi的真實標簽,二分類任務中通常取yi為0或1,本文中0代表不存在財務造假,1代表存在財務造假。若要對模型f的預測性能進行評估,需要將f的預測結果f(x)與真實標簽y進行比較。精度(Acc)是分類任務中較為常用的性能度量指標之一,精度是指分類正確的樣本數占總樣本數的比例,對于樣本集D,分類精度可由式(6)表示:
(6)
其中,I(·)表示示性函數,,對于類別不平衡的樣本集,精度并不能真實反映出模型的預測效果。假定一個樣本容量為100的樣本集,其中有95個樣本的真實標簽為0,其余5個樣本的真實標簽為1,假定模型f的預測結果f(x)全部取值為0,此時的預測精度為95%,單從精度的數值來看,模型的性能好像還不錯,但是僅有的5個真實標簽為1的樣本全部被錯誤地預測為標簽為0的這一類。具體到上市公司財務造假預測任務中,就意味著要把所有的“造假”預測為“未造假”,這種誤判會導致投資者踩雷,從而造成巨大的損失。
平衡精度(BAcc)是對精度的一種改進,它特別適用于處理類別不平衡的數據集。
二分類任務的預測結果與真實情況對比可由表1的混淆矩陣來表示。其中TP(True Positive)、FP(False Positive)、TN(True Negative)、FN(False Negative)分別表示真正例、假正例、真負例、假負例的數目(本文中0代表正例,1代表負例)。
好樣本和壞樣本的查全率(Recall)分別為Recall0(R0)、Recall1(R1),具體定義如下:
(7)
(8)
它們表示的是真實的好樣本和壞樣本中分別被預測正確的比例。基于Recall0和Recall1可以構造平衡精度,其定義為:
(9)
顯然,在數據類別不平衡的情況下,BAcc相較于Acc更具公平性。因此,以BAcc為優化目標所生成的模型更加符合財務造假預測任務的實際需求。
2.2" RFE-LGB模型理論構建
基于RFE方法的特征選擇效果極大依賴于循環中所用機器學習算法的穩定性。同時,該特征選擇方法的計算成本高,尤其是在特征數量非常多的情況下,它需要多次訓練模型。因此,我們采用了集穩定性與速度于一身的集成學習算法LightGBM與RFE相結合,構建RFE-LGB模型。
建模步驟為:
1)將清洗過的全特征訓練數據輸入LGB學習器,并以BAcc為目標函數進行網格搜索參數優化,得到全特征對應的最優LGB超參數。
2)以BAcc為特征子集評價函數,通過RFECV方法與全特征最優LGB相結合的方式進行特征選擇,得到最優特征子集。
3)將最優特征子集數據輸入LGB,以BAcc為目標函數進行網格搜索參數優化,得到最終的LGB模型。
4)從測試集中挑選出第二步給出的最優特征數據,輸入第三步得到的LGB模型進行預測。
RFE-LGB具體建模過程如圖3所示。
3" 實證研究
3.1" 實驗數據
本文選取了5個行業上市公司的財務數據進行對比試驗,數據來源于第九屆“泰迪杯”數據挖掘挑戰賽A題的數據文件[12]。這5個行業分別是制造業,批發和零售業,信息傳輸、軟件和信息技術服務業,房地產業,金融業。每個行業的數據概況如表2所示。
3.2" 實驗過程
本文基于Python 3.7進行實驗。首先對實驗數據集進行數據清洗,使用Pandas的dropna函數刪除了缺失值占比80%的列,并用中位數填充剩余缺失值。由于建模使用的LightGBM是樹基模型,它不受數據量綱的影響,因此不必進行數據標準化處理。
以金融業為例,展示RFE-LGB實際建模過程,步驟如下:
1)將清洗后的金融業數據輸入LGB進行網格搜索超參數優化,結果如表3所示。
2)基于設定了如表3所示最優超參數的LGB模型進行RFECV特征選擇,將RFECV的特征剔除步長設定為1,即每次只剔除一個最不重要的特征。在整個RFECV過程中,LGB模型的交叉驗證得分(BAcc)變化如圖4所示。
圖4中交叉驗證得分最高點對應的特征子集就是RFECV篩選出的最優特征子集。
3)將RFECV篩選出的最優特征子集數據輸入LGB并再次進行網格搜索超參數優化,得到最優特征子集的LGB最佳參數,如表4所示。
基于表4的超參數設定和第二步得到的最優特征,我們就可以訓練出最終用于預測的LGB模型。圖5是對模型中單棵決策樹的可視化。
4)依據第二步的特征選擇結果,將測試集的最優特征子集數據輸入第三步得到的最終LGB模型,進行財務造假預測。
3.3" 實驗結果分析
依據圖3的建模流程,得到5個行業的最優特征子集如表5至表9所示。
對上面5個行業的財務造假特征指標進行對比,可以得到如表10所示的特征指標重復情況統計表。
由表10可以看出,基本每股收益在除金融業之外的4個行業均有記錄,強調了其在非金融行業中的普遍性及作為操縱目標的吸引力。歸屬于母公司所有者的凈利潤在4個行業中也廣泛被操作,凸顯了其作為核心盈利指標的敏感性。此外,一些指標在特定行業組合中重復出現,如營業稅金及附加、營業外支出在批發和零售業與房地產業中重復,未分配利潤在制造業與房地產業中重復等。這顯示出不同行業在財務造假手段上可能存在行業特性,造假者可能更傾向于利用行業特定的財務指標進行操縱。
每個行業特有的造假相關指標如表11所示。
以上結果提示監管機構和投資者應對這些常被操縱的指標保持警覺,并采取相應的審查和驗證措施,以有效防范財務風險。
各行業數據以各自最優特征子集建立的LGB分類模型的5折交叉驗證平衡精度(BAcc),如表12所示。
由表12可以看出,RFE-LGB模型對批發和零售業的財務造假預測表現最佳,預測結果的平衡精度達到了80.92%。這種高效率的表現可能是因為該行業具有較為一致和可預測的財務模式,易于模型通過特定特征進行學習和預測。
相比之下,信息傳輸、軟件和信息技術服務業的平衡精度最低,僅為67.88%。這一行業的數據復雜度和專業性較高,涉及的業務模式和收入來源多樣,估值和收入確認標準相對來說具有更多的靈活性和解釋空間,導致模型難以從中提取出穩定且有效的預測特征,從而影響了精度表現。
制造業和金融業的平衡精度分別為71.03%和69.34%,顯示出中等水平的模型表現。這可能與這些行業內部財務活動的多樣性和外部經濟環境的變化有關,這些因素增加了財務數據的波動性和不確定性,相應地也增加了模型識別財務造假的難度。
房地產業的模型平衡精度為76.14%,相對較高。這可能是由于房地產業的財務數據在一些關鍵特征(如資本密集度和固定資產占比)上更為明顯和一致,使得模型能夠較好地進行學習和預測。
總體而言,這些結果表明了不同行業的數據特性和模型適應性的差異。因此,我們在使用機器學習模型進行跨行業財務造假檢測時,需要將各行業的具體情況和挑戰考慮在內。同時也暗示了優化模型性能、提高檢測精度需要針對具體行業特點采取定制化的策略和方法。
4" 結" 論
由于上市公司財務數據指標眾多,其與公司財務造假之間的關系復雜,本文選取樹基集成模型LgihtGBM結合遞歸特征消除法(RFE)進行數據建模,選用平衡精度進行模型預測性能度量。采用RFE方法可以根據指定的目標函數來確定最優特征組合,在篩選核心特征方面效果顯著;LightGBM作為樹基集成模型,其超參數較少,易于調參且訓練效率高,同時訓練出的模型穩健性強。本文將從兩個方面解決樣本不平衡的問題:第一,在模型評估指標上選擇平衡精度,無論是超參數優化階段還是特征選擇階段,平衡精度(BAcc)都比常用的精度(Accuracy)更具客觀性,以BAcc為目標得到的最優超參數和最優特征子集都不會過度偏向對多數類的預測;第二,將LightGBM中的分類權重參數calss_weight設為“balanced”,這可以有效對抗樣本類別不平衡的問題。上述兩種處理方法確保了最終模型的均衡性,使模型針對造假和未造假公司的區分能力更強。從所選取5個行業數據的實驗結果可以看出,RFE-LGB模型能夠在僅使用少量特征的情況下,依然取得出色的預測效果。
盡管如此,本文的研究仍有改進空間。特別是,模型的泛化能力需要通過增強數據集的多樣性和代表性來提升,模型的解釋性可以通過引入更先進的解釋性技術來提高,以便專家更好地理解模型預測的原因。此外,通過探索更復雜的特征工程技術,引用較高級的超參數優化策略,采用更廣泛的樣本不平衡處理方法,可以進一步提升模型的性能。最后,定期更新模型以適應新的數據模式,進行更全面的實驗驗證和與其他模型的比較分析,都是確保研究成果實用性和有效性的關鍵步驟。
參考文獻:
[1] ZHOU Z H,FENG J. Deep forest [J].National Science Review,2019,136(1):74-86.
[2] CHEN T Q,GUESTRIN C. XGBoost: A Scalable Tree Boosting System [J/OL].arXiv:1603.02754v2 [cs.LG].[2024-02-12].https://arxiv.org/abs/1603.02754v2.
[3] KE G L,MENG Q,FINLEY T,et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree [C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. [S.l.]:Curran Associates Inc,2017:3149-3157.
[4] 周志華.機器學習 [M].北京:清華大學出版社,2016.
[5] 吳辰文,梁靖涵,王偉,等.基于遞歸特征消除方法的隨機森林算法 [J].統計與決策,2017(21):60-63.
[6] 李豫,方子強,黃敏婷.基于BP-神經網絡與SMOTE算法的上市公司財務數據造假分析 [J].現代信息科技,2021,5(4):121-125.
[7] ALMHAITHAWI D,JAFAR A,ALJNIDI M. Correction to: Example-dependent cost-sensitive credit cards fraud detection using SMOTE and Bayes minimum risk [J/OL].SN Applied Sciences,2020,2(12)[2024-02-16].https://link.springer.com/article/10.1007/s42452-020-03810-y.
[8] 張悅,宋海濤.基于代價敏感學習的財務造假識別研究 [J].財會研究,2022(2):22-29.
[9] DUSHIMIMANA B,WAMBUI Y,LUBEGA T,et al. Use of Machine Learning Techniques to Create a Credit Score Model for Airtime Loans [J].Journal of Risk and Financial Management,2020,13(8):1-11.
[10] JUNIOR L M,NARDINI F M,RENSO C,et al. A Novel Approach to Define the Local Region of Dynamic Selection Techniques in Imbalanced Credit Scoring Problems [J/OL].Expert Systems with Applications,2020,152.[2024-02-09].https://doi.org/10.1016/j.eswa.2020.113351.
[11] GOODFELLOW L,BENGIO Y,COURVILLE A. 深度學習 [M].北京:人民郵電出版社,2017.
[12] 數睿思.2021年(第9屆)“泰迪杯”數據挖掘挑戰賽 [EB/OL].https://www.tipdm.org:10010/#/competition/
1354705811842195456/question.
作者簡介:陳夢媛(2001.07—),女,漢族,河南駐
馬店人,本科在讀,研究方向:金融數據挖掘;南嘉琦(1995.
09—),女,漢族,河南洛陽人,助教,碩士研究生,研究方向:公司金融、金融計量;通訊作者:王靜賽(1997.01—),男,漢族,河南南陽人,助教,碩士研究生,研究方向:數據科學、統計機器學習與金融數學交叉。
收稿日期:2024-04-09
基金項目:河南財政金融學院2023年大學生創新訓練計劃項目(202311652029)