李林杰



隨著大數據時代的到來與機器學習方法的不斷的發展,如何系統挖掘并識別企業的財務報表中的欺詐風險,建立高識別率的財務欺詐風險預警模型,對于證券市場的規范運作,高效率完成審計工作具有重要意義。本文以我國制造業A股上市公司為例,在基本財務數據的基礎上從靜態、個體、時間三個維度進行指標構建,訓練了lightgbm、xgboost、catboost、svm4種模型,根據模型的特點不同分別采用貝葉斯優化與網格搜索法進行參數調優,最終將調優后的模型采用等權重voting法進行模型融合。結果發現:測試集上的AUC值可達到0.8,能夠對發生財務欺詐的企業進行有效識別,希冀能夠為機器學習方法在財務欺詐風險預警中的應用提供一定的思路與參考。
一、引言
近年來,隨著上市公司規模的增大,越來越多的財務欺詐開始出現。財務欺詐發生時將會對資本市場,個人投資者造成巨大傷害,不利于金融市場的良好發展,因此如何對財務欺詐進行有效識別與預警成為一個備受關注的問題。
在財務欺詐的方面,可以劃分為傳統人力審計與大數據識別模型兩種。傳統方法大多基于具有一定專業知識的審計類財務人員,運用其財務知識對企業的財務數據報表進行審查,這將耗費巨大的人力,效率與準確率都具有較大的局限性。隨著大數據技術的不斷發展,運用機器學習方法建立有效、高識別率的財務欺詐預警模型成為了可能。
本文的貢獻包括兩個方面:第一,特征工程。在從盈利、償債、資產管理、現金、成長五個維度構建靜態財務指標的基礎上,從公司個體維度構建橫向動態指標、從時間維度構建縱向動態財務指標,最終完成靜態、個體、時間三個維度的特征構建。第二,模型融合。在應用xgboost、lightGbm、catBoost、svm等優異的機器學習方法基礎上,通過等權重voting方法進行模型融合,進一步提高了對財務欺詐識別模型的準確率。
二、相關理論
(一)財務欺詐的動機
上市公司財務欺詐即因自身利益而在財務報告中采用故意錯報、瞞報等方式,以虛假的財務信息欺騙財務報表使用者的行為。財務欺詐的動機可分為外因和內因兩個部分:
外部原因主要體現在監管體制、會計制度和證券機制三個方面。由于監管體制的放松,會計制度在某些層面規定不嚴密,證券機制要求公司在上市前三年必須實現連續盈利,因此某些公司會鋌而走險發生財務欺詐行為。
內部原因即企業的利益驅動。經濟利益是企業的核心目的,為了吸取融資公司會通過財務欺詐來騙取投資方的信任。
(二)財務欺詐表現
雖然財務欺詐的表現形式多種多樣,總體來說可概括成以下四個方面:
1.會計資料:編制虛假會計報表、會計資料和其他資料。
2.會計政策方面:蓄意披露和使用與經濟事實不符的會計政策,掩蓋事實真相。
3.會計確認與計量:隨意變更財務指標,諸如資產、負債以及所有者權益等確認標準。
4.交易事項及記錄:沒有如實按實際的業務結果予以記錄。
三、實證分析
(一)數據來源
本文的研究對象為A股的制造業上市公司,其中企業的財務數據包括盈利、償債、現金等多個維度,包括5年的年度財務數據,涉及到300余個變量。數據來源為某大數據挖掘平臺。
(二)數據預處理
在數據預處理階段,主要對缺失值進行處理,將來原始數據中缺失值大于10%的變量剔除。剔除缺失值高的變量之后,在數據填充方面,對于每個指標,若公司有往年相關數據的話,使用公司歷年指標的平均值進行填充;若該公司沒有該指標的數據的話,通過該指標行業的平均值進行填充。
(三)特征工程
1.靜態指標
基于上市發生財務數據造假的動因及數據維度的劃分,借鑒張宏斌(2020)等學者的指標構建思路,本文從盈利、償債、資產管理、現金、成長五個維度構造靜態財務指標,如表1所示:
2.動態指標
考慮到機器學習方法對大數據的強擬合能力以及企業發生財務欺詐的動因與數據表現,本文在靜態財務指標的基礎上構建動態財務指標。在動態指標方面,從個體與時間維度分別構造橫向動態指標與縱向動態指標:
橫向動態指標即對當年與該行業其它公司的平均值做差值,幫助發現企業今年相對于行業平均變動的異常變動,若存在缺失值則用同年份該指標均值填充。
縱向動態指標即靜態指標與該公司往年指標的平均值做差值,幫助發現企業今年與往年相比是否存在指標的異常變動。其中若存在缺失值則用平均值進行填充;若該公司每年的指標均缺失,則用所有公司對應指標的平均值進行填充。
(四)數據集劃分
將前4年的數據為訓練集,以第5年的數據為測試集來對調優后的模型進行性能評估。為了不改變原始樣本的分布,在數據集劃分時通過python數據預處理函數train_test_split中的stratify參數進行分層劃分,劃分后的訓練集、驗證集、測試集的樣本量分別為6054、2595、2660。
(五)財務欺詐預警模型構建及調優
將經過靜態、個體、時間三個維度所構建特征作為自變量,以企業是否發生財務欺詐為因變量,分別訓練lightgbm、xgboost、catboost、svm模型,最終通過voting方法進行等權重模型融合,最終得到企業是否發生財務欺詐的預測結果,模型構建過程如圖1所示:
其中,在機器學習模型的訓練過程中將進行參數調優。參數調優的方法包括貝葉斯優化、網格搜索方法。貝葉斯優化方法的其主要思想是:給定優化的目標函數,然后不斷地添加樣本點,進而更新目標函數的后驗分布。相比于常規的網格搜索法而言具有以下優勢:
第一, 貝葉斯調參采用高斯過程,即利用之前的參數信息,不斷地更新先驗;而網格搜索未考慮之前的參數信息;
第二, 貝葉斯調參迭代次數少,速度快;而網格搜索速度慢,并且參數較多時易導致維度爆炸;
第三, 貝葉斯調參針對非凸問題依然穩健;網格搜索針對非凸問題易陷入局部最優。
考慮到不同模型與調參方法的優點,采用貝葉斯全局優化方法對lightgbm、xgboost、catboost模型的多個參數進行調優;采用網格搜索對svm模型進行參數調優,最終基于模型在測試集上的AUC指標對調參效果進行評價。各模型在測試集上的擬合效果對比結果如圖2所示:
通過圖2可以發現,在經過模型的參數調優后,各模型的AUC值均得到了提升,說明參數調優有效,得到了最優的單一模型。
(六)模型融合
在通過參數調優獲得最優的單一模型結果的基礎上,運用等權重voting投票法進行模型融合,結果如表2所示:
經過voting融合后,模型在測試集上的auc值達到了0.8,相對于單一的機器學習方法,模型融合進一步提升了對財務欺詐的識別能力,驗證了本文提出的財務欺詐風險預警模型的有效性。
四、結語
本文在上市公司基本財務數據的基礎上,對缺失值在10%以上的指標進行剔除處理。考慮到上市公司發生財務數據造假的動機、表現以及機器學習對高維數據的強擬合能力,從盈利、償債、資產管理、現金、成長五個維度構建了靜態財務指標,并在此基礎上從個體維度與時間維度分別構建了橫向動態指標與縱向動態指標,并將指標作為機器學習的輸入特征用于預測企業是否發生財務欺詐。通過lightgbm、xgboost、catboost、svm模型的訓練及調優后發現,除了svm模型外,其余模型在測試集上的auc值均能達到0.7以上,且相對于調參前的auc值均有效提高,說明經過調參的有效性。最終,采用Voting等權重投票法進行模型融合,最終結果在測試集上的auc值可達到0.8,能夠對財務欺詐風險進行有效的識別與預警。本文的核心工作在于特征構建與前沿機器學習方法、貝葉斯優化、模型融合的應用,通過制造業上市公司的財務數據的實證結果證明了本文的財務欺詐預警模型的有效性。
(作者單位:上海對外經貿大學)