999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征篩選和代價敏感學習的財務預警研究

2021-11-13 07:30:14任婷婷魯統宇教授張偉楠中國計量大學經濟與管理學院浙江杭州310018
商業會計 2021年20期
關鍵詞:分類財務模型

任婷婷 魯統宇(教授) 張偉楠 (中國計量大學經濟與管理學院 浙江杭州 310018)

一、引言

隨著全球經濟的不斷發展,上市公司受到國內外各方面的沖擊和壓力持續增大,內外部不確定因素的增多使得企業經營的難度日益增大,一旦管理不善就可能導致企業的業績下滑甚至發生破產。而財務困境一旦發生不僅會給企業帶來嚴重的負面影響,還會造成股市的動蕩,傷害投資者的利益。對上市公司進行財務預警,可以幫助企業提高警惕,改善財務狀況,避免財務困境的發生;也可以給銀行、基金等相關機構釋放投資信號,避免遭受損失。因此,構建有效的財務困境預警模型有著重要的現實意義。

二、文獻綜述

在現有研究中,財務預警常被視為二分類問題來處理,即以上市公司是否被特殊處理(Special Treatment,ST)作為劃分標志,研究的重點在于如何構建有效的預測分類模型。近年來,關于財務預警的研究取得了重大進展,采用的方法可大致分為統計學習和機器學習。Fitzpatrick[1]和Beaver[2]利用單變量模型進行財務預警,但該模型強烈依賴于單一指標,結果較不穩定。在單變量模型預測的基礎上,Altman[3]運用多元線性判別分析,將22個初始財務比率指標篩選為5個變量,并以此構造了Z-score模型,該模型準確率較高,并在財務預警領域得到了廣泛的應用。國內關于預警模型的研究起步相對較晚,周首華等[4]在Z-score模型的基礎上添加現金流量因素,構建了F分數模型;楊淑娥和徐偉剛[5]則將主成分分析和Z-score相結合構建了Y分數模型,兩個模型均能取得良好的預測結果。隨著計算機技術的發展,機器學習方法的興起為財務預警問題提供了一個新思路,其也因準確率高、泛化性能強等優點得到了廣泛的應用。Ohlson[6]以105家困境公司和2 058家健康公司為研究對象,將Logistic回歸分析應用于財務預警問題中。Ding et al.[7]和 Gogas et al.[8]分別將支持向量機應用于中國企業和美國企業,均取得了比統計學習方法更好的預測性能。Shahbazi[9]分析并構建了決策樹模型,對銀行客戶的風險預警取得了89.38%的預測準確率,性能優秀。不同的文獻針對模型的好壞有各自的見解,統計模型雖然所需參數少、結構簡單、訓練時間短,但仍然會受到統計假設以及多重共線性等因素的影響[10],而機器學習最大的問題就是調參過程繁瑣和模型的可解釋性不足。

現有的一系列研究表明學者對財務預警問題的關注,建立的模型結果具有一定的借鑒意義。然而財務預警領域中普遍存在特征冗余問題,數據之間強烈的相關性不僅會造成模型的訓練時間過長,也會對準確率產生負面影響。因此,部分學者進行了針對性的研究:宋鵬等[11]利用粗糙熵的方法篩選特征,并在此基礎上利用Logistic回歸建立了RS-Logistic預警模型,該模型比傳統Logistic模型的準確率高;羅康洋和王國強[12]利用改進MRMR算法進行特征選擇,得到了更為簡潔、準確的特征集;游俊紅[13]構造了現金流量指標體系,利用熵權理論對不同指標賦予權重以進行特征篩選,研究結果證明了模型的可行性和實用性。

此外,在財務預警領域中,發生財務困境的企業要遠遠少于未發生財務困境的健康企業,此類數據分布不平衡問題會使傳統模型在學習過程中發生偏移,導致少數類樣本分類準確度不高,而ST公司的正確預警正是該領域研究重點關注的對象,是衡量模型的重要標準。針對此類問題,現有研究主要從數據和算法兩個層面進行改進。數據層面是指利用重采樣平衡原數據集的類別分布比例以消除不平衡性,可分為欠采樣、過采樣和混合采樣。欠采樣和過采樣分別通過減少多數類樣本和增加少數類樣本的方式平衡數據集,混合采樣則將兩者結合。Chawla et al.[14]提出了一種隨機過采樣的改進算法——合成少數類過采樣技術(SMOTE),該方法在不平衡分類領域應用廣泛。夏利宇和何曉群[15]利用迭代逆向重抽樣使模型的關注中心由多數類轉移至少數類,并將各弱分類器集成為強分類模型,該模型在真實數據集中的表現良好。算法層面則是對原有模型進行改進以更加適應不平衡數據集的特殊分類需求,包括代價敏感和集成學習。代價敏感的基本思想是通過引入代價敏感因子改變分類器的內部構造,使其錯分代價最小[16],而集成學習則將若干個基分類器集成,通過綜合多個分類器的分類結果以獲得更好的模型性能。其中的著名代表是Fraud和Schapire[17]于1997年提出的AdaBoost算法,其基本思想為:在基分類器訓練過程中,不斷增大錯分樣本的權重,而相對減小對分樣本的權重,從而提高錯分樣本在模型中的重要性。AdaBoost算法的分類準確率高,已被廣泛應用到財務預警領域中。Tao et al.[18]將代價敏感支持向量機作為基分類器,改進AdaBoost框架的樣本權重更新公式,構建了一個以少數樣本分類準確率為目標的分類模型。顧玉萍和程龍生[19]以馬田系統作為AdaBoost的基分類器,對2010—2015年間的財務危機進行預警研究,證明集成算法模型的分類效果要優于其他的單一分類器。

基于此,本文重點研究財務預警領域中的特征冗余和數據分布不平衡問題。首先通過雙重顯著性檢驗和主成分分析進行特征篩選與降維,之后將錯分代價引入多個機器學習算法以構建代價敏感模型,實證研究中的對比分析和穩健性檢驗證明了該模型的有效性和穩健性。

三、機器學習算法及代價敏感學習

(一)機器學習算法

1.邏輯回歸(Logistic Regression,LR)。邏輯回歸是一種用來處理二分類問題的模型,通過線性回歸和Sigmoid階躍函數得到。首先為每個特征變量xi乘一個回歸系數wi,將其相加得到線性回歸模型。之后通過Sigmoid階躍函數得出分類結果,概率大于0.5的被分入1類,小于0.5的被分入0類。線性回歸模型和Sigmoid階躍函數形式如式(1)和式(2)所示 :

綜合兩式,可得到LR模型的常用表達公式為:

2.支持向量機(Support Vector Machines,SVM)。傳統SVM以總體樣本分類準確度最高為模型目標,目的是求解能正確劃分數據集的超平面,并使分割超平面的幾何間隔最大。其基本思想為:設訓練樣本集D={(Xi,Yi)},i=1,2,…,n;Xi∈Rn,n 代表特征向量維數;Yi∈(-1,+1)代表不同的分類類別。若樣本集D線性可分,則SVM需要找到一個最優超平面ωTx+b=0將兩類樣本分開,其中ωT為法向量,b為位移項;當樣本集線性不可分時,引入松弛變量ξi≥0和懲罰因子C,C表示對錯分類樣本的懲罰程度,取值越大代表懲罰力度越大,此時的目標函數為:

3.決策樹(Decision Tree,DT)。決策樹是一種自上而下的貪心學習算法。它從根節點開始,根據事先設定的劃分屬性獲取分支節點,并通過遍歷得到一個樹狀的分類模型。分支節點包括內部節點和葉節點,前者代表對某個屬性進行測試,后者則對應最終的決策結果。

為避免模型過擬合,需對初始生成的決策樹進行剪枝。剪枝以是否帶來泛化性能的提升為判斷依據,按照操作順序分為預剪枝和后剪枝。預剪枝在決策樹分裂過程中進行,若某個內部節點的分裂沒有提升整體的泛化性能,則拒絕劃分并將其標記為葉節點。后剪枝則在決策樹生成后進行,如果某內部節點替換為葉節點會帶來泛化性能的提升,則進行替換。在決策樹生成過程中,常用的劃分最優屬性的標準包括信息增益、信息增益比率和基尼系數,分別構成ID3、C4.5和CART決策樹。

(二)代價敏感學習

傳統的分類算法基于誤分類代價相等的假設,以整體的分類準確率最高為模型目標,忽視了不平衡數據中少數類樣本的特殊性,對其幾乎沒有識別能力,即使總體的分類準確率高,但困境企業的分類準確率很低。而在現實生活中,因ST企業的錯誤預警會給社會帶來更為嚴重的影響,所以需重點關注模型對少數類樣本的識別能力。

利用代價敏感學習處理數據不平衡問題的原理在于:給予少數類以較大的錯分代價,多數類以較少的錯分代價,并以總體錯分代價最低為模型目標,使模型在構建過程中為降低總體的錯分代價而重點關注少數類樣本,從而有效改善傳統模型的學習偏移問題[16]。

1.代價敏感邏輯回歸(Cost-sensitive LR,CS_LR)。為適應不平衡樣本集的分類需求,克服傳統邏輯回歸在不平衡二分類問題上的不足,本文通過對數據集中少數類和多數類樣本賦予不同的錯分代價,得到CS_LR模型。

2.代價敏感支持向量機(Cost-sensitive SVM,CS_SVM)。在CS_SVM中,通過為不同類別設置不同的錯分代價,得到代價敏感支持向量機(Cost-sensitive SVM,CS_SVM)模型(Dhar和Cherkassky,2015),此時模型的目標函數為:

其中,n+代表少數類樣本數量,n-代表多數類樣本數量,C+代表少數類劃分為多數類的錯分代價,C-代表多數類劃分為少數類的錯分代價。

3.代價敏感決策樹(Cost-sensitive DT,CS_DT)。在決策樹生成過程中,不平衡數據集的類分布會影響到分裂節點的選擇[21],導致傳統模型在生成和剪枝過程中偏向多數類樣本的分類準確率。將錯分代價引入決策樹,改變了節點的分裂和剪枝標準[22],并以總體錯分代價最小為模型目標,少數類樣本較高的錯分代價權重使得其在模型訓練過程中的重要性增強,得到的CS_DT模型可有效應對財務預警中的不平衡二分類問題。

四、基于特征選擇與代價敏感的財務預警模型研究設計

(一)樣本與指標篩選

1.樣本選取。本文選取滬深A股制造業的企業為研究對象。此外,證監會的相關文件顯示,企業在t年被ST的一個主要原因是其在前兩年內持續虧損,因此t-1年和t-2年的財務數據對困境預警分析的意義不大[23]。同時為了保證模型的謹慎性,本文以t-3年的財務數據為基礎進行研究分析。數據來源于Wind數據庫,操作均用Python 3.6實現。

樣本的選取參考田寶新和王建瓊[24]的步驟:首先從Wind數據庫中提取滬深A股上市公司中在2019年內因“財務狀況異常”而被ST或*ST的制造業類別企業,在剔除上市時間不足3年以及數據缺失過多的企業后,得到52個ST樣本;其次,根據行業和資產規模相匹配的原則,按照1∶3的比例選擇156家非ST企業;最后,將這208個樣本與其2016年的年度財務數據相匹配得到最終數據集。之后,對獲得的數據集進行預處理:對離群值進行1%雙側縮尾處理;用各指標的中值填充缺失值;對數據進行最大最小標準化處理。

參考相關文獻,本文依據科學性、嚴謹性和完整性的原則選取了43個財務指標,這些指標涵蓋了企業的償債能力、盈利能力、營運能力、成長能力、股東盈利能力和現金流量能力等。同時,選取了7個非財務指標作為補充,最終得到的指標體系如表1所示。

表1 財務預警模型指標體系

2.雙重顯著性檢驗。本文把發生財務困境的ST企業記為“1”,未發生財務困境的健康企業記為“0”,分為兩組樣本,之后通過雙樣本Kolmogorov-Smirnov(K-S)檢驗和Mann Whitney-U(MW-U)檢驗對初始指標體系進行顯著性檢驗,逐一判斷各個指標的取值在兩個組別之間是否存在顯著差異。K-S檢驗和MW-U檢驗均為非參數檢驗,不要求數據服從特定分布,前者用來檢驗兩總體分布是否存在顯著差異,后者用來檢驗兩個總體的中位數是否一致。根據檢驗結果:X8、X9、X21、X22、X25、X26、X27、X28、X29、X32、X40、X42、X43、X44、X49 和 X50 等16個指標在兩個檢驗的P值均大于0.05,說明這些指標無法對兩類企業進行區分,故將其刪去,保留剩余34個指標。

3.主成分降維。主成分分析(Principal Components Analysis,PCA)是財務預警研究中常用的特征降維方法[23,25,26]。其基本思想是利用正交變換將原始變量投影為一組相互獨立的主成分,并確保這些主成分能夠涵蓋原始數據集的所有信息,從而消除冗余變量,避免數據之間的相關性對模型準確率產生影響。本文在雙重顯著性檢驗的基礎上進行主成分降維,最終得到的8個主成分涵蓋了原34個指標80%以上的信息,結果如表2所示。

表2 主成分分析結果

(二)參數設置

代價敏感學習中的錯分代價通常由代價矩陣得出[21],但一個企業被錯誤預測帶來的經濟損失往往需要經過長時間的實踐或者采取專家學者的建議,真實的錯分代價很難界定和獲取。為保證模型的簡便性,本文認為錯分代價和數據集的不平衡程度有較大關系[12],引入的少數類和多數類的錯分代價分別如下所示:

其中,n+和n-分別表示少數類和多數類樣本數量,n為樣本總量。

(三)模型評價指標

傳統分類模型一般以樣本總體的分類準確率(Accuracy,ACC)作為評價指標,而在不平衡分類中,模型受多數類樣本的影響較大,即使少數類樣本全部被錯分為多數類樣本,也能取得較高的準確率,無法評價模型的真實性能。因此,本文引入少數樣本分類準確率(True Positive Rate,TPR)以衡量模型預測ST企業的能力,多數樣本分類準確率(True Negative Rate,TNR)以衡量模型預測非ST企業的能力。

此外,本文使用綜合指標AUC和G-mean值來評價分類器的整體分類性能。AUC是衡量分類器優劣的一個通用性能指標,其被定義為ROC曲線下的面積,得分不會受到數據集樣本分布的影響,且值越大表示分類器效果越好;G-mean則是TPR和TNR的綜合指標,反映分類器的總體分類性能,只有TPR和TNR得分均高時,G-mean得分才會較高。TPR、TNR和G-mean值可通過混淆矩陣(表3)求得,計算公式分別如式(12)-(14)所示。

表3 混淆矩陣

五、實證分析

(一)模型結果分析

在實驗過程中,本文按照7∶3的比例將初始數據集劃分為訓練集和測試集,前者用來獲取最優參數,后者則用來檢驗模型性能。同時,為避免隨機性對模型準確率造成干擾,本文進行了50次重復實驗,并將傳統機器學習模型定義為Model_Basic,代價敏感模型記為Model_CS,每個模型的得分均為三種機器學習方法的均值。Model_Basic和Model_CS在50次重復實驗中各個指標上的得分情況如圖1所示。可知,Model_CS比Model_Basic在G-mean值、AUC值和TPR值上均有提升,其中TPR值即ST企業的分類準確率有明顯提高,從而證明了代價敏感模型在不平衡財務預警方面的優勢。與此同時,TNR值在加入代價敏感因子之后有所下降,出現上述現象的原因在于二分類問題中由于受到樣本隨機和容量有限等問題的影響,很難實現TPR和TNR的同時提升[27]。在此基礎上,將Model_CS和Model_Basic進一步分解,得到的基礎模型在各個指標上的最終得分如下頁表4所示。

由下頁表4可以看出,三個傳統的機器學習模型在考慮錯分代價后得到的代價敏感模型在ST公司的分類準確率上有顯著的提升,這對財務預警領域來說尤為重要,證明了代價敏感學習方法的適用性和優越性。

表4 基于代價敏感的財務預警模型實驗結果

另外,在三個代價敏感模型中,CS_DT模型的表現值得關注。雖然該模型在TPR上的得分最高,但其大幅提升是以犧牲TNR值為代價的,TNR值得分從0.832降至0.553,導致AUC值和G-mean得分較低。雖然財務預警領域重點關注TPR值的提升,但TNR值過小同樣無法接受,故認為將CS-DT模型用作財務預警的風險較大。而CS_SVM和CS_DT在各指標上得分均良好,證明了其在不平衡財務預警領域上的適用性和可靠性,而前者在G-mean,TPR和TNR上得分更高,性能更優。

(二)穩健性檢驗

為探討代價敏感模型在不同不平衡率下的表現,本文又采用1∶5的不平衡比率對上述模型進行穩健性檢驗,得到的最終結果如表5所示。

表5 各模型穩健性檢驗結果

由表5可以看出,當不平衡程度增大至1∶5時,初始模型在TPR上的平均得分不到0.4,說明只有不到40%的ST樣本被正確檢測出來,這在財務預警領域是不可接受的,而代價敏感模型的TPR平均得分達到了0.736,進一步印證了代價敏感模型可以有效處理上市公司財務預警中的樣本分布不平衡問題。此時的CS_DT模型仍不穩定,TPR上得分高達0.779,而TNR得分最低,為0.587,導致在AUC值和G-mean值上得分最低,總體表現最差,而CS_SVM模型仍然表現最好。因此,在不同的不平衡率下,本文具有一致的研究結論。在穩健性檢驗中,Model_Basic和Model_CS在50次重復實驗中的得分情況如圖2所示。

圖2 穩健性檢驗過程中各指標得分

六、結論

本文以滬深A股制造業上市公司為研究對象,對財務預警中存在的特征冗余和數據分布不平衡問題進行了深入的研究。首先將雙重顯著性檢驗和主成分分析結合進行特征篩選和降維,之后將錯分代價引入機器學習算法以構建代價敏感模型,并通過多次重復實驗得到模型結果,最終證明代價敏感模型可有效應對財務預警領域中的不平衡問題,穩健性檢驗進一步證明了模型的可靠性。綜合以上的實證研究,本文得出以下結論:第一,特征冗余作為金融數據的一個特點,須進行一定的特征篩選和變換來避免多重共線性對模型準確率產生影響;第二,在不平衡財務預警中,代價敏感模型通過引入不同類樣本的錯分代價,能夠在模型構建過程中給予少數類更多權重,緩解傳統模型的學習偏移問題,顯著提升ST公司的分類準確度。

綜上所述,本文構建的預警模型對上市公司預防財務困境的發生具有一定的借鑒意義,然而有關該問題的研究仍存在進一步的提升空間。如在處理不平衡問題時,可以考慮數據層面的重采樣操作對模型整體效果的影響;另外,本文的工作是基于橫截面數據開展的,在后續研究中可以考慮指標在時間上的相依性,并采用二元動態面板數據模型進行研究分析。

猜你喜歡
分類財務模型
一半模型
黨建與財務工作深融合雙提升的思考
現代企業(2021年2期)2021-07-20 07:57:18
分類算一算
重要模型『一線三等角』
論事業單位財務內部控制的實現
重尾非線性自回歸模型自加權M-估計的漸近分布
欲望不控制,財務不自由
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 日韩不卡高清视频| 国产精品人莉莉成在线播放| 色欲色欲久久综合网| 午夜免费小视频| 丝袜高跟美脚国产1区| 欧美一级高清片欧美国产欧美| 91精品国产情侣高潮露脸| 无码精油按摩潮喷在线播放| 亚洲精品无码久久久久苍井空| 在线免费亚洲无码视频| 国产高清免费午夜在线视频| 香蕉久人久人青草青草| 亚洲色中色| 激情六月丁香婷婷| 狂欢视频在线观看不卡| 成年女人a毛片免费视频| 欧美在线网| 国产成人精品视频一区二区电影| 国产成人综合日韩精品无码首页 | 色婷婷综合激情视频免费看| 在线欧美日韩国产| 亚洲成人黄色网址| 天堂成人在线| 精品91自产拍在线| 毛片基地视频| 伊人久久大香线蕉综合影视| 亚洲精品无码不卡在线播放| 中文字幕无码av专区久久| 国产午夜精品一区二区三区软件| 尤物精品国产福利网站| 日本免费一区视频| 日韩A级毛片一区二区三区| 69视频国产| av尤物免费在线观看| 欧美成人怡春院在线激情| 久热精品免费| 一区二区午夜| 毛片免费高清免费| 欧美精品一区在线看| 久久午夜夜伦鲁鲁片无码免费| 国产精品久久国产精麻豆99网站| 国产精品大尺度尺度视频| 在线观看91精品国产剧情免费| 一级福利视频| 无码人妻热线精品视频| 无码区日韩专区免费系列| 18禁色诱爆乳网站| 国产高颜值露脸在线观看| 国产麻豆va精品视频| 精品少妇人妻一区二区| 婷婷激情亚洲| 国产成人无码综合亚洲日韩不卡| 五月丁香在线视频| 亚洲国产精品日韩欧美一区| 欧美午夜在线视频| 国产办公室秘书无码精品| 青青青国产在线播放| 一级毛片免费不卡在线| 伊人91在线| 国产91久久久久久| 国产精品女人呻吟在线观看| 69综合网| 国产成人亚洲无码淙合青草| 91成人在线免费观看| 中文字幕在线播放不卡| 超级碰免费视频91| 午夜在线不卡| 内射人妻无码色AV天堂| 久久毛片网| 99热这里只有精品久久免费| 五月天在线网站| 国产三级精品三级在线观看| 天天摸夜夜操| 美女啪啪无遮挡| 国产人成乱码视频免费观看| 亚洲第一福利视频导航| 久久99精品久久久久纯品| 91精品啪在线观看国产| 国产日本欧美亚洲精品视| 色综合综合网| 亚洲国产系列| 幺女国产一级毛片|