江俊毅,蔣洪迅
(中國(guó)人民大學(xué)信息學(xué)院,北京 100872)
收益與風(fēng)險(xiǎn)永遠(yuǎn)并存.財(cái)務(wù)受困企業(yè)受限于融資成本高,傾向于發(fā)行更高回報(bào)率的企業(yè)債或其它證券.而高收益證券暗藏著高風(fēng)險(xiǎn),對(duì)企業(yè)財(cái)務(wù)困境預(yù)測(cè)研究一直是學(xué)界的熱點(diǎn)問題.以往的研究大都專注于預(yù)測(cè)上市企業(yè)陷入財(cái)務(wù)困境的概率,探求面臨的風(fēng)險(xiǎn)與潛在的收益之間的盈虧平衡點(diǎn).然而,事實(shí)上不少上市企業(yè)也實(shí)現(xiàn)了逆境求生、扭虧為盈,迄今卻少有文獻(xiàn)研究受困企業(yè)的脫困策略以及其可能性預(yù)測(cè),特別是并購(gòu)重組及其后續(xù)事件對(duì)上市企業(yè)的影響.
通過大數(shù)據(jù)預(yù)測(cè)上市企業(yè)的財(cái)務(wù)脫困,即險(xiǎn)境淘金,在現(xiàn)實(shí)生活中既是可能的又是可行的.首先,我國(guó)滬深股市很多陷入財(cái)務(wù)困境的上市企業(yè)仍然擁有一個(gè)寶貴的“殼”資源,其它非上市企業(yè)通過并購(gòu)重組、吸收合并、出清式資產(chǎn)置換等方式可以盤活這部分市場(chǎng)資源;其次,受到國(guó)際貿(mào)易態(tài)勢(shì)變化的影響,中國(guó)經(jīng)濟(jì)出現(xiàn)了明顯的產(chǎn)業(yè)升級(jí),從勞動(dòng)力密集型的產(chǎn)業(yè)轉(zhuǎn)移到科技密集型產(chǎn)業(yè),跨行業(yè)并購(gòu)重組數(shù)量逐年快速增長(zhǎng),這些事件對(duì)于分析企業(yè)未來經(jīng)營(yíng)狀況和擺脫財(cái)務(wù)困境有著越來越重要的理論價(jià)值和實(shí)踐意義;再次,傳統(tǒng)的財(cái)務(wù)數(shù)據(jù)存在著瞞報(bào)、漏報(bào)甚至造假的重大缺陷,即便在財(cái)會(huì)審計(jì)嚴(yán)格的美國(guó)股市也存在美化報(bào)表、隱瞞經(jīng)營(yíng)狀況、虛構(gòu)業(yè)務(wù)等的數(shù)字游戲,例如2020 年“瑞幸咖啡”事件;最后,監(jiān)管規(guī)范使得多源異構(gòu)大數(shù)據(jù)特征輸入變得可能,近年證監(jiān)會(huì)對(duì)上市企業(yè)的信息披露行為進(jìn)行了規(guī)范,特別是中文年報(bào)中的管理層討論與分析部分,蘊(yùn)含了企業(yè)經(jīng)營(yíng)狀況、財(cái)務(wù)狀況、治理水平、信用擔(dān)保和關(guān)聯(lián)關(guān)系等的大量信息,使得對(duì)其進(jìn)行深入挖掘變得具有現(xiàn)實(shí)可行性,針對(duì)文本信息披露的關(guān)聯(lián)挖掘成為財(cái)務(wù)預(yù)測(cè)的一個(gè)重要的研究方向.
縱觀財(cái)務(wù)困境及其脫困預(yù)測(cè)的相關(guān)研究,涉及到三個(gè)基本方向:輸入維度的挖掘、預(yù)測(cè)模型的探索、決策角度的選擇.
首先,在輸入維度方面,除了傳統(tǒng)的財(cái)務(wù)指標(biāo)等定量數(shù)據(jù),很多學(xué)者逐漸認(rèn)識(shí)到了MD&A 文本等定性數(shù)據(jù)對(duì)財(cái)務(wù)預(yù)測(cè)的重要性.Cole 等[1]較早提出MD&A 及其披露的信息有助于投資者預(yù)測(cè)企業(yè)未來業(yè)績(jī).薛爽等[2]針對(duì)國(guó)內(nèi)上市企業(yè),也發(fā)現(xiàn)中文年報(bào)具有重要的信息揭示作用.隨著大數(shù)據(jù)的積累,自然語(yǔ)言處理技術(shù)(natural language processing,NLP)的發(fā)展給我們提供新的強(qiáng)有力工具.Hanley 等[3]利用文本向量化方法度量MD&A 的信息含量.Khrystyna 等[4]利用NLP 技術(shù)將MD&A 信息應(yīng)用于企業(yè)收益預(yù)測(cè)的改進(jìn).陳藝云[5]利用中文MD&A 進(jìn)行財(cái)務(wù)困境預(yù)測(cè)的嘗試,驗(yàn)證了管理層語(yǔ)調(diào)為預(yù)測(cè)提供了新的信息.然而MD&A并非完美,管理層傾向于采取積極方式強(qiáng)調(diào)好消息而用模糊的語(yǔ)言報(bào)告壞消息以削弱消極影響[6],無法真實(shí)全面反映企業(yè)經(jīng)營(yíng)情況.對(duì)此,Huang 等[7],曾慶生等[8]對(duì)MD&A 進(jìn)行研究發(fā)現(xiàn),其文本會(huì)因管理層出于利己主義目的進(jìn)行有條件的語(yǔ)調(diào)操縱,反加劇了企業(yè)和投資者之間的信息不對(duì)稱.因此雖然MD&A 可以提供增量信息,但經(jīng)過語(yǔ)調(diào)管理后的MD&A 使得有限理性投資者更易陷入判斷的困境,需要新的信息來源加以修正.另外,并購(gòu)重組事件作為企業(yè)獲得和創(chuàng)造增長(zhǎng)機(jī)會(huì)的一項(xiàng)重要投資活動(dòng)[9],與企業(yè)脫困具有極大的相關(guān)性,是企業(yè)重要的脫困路徑之一[10].引入M&A 信息有望能夠減輕MD&A 語(yǔ)調(diào)粉飾帶來的影響,有利于衡量管理層因過度自信而導(dǎo)致的激進(jìn)的資產(chǎn)置換.然而目前對(duì)M&A 事件與財(cái)務(wù)困境的研究,多見于理論分析[10]以及案例研究[11,12],幾乎未見對(duì)其中定量定性信息進(jìn)行挖掘用以財(cái)務(wù)困境預(yù)測(cè)的先例.基于以上考量,本文在現(xiàn)有工作的基礎(chǔ)上,深入挖掘MD&A,M&A 事件中的定量定性信息,驗(yàn)證其對(duì)于財(cái)務(wù)困境及其脫困預(yù)測(cè)的有效性;分析其對(duì)于預(yù)測(cè)的具體作用;同時(shí)探究M&A 事件與管理層語(yǔ)調(diào)的交互作用,比較對(duì)僅用MD&A 時(shí)可能會(huì)出現(xiàn)的文本粉飾現(xiàn)象造成的影響;最后將其加入預(yù)測(cè)模型得到了更好的預(yù)測(cè)效果.
其次,在預(yù)測(cè)模型選擇方面,多源數(shù)據(jù)帶來了信息增量的新機(jī)遇,也給預(yù)測(cè)模型帶來噪聲、冗余和數(shù)據(jù)不平衡的新挑戰(zhàn).Beaver[13]最早采用單變量分析方法進(jìn)行了財(cái)務(wù)困境預(yù)測(cè)研究;吳世農(nóng)等[14]選用了6 個(gè)財(cái)務(wù)指標(biāo)建立了Logistic 預(yù)測(cè)模型;陳藝云[5]利用管理層語(yǔ)調(diào)以及9 個(gè)財(cái)務(wù)比率建立了離散時(shí)間風(fēng)險(xiǎn)模型.然而,這些模型所使用的數(shù)據(jù)量較小,特征選擇主要來自經(jīng)驗(yàn),存在較大的改善空間.在應(yīng)用高維數(shù)據(jù)預(yù)測(cè)領(lǐng)域,盧永艷等[15]采取了平均影響值SVM 方法實(shí)現(xiàn)對(duì)多維財(cái)務(wù)變量的選擇,方匡南等[16]提出了稀疏組Lasso支持向量機(jī)方法實(shí)現(xiàn)對(duì)財(cái)務(wù)比率組間變量和組內(nèi)變量的篩選,都取得了較好預(yù)測(cè)效果,但是這些研究在樣本數(shù)據(jù)集的選擇上都存在著一定的局限.
在正負(fù)樣本極度不平衡的應(yīng)用場(chǎng)景下,數(shù)據(jù)集采樣也是相關(guān)研究的重要挑戰(zhàn)之一.多數(shù)研究都是人為挑選,構(gòu)成趨近平衡的樣本集進(jìn)行預(yù)測(cè)[14,15,17,18].然而,挑選出的樣本集訓(xùn)練出來的模型只能應(yīng)用于同時(shí)代、同領(lǐng)域企業(yè)的預(yù)測(cè),對(duì)于其它企業(yè)效果不明朗,這勢(shì)必對(duì)于預(yù)測(cè)模型的泛化能力造成影響.目前的發(fā)展趨勢(shì)是一些學(xué)者已開始使用過采樣與欠采樣結(jié)合的方法[16]進(jìn)行改進(jìn).因此,本文構(gòu)造了一種基于集成學(xué)習(xí)的預(yù)測(cè)模型,將不平衡的正負(fù)樣本集切分成多個(gè)平衡的樣本子集分別進(jìn)行弱分類器的訓(xùn)練以解決數(shù)據(jù)不平衡的問題,同時(shí)將特征選擇嵌入模型中,對(duì)于分割后的平衡數(shù)據(jù)集挑選最佳特征以解決噪聲與冗余的問題.最后利用Boosting 方法加權(quán)各弱分類器的結(jié)果作為集成強(qiáng)分類器的最終結(jié)果.該集成學(xué)習(xí)模型的特點(diǎn)是對(duì)所有可用市場(chǎng)信息進(jìn)行學(xué)習(xí),模型學(xué)習(xí)的信息量更大,對(duì)于大多數(shù)企業(yè)更能普遍適用、推廣,有著更好的魯棒性和泛化能力,并且由于沒有人為挑選樣本,結(jié)果更加準(zhǔn)確客觀.同時(shí)集成學(xué)習(xí)綜合各分類器的結(jié)果,比單個(gè)分類器能有較顯著的效果提升.出于對(duì)少數(shù)類樣本誤分為多數(shù)類樣本的代價(jià)較大(識(shí)別財(cái)務(wù)困境企業(yè)與脫困企業(yè)的意義更大)的考慮,本文在模型中加入懲罰系數(shù),達(dá)到了更好的識(shí)別財(cái)務(wù)困境(脫困)企業(yè)的效果.通過篩選最優(yōu)預(yù)測(cè)變量,得到影響企業(yè)財(cái)務(wù)困境預(yù)測(cè)的主要因素,從而提出對(duì)財(cái)務(wù)困境企業(yè)的相關(guān)建議.
最后,在決策角度方面,多數(shù)研究聚焦于企業(yè)進(jìn)入財(cái)務(wù)困境的預(yù)測(cè),少有對(duì)于困境企業(yè)能否脫困進(jìn)行預(yù)測(cè)的研究.趙麗瓊等[19]曾對(duì)ST 企業(yè)摘帽脫困預(yù)測(cè)建立了一個(gè)Logit 回歸模型,探究影響困境企業(yè)恢復(fù)的因素,預(yù)測(cè)效果并不理想.另外還有一些研究分析“摘帽”的影響因素[20,21],及針對(duì)某些脫困企業(yè)的案例研究[22,23].實(shí)際上,相比于上市企業(yè)財(cái)務(wù)困境預(yù)測(cè),很多投資人更關(guān)注困境企業(yè)的轉(zhuǎn)機(jī),特別是上市企業(yè),其股票面臨退市的風(fēng)險(xiǎn)而處于價(jià)格低位,一旦企業(yè)恢復(fù)正常成功“摘帽”,其股價(jià)必定會(huì)出現(xiàn)報(bào)復(fù)性的反跳而產(chǎn)生巨大的價(jià)差收益.研究企業(yè)脫困的預(yù)測(cè)對(duì)于實(shí)際應(yīng)用以及股市投資者都有著很大的指導(dǎo)價(jià)值,但此領(lǐng)域的文獻(xiàn)卻有所缺失.本文采用前述的集成學(xué)習(xí)框架,通過對(duì)財(cái)務(wù)數(shù)據(jù)、MD&A 以及M&A 的挖掘進(jìn)行困境企業(yè)的脫困預(yù)測(cè),得到了較好的預(yù)測(cè)效果,并討論了不同時(shí)期宏觀經(jīng)濟(jì)環(huán)境和政策因素對(duì)預(yù)測(cè)模型的影響.
本文跳脫了通常的財(cái)務(wù)困境預(yù)測(cè),而更多著眼于財(cái)務(wù)脫困的研究新角度;在研究方法上也不再局限于傳統(tǒng)的上市企業(yè)財(cái)務(wù)數(shù)據(jù)分析,而是提出了一種多源大數(shù)據(jù)挖掘的上市企業(yè)財(cái)務(wù)預(yù)測(cè)的理論框架和實(shí)施方法.具體來說,本文不再局限于財(cái)務(wù)指標(biāo),而是集成企業(yè)財(cái)務(wù)數(shù)據(jù)、信息披露文本和并購(gòu)重組事件信息等多源數(shù)據(jù),探究其對(duì)于財(cái)務(wù)困境預(yù)測(cè)的影響;在決策角度上,不再局限于陷入困境的單方面預(yù)測(cè),而是開展企業(yè)解困的可能性和可行性預(yù)測(cè);在模型構(gòu)建上,提出一種改進(jìn)的多分類器集成學(xué)習(xí)預(yù)測(cè)模型,對(duì)不平衡數(shù)據(jù)進(jìn)行學(xué)習(xí),避免人工選擇樣本集造成的局限性和過擬合,保證預(yù)測(cè)效果、客觀性和泛化能力,同時(shí)在模型中嵌入了特征選擇流程以解決噪聲與冗余的問題;在評(píng)價(jià)體系上,同時(shí)采取了AUC 和TPR 兩種指標(biāo),前者長(zhǎng)于衡量非平衡數(shù)據(jù)集分類效果,后者可以保證模型對(duì)于少數(shù)類樣本的識(shí)別能力;鑒于財(cái)務(wù)困境樣本誤分為正常樣本(脫困樣本誤分為困境樣本)的代價(jià)較大的考慮,在模型中加入懲罰系數(shù),達(dá)到更好的識(shí)別效果.
MD&A屬于文本內(nèi)容,目前對(duì)于文本信息的量化處理,主流有兩種方式:第一種是基于詞典的方式,根據(jù)特定詞典或詞表對(duì)文本中正面、負(fù)面、不確定等各類特征詞的劃分來對(duì)文本進(jìn)行分類,從而從總體上表征文本的偏向程度[5],該方法可解釋性強(qiáng),可以明確影響文本整體偏向的具體詞匯及其數(shù)量從而對(duì)結(jié)果進(jìn)行解釋,但缺點(diǎn)是該方法受制于詞典的完備程度;第二種方法是基于文本向量化和機(jī)器學(xué)習(xí)的方式,將每個(gè)文本通過向量的形式進(jìn)行表示,其每個(gè)元素為文本中每個(gè)詞語(yǔ)出現(xiàn)的頻率,再利用機(jī)器學(xué)習(xí)算法訓(xùn)練文本分類的模型最后應(yīng)用于全部文本[24],該方法不要求有既定的詞典和先驗(yàn)的知識(shí),但在數(shù)據(jù)集有限時(shí)效果不好并且對(duì)于結(jié)果的可解釋性較差.由于MD&A 的樣本量和文本量有限,使用基于詞典的方法既有語(yǔ)言學(xué)依據(jù)又更加透明化,是更加合適的方法[25].因此,出于對(duì)量化效果和解釋性的考慮,本文借鑒謝德仁[26]、陳藝云[5]等的方法,使用基于詞典的方式對(duì)MD&A 文本信息進(jìn)行量化處理.
利用“Jieba”中文文本分詞模塊進(jìn)行文本分詞,在詞典選取方面,正面詞匯和負(fù)面詞匯的判斷基礎(chǔ)主要是由Loughran 等[27]的英文金融文本詞典(LM詞典)根據(jù)中文年報(bào)內(nèi)容翻譯為中文詞典,再結(jié)合情景進(jìn)行擴(kuò)充和完善得到.利用簡(jiǎn)單比例加權(quán)方法設(shè)定情感詞的權(quán)重,統(tǒng)計(jì)正、負(fù)面詞匯詞頻,借鑒Henry[28]、Brockman[28]等的經(jīng)典做法,構(gòu)造量化MD&A 信息的管理層語(yǔ)調(diào)變量為
其中POSPEC 表示正面詞匯數(shù)量占全部詞語(yǔ)總數(shù)的比例,NEGPEC 表示負(fù)面詞匯數(shù)量占全部詞語(yǔ)總數(shù)的比例,TONE 表示管理層討論與分析部分的凈語(yǔ)調(diào),取值范圍為[?1,1].
2.1.1 并購(gòu)重組事件信息的量化處理
并購(gòu)與重組可以進(jìn)行大致區(qū)分:并購(gòu)主要涉及企業(yè)股權(quán)結(jié)構(gòu)的調(diào)整,目標(biāo)大多指向企業(yè)控制權(quán)的變動(dòng),核心內(nèi)容是“股東準(zhǔn)入”;重組則主要涉及企業(yè)資產(chǎn)、債務(wù)及業(yè)務(wù)結(jié)構(gòu)的調(diào)整,目標(biāo)是優(yōu)化企業(yè)的資產(chǎn)規(guī)模和質(zhì)量、產(chǎn)業(yè)或行業(yè)屬性,核心內(nèi)容是“資產(chǎn)業(yè)務(wù)準(zhǔn)入”[30].自出現(xiàn)以股權(quán)類證券作為交易支付手段后,兩類“準(zhǔn)入”可通過一項(xiàng)交易同時(shí)完成,二者之間的界限逐漸模糊.因此本文將兩者的效果合并討論.為將并購(gòu)重組事件信息引入預(yù)測(cè)模型,本文首先從理論上對(duì)其有效性進(jìn)行分析.
2.1.2 并購(gòu)重組事件信息的有效性分析
并購(gòu)重組事件反映管理層的素質(zhì).梁國(guó)勇[31]曾對(duì)企業(yè)并購(gòu)的動(dòng)機(jī)進(jìn)行了研究,認(rèn)為企業(yè)發(fā)生并購(gòu)行為的根本動(dòng)機(jī)是尋求利潤(rùn)最大化,并購(gòu)行為實(shí)際為競(jìng)爭(zhēng)優(yōu)勢(shì)實(shí)現(xiàn)了雙向轉(zhuǎn)移并建立了新的競(jìng)爭(zhēng)優(yōu)勢(shì),因此可以認(rèn)為主動(dòng)尋求并購(gòu)行為的管理層在積極地為企業(yè)謀求發(fā)展優(yōu)勢(shì),而積極作為的管理層對(duì)于企業(yè)經(jīng)營(yíng)有著重要的作用.另一方面,姜付秀等[32]研究認(rèn)為,企業(yè)的過度擴(kuò)張(并購(gòu)作為一種主要手段)反映了管理層的過度自信,雖然過度自信的管理層傾向于選擇努力工作[33],但過度自信也與企業(yè)財(cái)務(wù)困境有很大的相關(guān)關(guān)系.
并購(gòu)重組事件體現(xiàn)企業(yè)的發(fā)展階段.姚益龍等[34]的研究發(fā)現(xiàn),初創(chuàng)期的企業(yè)規(guī)模較小,內(nèi)部資金流轉(zhuǎn)和外部籌資等都較為困難,不適合并購(gòu);成長(zhǎng)期、成熟期的企業(yè)積累了較多過剩資源,為獲得協(xié)同效應(yīng)和降低經(jīng)營(yíng)風(fēng)險(xiǎn),常進(jìn)行縱向或混合并購(gòu);而衰退期企業(yè)生產(chǎn)萎縮,財(cái)務(wù)惡化,現(xiàn)金流枯竭,常處于待并購(gòu)或被并購(gòu)的地位.因此可以認(rèn)為,企業(yè)在并購(gòu)重組事件中的角色在一定程度上反映了企業(yè)的經(jīng)營(yíng)發(fā)展?fàn)顩r.
并購(gòu)重組事件實(shí)現(xiàn)企業(yè)資源、債務(wù)、管理層的重新整合.買方可通過獲得標(biāo)的的控制權(quán)來實(shí)現(xiàn)對(duì)其競(jìng)爭(zhēng)優(yōu)勢(shì)的獲取;而賣方可通過資金的匯入實(shí)現(xiàn)債務(wù)結(jié)構(gòu)的改善緩解財(cái)務(wù)壓力,通過企業(yè)管理層結(jié)構(gòu)的優(yōu)化、引入先進(jìn)的管理經(jīng)驗(yàn)而實(shí)現(xiàn)企業(yè)經(jīng)營(yíng)策略的優(yōu)化,從而有助于走出困境;對(duì)于雙方而言,可獲得擴(kuò)大生產(chǎn)規(guī)模、實(shí)現(xiàn)經(jīng)驗(yàn)共享與互補(bǔ)、獲得穩(wěn)定的供銷渠道、提高市場(chǎng)份額以及多角化經(jīng)營(yíng)等的協(xié)同效應(yīng).
因此,可以說企業(yè)歷史的并購(gòu)重組事件從許多方面體現(xiàn)著企業(yè)未來的經(jīng)營(yíng)以及財(cái)務(wù)狀況,對(duì)于企業(yè)財(cái)務(wù)困境的預(yù)測(cè)有著很大的指導(dǎo)意義.
2.1.3 并購(gòu)重組事件信息的特征提取
基于以上分析,本文構(gòu)建了系列指標(biāo)以對(duì)上述作用進(jìn)行表征,定義樣本企業(yè)年度內(nèi)并購(gòu)重組(只計(jì)交易成功的)總次數(shù)NUM(即頻率)以表征企業(yè)進(jìn)行并購(gòu)重組的積極程度;定義樣本企業(yè)年度內(nèi)并購(gòu)重組總金額SUM 以表征企業(yè)并購(gòu)重組(資產(chǎn)變更)總規(guī)模;同時(shí)區(qū)分交易地位分別定義作為買方的并購(gòu)重組次數(shù)BUNUM,作為買方的交易總金額BUSUM,作為賣方的并購(gòu)重組次數(shù)SENUM,作為賣方的交易總金額SESUM,作為標(biāo)的方的并購(gòu)重組次數(shù)BDNUM,作為標(biāo)的方的交易總金額BDSUM 以衡量企業(yè)在交易中所處的不同角色及其規(guī)模.
集成學(xué)習(xí)是指通過聯(lián)合同種算法或多種不同算法,利用不同的特征和數(shù)據(jù),訓(xùn)練出穩(wěn)健的魯棒的模型.其中每一個(gè)算法都是一個(gè)弱分類器,聯(lián)合各個(gè)弱分類器的結(jié)果得到最終的強(qiáng)分類器,一般來說強(qiáng)分類器的效果將顯著優(yōu)于單個(gè)弱分類器.本文在Liu[35]處理不平衡數(shù)據(jù)問題的基礎(chǔ)上建立了一個(gè)集成學(xué)習(xí)預(yù)測(cè)模型框架,如圖1 所示,以兼顧提升預(yù)測(cè)精度、處理不平衡數(shù)據(jù)、特征選擇和誤分類懲罰等多個(gè)目的.
財(cái)務(wù)困境企業(yè)數(shù)據(jù)為典型的不平衡數(shù)據(jù)集.已有的研究中,對(duì)于此類預(yù)測(cè)問題的樣本集的選擇,一般是通過人為挑選與困境企業(yè)規(guī)模、領(lǐng)域相類似的企業(yè)作為對(duì)應(yīng)樣本加入樣本集中,而未考慮到其它類型企業(yè)的狀況.或是通過對(duì)多數(shù)類欠采樣(舍去其它大量樣本)構(gòu)造單個(gè)的預(yù)測(cè)模型.由于沒有學(xué)習(xí)到其它絕大多數(shù)企業(yè)的信息,對(duì)于未挑選到的企業(yè)來說,模型的預(yù)測(cè)效果無法得到保障,因此存在嚴(yán)重的過擬合問題,缺乏泛化能力和實(shí)際應(yīng)用意義,同時(shí)人為選擇也無法保證模型預(yù)測(cè)效果的客觀準(zhǔn)確性.因此本文對(duì)所有可用樣本全集進(jìn)行處理以學(xué)習(xí)所有樣本的數(shù)據(jù)特征,通過對(duì)非平衡數(shù)據(jù)集進(jìn)行多次采樣得到多個(gè)平衡數(shù)據(jù)集分別建立弱分類模型最后加以集成以規(guī)避上述問題.
以困境預(yù)測(cè)為例,設(shè)樣本全集中財(cái)務(wù)困境企業(yè)(少數(shù)類)集合為P,經(jīng)營(yíng)正常企業(yè)(多數(shù)類)集合為N,即|P| ?|N|,|·|表示集合的樣本量.從N中進(jìn)行隨機(jī)采樣選取出子集N′,使|N′|=|P| ?|N|.取T=「|N|/|P|?,「·?表示向下取整,重復(fù)隨機(jī)采樣T次,得到從N中采樣所得的正常企業(yè)樣本子集N1,N2,...,NT.T個(gè)樣本子集中的總樣本數(shù)不小于|N|且為保證每次采樣中樣本企業(yè)選取的隨機(jī)性,使用有放回隨機(jī)采樣.每個(gè)正常企業(yè)樣本子集Ni與財(cái)務(wù)困境企業(yè)樣本全集P構(gòu)成了一個(gè)平衡的樣本集,至此已構(gòu)造了T個(gè)平衡的樣本集{N1,P},{N2,P},...,{NT,P}.
反映企業(yè)經(jīng)營(yíng)的指標(biāo)眾多,僅可用的財(cái)務(wù)指標(biāo)就超過一百余項(xiàng),但其中很多是噪聲或冗余,難以通過經(jīng)驗(yàn)或理論排除.因此在建模時(shí)要求模型具有特征擇優(yōu)的能力,不僅減少過擬合、減少特征數(shù)量、提高模型泛化能力,而且還可以使模型獲得更好的解釋性,加快模型的訓(xùn)練速度獲得更好的性能.常見的特征選擇方法對(duì)非平衡數(shù)據(jù)的處理效果很差,因此本文將特征選擇嵌入模型中,對(duì)經(jīng)過采樣生成的平衡數(shù)據(jù)集進(jìn)行遞歸特征消除以減小噪聲與冗余.
對(duì)于每個(gè)平衡的樣本集{Ni,P},構(gòu)造基模型Vi并進(jìn)行不多于K ?1 輪的訓(xùn)練(K為原始特征數(shù),包括管理層語(yǔ)調(diào)指標(biāo)、企業(yè)并購(gòu)重組事件指標(biāo)以及財(cái)務(wù)指標(biāo)),第一輪在原始的K維特征集上訓(xùn)練,每個(gè)特征獲得一個(gè)權(quán)重,每輪訓(xùn)練后從特征集中移除權(quán)值系數(shù)最小的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練,如此往復(fù)遞歸直至遍歷所有特征.記第j個(gè)被移除(可并列)的特征重要性得分為K ?j+1,記最后的一維特征得分為1,記所有的K維特征的重要性得分分別為Ri1,Ri2,...,RiK,則取值范圍為
取值越小表示特征越重要.對(duì)所有的T個(gè)樣本對(duì)分別進(jìn)行上述特征遞歸特征消除,可得T ×K維的特征重要性得分矩陣.綜合T個(gè)樣本對(duì)進(jìn)行特征選擇,構(gòu)造表征第n維特征重要性的變量為
對(duì)n個(gè)RSUM 值進(jìn)行排序,RSUM 值越小表示特征的重要性程度越高,對(duì)于模型的預(yù)測(cè)作用越大.通過對(duì)保留特征數(shù)進(jìn)行優(yōu)化調(diào)整可得到最佳預(yù)測(cè)效果時(shí)的特征數(shù)以及目標(biāo)預(yù)測(cè)效果時(shí)的最小特征數(shù).
Boosting 提升算法是一種可以用來減小監(jiān)督學(xué)習(xí)偏差的機(jī)器學(xué)習(xí)算法,在迭代訓(xùn)練弱分類器過程中,樣本數(shù)據(jù)根據(jù)是否被正確分類來進(jìn)行加權(quán)以強(qiáng)化對(duì)分類錯(cuò)誤數(shù)據(jù)的學(xué)習(xí).每個(gè)弱分類器根據(jù)其分類準(zhǔn)確率被分配不同的權(quán)重,最后將弱分類器按權(quán)重集成,作為強(qiáng)分類器最終的輸出結(jié)果.
本文將進(jìn)行特征選擇后的T個(gè)平衡樣本對(duì)記為.對(duì)每個(gè)樣本對(duì)利用Adaboost 提升算法訓(xùn)練集成學(xué)習(xí)分類器H1,H2,...,HT.Hi由s個(gè)弱分類器hi1,hi2,...,his以及對(duì)應(yīng)的權(quán)重αi1,αi2,...,αis構(gòu)成,i=1,2,...,T,其中弱分類器學(xué)習(xí)算法的選擇與遞歸特征消除時(shí)所建立的基模型保持一致.
設(shè)m為每個(gè)平衡樣本對(duì)中的企業(yè)樣本數(shù),選用的基分類學(xué)習(xí)算法為ξ,進(jìn)行共Q輪迭代.以{N′,P}={(x1,y1),(x2,y2),...,(xm,ym)}的訓(xùn)練為例,x為輸入特征y為標(biāo)簽.設(shè)每個(gè)企業(yè)樣本權(quán)值為
初始化樣本權(quán)值分布為
對(duì)每輪迭代(以第q輪為例),基于權(quán)值分布Dq從數(shù)據(jù)集{N′,P}中訓(xùn)練出的基分類器
設(shè)P(·)表示分類器預(yù)測(cè)結(jié)果發(fā)生的概率,則該基分類器的誤差率為
若該基分類器誤差率?q >0.5,則該基分類器沒有效果,反之在該基分類器有效的情況下計(jì)算其參與最終決策的權(quán)重為
根據(jù)對(duì)每個(gè)企業(yè)樣本是否陷入財(cái)務(wù)困境(或是否成功脫困)的預(yù)測(cè)的正確與否更新樣本的權(quán)重,預(yù)測(cè)正確的降低權(quán)重,預(yù)測(cè)錯(cuò)誤的增加權(quán)重繼續(xù)加以訓(xùn)練,即
考慮到將財(cái)務(wù)困境企業(yè)誤判為正常企業(yè)未能識(shí)別出企業(yè)的財(cái)務(wù)風(fēng)險(xiǎn)的后果較嚴(yán)重,而將脫困企業(yè)從困境企業(yè)中識(shí)別的收益較大,因此對(duì)于此類誤判情況在樣本權(quán)重調(diào)整系數(shù)Dq+1(x)的基礎(chǔ)上再乘以一個(gè)懲罰系數(shù)β,即
讓財(cái)務(wù)困境企業(yè)樣本誤判為正常企業(yè)、將脫困企業(yè)樣本誤判為困境企業(yè)的代價(jià)加大,以提高模型對(duì)于財(cái)務(wù)困境風(fēng)險(xiǎn)以及脫困機(jī)會(huì)的識(shí)別能力.
經(jīng)過以上步驟重復(fù)訓(xùn)練,可得到H的一系列基分類器h1,h2,...,hs以及對(duì)應(yīng)的權(quán)重α1,α2,...,αs.同理,對(duì)所有的T個(gè)平衡樣本對(duì),可得到h11,h12,...,h1s,h21,h22,...,h2s,...,hT1,hT2,...,hT s共T ×s個(gè)基分類器以及對(duì)應(yīng)的權(quán)重α11,α12,...,α1s,α21,α22,...,α2s,...,αT1,αT2,...,αT s.將所有的基分類器分類結(jié)果按權(quán)重集成,得到最終強(qiáng)分類器輸出為
對(duì)于非平衡數(shù)據(jù)的預(yù)測(cè),不能只簡(jiǎn)單地以總預(yù)測(cè)精度作為評(píng)價(jià)指標(biāo),而應(yīng)綜合考慮真陽(yáng)性、假陽(yáng)性、真陰性以及假陰性問題.對(duì)此,將真陽(yáng)性率(TPR)定義為縱軸,假陽(yáng)性率(FPR)定義為橫軸,利用模型對(duì)測(cè)試集中全部樣本點(diǎn)計(jì)算對(duì)應(yīng)的概率值,從高到低排序依次取每個(gè)值作為閾值計(jì)算TPR 與FPR,繪制ROC 曲線.AUC 值為ROC 曲線下的面積,AUC 值越大表明模型效果越好,因此本文采用AUC 值作為模型的綜合評(píng)價(jià)指標(biāo).另外本文也考察模型的TPR 以側(cè)重檢驗(yàn)?zāi)P蛯?duì)于財(cái)務(wù)困境企業(yè)(脫困企業(yè))的識(shí)別能力.
參照國(guó)內(nèi)在預(yù)測(cè)上市企業(yè)財(cái)務(wù)困境時(shí)的通常做法,本文以因財(cái)務(wù)狀況異常而被特別處理(ST/*ST)作為上市企業(yè)出現(xiàn)財(cái)務(wù)困境的標(biāo)志.根據(jù)中國(guó)上市企業(yè)的信息披露制度,上市企業(yè)(t ?1)年年度報(bào)告的對(duì)外公告與其在t年是否被特別處理幾乎同時(shí)發(fā)生,使用(t ?1)年的企業(yè)數(shù)據(jù)進(jìn)行預(yù)測(cè)并無很大實(shí)際意義,故本文用上市企業(yè)(t ?2)年的數(shù)據(jù)來預(yù)測(cè)企業(yè)在t年是否被特別處理.考慮到制造業(yè)相對(duì)其他行業(yè)有著完善的生產(chǎn)流程、均衡的生產(chǎn)周期以及較為穩(wěn)定的發(fā)展趨勢(shì),本文以滬深兩市A 股上市制造業(yè)企業(yè)為研究對(duì)象.因2007年、2019 年分別頒布新會(huì)計(jì)準(zhǔn)則,對(duì)財(cái)務(wù)指標(biāo)計(jì)算的一致性有所影響,故本文選取2009 年~2019 年A 股上市制造業(yè)企業(yè)為樣本,對(duì)應(yīng)數(shù)據(jù)區(qū)間為2007 年~2017 年.另外,本文所使用的MD&A 數(shù)據(jù)來自中國(guó)研究數(shù)據(jù)服務(wù)平臺(tái)(CNRDS),數(shù)據(jù)集包括每年各上市企業(yè)披露的中文年報(bào),截取其中管理層討論與分析部分,利用2.1 節(jié)所述方式對(duì)MD&A 文本內(nèi)容進(jìn)行自然語(yǔ)言處理,構(gòu)造管理層語(yǔ)調(diào)變量;本文所使用的并購(gòu)重組事件數(shù)據(jù)來自國(guó)泰安數(shù)據(jù)庫(kù)(CSMAR),數(shù)據(jù)集包括每年度各上市企業(yè)披露的并購(gòu)重組事件,利用2.2 節(jié)所述方式對(duì)并購(gòu)重組事件信息進(jìn)行特征提取,對(duì)于年度內(nèi)未進(jìn)行并購(gòu)重組的樣本變量賦值為0;本文所使用的財(cái)務(wù)比率數(shù)據(jù)來自銳思數(shù)據(jù)庫(kù)(RESSET),數(shù)據(jù)集包括每年各上市企業(yè)披露的所有財(cái)務(wù)比率,刪去缺失超過10%的財(cái)務(wù)比率以及強(qiáng)相關(guān)的比率,共得到87 個(gè)可用的財(cái)務(wù)比率.
數(shù)據(jù)預(yù)處理后,將樣本數(shù)據(jù)集構(gòu)造為有監(jiān)督學(xué)習(xí)數(shù)據(jù),共得到598 個(gè)財(cái)務(wù)困境樣本,14 613 個(gè)正常經(jīng)營(yíng)樣本(其中190 個(gè)脫困樣本),為典型的不平衡數(shù)據(jù)集.本文所使用的所有特征如下表1 所示,輸入模型前對(duì)所有變量進(jìn)行Z-score 標(biāo)準(zhǔn)化處理,消除量綱的影響.

表1 特征說明Table 1 Feature descriptions
本文分別基于平衡數(shù)據(jù)集與非平衡數(shù)據(jù)集(全集)設(shè)計(jì)了多組實(shí)證研究,以檢驗(yàn)MD&A 與M&A 對(duì)于提高模型預(yù)測(cè)效果的有效性,同時(shí)檢驗(yàn)本文提出的集成學(xué)習(xí)模型的有效性.
過去的研究多是基于平衡數(shù)據(jù)集進(jìn)行的,其預(yù)測(cè)模型(包括統(tǒng)計(jì)學(xué)模型與機(jī)器學(xué)習(xí)模型)對(duì)于非平衡數(shù)據(jù)集幾乎沒有預(yù)測(cè)效果,因此無法通過非平衡數(shù)據(jù)集來比較不同輸入對(duì)于預(yù)測(cè)效果改善的有效性.為了驗(yàn)證加入MD&A 與M&A 是否能夠提升模型預(yù)測(cè)效果,本文首先進(jìn)行基于平衡數(shù)據(jù)集的實(shí)證分析.采用簡(jiǎn)單隨機(jī)下采樣方法構(gòu)造平衡數(shù)據(jù)集進(jìn)行財(cái)務(wù)困境預(yù)測(cè)的實(shí)驗(yàn).
5.1.1 機(jī)器學(xué)習(xí)預(yù)測(cè)模型
本文構(gòu)造了四個(gè)主流應(yīng)用的機(jī)器學(xué)習(xí)預(yù)測(cè)模型,即邏輯回歸(LG)、支持向量機(jī)(SVM)、決策樹(DT)以及Adaboost 集成學(xué)習(xí)模型(ADB)并分別利用財(cái)務(wù)數(shù)據(jù)(F)、財(cái)務(wù)數(shù)據(jù)及MD&A(FM)、財(cái)務(wù)數(shù)據(jù)及M&A(FR)、財(cái)務(wù)數(shù)據(jù)及MD&A 及M&A(FMR)四種不同類型的信息源作為輸入,進(jìn)行重復(fù)實(shí)驗(yàn)以排除不同樣本的影響,考察不同數(shù)據(jù)源對(duì)于模型預(yù)測(cè)效果的作用.本文統(tǒng)計(jì)了重復(fù)實(shí)驗(yàn)中各模型在4 種輸入下分別取得最優(yōu)預(yù)測(cè)效果的次數(shù)(有并列)如圖2 和圖3 所示,各組實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)如表2 所示.

表2 預(yù)測(cè)結(jié)果統(tǒng)計(jì)Table 2 Statistics of foresting results
從預(yù)測(cè)結(jié)果AUC,TPR 可以看出,考慮了MD&A,M&A 或兩者都加以考慮的模型,具有更好的預(yù)測(cè)效果.這里,為排除抽樣實(shí)驗(yàn)產(chǎn)生抽樣誤差的影響,對(duì)于重復(fù)實(shí)驗(yàn)的結(jié)果進(jìn)行了非參數(shù)Friedman 檢驗(yàn).對(duì)于AUC 值的Friedman 檢驗(yàn)結(jié)果均為顯著,在統(tǒng)計(jì)上可以認(rèn)為使用四種輸入造成了模型不同的預(yù)測(cè)結(jié)果(AUC),由于該結(jié)果對(duì)于四種不同的模型均成立,是個(gè)穩(wěn)健的結(jié)論.而TPR 值的Friedman 檢驗(yàn)僅對(duì)于SVM 模型存在顯著性結(jié)果,表明四種輸入僅對(duì)SVM 的預(yù)測(cè)結(jié)果TPR 值造成明顯差異,對(duì)于其他模型并未產(chǎn)生明顯影響.從而合理推論,MD&A 與M&A 的加入通過使模型更好地識(shí)別正常經(jīng)營(yíng)的企業(yè)從而提高了預(yù)測(cè)效果AUC 值,但對(duì)于SVM 模型則顯著地提升了識(shí)別財(cái)務(wù)困境樣本的能力.
5.1.2 Logit 回歸分析
機(jī)器學(xué)習(xí)模型使得準(zhǔn)確的預(yù)測(cè)成為可能,但模型缺乏可解釋性使得難以證明數(shù)據(jù)內(nèi)的關(guān)系,為進(jìn)一步解讀MD&A 與M&A 對(duì)于財(cái)務(wù)困境預(yù)測(cè)影響的作用方向,本文先構(gòu)建了二元Logit 回歸模型進(jìn)行單個(gè)變量的統(tǒng)計(jì)建模,分析其系數(shù)的正負(fù)性以對(duì)作用效果提供參考,結(jié)果如表3 所示.

表3 新構(gòu)造變量對(duì)財(cái)務(wù)困境的預(yù)測(cè)能力:基于單變量的比較分析Table 3 The predictive power of newly constructed variables to financial distress:Based on single variable analysis
管理層語(yǔ)調(diào)TONE 的系數(shù)顯著為負(fù),表明年報(bào)文本中管理層對(duì)企業(yè)經(jīng)營(yíng)的討論與分析越正面時(shí),企業(yè)陷入財(cái)務(wù)困境的可能性越小;并購(gòu)重組事件變量NUM,SUM,BUSUM,SENUM 和SESUM 的系數(shù)顯著為正,表明企業(yè)發(fā)生頻繁大規(guī)模的并購(gòu)重組是企業(yè)財(cái)務(wù)困境的征兆之一;其余變量的系數(shù)統(tǒng)計(jì)上不顯著,當(dāng)然不能斷言這些變量對(duì)于提高機(jī)器學(xué)習(xí)預(yù)測(cè)模型的準(zhǔn)確率是無效的.回歸模型會(huì)受到內(nèi)生性問題的干擾,就本文而言可能存在的內(nèi)生性偏誤主要有兩個(gè)來源:首先是解釋變量與被解釋變量之間相互作用導(dǎo)致的內(nèi)生性,另外是遺漏變量造成的內(nèi)生性問題.針對(duì)前者,本文使用的解釋變量為(t ?2)期報(bào)告值而被解釋變量為t期報(bào)告值,屬于“領(lǐng)先–滯后方法”以減少前者的內(nèi)生性影響.針對(duì)后者,現(xiàn)實(shí)中與企業(yè)財(cái)務(wù)狀況相關(guān)的變量層出不窮難以一一追溯,對(duì)此本文借鑒過往研究,進(jìn)一步添加變量加以補(bǔ)救:加入每股凈資產(chǎn)(NAPS)以控制企業(yè)資產(chǎn)規(guī)模特征[36],加入營(yíng)業(yè)收入增長(zhǎng)率(opeincm)與資產(chǎn)凈利率(ROA)以控制企業(yè)運(yùn)營(yíng)績(jī)效[36?38],加入資產(chǎn)負(fù)債率(dbastrt)以控制杠桿狀況[39],加入無形資產(chǎn)比率(intanassrt)以控制企業(yè)的成長(zhǎng)類型[40].控制變量(僅對(duì)表3 中顯著的變量)后估計(jì)結(jié)果如表4 所示.

表4 新構(gòu)造變量對(duì)財(cái)務(wù)困境的預(yù)測(cè)能力:基于控制變量Table 4 The predictive power of newly constructed variables to financial distress:Based on control variable analysis
控制企業(yè)經(jīng)營(yíng)狀況后,管理層語(yǔ)調(diào)TONE 仍顯著為負(fù),表明管理層語(yǔ)調(diào)越消極企業(yè)陷入財(cái)務(wù)困境的可能性越大.該結(jié)果與Wu[41]的研究相合,其認(rèn)為MD&A 表明了管理層對(duì)企業(yè)的期望,并對(duì)市場(chǎng)反應(yīng)產(chǎn)生長(zhǎng)期影響,MD&A 語(yǔ)調(diào)越樂觀的企業(yè)傾向于呈現(xiàn)更高的企業(yè)價(jià)值,反之越悲觀時(shí)則反映了企業(yè)價(jià)值的散失.企業(yè)年度M&A 總金額SUM 的系數(shù)仍顯著為正,表明M&A 規(guī)模仍顯著影響著企業(yè)財(cái)務(wù)困境的預(yù)測(cè).買方M&A 總金額BUSUM 仍顯著為正,說明控制企業(yè)經(jīng)營(yíng)狀況后,企業(yè)M&A 買入規(guī)模越大則陷入財(cái)務(wù)困境的可能性越大,這可以用“管理層過度自信”來解釋,過度自信的管理層傾向采用高風(fēng)險(xiǎn)探索式的戰(zhàn)略[42],而企業(yè)過度激進(jìn)的擴(kuò)張?jiān)诙唐趦?nèi)往往無法帶來同等的收益[32],將影響企業(yè)現(xiàn)金流導(dǎo)致資金鏈斷裂從而陷入財(cái)務(wù)困境.值得注意的是,一旦控制企業(yè)經(jīng)營(yíng)狀況賣方M&A 事件對(duì)財(cái)務(wù)困境預(yù)測(cè)便不再有顯著影響,表明作為賣方的M&A 頻率與規(guī)模可能是通過體現(xiàn)企業(yè)不同的經(jīng)營(yíng)狀況或生命階段從而對(duì)企業(yè)財(cái)務(wù)困境預(yù)測(cè)做出貢獻(xiàn).
為進(jìn)一步探究加入M&A 事件對(duì)管理層語(yǔ)調(diào)的預(yù)測(cè)影響,本文考察M&A 事件(僅分析上表中顯著的變量)與管理層語(yǔ)調(diào)之間的交互作用,如表5 所示.表5 中第1 列、第2 列和第3 列為基線模型,從第4 列和第5 列的結(jié)果可以看出,管理層語(yǔ)調(diào)TONE 與M&A 規(guī)模SUM 之間存在著顯著的交互作用.管理層語(yǔ)調(diào)越積極,企業(yè)陷入財(cái)務(wù)困境的可能性越小,但M&A 規(guī)模削弱了管理層語(yǔ)調(diào)對(duì)財(cái)務(wù)困境預(yù)測(cè)的作用,M&A 規(guī)模越大,這種削弱越大,一個(gè)解釋是當(dāng)管理層對(duì)年報(bào)進(jìn)行粉飾而夸大對(duì)企業(yè)的預(yù)期時(shí),現(xiàn)實(shí)已發(fā)生的M&A反映了企業(yè)的實(shí)際情況,削弱了年報(bào)粉飾帶來的夸大作用.可以認(rèn)為,當(dāng)考慮企業(yè)發(fā)生的M&A 規(guī)模時(shí),對(duì)于年報(bào)中MD&A 中管理層語(yǔ)調(diào)的夸大對(duì)預(yù)測(cè)的影響具有一定的抑制作用.

表5 交互作用檢驗(yàn)Table 5 Interaction test
隨機(jī)采樣構(gòu)造出來的平衡樣本集,丟棄了大多數(shù)的市場(chǎng)樣本,損失了大量有用信息;但已有研究的財(cái)務(wù)困境預(yù)測(cè)模型對(duì)于不平衡樣本全集的預(yù)測(cè)效果較差,如表6 所示,原因是樣本集中正常經(jīng)營(yíng)的企業(yè)-年度樣本占絕大多數(shù),模型傾向于將企業(yè)預(yù)測(cè)為正常經(jīng)營(yíng),導(dǎo)致模型的TPR 處于低值,無法有效識(shí)別企業(yè)的財(cái)務(wù)困境風(fēng)險(xiǎn).為充分利用市場(chǎng)信息,同時(shí)解決不平衡樣本集的問題,本文以第3 節(jié)所述方式構(gòu)造了一個(gè)集成學(xué)習(xí)預(yù)測(cè)模型(EE)以達(dá)到提升預(yù)測(cè)精度、處理不平衡數(shù)據(jù)、特征選擇、誤分類懲罰等多個(gè)效果.
初始將模型的基分類器ξ設(shè)定為決策樹,特征數(shù)為98(未特征尋優(yōu)),懲罰系數(shù)β=1(未加懲罰).輸入FMR 特征組合,使用樣本全集進(jìn)行模型(EE)的測(cè)試,將邏輯回歸(LG’)、支持向量機(jī)(SVM’)、決策樹(DT’)、Adaboost(ADB’)作為對(duì)照,進(jìn)行重復(fù)實(shí)驗(yàn)(每次實(shí)驗(yàn)采用相同的測(cè)試集),并與5.1.1 節(jié)實(shí)驗(yàn)結(jié)果對(duì)比,結(jié)果如表6 所示.

表6 預(yù)測(cè)結(jié)果統(tǒng)計(jì)Table 6 Statistics of foresting results
在所有重復(fù)實(shí)驗(yàn)中,模型EE 的各項(xiàng)指標(biāo)在所有模型中均表現(xiàn)最佳,表明利用不平衡樣本全集訓(xùn)練的EE 模型預(yù)測(cè)效果顯著優(yōu)于所有對(duì)照組,包括SVM 模型(平衡數(shù)據(jù)集中效果最好)以及邏輯回歸模型(實(shí)際應(yīng)用最廣泛).分析其原因,EE 模型的基學(xué)習(xí)模型為決策樹(改為其他弱分類器時(shí)也有類似的實(shí)驗(yàn)結(jié)果)并未優(yōu)于其它模型,EE 模型主要通過對(duì)不平衡樣本進(jìn)行采樣分割實(shí)現(xiàn)了對(duì)所有樣本信息的訓(xùn)練建模,獲得了廣泛的市場(chǎng)信息從而實(shí)現(xiàn)了較好的預(yù)測(cè)效果.
進(jìn)一步地,考慮到如果未能預(yù)警財(cái)務(wù)困境風(fēng)險(xiǎn)從而將財(cái)務(wù)困境企業(yè)誤判為正常經(jīng)營(yíng)企業(yè)的實(shí)際應(yīng)用代價(jià)往往較大,如3.4 節(jié)所述通過添加并調(diào)節(jié)誤分類懲罰系數(shù)β,以提高預(yù)測(cè)模型的TPR 保證財(cái)務(wù)困境企業(yè)的識(shí)別能力.以0.05 為步長(zhǎng)從β=0.6 至β=2.0 逐步測(cè)試懲罰系數(shù)β對(duì)模型預(yù)測(cè)結(jié)果的影響,如圖4 所示.當(dāng)懲罰系數(shù)β逐步增大時(shí),訓(xùn)練集中被誤分類的財(cái)務(wù)困境樣本的學(xué)習(xí)權(quán)重增大,用以強(qiáng)化對(duì)分類錯(cuò)誤數(shù)據(jù)的學(xué)習(xí),從而使得模型對(duì)財(cái)務(wù)困境樣本的識(shí)別效果更好,TPR 值逐步提高,最大值達(dá)到0.893,相比未加懲罰時(shí)有顯著提升并明顯優(yōu)于其他模型.而提升TPR 的代價(jià)是造成模型對(duì)正常經(jīng)營(yíng)樣本的誤判增大,使得AUC值降低,但當(dāng)TPR 達(dá)到峰值時(shí)模型AUC 值為0.883,仍顯著高于其他模型.
本文利用所構(gòu)造的模型進(jìn)行特征尋優(yōu),對(duì)初始98維特征進(jìn)行遞歸消除,每次保留最優(yōu)的特征組合同時(shí)減少一維特征,結(jié)果如圖5 所示.當(dāng)輸入特征維度過少時(shí),模型無法獲取足夠的信息,因此AUC 值、TPR 值均處于低位;隨著輸入特征維度增加,模型的預(yù)測(cè)效果逐步提升,但并非始終遞增,到達(dá)拐點(diǎn)后趨平甚至略有降低.原因是反映企業(yè)財(cái)務(wù)狀況的指標(biāo)中很多是噪聲變量,如不加選擇地把所有特征都納入模型反而會(huì)降低模型的精度.本文構(gòu)造的模型自動(dòng)完成最優(yōu)特征排序與篩選,既避免了基于先驗(yàn)知識(shí)的人為輸入選擇,又降低了噪聲的影響,同時(shí)也能篩去不重要的變量減少獲取數(shù)據(jù)的成本.
從圖5 中可知,模型篩選出的包含45 維特征的最優(yōu)特征組合(拐點(diǎn)值)即可達(dá)到理想的預(yù)測(cè)效果,特征組合如表7 所示.

表7 特征選擇結(jié)果Table 7 Results of feature selection
對(duì)比表1 的輸入變量,可以發(fā)現(xiàn)本文構(gòu)造的MD&A 變量均保留,另外M&A 事件變量中的買方交易總金額、賣方次數(shù)、賣方交易總金額、標(biāo)的方交易總金額經(jīng)過篩選后也得以保留,說明其對(duì)于財(cái)務(wù)困境預(yù)測(cè)發(fā)揮了重要的作用.結(jié)合5.1.2 節(jié)的回歸分析結(jié)果,可以認(rèn)為企業(yè)管理層語(yǔ)調(diào)以及其在并購(gòu)重組市場(chǎng)中所處的不同地位與交易規(guī)模在一定程度上確能反映企業(yè)的經(jīng)營(yíng)狀況,從而對(duì)企業(yè)未來的財(cái)務(wù)發(fā)展起到預(yù)示作用.
然而“買方交易總次數(shù)”、“標(biāo)的方交易總次數(shù)”被剔除,其原因在于所有企業(yè)–年度樣本中買方及標(biāo)的方的企業(yè)–年度樣本較少,多數(shù)為0 值,并且數(shù)值變化較小導(dǎo)致該變量的信息熵不大,因信息量不足而被剔除.“年度并購(gòu)重組總次數(shù)”、“年度并購(gòu)重組總金額”兩變量被剔除,主要原因在于與其他并購(gòu)重組變量間存在線性相關(guān)關(guān)系,作為冗余被剔除.
所選特征中也剔除了許多財(cái)務(wù)指標(biāo),原因在于許多財(cái)務(wù)比率變量是從相同的財(cái)務(wù)報(bào)表中提取經(jīng)過不同計(jì)算方式所得的,因此它們之間具有較強(qiáng)的相關(guān)性,被作為冗余而被剔除.而從另一方面,也說明了留下的指標(biāo)更能集中反映企業(yè)的財(cái)務(wù)運(yùn)行情況,從而預(yù)示企業(yè)是否陷入財(cái)務(wù)困境,例如流動(dòng)比率等表征償債能力的指標(biāo)、資產(chǎn)負(fù)債率等表征資本結(jié)構(gòu)的指標(biāo)等,這與之前的文獻(xiàn)研究相一致.在日常經(jīng)營(yíng)過程中也應(yīng)對(duì)影響上述指標(biāo)的業(yè)務(wù)活動(dòng)著重關(guān)注,這對(duì)于企業(yè)管理者具有啟示意義.
為對(duì)企業(yè)能否恢復(fù)正常經(jīng)營(yíng)或成功完成重組而“摘帽”進(jìn)行預(yù)測(cè),于險(xiǎn)境中挖掘新機(jī)遇,本文利用前述構(gòu)造的模型與數(shù)據(jù)進(jìn)行困境企業(yè)脫困的預(yù)測(cè)研究,無論對(duì)于企業(yè)規(guī)避困境、債權(quán)人風(fēng)險(xiǎn)控制或?qū)ν顿Y者抄底“ST 股”的投資行為均有實(shí)際意義.
本文將脫困企業(yè)–年度樣本定義為當(dāng)前年度為正常經(jīng)營(yíng)而前一年度因財(cái)務(wù)困境而被風(fēng)險(xiǎn)警示的企業(yè)–年度,同第4 節(jié)所述方式處理,得到598 個(gè)財(cái)務(wù)困境企業(yè)–年度樣本以及190 個(gè)脫困企業(yè)–年度樣本.以簡(jiǎn)單隨機(jī)下采樣構(gòu)造的平衡數(shù)據(jù)集和數(shù)據(jù)全集作為訓(xùn)練樣本,輸入FMR 特征組合進(jìn)行重復(fù)實(shí)驗(yàn),結(jié)果如下表8 所示.本文構(gòu)造的EE 模型在企業(yè)脫困的預(yù)測(cè)上仍取得了最優(yōu)的預(yù)測(cè)效果.對(duì)比5.1 節(jié)與5.2 節(jié)結(jié)果也可以看出,對(duì)于企業(yè)脫困的預(yù)測(cè)難度要大于陷入困境的預(yù)測(cè).分析其原因,首先,用于脫困預(yù)測(cè)的脫困企業(yè)樣本的前一年度即為困境企業(yè)樣本,企業(yè)在各維度的表現(xiàn)與困境企業(yè)樣本的相似性相對(duì)較大,模型難以區(qū)分;第二,用于脫困預(yù)測(cè)的訓(xùn)練樣本集規(guī)模較小,預(yù)測(cè)模型難以學(xué)習(xí)到廣泛的市場(chǎng)信息;再者,企業(yè)脫困的影響因素廣泛而復(fù)雜,5.1 節(jié)的實(shí)驗(yàn)未考慮不同時(shí)期宏觀經(jīng)濟(jì)與政策環(huán)境的影響,在此情況下MD&A 與M&A的加入仍能顯著提升模型的預(yù)測(cè)效果,已能說明其有效性,但本節(jié)研究中用于訓(xùn)練的樣本集總量小,在市場(chǎng)信息不足的情況下僅從財(cái)務(wù)、年報(bào)和歷史并購(gòu)重組信息方面進(jìn)行分析便略顯不足,不同時(shí)期的宏觀環(huán)境因素作用凸顯,并且ST(*ST)企業(yè)摘帽的條件受政策性因素影響較大,需要將其加以考慮.
因此,本文考慮宏觀經(jīng)濟(jì)環(huán)境和不同的政策因素將樣本集劃分為2007 年~2010 年、2011 年~2013 年、2014 年~2017 年三個(gè)時(shí)期的子集再次進(jìn)行實(shí)驗(yàn),分別對(duì)應(yīng)著企業(yè)2009 年~2012 年、2013 年~2015 年、2016 年~2019 年的風(fēng)險(xiǎn)警示情況,結(jié)果如表9 所示(僅展示多次重復(fù)實(shí)驗(yàn)的均值).

表9 分時(shí)期預(yù)測(cè)結(jié)果Table 9 Forecasting results in different periods
針對(duì)不同時(shí)期的影響(為排除數(shù)據(jù)不平衡的干擾,SVM,LG,DT,ADB 僅分析平衡數(shù)據(jù)集下的結(jié)果),發(fā)現(xiàn)各模型在各階段的預(yù)測(cè)效果有所區(qū)別,其中在2014 年~2017 年最好,2011年~2013 年次之,2007 年~2010 年的最差.分析其原因,可能存在以下因素影響:首先,2008 年~2010 年屬于全球金融危機(jī)的動(dòng)蕩期及危機(jī)后的快速發(fā)展時(shí)期,股市波動(dòng)劇烈,我國(guó)上市企業(yè)也多受影響尤其是外向型制造業(yè)上市企業(yè),這個(gè)時(shí)期上市企業(yè)財(cái)務(wù)狀況影響因素復(fù)雜,歷史財(cái)務(wù)運(yùn)行數(shù)據(jù)無法準(zhǔn)確反映困境企業(yè)能否脫困,加之這個(gè)階段的并購(gòu)重組市場(chǎng)并非理性,《上市公司信息披露管理辦法》剛推行,信息披露不夠規(guī)范,更使得該時(shí)期的預(yù)測(cè)難度加大;第二,2011 年~2013 年期間市場(chǎng)走向穩(wěn)定發(fā)展,信息披露制度逐步成熟,歷史財(cái)務(wù)數(shù)據(jù)與MD&A 的作用開始凸顯,另一方面2011 年《重組管理辦法》第一次修訂,期間配合著多次對(duì)資產(chǎn)重組過程中再融資政策的調(diào)整,“借殼上市”作為一類重大資產(chǎn)重組開始受到監(jiān)管,使得并購(gòu)重組事件對(duì)于困境企業(yè)脫困預(yù)測(cè)也變得更有價(jià)值;第三,2014 年~2017 年期間的信息披露制度與宏觀經(jīng)濟(jì)環(huán)境較前一時(shí)期區(qū)別不大,而2014 年和2016 年對(duì)《重組管理辦法》的進(jìn)一步修訂使得并購(gòu)重組市場(chǎng)更趨向理性,追逐熱點(diǎn)、跨界并購(gòu)的現(xiàn)象明顯減少,“炒殼”、“囤殼”等行為得到明顯抑制,市場(chǎng)對(duì)高風(fēng)險(xiǎn)、短期套利的重組情形也日趨理性,這使得歷史并購(gòu)重組事件對(duì)于脫困預(yù)測(cè)有了更大的意義,因此這個(gè)時(shí)期內(nèi)并購(gòu)重組事件對(duì)提高模型預(yù)測(cè)效果的作用普遍超過了MD&A.綜合來看,隨著宏觀經(jīng)濟(jì)環(huán)境的穩(wěn)定運(yùn)行,信息披露制度的逐步完善,并購(gòu)重組市場(chǎng)的日趨理性,利用財(cái)務(wù)數(shù)據(jù)、MD&A,M&A 進(jìn)行脫困預(yù)測(cè)的效果勢(shì)必也會(huì)逐步提升,從本問研究的三個(gè)時(shí)期的實(shí)驗(yàn)結(jié)果也可以看出,集成學(xué)習(xí)EE 模型均取得最好的預(yù)測(cè)效果,表明其對(duì)于不同時(shí)期影響的魯棒性與可靠性。
在上市企業(yè)財(cái)務(wù)數(shù)據(jù)公報(bào)的基礎(chǔ)上,本文挖掘其年報(bào)管理層討論與分析中的文本信息以及企業(yè)并購(gòu)重組的市場(chǎng)信息,對(duì)其財(cái)務(wù)困境以及脫困問題進(jìn)行預(yù)測(cè)研究.實(shí)驗(yàn)結(jié)果驗(yàn)證了新特征的有效性,并給出了解釋.針對(duì)正負(fù)樣本數(shù)據(jù)不平衡問題,本文構(gòu)造了一種集成學(xué)習(xí)預(yù)測(cè)模型框架,通過采樣構(gòu)造多個(gè)平衡數(shù)據(jù)集進(jìn)行訓(xùn)練從而學(xué)習(xí)全部樣本的市場(chǎng)信息,利用特征遞歸消除減少了噪聲與冗余,在訓(xùn)練弱分類器時(shí)加大財(cái)務(wù)困境樣本誤判的懲罰提高風(fēng)險(xiǎn)預(yù)警能力,最后利用Boosting 方法集成各弱分類器.相比傳統(tǒng)預(yù)測(cè)模型,無論在財(cái)務(wù)困境或脫困預(yù)測(cè)的AUC 還是TPR 方面,本文構(gòu)造的模型均實(shí)現(xiàn)了更好的預(yù)測(cè)效果.
本文所涉及的企業(yè)脫困預(yù)測(cè)問題,未來還有不少有價(jià)值的潛在研究方向,諸如針對(duì)上市企業(yè)年度報(bào)告MD&A 特征的文本挖掘方法,分析MD&A 中不同語(yǔ)句的影響;挖掘更多企業(yè)脫困預(yù)測(cè)的相關(guān)數(shù)據(jù)源,評(píng)估各種特征選擇方法對(duì)預(yù)測(cè)效果的影響;繼續(xù)針對(duì)時(shí)間序列進(jìn)行動(dòng)態(tài)分析,研究財(cái)務(wù)困境中的概念漂移也將是一個(gè)有趣的問題.