周清明,彭 濤
(湖南工業大學 經濟與貿易學院,湖南 株洲412007)
金融在我國經濟持續高速增長中發揮著越來越重要的作用,具備強大的資源配置功能。盡管我國資本市場取得了巨大的成就,但仍存在投機交易的問題,而且資源配置效率相對較低,財務造假現象也十分嚴重[1-3]。因此,對企業長期價值進行分析對于推動現代經濟發展具有重要意義。企業長期價值受多個因素的影響,而企業經營過程中產生的財務數據規模龐大。在采集財務數據的過程中,受到投機交易和財務造假等因素的影響,采集到的數據可能存在各種程度的異常問題[4]。因此,采用科學合理的數據清洗方法來確保數據的可靠性和準確性十分重要。傳統的數據清洗方法通常依據多階段遞進識別原則,以濾除冗余和異常數據,并進行補償,以實現數據清洗的目標。然而,傳統方法的效果有限,無法深入識別和清洗局部異常數據[5]。為此,本文引入了改進的隨機森林算法,并提出了一種全新的企業長期會計影響因素數據清洗方法。這種方法能夠識別和剔除數據中的異常部分,從而實現數據清洗的目標。
即便在傳統的投資標準中,財務信息作為重要的標準深刻地影響著投資人的決策。大量的投資案例證明,公司的會計信息中隱藏著大量的企業經營情況統計說明,對企業價值分析具有重要的作用[6]。而分析財務指標能幫助管理層及時發現問題并采取相應措施來提升管理效率和改善業績。本研究對企業價值產生影響的相關財務指標進行了細分,包括五大類指標(見圖1)。
圖1中,盈利能力是指公司從日常運營中獲得收入的多少,以損益表來衡量。營運能力是指公司使用資產創造收入的效率。資產周轉率高,說明資產管理和使用效率高。償債能力是指企業用資產償還債務的能力。高償付能力意味著低財務風險和持續經營的能力。發展能力是指企業通過投資、融資和生產等活動確保可持續發展和增長的能力。增長率高,說明發展前景好,增長潛力大。現金流是指一段時間內資金的流入和流出,反映資金的流動性、財務風險和融資能力。經營活動產生的現金流對公司價值有重大影響。考慮這些比率對公司業績和財務狀況的重大影響,有助于全面評估公司業績、預測未來價值和作出決策。
在觀測樣本中,觀測值的非平衡狀態是指少數類樣本的數量相對較少。這種非平衡數據可能嚴重降低模型對未來長期價值增長企業的識別能力,進而影響模型的預測性能,因此需要對非平衡數據進行平衡處理。為了應對這個問題,引入SMOTE(Synthetic Minority Oversampling Technique)算法。SMOTE算法是一種過采樣技術,它通過分析少數類樣本的特征,再根據這些特征合成新的樣本,以增加少數類樣本的數量,使其與多數類樣本達到平衡[7]。針對長期價值增加的企業樣本,使用SMOTE算法進行過采樣處理,從而實現數據集的平衡(見圖2)。

圖2 SMOTE算法模型示意圖
對少數類樣本進行分析,再將合成的新樣本添加到數據集中,構建新的樣本如式1所示。
M=x+α*(xn-x)
(式1)
式1中,少數類樣本用x代表,隨機選出的近鄰用xn代表;α是[0,1]之間的隨機數,用于控制合成樣本在原樣本和近鄰之間的位置。通過這樣的過程,SMOTE算法能夠增加少數類樣本的數量并保持數據集的平衡性,提高模型的泛化能力。
隨機森林是一種常見的機器學習分類方法,它能根據特定的屬性規則對樣本數據進行劃分并構建決策樹,以實現對新樣本數據的分類。決策樹由根節點、內部節點、分支和葉節點組成,這些組成部分反映數據分類的過程。在決策樹中,根節點包含全部樣本數據,然后根據屬性規則將數據分配到不同路徑,其中的子節點代表決策樹的分類決策結果。隨機森林的學習和分類過程實際上是一種自上而下的遞歸過程,每條路徑都代表一條分類規則。整棵決策樹由多個這樣的規則組成,從根節點到葉節點的每個路徑都表示對樣本進行分類的規則,其結構如圖3所示。

圖3 隨機森林模型示意圖
構建高效的決策樹的關鍵在于選擇最優的屬性進行數據劃分,目標是使同類樣本盡可能能衡量樣本集合的純度,通常使用3個指標進行評估,即信息熵(如式2所示)、增益率和基尼指數。
(式2)
式2中,H為當前樣本的集合,Pk代表第k類樣本的數量占總樣本H的比例大小。信息增益類似于熵的概念,用于度量節點中樣本的復雜性。較小的信息增益表示節點中樣本類別的一致性較高,而較大的信息增益表示節點中樣本差異較大,分類較為混亂。通過計算屬性的信息增益、增益率或基尼指數可以選擇最優的屬性作為決策樹節點的劃分標準,從而構建具有良好分類效果的決策樹。信息增益率如式3所示。
(式3)
式3中,第v個分支節點用v表示,屬性測試用a表示,Hv表示取值為av的樣本數量,av為屬性測試的值。定義集合H的基尼指數如式4所示。
(式4)
由于研究所涉及的變量較多,無法對所有變量進行詳細的描述性統計分析。因此,僅對虛擬變量進行了描述性統計。基于隨機森林算法構建的4個模型的平衡和非平衡情況下的ROC曲線如圖4所示。

圖4 不同模型的ROC曲線
圖4(a)顯示,改進的隨機森林模型在測試集上的ROC曲線下面積為0.86,表現最佳。相比之下,普通隨機森林模型的ROC曲線下面積為0.61,表明該模型的預測效果較差。從圖4(b)顯示,改進的隨機森林平衡模型的ROC曲線下面積為0.88,改進的隨機森林非平衡模型的ROC曲線下面積為0.82,普通隨機森林平衡模型的ROC曲線下面積為0.73,普通隨機森林非平衡模型的ROC曲線下面積為0.61。對4組模型的 ROC 曲線進行比較后發現,平衡模型的表現明顯優于非平衡模型,這表明數據平衡后的模型預測能力增強明顯。基于改進隨機森林算法建立的模型的4個評價指標結果如圖5所示。

圖5 改進隨機森林模型性能評價指標
圖5顯示,長期價值非平衡模型在精確率方面表現出較高的水平,達到0.88,但其精確率、召回率和F1值較低,特別是召回率和F1值,分別只有0.15和0.24。這是因為數據高度偏斜,大多數觀測值的長期值為 0,因此模型很可能從值遞減的數據中學習和推斷,而忽略值遞增的樣本中的數據信息。不過,從平衡數據集學習后,長期值平衡的模型的各項指標都有顯著提高。精確率、召回率和F1得分均為0.88,增益率值為0.87,說明模型的預測效果非常好,建模非常成功。這表明綜合考慮平衡數據的財務指標在預測企業長期價值的變化上效果提升顯著。特征基尼指數的輸出結果如表1所示。

表1 改進森林模型的特征基尼指數
表1的結果顯示,在平衡數據模型中,現金流基尼指數排名第一,為0.0486,說明企業的營業收入現金凈含量、全部現金回收率和現金資產比率起著重要作用。現金流狀況直接反映企業的財務風險和持續經營狀況,對企業價值的持續增長起著重要作用。另外,償債能力和營運能力在特征基尼指數中排名較低,分別為0.0246和0.0333。這可能是因為公司戰略往往代表長期規劃,實驗的企業價值變化跨度較短,無法充分體現公司戰略對企業價值的影響。在財務指標方面,營業能力對于企業長期價值的解釋具有重要影響。企業的發展潛力關系到未來的發展狀況,對企業長期價值的走向產生影響。在非平衡模型中,現金流和發展能力對于長期價值變化的基尼指數較低,分別為0.0312和0.0289。這反映了雖然企業現金流和發展能力對企業價值具有一定的解釋力,但對于企業未來較長時間的價值變化難以充分解釋。非平衡模型還表明發展能力對企業價值貢獻較低,這可能是由于這些特征數據的高度不平衡,難以對模型的預測產生影響。對比非平衡模型,在平衡數據模型中,發展能力這一特征從基尼指數排名的第5升至排名第3。這一重大變化表明,不平衡數據模型隱藏了許多被模型忽略的重要特征信息。除了現金流占比最大,平衡模型中盈利能力基尼指數同樣很高。這說明企業的總資產凈利率、凈資產收益率、成本費用利潤率和營業利潤率等因素對預測企業長期價值的變化起著重要作用[8]。另外,償債能力排名較低。這是因為公司戰略往往代表長期規劃,償債能力對企業長期價值的影響有限。因為營運狀況直接反映企業的財務風險和持續經營狀況,對企業價值的持續增長起著重要作用。而其他傳統財務指標更多地反映了企業歷史的經營和財務狀況,對企業價值具有一定的解釋力,但對于企業未來較長時間的價值變化難以充分解釋。兩個模型中營運能力對企業價值影響均不高,這可能是由于這些特征數據的高度不平衡,難以對模型的預測產生影響[9]。就實際情況而言,在信息化時代下,資金周轉沒有太大的流通阻礙,因此營運能力基尼指數較低。
資本市場在中國實體經濟發展中發揮著重要作用,包括轉變經濟結構、提高企業素質、實現經濟高水平發展。雖然中國資本市場取得了長足進步,但由于發展相對緩慢等結構性因素,資本市場仍面臨諸多挑戰。根據上市企業數據,構建一個綜合特征指標體系,包含多個財務指標,并采用性能優越的改進隨機森林算法進行建模,對企業長期價值產生影響的各個因素進行了仿真分析。實驗結果顯示,改進的隨機森林模型在測試集上的ROC曲線下面積為0.86,表現最佳。對比四組模型的ROC曲線發現平衡模型的性能優于非平衡模型,驗證了平衡數據對模型預測效果的顯著提升。在特征基尼指數方面,現金流在平衡數據模型中具有最高基尼指數,排名第一,而發展能力和償債能力的基尼指數較低。在精確率方面,長期價值非平衡模型達到較高水平,但精確率、召回率和F1值較低。經過數據平衡后,長期價值平衡模型的精確率、召回率和F1值顯著提升,模型預測效果非常好。