余 屹 艾孜爾江·艾爾斯蘭 戴兆君 廖文君 沈頌東 梁子浚?
(1.珠海科技學院金融與貿易學院,廣東 珠海 519090;2.澳門大學科技學院,澳門 519000)
中小企業在穩定社會、提高就業率以及促進市場發展等方面具有不容小覷的作用。成長性是指企業持續發展的能力,通過對企業成長性的評價,管理者可以及時地發現并解決企業存在的問題,提高企業管理水平和自我修正能力。此外,評價結果的好壞將直接影響投資者做出的投資決策。所以,對企業的成長性進行準確的評價,可以達到多方共贏的效果。
現有學者對中小企業成長性的評價主要從企業內外部因素進行探討,這為本文研究提供了重要的參考價值。外部因素指政治、技術和市場競爭等環境影響。Astrakhan[1]等論證了政府通過利好政策和相關法律的支持,為企業打造出極佳的外部發展環境;成璐璐[2]等通過對市場競爭環境變化的分析,得出技術創新對企業的發展壯大有較大的影響,使企業能夠在市場競爭中處于領先地位。而在內部因素上,學者們更關注企業的財務和融資等??诅R翔[3]從中小板和創業板中篩選了近10年的企業作為樣本,借助SPSS軟件功能實現了對企業成長性的評價,通過實證分析,挖掘出企業中高管的學歷對企業成長的影響程度。
在設計評價體系時,大多數現有研究忽略了企業成長系統的復雜性,即沒有考慮到企業在成長時可能會受到的各類影響間的相互關系。基于此,本文提出全新的企業成長性模型框架,在此基礎上引用GBRT算法,通過實證模擬,檢驗模型的精確性,為企業提供有價值的參考依據。
GBRT(Gradient Boost Regression Tree)算法是一種迭代的回歸樹算法,會將所有回歸樹的結論累加起來作為階段性結果。最終結果會由迭代多棵樹來共同決策,其核心是每一棵樹都是學習之前所有樹的結論和殘差。
其中,回歸樹的整理流程基本如下示:
輸入:訓練數據集D;
輸出:回歸樹f(x);
在訓練數據集所在的輸入空間中,遞歸地將每個區域劃分為兩個子區域并決定每個子區域上的輸出值,構建二叉決策樹:
1.選擇最優切分變量j與切分點s,求解
遍歷變量j,對固定的切分變量j掃切分點s,選擇使式(2)達到小值的對(j,s)。
2.用選定的對(j,s)劃分區域并決定相應的輸出值:
3.繼續對兩個子區域調用步驟(1),(2),直至滿足停止條件,
4.將繼續輸入空間劃分為M個區域R1,R2,…,RM,生成決策樹:
當完成回歸樹流程生成對應的決策樹后,使用loss函數的梯度近似殘差,解決殘差計算問題;然后,以合殘差的近似值利用線性搜索估計葉結點區域的值,使損失函數極小化,得到最終模型。
上述步驟即為中小企業成長性評價模型利用GBRT算法的原理,具有強大的預測能力,不僅可以處理不同類型的數據,對空間外的異常點處理效果也非常顯著。
本文所研究的中小企業評價模型分三步。
首先,先將GBRT算法作為模型基礎,其他兩大模塊在此基礎上建立。GBRT算法是一種集成學習技術,它是多個決策樹結合形成的預測模型,具有精度高、泛化能力強、處理非線性數據等特點,非常適合成長性評價模型的使用。

表1 GBRT模塊
其次,將處理后的數據交由集成學習模塊使用stacking算法進一步處理,其基本原理是訓練集訓練出多個模型,將每個模型的輸出作為輸入,訓練出一個新的模型作為整體的輸出。這一過程能提升模型的精度、穩定性及泛化能力,讓模型的預測能力更為穩定可靠。
最后,通過半監督學習模塊采用Tri-training算法,充分利用未標記樣本的信息,提升模型預測能力。如協同訓練(Co-train),是基于訓練集產生兩個不同的模型(如GBRT和神經網絡)同時對測試集進行預測,將預測結果作為該樣本的標簽,添加進訓練集,根據擴大后的訓練集訓練出新的模型,然后重復此過程。傳統建模方法訓練模型不使用未標記樣本,但實際上,未標記樣本中同樣存在大量信息可用于訓練模型,半監督學習可以充分利用這些信息,進一步保障模型性能。

表2 半監督學習模塊
此外,在模型構建過程中,采用10折交叉驗證檢驗模型預測性能,即每次抽取十分之九的樣本進行建模,對余下的十分之一的樣本進行預測,觀察預測效果,重復十次。該驗證標準差較小,預測性能穩定可靠。即便迭代次數較少,依舊可以實現GBRT算法性能迅速提升并趨于穩定的效果。因此,該模型以GBRT算法為基礎,在數據規模和質量提升后,通過集成學習和半監督學習模塊,能夠進一步提升模型的預測能力和穩定性,具有研究意義。
1.數據來源
本文選取全國中小企業股份轉讓系統中的近2千家中小企業作為分析對象。結合中小企業在系統上所核算的財務、管理、營運等數據,加之企業或相關政府部門所公示的該公司的信用風險、知識產權等信息的量化數據,形成導入模型的基本數據。
2.評價指標說明
在已有的研究基礎上,充分考慮全國中小企業成長特點,在滿足GBRT算法要求的前提下,分別從盈利能力、營運效率等六個維度遴選出中小企業成長過程的主要影響因素,科學合理地構建中小企業成長性評價指標體系,如表3所示。

表3 成長性評價模型框架表
3.實證結果分析
本次實驗在獲得原始數據后對數據進行清洗,并進行重新審查和校驗,對重復信息、錯誤數據進行糾正,確保從系統中數據的一致性。處理共得1700條數據,每條數據代表一個企業,特征是評價模型框架對應的六維和企業對應的總分。
將處理后的數據導入模型,結合本文所述操作,通過GBRT等算法的遞進使用對1700家中小企業成長性進行評價。實證分析用Python作為開發語言,通過scikit-learn(機器學習和數據挖掘)、matplotlib(繪制各種靜態、動態、交互式圖表和圖形)和numpy(科學計算和數值分析)實現數據處理和建模。
首先,GBRT算法的估計可以優化側重于通過生長多個決策樹來最小化損失函數,即優化包括在樹的每個節點找到最小化損失函數的最優分割,并更新、分配給每個特征的權重。
其次,將基本數據所具有6個特征進行梯度增強模型擬合到訓練數據的結果是近似目標變量和6個特征之間的關系的預測模型。也就是構建多個決策樹,以目標變量的分段常數近似的方式擬合先前樹的殘差,并組合所有樹的預測,以獲得最終近似值。
最后,將10棵樹添加到具有6個特征的GBRT模型之后,目標變量的近似值將變得更加精確。集合中的每棵樹都將在目標變量的分段常數近似中擬合先前樹的殘差。最終的近似值將是所有樹所做預測的組合,這將產生更強大、更準確的模型。
可以看到,圖1顯示可以防止使用樹形結構的過擬合方法來正則化結果;圖2顯示當RT為1的時存在高誤差的情況;圖3顯示通過正則化,交叉驗證等技術可以減少誤差,找到最佳數量的樹并防止過擬合,確保實證分析的有效性和準確性。

圖1 RT max depth=1和RT max depth=2訓練結果與ground truth對比

圖2 RT depth=1時與ground truth的誤差對比

圖3 使用stacking算法和Co-training模塊后GBRT模型的誤差對比
綜上所述,可以發現盈利能力和營運效率對中小企業評價模型產生較大的影響,這說明二者在評價企業成長性時發揮了至關重要的作用。同時,信用風險、管理能力和技術創新能力也在一定程度上影響評價結果;而發展潛力對于模型的影響較小,這說明在中小企業成長過程中可以優先解決盈利、營運和信用等對成長影響較為明顯的方面,再著重提升發展潛力有助于企業更好地成長。
中小企業成長過程中的影響因素眾多,對其成長性的評價實際上是一個不夠準確的考量方式。本文借助已有的評價經驗,研究基于GBRT算法的評價模型,該模型的優點在于,可以在數據不足、準確度不夠的條件下,擴大信息來源,提高評價分析的可信度。因此,本文所研究的中小企業成長性評價模型具有一定的實用價值,旨在為相關人員提供有益的參考和借鑒。