基于支持向量機的國內上市公司運營預測

2022-06-02 03:54:02張小莉葛建軍

綠色科技 2022年9期

張小莉，王品，熊超，葛建軍

(貴州財經大學，貴州貴陽 550025)

1 引言

隨著我國市場化程度不斷提升，企業作為市場經濟活動的主要參加者，在資源配置等方面發揮著越來越大的作用。而作為優秀企業代表的上市公司之間的競爭更是激烈，其健康與否從一定程度上反映著我國國民經濟發展狀態。在這種情況下，找到一個適合我國上市公司運營風險的預測模型十分必要。精確率越高的運營預測模型，其市場價值也越高。

就目前研究而言，研究者們提出的大量運營預測模型，可以從其使用方法上大體分為兩類：一類是基于傳統統計方法的模型；另一類是基于人工智能技術的模型。傳統統計方法模型主要有回歸分析(彭壽康[1])、因子分析(徐曉燕[3])和貝葉斯分析(韓麗娜、石昊蘇[8])、聚類分析(朱麗葉[10])等方法。這一類模型發展歷史較久、理論較為完善，但其主要缺陷在于其模型建立是以很多與現實不太相符的假設作為前提的。如獨立性假設、正態分布假設及線性回歸假設等。鑒于這些嚴格條件，模型模擬的最終效果往往精確度較低，不夠理想；相對于傳統的統計方法，第二類模型主要利用現代人工智能技術，如神經網絡[2，4]、機器學習[5，6，11～13]、遺傳算法[7]等。由于其不需要對數據的分布進行假設，具有準確性高、適應性強等優勢。在近十幾年來被很多專家和學者廣泛應用。同樣的，本文基于相關研究之上，運用第二類方法-支持向量機來重點研究上市公司運營風險預測模型。

2 數據描述及處理

2.1 數據來源

在數據搜集上，本文利用八爪魚采集器自定義的爬取功能，在東方財富網滬深A股上市公司中獲取了20家破產公司數據和2000家健康公司數據，其中破產上市公司數據是指2017～2020年期間滬深A股退市并轉板至老三板的上市公司前一年的財務年報，健康公司數據是2016～2020年期間的上市公司財務年報。

總體說來，上市公司的財務報表由業績、資產負債、利潤、現金流等四大類指標構成，具體可細分如下40個特征屬性：每股收益、營業收入、營業同比增長、營業季度環比增長、凈利潤、凈利潤同比增長、凈利潤季度環比增長、每股凈資產、凈資產收益率、每股經營現金流量、銷售毛利率貨幣資金、應收賬款、存貨、總資產、總資產同比、應收賬款、總負債、總負債同比、資產負債率同比、股東權益合計、凈利潤、凈利潤同比、營業總收入、營業總收入同比、營業支出、銷售費用、管理費用、財務費用、營業總支出、營業利潤、利潤總額、凈現金流、凈現金流同比增長、經營性現金流量凈額、經營性凈現金流占比、投資性現金流量凈額、投資性凈現金流占比、融資性現金流量凈額、融資凈現金流占比。

2.2 數據預處理

數據預處理沒有標準的流程，具體選擇方法要根據數據集屬性而定。根據本文數據情況，數據預處理主要有以下步驟：①去除唯一屬性，即去除上市公司的股票代碼，這些屬性并不能刻畫樣本自身的分布規律，直接刪除即可；②缺失值補全，筆者這里使用的是同類均值插補方法，即將樣本進行分類，然后以該類中樣本的均值來插補缺失值；③歸一化，以避免度量單位不同帶來分析不便。

3 構建最優特征子集

如何從大量的特征變量中選取對學習算法有益的特征變量來進行簡化建模，是整個模型構建中最為關鍵的一步。本文采用了兩種方法進行篩選比較來確定最終最優特征子集。

3.1 隨機森林

作為新興起的、高度靈活的一種機器學習算法，隨機森林精度高、計算成本小、在分類問題上表現優秀[13]。隨機森林體現的是集成學習的思想，其基本單元是決策樹，用數學公式可以表示為{h(X,ki),i=1,2,3,4...n}，其中{ki}是獨立同分布的隨機向量(決策樹)，在給定自變量X下，每顆決策樹都能獨立地給出自己分類的結果，以次數最多的類別指定為最終輸出結果[5]。

本文利用隨機森林進行特征篩選的思想借鑒了姚登舉老師[5]在其文獻中提到的一種算法:RFFS特征選擇方法。即以隨機森林算法為基本工具，先利用隨機森林算法計算出每個特征變量的重要性并將它們進行降序處理，比較每個特征對分類結果貢獻率的大小。然后從序列最后面的特性變量刪起，每次從特征集合中刪掉一個最不重要(重要性得分最小)的特征，每刪除一個特征向量就會得到一個新的特征集，使用新的特征集放入SVM模型中重新擬合，依次計算其分類正確率，并將最終結果進行匯總比較，分類正確率最高的那個特征集合即是最優特征子集的選擇結果。在統計應用中，如果出現特征數目較多的情況，為了避免計算過程太過繁瑣，可以在迭代之前先設置一個最小重要性閾值，特征重要性得分小于這個最小閾值的特征可以直接刪掉。

由于本文選擇的特征變量數量不算太多只有40個，且每個指標在財務報表上都有很重要的參考意義，所以這里就沒有設置最小重要性閾值，而是直接將所有特征變量帶入到SVM中，以2為步長，依次從序列中后面刪除2個特征變量進行迭代，得到的精確度匯總如表1。

表1 取不同數量特征子集的精準度

利用切片方式選擇市值為因變量y，每股收益、營業收入、營業同比增長等40個指標為特征變量x。利用表1數據訓練隨機森林，得到的各個特征變量重要性得分如圖1所示。

圖1 各個特征重要程度

當只選取前16個特征變量時模擬精確度最高，為0.6455。即隨機森林排序后的前16個特征變量就是其挑選出來的最優特征子集。具體為：股東權益合計、總資產、凈利潤、營業總收入、營業收入、貨幣資金、營業總支出、營業支出、營業利潤、利潤總額、銷售毛利率、經營性現金流量凈額、每股收益、凈資產收益率、管理費用、資產負債率。

3.2 SVM模型

支持向量機SVM是機器學習中監督學習的一種分類算法，其主要思想就是將數據特征映射到幾何空間上，通過學習不同類別所擁有的特征對學習樣本求解的最大邊距超平面，并以此構造最優間隔的分類器。根據處理的數據是否線性可分，SVM模型可分為線性可分支持向量機和線性不可分支持向量機[11]。

利用SVN-RFE方法選出最優特征后，進行交叉驗證法驗證最優特征集合的準確率，采用K折交叉驗證，對每次計算進行打分，發現10次計算后得分均在63%附近，這說明利用SVM-RFE得到的最優特征集合對于市值的正確預測率在63%左右，效果不是很理想。接下來要對最優特征及模型方法進行調整改進，以期提高預測的準確率。

3.3 綜合比較

綜合比較隨機森林和支持向量機輸出結果：隨機森林算法挑選的最優特征個數為16，精確率為0.64；支持向量機算法挑選的最優特征個數為22，精確率為0.63。兩種算法得出得精確率相差不大，但在最優特征個數上有較大差別，考慮到結果可靠性和計算機的計算速度，筆者優先取兩個算法結果的交集，即對于兩個算法都認可影響因子較大的特征優先選取，剩下的特征變量則按隨機森林挑選的特征重要性排序補足15個特征子集作為最終的特征最優子集。最終結果為：每股收益、凈利潤、凈資產收益率、銷售毛利率、貨幣資金、總資產、股東權益合計、營業總收入、營業總收入占比、營業支出、管理費用、營業總支出、營業利潤、利潤總額、經營性現金流量凈額。

4 基于SVM模型預測效果

4.1 評價指標的選取

在判斷模型的預測能力上，需要引入指標展現模型的優劣和預測效果好壞[6]。通過查閱文獻，本文選取了基于混淆矩陣的F-Measure指標對模型進行評比。

理由：本文所收集的是非均衡數據，每份年報包含1800～2000家健康上市公司和4～5家破產上市公司。F值是用來度量非平衡數據的模型，公式包含了精準度和召回率，具體公式如下：

F-Measure = (2×Precision×Recall) / (Precision + Recall)

(1)

式(1)中Precision表示精度預測為正的結果中，真正是正樣本所占的比例；Recall是測試集中所有正樣本樣例中，被正確識別為正樣本的比例。如果一個分類器的性能較好，正Recall增長的同時，Precision也應該保持在較高的水平，但實際上，它們是呈反向變化的。而F值同時兼顧了模型的精度和準確度，克服了P和R的矛盾，在度量非均衡數據方面表現良好。F值越高說明該模型效果越好[10]。

4.2 SVM模型預測結果檢驗

前面已經選好了最優特征子集，接下來的目的就是構造SVM模型并驗證模型的有效性。在總數據中做出修改，將沒有對特征變量進行優化的數據和已經做了最優子集的數據分別隨機抽樣，對比其在SVM模型中的有效性。

隨機抽取1000條沒有對特征變量進行任何優化的樣本數據進行簡單預處理，將其放入SVM模型中進行預測分類，多次運用模型擬合數據并對結果求平均值，可得到如表2的混淆矩陣1；隨機抽取特征變量優化后即包含了15個最優特征子集的數據進行同樣操作，得到如表3的混淆矩陣2。

表2 混淆矩陣1

由表3可知，在測試集中得到219家財務正常運作的上市公司里，SVM模型全部預測正確，而在20家破產上市公司中，僅僅預測正確了10家。計算得F=0.66，這說明特征變量優化前的SVM模型的預測效果隨機性很強，模型不理想。對比表4結果，219家健康上市公司全部預測正確，20家破產上市公司中預測正確15家，F=0.85。這說明對特征變量進行一輪優化后，F值由0.66提升至0.85，準確率明顯有所提升，即本文建立的模型是有效的。

表3 混淆矩陣2

5 回歸分析

利用多元線性回歸方法對已篩選出的特征進行顯著性分析，研究對于市值產生顯著影響的變量。確定回歸模型的假設檢驗原假設為15個特征值(表4)對市值的影響不顯著。建立模型如下：

表4 回歸模型特征變量展示

Yi=β0+β1X1+…+β15X15

(2)

式(2)中Y為市值，Xi為自變量，即所選出的最優特征，βi為回歸系數。

原假設15個特征值對市值的影響不顯著。利用SPSS導入以上15個特征和市值進行多元線性回歸，結果如表5所示。

表5 回歸模型分析

p值顯著，得到15個特征值對市值的影響是顯著的，進一步驗證了上一節利用SVM和隨機森林得到的最優特征是正確的，通過表6，可以看出是哪些具體的特征對于市值來說是顯著的。

表6 回歸分析變量系數展示

從表6中標準化系數β可以看出，每股收益、凈利潤、銷售毛利率、總資產、股東權益合計、管理費用、營業總支出、營業利潤、利潤總額這9個變量對于自變量市值存在顯著性影響，且在這9個變量中每股收益、銷售毛利率、總資產、股東權益合計、營業總支出與市值呈現正向相關。尤其是總資產、股東權益合計和每股收益這3項，相比于其他特征，這3個特征的回歸系數β最大。換句話說，在市值影響特征中，這3個特征存在較高的占比，公司可以重點制定關于如何提高總資產、股東權益合計和每股收益的計劃，使市值增加，避免出現財務危機的情況。至于負相關影響較大的變量，比如管理費用，公司應該正視這一部分經濟效益，減少非必要的投入資金。

6 結論與建議

在大數據迅猛發展的時代下，股票市場作為社會經濟的“預警器”和“助推器”，每日都能產生海量數據。準確預測上市公司運營風險問題有利于政府相關部門和個人投資者避免遭受重大損失[13]。本文中主要用到了隨機森林和支持向量機兩種算法挑選最優特征子集，然后利用支持向量機在處理小樣本數據上的優勢構建破產預測模型并對模型有效性進行驗證。實驗表明，經過最優特征篩選后的數據在模型中表現還算良好，準確率約為85%。

建議：

(1)政府要加強市場監測，及時有效地發現那些對于國家經濟有重大關聯的關鍵企業是否有運營風險，必要時候施以補救措施，避免給社會穩定帶來大的影響[14]。

(2)企業內部加強監督管理、定期評估公司運營狀況[15]。

(3)個人要多關注市場風向有破產的危機，必要時候施以補救措施，避免給社會穩定帶來大的影響。