李豫 方子強

摘要:本文主要針對300多個反映上市公司是否高送轉的因子于3000多個上市公司的日數據與年數據的研究,利用機器學習的思想對因子進行篩選和對上市公司未來高送轉的預測。首先,對年數據和日數據進行數據預處理后,利用向后逐步回歸模型對大量因子進行篩選,其次利用因子分析法對逐步回歸篩選出5個公共因子,這篩選出的5個公共因子可以很好的解釋上市公司是否高送轉的情況,在某種程度可以解釋為5個公共因子所相關的因子即為上市公司實施高送轉方案影響較大的因子。最后建立多元邏輯回歸模型,對公共因子做進一步解釋和對上市公司第8年實施高送轉進行預測。通過機器學習的算法結合經濟學知識和實際生活,最終得到了很好量化上市公司實施高送轉方案影響較大的因子。并結合問題一選取的因子建立了邏輯回歸模型預測上市公司第八年實施高送轉的情況。通過建立訓練集和測試集的方法對模型進行訓練的方法,最終可以將模型的預測成功率穩定在80%。從經濟學和實際生活進行考慮,該模型可以很好的預測出上市公司未來高送轉的情況,具有很大的現實意義。
關鍵詞:機器學習;向后逐步回歸;因子分析法
1 引言
高送轉是指送紅股或者轉增股票的比例很大,是上市公司分紅的一種方式。上市上市公司在施行高送轉方案后會做除權處理,投資者可以通過填權行情從股票增值中獲利,如果我們可以通過股票研究影響高送轉的因子從而精確的預測出下一年會施行高送轉方案的公司并提前買入的話,這將對投資的收益和安全性具有很大的現實意義。而影響高送的因子主要分成兩類:一類是基本因子,另一類是成長因子。我們需要對基本因子和成長因子和其他一些因子進行數據挖掘和數據分析。
2 模型的建立
首先考量了年數據有大約24000行數據,360個因子,其中很多因子和行數據由于不同的原因出現了大量缺失值和稀疏矩陣。我們對于不同情況的空缺值進行考量,將通過以下的方案進行數據清洗。空缺值大于30%的數據列,由于缺失值過多,若使用其他數值替代會很不合理,所以對于空缺值大于30%的列直接刪除,不予考慮。對于空缺值小于30%的數列,由于缺失的數據不算太多,如果直接刪除又會損失掉可利用的信息,所以我們不妨對于這一部分的數據列用均值進行替代。除了每股送轉的缺失值用0替代。因為每股送轉的值缺失,即表示為該公司沒有進行送轉,那么每股送轉就為0。在有些上市年限未能達到7年,就導致了一些行數據缺失。那么不妨就上市年限少于7年的公司進行刪除,篩選出了7年內每年都公布了高轉送預案的公司進行著重分析會對股票高送轉影響因子這樣復雜的問題簡化了。
3 模型的求解
對于日數據,數據清理部分與年數據相同。最終刪除了49個因子。保留了11個因子,對于這11個因子通過查閱相關文獻,和分析其經濟學意義,最終保留了平均股價和成交量這兩個最能夠反映企業高送轉的因子。我們對每年每天每個公司的平均股價和成交量求平均值。將最后預處理后的數據加入到年數據中當成新的兩個因子,在后面的步驟一起進行分析。這樣我們就綜合了年數據與日數據對上市公司是否實施高送轉的因子進行分析了。
對因子的系數進行可視化,可以觀察到,上市公司是否進行高送轉的主要影響因子,最大的是股價因子。而成長因子、利潤因子、方案因子只會在股價因子水平一定的條件下部分影響股票的高送轉。也就是說主要影響股票高送轉的還是股價、總股本、每股收益等于股價相關的因子。而上市年限、每股未分配利潤,每股資本公積、是否存在定增方案等因子有一定的相關性。
4 總結
綜合了機器學習的向后逐步回歸、因子分析法、多元邏輯回歸等模型方法對上市公司實施高送轉方案的影響因子做了相應研究,得出來了影響高送轉較大的因子,并對上市公司第八年實施高送轉方案進行預測。首先對數據清洗和預處理篩選出了225個因子和16240個研究數據。接著對剩下的225個因子作向后逐步回歸。選出了29個線性相關的因子,然后由于29個因子之間也具有很強的相關性,所以還可以利用因子分析法進行降維,最后降維保留了5個公共因子。這5個公共因子分別為成長因子、利潤因子、股價因子、方案因子、其他因子。那么我們則可以認為這5個公共因子是對上市公司實施高送轉方案影響較大的因子。而這五個公共因子又表示了不同因子,即這些不同因子就是企業實施高送方案影響較大的因子。最后通過分析得出股價、總股本、上市年限、每股未分配利潤、每股公積金、企業負債等因子會影響上市公司實施高送轉方案。通過對5個公共因子進行二分類邏輯回歸,可以通過這個多元邏輯回歸模型對上市公司第8年上市公司實施高送轉的情況進行預測并且可以通過該模型得到的5個公共因子有更加深入的分析。最后的結論是:在得出的5個公共因子進行二元回歸分析,可以得出在五個公共因子里面股價因子(股價、每股收益等)會對上市公司實施高送轉有最大的影響,對于資產因子、利潤因子、方案因子有一定的影響。在優化后的二分類邏輯回歸用于預測上市公司高送轉的情況,有80%預測成功率。認為可以在一定情況下可以相信該模型。這會對投資的安全性和收益性有很大的意義。
參考文獻
[1]喻永生.股票價格預測中機器學習的應用[J].科技經濟導刊,2018(12):188.
[2]唐思佳,熊昕,謝滿,丁力,張上.基于機器學習的優化股票多因子模型[J].信息與電腦(理論版),2019(23):30-32.
[3]周志華.機器學習[M].北京:清華大學出版社,2016.
[4]王偉.基于深度學習的股票數據分析技術的研究與應用[D].北京:北京郵電大學,2019.
[5]王悅.上市公司高送轉的影響因素分析[J].中外企業家,2019(29):15.