基于特征工程的“高送轉(zhuǎn)”預測模型構建

2021-08-03 06:22:52劉仁輝李毓麗劉淑敏鄭菲

電腦知識與技術 2021年17期

劉仁輝李毓麗劉淑敏鄭菲

摘要：近年來，雖然我國證券市場中的高送轉(zhuǎn)題材受到了中小投資者的追捧，同時也產(chǎn)生了一些市場的亂象，導致投資者容易去盲目的炒作高送轉(zhuǎn)。但是對高送轉(zhuǎn)股票的預測模型中，很多都會采用了主觀性比較強烈的打分排序法以及 Logistic 回歸分析的方法進行構建高送轉(zhuǎn)股票預測的模型。該文深入分析了對于高送轉(zhuǎn)股票影響程度比較大的影響因素，采用機器學習中特征工程的方法，分別用了 Filter 過濾法與 F 檢驗法篩選出影響因素的因子，構建出高送轉(zhuǎn)股票的預測模型是支持向量機 SVC 模型，并采用了2020年第八屆泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽中提供的股票樣本數(shù)據(jù)對模型進行了數(shù)據(jù)處理后的驗證。實證后的結果顯示，模型正確率在84.26%以上，模型預測準確度最高可達54%。

關鍵詞：高送轉(zhuǎn);特征工程;支持向量機模型

中圖分類號：TP311? ? ? 文獻標識碼：A

文章編號：1009-3044（2021）17-0224-02

開放科學（資源服務）標識碼（OSID）：

1 背景

高送轉(zhuǎn)股票在近幾年的證券市場當中是中小投資者比較熱捧的股票之一。高送轉(zhuǎn)股票一般是需要每10股送轉(zhuǎn)5股（包括5股）以上的股票才能稱為高送轉(zhuǎn)，它是一種高比例送股或者高比例轉(zhuǎn)股，簡稱高送轉(zhuǎn)[1]。從投資者的角度來看，實施高送轉(zhuǎn)的股票是會被看好的，如果在該股票實施高送轉(zhuǎn)之前提前介入市場，并在公司公布當年分紅政策后再賣出，可以獲利不菲[2]。所以，針對可以賺取更高的收益，這就需要針對公司預測哪些股票能夠?qū)嵤└咚娃D(zhuǎn)，因此最關鍵技術是預測高送轉(zhuǎn)公司的成功概率。

本文嘗試用特征工程中的Filter過濾法以及F檢驗法來篩選對高送轉(zhuǎn)股票影響較大的影響因素，通過構建支持向量機預測高送轉(zhuǎn)的模型。此方法相對于市場上比較常用的打分排序法，對指標選取以及權重分配的主觀性，能夠通過特征本身的方差來篩選特征的類，去除方差很小的特征，尋找兩組數(shù)據(jù)之間的線性關系;并通過檢驗值去除特征沒有顯著線性關系的因子，而對于影響因素較大的因子，通過構建支持向量機模型進行預測，能夠比較各個特征因子對于高送轉(zhuǎn)行為的影響程度，從而篩選出影響比，并對未來實施高送轉(zhuǎn)的股票概率進行統(tǒng)計。

2 研究設計

2.1 Filter 方法與 F 檢驗法

Filter方法是通過特征本身的方差來過濾篩選特征的類。Filter特征選擇是制定一個準則，衡量每個特征對目標特征屬性的重要程度，以此來對所有特征進行排序，剔除方差為零的特征，舍棄所有方差小于threshold的特征。

F檢驗法是由英國統(tǒng)計學家費雪提出的，通過雙檢驗，對兩個樣本的總體方差進行比較，尋找兩個樣本之間的線性關系，假設“數(shù)據(jù)不存在顯著的線性關系”，通過 F 值與P 值統(tǒng)計量來比較特征與標簽之間的線性關系，保存P值小于0.05或者大于0.01的特征，刪除P值大于0.05或者小于0.01的特征。

2.2 影響實施高送轉(zhuǎn)的因素

首先對高送轉(zhuǎn)行為進行一個量化，變量名為gsz，如果上市公司實施了高送轉(zhuǎn)，gsz=1，否則，gsz=0。影響上市公司高送轉(zhuǎn)的因素很多，包括市場的環(huán)境、財務的狀況，股票價格和監(jiān)督政策等。通過Filter過濾法以及F檢驗法的特征篩選以及數(shù)據(jù)處理后，我們可以得出對高送轉(zhuǎn)有較大影響的因子有16個，分別是：平均股價、每股未分配利潤、每股凈資產(chǎn)、每股現(xiàn)金流量凈額、個股120日beta值、個股120日還手率、帶息流動負債、凈債務、營運資本、凈利息費用、息前稅后利潤、企業(yè)自有現(xiàn)金流量、固定資本、實收資本、成交量和帶息債務。并將16個因子作為因變量進行模型建立，分析與預測。

2.3 高送轉(zhuǎn)預測模型的構建

支持向量機是一種分類算法，也是一種二類分類模型，可以做回歸[3]。根據(jù)輸入的數(shù)據(jù)不同可做不同的模型，本模型通過輸入標簽為分類值做分類，樣本的數(shù)據(jù)給了7年的數(shù)據(jù)，通過對這7年的數(shù)據(jù)進行一個劃分，將前6年的數(shù)據(jù)作為訓練集，第7年的數(shù)據(jù)當作測試集，支持向量機借助訓練集以及測試集進行訓練，訓練過后會得到模型的一個準確率。然后引入算法來建立支持向量機的模型，并選取 SVC模型中的 rbf 方法，選擇rbf方式下的調(diào)參優(yōu)化模型，提高學習機泛化能力，實現(xiàn)經(jīng)驗風險和置信范圍的最小化，獲得良好統(tǒng)計規(guī)律的目的。rbf 核函數(shù)：

[K（xi，xj）=exp （-（γ（i）-γ（j））22σ2]）

當γ（指本式中的[σ]）比較小時，單個樣本對整個分類超平面的影響比較小，不容易被選擇為支持向量，反之，當γ比較大時，單個樣本對整個分類超平面的影響比較大[4]，更容易被選擇為支持向量，或者說整個模型的支持向量也會多。

3 數(shù)據(jù)來源與處理

3.1 數(shù)據(jù)來源與選取

樣本數(shù)據(jù)選取了2020 年第八屆泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽中提供的股票數(shù)據(jù)作為樣本。該樣本數(shù)據(jù)中提供每家公司七年數(shù)據(jù)（包括日數(shù)據(jù)和年數(shù)據(jù)），預測第八年會實施高送轉(zhuǎn)的股票，將選取第七年作為樣本測試集，前六年作為樣本訓練集。

3.2 數(shù)據(jù)處理

由于數(shù)據(jù)并未進行數(shù)據(jù)處理，避免影響模型預測，首先對樣本數(shù)據(jù)進行噪聲數(shù)據(jù)的處理，將不規(guī)范的數(shù)據(jù)統(tǒng)一處理為規(guī)范的數(shù)據(jù)，刪除或者補全基于給出數(shù)據(jù)當中的缺失值，在缺失值和異常值處理之后，為了消除計量單位和數(shù)量級不同的原因，對變量進行數(shù)據(jù)標準化[5]的去量綱處理。

4 實證分析

4.1 影響因素的篩選

4.1.1 Filter方法的篩選

在模型建立之前，特征工程要做的是優(yōu)先消除方差為0的特征。利用此方法的特性，對于選取的第七年的數(shù)據(jù)整合日數(shù)據(jù)和年數(shù)據(jù)，利用Anaconda 3.7進行數(shù)據(jù)的分析，在分析之前，整合表中的因子字段數(shù)據(jù)剩余的156個因子，通過Filter過濾法的分析后，經(jīng)過特征的篩選，將一些很相近的以及沒有什么用的因子進行剔除，最后得到的數(shù)據(jù)集當中還剩余82個因子字段，并以此作為數(shù)據(jù)集，如圖1，為之后進一步篩選做準備。

4.1.2 F檢驗的篩選

F 檢驗會返回F 值和 P 值兩個統(tǒng)計量，p 值小于 0.05 或大于 0.01 的特征，這些特征與標簽是顯著線性相關的，而 p 值大于 0.05 或小于0.01 的特征則被我們認為是和標簽沒有顯著線性關系的特征，應該被刪除。通過 Anaconda3.7 進行F 檢驗由 82 個特征篩選剩下16個因素，如圖2所示。

4.2 影響因素的因子

基于對樣本測試數(shù)據(jù)的Filter方法和F檢驗的篩選剩下16個因子，分析結果有：平均股價、每股未分配利潤、每股現(xiàn)金流量凈額、個股120日beta 值、個股120日還手率、帶息流動負債、凈債務、營運資本、凈利息費用、息前稅后利潤、企業(yè)自由現(xiàn)金流量、固定資本、實收資本、成交量、帶息債務、每股凈資產(chǎn)這16個因子。

4.3 模型建立與結果

首先把gsz 當成自變量，將上述篩選出的16個因子作為因變量進行支持向量機SVC模型預測。首先將7年的樣本數(shù)據(jù)進行劃分，將前6年的數(shù)據(jù)作為訓練集，第7年的數(shù)據(jù)當作測試集進行訓練，訓練過后我們會得到模型的一個準確率。然后對此來引入算法建立支持向量機的模型，算法模型代碼如圖3所示。

訓練集通過rbf訓練，通過調(diào)參后引入算法模型，最終得出模型的準確率為84.26%，模型準確度提升了15.74%，如表1所示。

根據(jù)定義好每10股送5股（包括5股）作為特征指標進行預測，得出了第八年預測上市公司會實施高送轉(zhuǎn)的股票534支，對比第八年的高送轉(zhuǎn)實施公司數(shù)據(jù)，成功實施高送轉(zhuǎn)有288支，準確率達 54%左右。

5 結束語

本文基于Filter過濾法和F檢驗法做數(shù)據(jù)處理，同時對比所篩選的因子對支持向量機模型準確度的影響程度，得出顯著的影響因子有平均股價、每股未分配利潤、每股凈資產(chǎn)、每股現(xiàn)金流量凈額、個股120日beta值，個股120日還手率，帶息流動負債、凈債務、營運資本、成交量等16個影響較大的因子，最后根據(jù)前七年數(shù)據(jù)，進行第八年上市公司實施高送轉(zhuǎn)的行為預測，并列舉出了前三十名股票編號。通過該模型對高送轉(zhuǎn)構建預測模型，得出合理的預測，降低對投資者盲目投資，能夠進一步地降低投資的風險。

參考文獻：

[1] 胡宸.基于集成學習的上市公司高送轉(zhuǎn)預測模型及投資策略設計[D].上海：上海師范大學，2019.

[2] 陳欣.上市公司高送轉(zhuǎn)如何預測[EB/OL].[2020-09-20].https：//xueqiu.com/8635721061/32627533.

[3] OraYang.支持向量機（SVM）的分析及python實現(xiàn)[EB/OL].[2020-09-20].https：//blog.csdn.net/u010665216/article/details/78382984.

[4] svm核函數(shù)gamma參數(shù)_RBF SVM 參數(shù)解讀 | gamma 和 C 如何對應模型表現(xiàn)[EB/OL].[2020-12-30].https：//blog.csdn.net/weixin_39943220/article/details/112364241.

[5] 李思銘，林志杰，陳文，等.基于數(shù)據(jù)挖掘的上市公司高送轉(zhuǎn)預測[J].北方經(jīng)貿(mào)，2020（12）：131-134.

【通聯(lián)編輯：謝媛媛】

電腦知識與技術2021年17期

電腦知識與技術的其它文章: 新時期計算機網(wǎng)絡維護和改善方法分析; 校園網(wǎng)規(guī)劃設計與教學實驗仿真; 油田開發(fā)數(shù)據(jù)庫建設及應用技術; 樹莓派麥陣列數(shù)據(jù)采集分發(fā)的設計與實現(xiàn); 基于數(shù)字化校園大數(shù)據(jù)中心建設與實現(xiàn); 新時代《數(shù)據(jù)結構》課程線上教學模式研究與探索