999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征工程的“高送轉(zhuǎn)”預測模型構建

2021-08-03 06:22:52劉仁輝李毓麗劉淑敏鄭菲
電腦知識與技術 2021年17期

劉仁輝 李毓麗 劉淑敏 鄭菲

摘要:近年來,雖然我國證券市場中的高送轉(zhuǎn)題材受到了中小投資者的追捧,同時也產(chǎn)生了一些市場的亂象,導致投資者容易去盲目的炒作高送轉(zhuǎn)。但是對高送轉(zhuǎn)股票的預測模型中,很多都會采用了主觀性比較強烈的打分排序法以及 Logistic 回歸分析的方法進行構建高送轉(zhuǎn)股票預測的模型。該文深入分析了對于高送轉(zhuǎn)股票影響程度比較大的影響因素,采用機器學習中特征工程的方法,分別用了 Filter 過濾法與 F 檢驗法篩選出影響因素的因子,構建出高送轉(zhuǎn)股票的預測模型是支持向量機 SVC 模型,并采用了2020年第八屆泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽中提供的股票樣本數(shù)據(jù)對模型進行了數(shù)據(jù)處理后的驗證。實證后的結果顯示,模型正確率在84.26%以上,模型預測準確度最高可達54%。

關鍵詞:高送轉(zhuǎn);特征工程;支持向量機模型

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)17-0224-02

開放科學(資源服務)標識碼(OSID):

1 背景

高送轉(zhuǎn)股票在近幾年的證券市場當中是中小投資者比較熱捧的股票之一。高送轉(zhuǎn)股票一般是需要每10股送轉(zhuǎn)5股(包括5股)以上的股票才能稱為高送轉(zhuǎn),它是一種高比例送股或者高比例轉(zhuǎn)股,簡稱高送轉(zhuǎn)[1]。從投資者的角度來看,實施高送轉(zhuǎn)的股票是會被看好的,如果在該股票實施高送轉(zhuǎn)之前提前介入市場,并在公司公布當年分紅政策后再賣出,可以獲利不菲[2]。所以,針對可以賺取更高的收益,這就需要針對公司預測哪些股票能夠?qū)嵤└咚娃D(zhuǎn),因此最關鍵技術是預測高送轉(zhuǎn)公司的成功概率。

本文嘗試用特征工程中的Filter過濾法以及F檢驗法來篩選對高送轉(zhuǎn)股票影響較大的影響因素,通過構建支持向量機預測高送轉(zhuǎn)的模型。此方法相對于市場上比較常用的打分排序法,對指標選取以及權重分配的主觀性,能夠通過特征本身的方差來篩選特征的類,去除方差很小的特征,尋找兩組數(shù)據(jù)之間的線性關系;并通過檢驗值去除特征沒有顯著線性關系的因子,而對于影響因素較大的因子,通過構建支持向量機模型進行預測,能夠比較各個特征因子對于高送轉(zhuǎn)行為的影響程度,從而篩選出影響比,并對未來實施高送轉(zhuǎn)的股票概率進行統(tǒng)計。

2 研究設計

2.1 Filter 方法與 F 檢驗法

Filter方法是通過特征本身的方差來過濾篩選特征的類。Filter特征選擇是制定一個準則,衡量每個特征對目標特征屬性的重要程度,以此來對所有特征進行排序,剔除方差為零的特征,舍棄所有方差小于threshold的特征。

F檢驗法是由英國統(tǒng)計學家費雪提出的,通過雙檢驗,對兩個樣本的總體方差進行比較,尋找兩個樣本之間的線性關系,假設“數(shù)據(jù)不存在顯著的線性關系”,通過 F 值與P 值統(tǒng)計量來比較特征與標簽之間的線性關系,保存P值小于0.05或者大于0.01的特征,刪除P值大于0.05或者小于0.01的特征。

2.2 影響實施高送轉(zhuǎn)的因素

首先對高送轉(zhuǎn)行為進行一個量化,變量名為gsz,如果上市公司實施了高送轉(zhuǎn),gsz=1,否則,gsz=0。影響上市公司高送轉(zhuǎn)的因素很多,包括市場的環(huán)境、財務的狀況,股票價格和監(jiān)督政策等。通過Filter過濾法以及F檢驗法的特征篩選以及數(shù)據(jù)處理后,我們可以得出對高送轉(zhuǎn)有較大影響的因子有16個,分別是:平均股價、每股未分配利潤、每股凈資產(chǎn)、每股現(xiàn)金流量凈額、個股120日beta值、個股120日還手率、帶息流動負債、凈債務、營運資本、凈利息費用、息前稅后利潤、企業(yè)自有現(xiàn)金流量、固定資本、實收資本、成交量和帶息債務。并將16個因子作為因變量進行模型建立,分析與預測。

2.3 高送轉(zhuǎn)預測模型的構建

支持向量機是一種分類算法,也是一種二類分類模型,可以做回歸[3]。根據(jù)輸入的數(shù)據(jù)不同可做不同的模型,本模型通過輸入標簽為分類值做分類,樣本的數(shù)據(jù)給了7年的數(shù)據(jù),通過對這7年的數(shù)據(jù)進行一個劃分,將前6年的數(shù)據(jù)作為訓練集,第7年的數(shù)據(jù)當作測試集,支持向量機借助訓練集以及測試集進行訓練,訓練過后會得到模型的一個準確率。然后引入算法來建立支持向量機的模型,并選取 SVC模型中的 rbf 方法,選擇rbf方式下的調(diào)參優(yōu)化模型,提高學習機泛化能力,實現(xiàn)經(jīng)驗風險和置信范圍的最小化,獲得良好統(tǒng)計規(guī)律的目的。rbf 核函數(shù):

[K(xi,xj)=exp (-(γ(i)-γ(j))22σ2])

當γ(指本式中的[σ])比較小時,單個樣本對整個分類超平面的影響比較小,不容易被選擇為支持向量,反之,當γ比較大時,單個樣本對整個分類超平面的影響比較大[4],更容易被選擇為支持向量,或者說整個模型的支持向量也會多。

3 數(shù)據(jù)來源與處理

3.1 數(shù)據(jù)來源與選取

樣本數(shù)據(jù)選取了2020 年第八屆泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽中提供的股票數(shù)據(jù)作為樣本。該樣本數(shù)據(jù)中提供每家公司七年數(shù)據(jù)(包括日數(shù)據(jù)和年數(shù)據(jù)),預測第八年會實施高送轉(zhuǎn)的股票,將選取第七年作為樣本測試集,前六年作為樣本訓練集。

3.2 數(shù)據(jù)處理

由于數(shù)據(jù)并未進行數(shù)據(jù)處理,避免影響模型預測,首先對樣本數(shù)據(jù)進行噪聲數(shù)據(jù)的處理,將不規(guī)范的數(shù)據(jù)統(tǒng)一處理為規(guī)范的數(shù)據(jù),刪除或者補全基于給出數(shù)據(jù)當中的缺失值,在缺失值和異常值處理之后,為了消除計量單位和數(shù)量級不同的原因,對變量進行數(shù)據(jù)標準化[5]的去量綱處理。

4 實證分析

4.1 影響因素的篩選

4.1.1 Filter方法的篩選

在模型建立之前,特征工程要做的是優(yōu)先消除方差為0的特征。利用此方法的特性,對于選取的第七年的數(shù)據(jù)整合日數(shù)據(jù)和年數(shù)據(jù),利用Anaconda 3.7進行數(shù)據(jù)的分析,在分析之前,整合表中的因子字段數(shù)據(jù)剩余的156個因子,通過Filter過濾法的分析后,經(jīng)過特征的篩選,將一些很相近的以及沒有什么用的因子進行剔除,最后得到的數(shù)據(jù)集當中還剩余82個因子字段,并以此作為數(shù)據(jù)集,如圖1,為之后進一步篩選做準備。

4.1.2 F檢驗的篩選

F 檢驗會返回F 值和 P 值兩個統(tǒng)計量,p 值小于 0.05 或大于 0.01 的特征,這些特征與標簽是顯著線性相關的,而 p 值大于 0.05 或小于0.01 的特征則被我們認為是和標簽沒有顯著線性關系的特征,應該被刪除。通過 Anaconda3.7 進行F 檢驗由 82 個特征篩選剩下16個因素,如圖2所示。

4.2 影響因素的因子

基于對樣本測試數(shù)據(jù)的Filter方法和F檢驗的篩選剩下16個因子,分析結果有:平均股價、每股未分配利潤、每股現(xiàn)金流量凈額、個股120日beta 值、個股120日還手率、帶息流動負債、凈債務、營運資本、凈利息費用、息前稅后利潤、企業(yè)自由現(xiàn)金流量、固定資本、實收資本、成交量、帶息債務、每股凈資產(chǎn)這16個因子。

4.3 模型建立與結果

首先把gsz 當成自變量,將上述篩選出的16個因子作為因變量進行支持向量機SVC模型預測。首先將7年的樣本數(shù)據(jù)進行劃分,將前6年的數(shù)據(jù)作為訓練集,第7年的數(shù)據(jù)當作測試集進行訓練,訓練過后我們會得到模型的一個準確率。然后對此來引入算法建立支持向量機的模型,算法模型代碼如圖3所示。

訓練集通過rbf訓練,通過調(diào)參后引入算法模型,最終得出模型的準確率為84.26%,模型準確度提升了15.74%,如表1所示。

根據(jù)定義好每10股送5股(包括5股)作為特征指標進行預測,得出了第八年預測上市公司會實施高送轉(zhuǎn)的股票534支,對比第八年的高送轉(zhuǎn)實施公司數(shù)據(jù),成功實施高送轉(zhuǎn)有288支,準確率達 54%左右。

5 結束語

本文基于Filter過濾法和F檢驗法做數(shù)據(jù)處理,同時對比所篩選的因子對支持向量機模型準確度的影響程度,得出顯著的影響因子有平均股價、每股未分配利潤、每股凈資產(chǎn)、每股現(xiàn)金流量凈額、個股120日beta值,個股120日還手率,帶息流動負債、凈債務、營運資本、成交量等16個影響較大的因子,最后根據(jù)前七年數(shù)據(jù),進行第八年上市公司實施高送轉(zhuǎn)的行為預測,并列舉出了前三十名股票編號。通過該模型對高送轉(zhuǎn)構建預測模型,得出合理的預測,降低對投資者盲目投資,能夠進一步地降低投資的風險。

參考文獻:

[1] 胡宸.基于集成學習的上市公司高送轉(zhuǎn)預測模型及投資策略設計[D].上海:上海師范大學,2019.

[2] 陳欣.上市公司高送轉(zhuǎn)如何預測[EB/OL].[2020-09-20].https://xueqiu.com/8635721061/32627533.

[3] OraYang.支持向量機(SVM)的分析及python實現(xiàn)[EB/OL].[2020-09-20].https://blog.csdn.net/u010665216/article/details/78382984.

[4] svm核函數(shù)gamma參數(shù)_RBF SVM 參數(shù)解讀 | gamma 和 C 如何對應模型表現(xiàn)[EB/OL].[2020-12-30].https://blog.csdn.net/weixin_39943220/article/details/112364241.

[5] 李思銘,林志杰,陳文,等.基于數(shù)據(jù)挖掘的上市公司高送轉(zhuǎn)預測[J].北方經(jīng)貿(mào),2020(12):131-134.

【通聯(lián)編輯:謝媛媛】

主站蜘蛛池模板: 日韩最新中文字幕| 午夜一级做a爰片久久毛片| 福利在线一区| 无码国产偷倩在线播放老年人| 一级毛片免费观看不卡视频| 99久久精品国产麻豆婷婷| 亚亚洲乱码一二三四区| 亚洲人成成无码网WWW| 日韩国产黄色网站| 国产人成网线在线播放va| 欧美日韩国产精品va| 四虎精品免费久久| 亚洲国产成人在线| 国产va视频| 久久亚洲美女精品国产精品| 亚洲天堂视频在线观看免费| 高潮毛片免费观看| 99久久性生片| 日本三区视频| 久久精品亚洲中文字幕乱码| 特级aaaaaaaaa毛片免费视频| 强奷白丝美女在线观看| 一区二区日韩国产精久久| 三区在线视频| 亚洲性日韩精品一区二区| 高清欧美性猛交XXXX黑人猛交 | 欧美区国产区| 中文字幕在线一区二区在线| 毛片a级毛片免费观看免下载| 久久国产高清视频| 欧美激情网址| h视频在线播放| 亚洲性影院| 人人爽人人爽人人片| 欧美成人午夜在线全部免费| 国产精品免费p区| 老司国产精品视频91| 精品国产香蕉在线播出| 欧美国产在线看| 国产精品毛片一区| 欧美色视频在线| 露脸真实国语乱在线观看| 影音先锋丝袜制服| 色丁丁毛片在线观看| 久久国产精品电影| 天堂成人在线| 一级毛片在线播放免费| 国产精品999在线| 亚洲电影天堂在线国语对白| 18禁色诱爆乳网站| 国产无码网站在线观看| 亚洲福利视频一区二区| 亚洲成a人在线观看| 色天堂无毒不卡| 欧美日韩北条麻妃一区二区| 亚洲综合九九| 亚洲国产亚综合在线区| 欧美亚洲国产精品久久蜜芽 | 91网红精品在线观看| 人妻无码一区二区视频| 欧美色图久久| 国产无吗一区二区三区在线欢| 国产美女无遮挡免费视频| 日韩第九页| 制服丝袜国产精品| 91麻豆精品国产高清在线| 四虎国产精品永久一区| 欧洲在线免费视频| 精品亚洲麻豆1区2区3区| 日本AⅤ精品一区二区三区日| 欧美v在线| 亚洲啪啪网| 国产精品免费p区| 在线视频精品一区| 老司机午夜精品视频你懂的| 丰满少妇αⅴ无码区| 久久精品丝袜| 毛片基地美国正在播放亚洲 | 国产 在线视频无码| 国产亚洲美日韩AV中文字幕无码成人| 三上悠亚精品二区在线观看| www精品久久|