999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于gcForest的多因子量化選股策略

2020-08-03 10:05:30倫,李
關(guān)鍵詞:策略模型

王 倫,李 路

上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620

1 引言

近年來,有關(guān)股票預(yù)測的理論發(fā)展日趨激烈。從早期有效市場假說、隨機(jī)漫步[1]理論,后來隨著量化投資的發(fā)展,金融股票交易越來越多地和機(jī)器學(xué)習(xí)產(chǎn)生緊密聯(lián)系。所謂量化選股[2],是指選擇合適的選股指標(biāo)體系[3],使用機(jī)器學(xué)習(xí)中相關(guān)算法,選出優(yōu)質(zhì)股票,其本質(zhì)是數(shù)據(jù)挖掘領(lǐng)域[4]的分類問題。

在過去十幾年中,已經(jīng)有多種機(jī)器學(xué)習(xí)算法應(yīng)用于股票市場的預(yù)測問題。劉道文等[5]在基于支持向量機(jī)的基礎(chǔ)上,以交叉驗(yàn)證方法確定了最佳回歸參數(shù)的選取問題,同時(shí)做了股票價(jià)格指數(shù)的預(yù)測,研究結(jié)果表明支持向量機(jī)能夠準(zhǔn)確地反映股票價(jià)格指數(shù)的變化趨勢。王淑燕等[6]使用指標(biāo)相關(guān)性分析方法,提出了八因子選股模型,然后利用隨機(jī)森林算法驗(yàn)證了該模型在中國股票市場上的有效性。Kumar等[7]將支持向量機(jī)與遺傳算法結(jié)合起來,并將該結(jié)合方法應(yīng)用于股市領(lǐng)域進(jìn)行股價(jià)預(yù)測,結(jié)果表明該算法進(jìn)行的預(yù)測準(zhǔn)確性高于單一支持向量機(jī)。雖然機(jī)器學(xué)習(xí)相關(guān)算法在分類問題有著出色的表現(xiàn),但在投資領(lǐng)域的股價(jià)漲跌問題的預(yù)測準(zhǔn)確性上依然沒有達(dá)到理想效果。

gcForest(multi-Grained Cascade forest,多粒度級(jí)聯(lián)森林,又稱深度森林)是Zhou[8]在2017年提出的新的決策樹集成方法。該算法是在深度學(xué)習(xí)理論的啟發(fā)下,以隨機(jī)森林算法為基礎(chǔ)的一種有監(jiān)督的集成機(jī)器學(xué)習(xí)算法。gcForest算法提出至今,已被應(yīng)用于多個(gè)領(lǐng)域。朱曉妤等[9]首先用多粒度掃描結(jié)構(gòu)提取了火焰的抽象特征,然后利用深度森林模型進(jìn)行火焰檢測,實(shí)驗(yàn)結(jié)果表明該方法能夠提高火焰檢測率,并且具有強(qiáng)魯棒性。劉超[10]提出一種混合采樣不平衡數(shù)據(jù)集成分類算法,使用SMOTE[11]算法合成新的少數(shù)樣本后,在此基礎(chǔ)上驗(yàn)證了gcForest算法比邏輯斯蒂回歸和隨機(jī)森林算法具有更高的準(zhǔn)確性。宮振華等[12]根據(jù)每種森林的預(yù)測精度分別對(duì)級(jí)聯(lián)層中每個(gè)森林進(jìn)行加權(quán),由此提出了一種加權(quán)的深度森林算法,證實(shí)了加權(quán)的深度森林在高維和低維數(shù)據(jù)集上性能都獲得一定提升。

由于傳統(tǒng)機(jī)器學(xué)習(xí)算法在股票市場的預(yù)測問題上并沒有到達(dá)理想效果,而gcForest模型則具有模型復(fù)雜度小,參數(shù)設(shè)定少等優(yōu)點(diǎn),同時(shí)鑒于gcForest算法在諸多領(lǐng)域[8-10,12]的都達(dá)到了預(yù)期的效果,為了追求更高的超額收益,本文將建立基于gcForest的多因子量化選股模型來探索股票市場。

2 gcForest算法分析

gcForest模型把訓(xùn)練分成兩個(gè)階段:多粒度掃描(Multi-Grained Scanning)和級(jí)聯(lián)森林(Cascade Forest)。多粒度掃描階段生成特征,級(jí)聯(lián)森林階段經(jīng)過多個(gè)級(jí)聯(lián)層得出預(yù)測結(jié)果。

在處理序列數(shù)據(jù)處中,多粒度掃描就是用多個(gè)滑動(dòng)窗口對(duì)原始輸入數(shù)據(jù)進(jìn)行掃描,并通過隨機(jī)森林和完全隨機(jī)森林兩種森林模型獲得級(jí)聯(lián)森林的輸入數(shù)據(jù)。每個(gè)完全隨機(jī)森林包含500(參數(shù)可調(diào))棵完全隨機(jī)樹(complete-random trees),每棵完全隨機(jī)樹通過隨機(jī)選擇一個(gè)特征在樹的節(jié)點(diǎn)進(jìn)行分裂,直到每個(gè)葉節(jié)點(diǎn)的實(shí)例都屬于同一類;每個(gè)隨機(jī)森林也包含500棵決策樹,每棵決策樹隨機(jī)選擇輸入的總特征)個(gè)特征生成,并且每次選擇具有最佳的基尼值的特征進(jìn)行分裂。

如圖1中所示,序列數(shù)據(jù)特征為400維,滑動(dòng)窗口大小選擇為100,滑動(dòng)步長為1,通過滑動(dòng)窗口將得到301個(gè)100維的實(shí)例數(shù)據(jù)。提取的實(shí)例數(shù)據(jù)將應(yīng)用于森林模型的訓(xùn)練,假設(shè)有三類要預(yù)測,每個(gè)實(shí)例通過森林模型會(huì)得到三維的類別概率向量,每個(gè)森林訓(xùn)練得到301個(gè)3維的類別概率向量,最后將兩個(gè)森林得到類別概率向量按順序拼接成1 806維的序列數(shù)據(jù)作為級(jí)聯(lián)森林的輸入向量。

圖1 多粒度掃描過程

圖2 中級(jí)聯(lián)森林主要由隨機(jī)森林和完全隨機(jī)森林構(gòu)成。對(duì)于每一層的森林模型,首先,訓(xùn)練樣本通過k折交叉驗(yàn)證訓(xùn)練每個(gè)森林,同時(shí)每個(gè)森林都會(huì)輸出一個(gè)預(yù)測的類別概率向量;然后將該層中所有森林輸出的類別概率向量與樣本的原始輸入向量拼接后作為級(jí)聯(lián)森林下一層的輸入向量。每層結(jié)束后,都會(huì)在測試集上對(duì)預(yù)測結(jié)果進(jìn)行檢測,以決定是否產(chǎn)生下一層。最后將輸出的類別概率向量算術(shù)平均后,取概率最高的類作為gcForest模型的最終預(yù)測結(jié)果。

圖2 級(jí)聯(lián)森林過程

3 gcForest多因子選股策略

3.1 數(shù)據(jù)處理

取滬深300成分股數(shù)據(jù)起始時(shí)間為t0,終止時(shí)間為t2,中間時(shí)間t1,滿足t0

(1)設(shè)訓(xùn)練集整體股票數(shù)據(jù)

記xi=[xi1,xi2,…,xin]為第i行某只股票的全部因子,其中xij表示第i行某只股票的第j個(gè)因子,y=[y1,y2,…,ym]為股票的月收益率。z=[z1,z2,…,zm]為股票收益率標(biāo)簽,其中:

當(dāng)股票的月收益率yi>0時(shí),zi=1;當(dāng)股票的月收益率yi<0時(shí),zi=0。

(2)刪除含有缺失值的股票數(shù)據(jù)。

(3)對(duì)股票數(shù)據(jù)進(jìn)行歸一化處理:

其中,x·j表示每只股票第j個(gè)因子的所有數(shù)據(jù)。

3.2 gcForest選股模型

3.2.1 選股模型多粒度掃描結(jié)構(gòu)

對(duì)于序列數(shù)據(jù)樣本而言,預(yù)測模型盡可能地有效地處理樣本的特征,將有利于提高算法的準(zhǔn)確性[8]。為提高gcForest算法中級(jí)聯(lián)森林階段的股票漲跌的預(yù)測效果,這里設(shè)置了多粒度掃描過程對(duì)股票數(shù)據(jù)的因子進(jìn)行特征提取。

(1)卷積層

圖3所示為一只股票的所有因子數(shù)據(jù)xi,收益率標(biāo)簽zi,選股模型要解決的問題為2分類問題。設(shè)置1個(gè)r維的向量窗口在原始股票數(shù)據(jù)xi上進(jìn)行滑動(dòng)取值,步長為c,則可獲得k(k=向下取整符號(hào))個(gè)r維向量,將所得的向量均標(biāo)記為zi。

圖3 多粒度掃描卷積層

(2)森林層

對(duì)于股票數(shù)據(jù)集X,總共有m只股票因子數(shù)據(jù)xi,按照?qǐng)D3步驟處理完每只股票數(shù)據(jù),然后分別經(jīng)過兩種森林模型學(xué)習(xí)(圖4所示),確定完全隨機(jī)森林模和隨機(jī)森林模型。

圖4 多粒度掃描中森林模型的構(gòu)建

(3)輸出層

圖5中展示的是股票數(shù)據(jù)xi經(jīng)過卷積層后,將得到的k個(gè)r維向量分別經(jīng)兩種森林模型進(jìn)行分類處理,每個(gè)森林得到k個(gè)2維類別概率向量。最后每個(gè)森林將所有的類別概率向量按順序拼接組成一條新的4×k維特征向量ai(標(biāo)簽為zi),作為級(jí)聯(lián)森林的輸入。對(duì)于整體股票數(shù)據(jù)X,得到的是一個(gè)新的股票數(shù)據(jù)集:

圖5 多粒度掃描輸出層

3.2.2 選股模型級(jí)聯(lián)森林結(jié)構(gòu)

在級(jí)聯(lián)森林中,每一層都從上一層獲取經(jīng)過處理后股票的特征信息,并利用股票特征信息產(chǎn)生出新的股票特征信息傳遞至下一層。隨后每一層都將上一層的輸出的股票特征結(jié)果的類別概率向量與原始輸入級(jí)聯(lián)森林的股票數(shù)據(jù)拼接作為自身的輸入。

首先將多粒度掃描階段生成的股票數(shù)據(jù)集A分別經(jīng)過級(jí)聯(lián)層1中(圖6所示)的四個(gè)森林模型進(jìn)行學(xué)習(xí)訓(xùn)練,確定每個(gè)森林模型。

圖6 級(jí)聯(lián)層森林模型確定過程

圖7 級(jí)聯(lián)森林整體流程

圖7 中所示為經(jīng)過多粒度掃描階段生成的股票特征向量ai經(jīng)過級(jí)聯(lián)層1中的4個(gè)森林模型后,會(huì)得到4個(gè)2維的類別概率向量,將其按順序拼接得到新的8維增強(qiáng)特征向量bi(gcForest模型[8]認(rèn)為這4個(gè)2維類向量能夠有效地反映樣本的特性,將其稱為增強(qiáng)特征向量)。接著,增強(qiáng)特征向量bi將與級(jí)聯(lián)森林的原始輸入向量a拼接組成4×k+8維的特征向量作為下i一層的輸入,依此方法直至進(jìn)行到級(jí)聯(lián)森林的最后一層。最后對(duì)產(chǎn)生的類別概率向量取平均值,再取其中最大值所對(duì)應(yīng)的類別作為股票的分類結(jié)果。

3.2.3 選股模型迭代終止條件

級(jí)聯(lián)森林的層數(shù)為gcForest模型的深度,gcForest算法在訓(xùn)練級(jí)聯(lián)森林時(shí)可由算法自動(dòng)確定級(jí)聯(lián)森林的層數(shù)。設(shè)級(jí)聯(lián)層N中4個(gè)森林產(chǎn)生的類別概率向量取平均值后對(duì)應(yīng)股票的分類標(biāo)簽為。

定義函數(shù)Acc(h1,h2),表示兩個(gè)同維向量h1,h2中相同位置zN=[ ]zN1,zN2,…,zNm元素相等的個(gè)數(shù)所占的比例,例如:

則級(jí)聯(lián)層每層檢驗(yàn)的準(zhǔn)確率:

每當(dāng)級(jí)聯(lián)森林訓(xùn)練層數(shù)增加一層后,都會(huì)用樣本數(shù)據(jù)對(duì)級(jí)聯(lián)森林的性能進(jìn)行檢測,如果準(zhǔn)確率dN

3.2.4 gcForest策略回測

本次回測采用每月月末交易,每次交易前賣出所有持倉股票,然后根據(jù)股票得分買入得分排名前30只的股票。

(1)確定股票得分si,根據(jù)級(jí)聯(lián)森林最后的輸出層的結(jié)果中選取預(yù)測股票標(biāo)簽zi=1的股票的概率,si=P(zi=1|xi)。

(2)將si從大到小進(jìn)行排序,取前30只股票,將這30只股票的得分記做s1,s2,…,s30,計(jì)算買入股票的權(quán)重gi:

其中,M為資金量,ci為每月末第i只股票價(jià)格。

4 實(shí)證分析

4.1 gcForest策略實(shí)證

在因子選擇方面,為了比較不同類型因子選擇方法的效果,綜合多篇文獻(xiàn)分析[13-14]結(jié)果,在優(yōu)礦網(wǎng)上,從交易量因子、估值因子、規(guī)模因子、動(dòng)量因子等幾個(gè)方面選取了34個(gè)有效因子,見表1,相關(guān)因子詳細(xì)說明請(qǐng)參考https://uqer.io。

實(shí)驗(yàn)數(shù)據(jù)[t0,t2]是2009年1月1日至2017年12月31日期間滬深300成分股所有股票每月最后一個(gè)交易日的股票因子值和每月收益率。[t0,t1]為2009年1月1日至2016年3月31日的數(shù)據(jù)將被作為訓(xùn)練集來訓(xùn)練模型,(t1,t2]為2016年4月1日到2017年12月31日的數(shù)據(jù)用于回測部分。所有股票數(shù)據(jù)經(jīng)過歸一化處理,并去掉了包含缺失值的股票數(shù)據(jù),剩余股票數(shù)據(jù)為19 796條。

表1 gcForest策略因子表

Zhou在文獻(xiàn)[8]中介紹了gcForest算法較深度神經(jīng)網(wǎng)絡(luò)算法的一大優(yōu)勢,即無需大量設(shè)置參數(shù)和調(diào)參。鑒于gcForest算法在文獻(xiàn)[8-10,12]中使用的常用參數(shù)都取得了良好的結(jié)果,因此這里也采用常用參數(shù)設(shè)置。

表2中展示的是gcForest在不同窗口下的樣本檢驗(yàn)結(jié)果,可以看出在不同窗口選取的情況下,其樣本檢驗(yàn)結(jié)果的準(zhǔn)確率約為0.54,誤差不超過0.02,因此窗口的選取原則對(duì)實(shí)驗(yàn)最終結(jié)果影響不大。

表2 深度森林算法中不同掃描窗口的樣本檢驗(yàn)結(jié)果

為了避免和深度學(xué)習(xí)[15-17]模型一樣需要大量調(diào)參,最終窗口選取原則是按照常用方法,即按照Zhou在文獻(xiàn)[8]中(n為一條股票數(shù)據(jù)的維度)選取三個(gè)大小的多窗口模式,具體參數(shù)設(shè)定見表3。

表3 深度森林算法中超參數(shù)的設(shè)置

圖8展示是實(shí)證gcForest整體流程,原始輸入的是一只34維的股票數(shù)據(jù),準(zhǔn)備了8、16、24三個(gè)大小的滑動(dòng)窗口進(jìn)行采樣,股票分類為2分類問題,經(jīng)過多粒度掃描過程后分別產(chǎn)生92、72、44維特征向量,將所有特征向量按順序拼接成212維的特征向量作為級(jí)聯(lián)森林的輸入向量。級(jí)聯(lián)森林每層輸出的是長度為8的類別概率向量,這個(gè)8維類別概率向量與212維的級(jí)聯(lián)森林輸入向量拼接在一起作為級(jí)聯(lián)森林下一層的輸入向量,這樣層層傳遞下去,直到檢驗(yàn)停止繼續(xù)加深層數(shù)。

圖8 實(shí)證gcForest整體流程(RF:隨機(jī)森林,CRF:完全隨機(jī)森林)

表4中所示為級(jí)聯(lián)森林層數(shù)的迭代過程,從表4中可以看出級(jí)聯(lián)層在第3層時(shí)終止訓(xùn)練,確定級(jí)聯(lián)森林的層數(shù)為2。

表4 樣本準(zhǔn)確率檢驗(yàn)結(jié)果

4.2 gcForest、支持向量機(jī)、隨機(jī)森林回測結(jié)果比較

為了更好地衡量深度森林(gcForest)算法在股票市場的表現(xiàn),本文將深度森林模型實(shí)證結(jié)果和隨機(jī)森林[18](Random Forest,RF)、支持向量機(jī)[19](SVM)算法進(jìn)行了比較。表5展示了三種策略和滬深300股票收益指標(biāo)和風(fēng)險(xiǎn)績效指標(biāo)。

表5 三種算法在中國A股市場的投資績效

首先,這三種基于機(jī)器學(xué)習(xí)的投資策略的年化收益率都是高于基準(zhǔn)年化收益的,年化收益最高的為gcForest模型的29.2%,高于基準(zhǔn)的2倍左右。

其次,從阿爾法超額收益上來看,gcForest位于第一,結(jié)果為15.8%,而RF模型的超額收益只有2.4%。

三種算法中,最大回撤較高一點(diǎn)的為RF模型的9.4%,gcForest和SVM分別為6.6%,5.9%,說明其他兩種算法可以更有效地防范回撤風(fēng)險(xiǎn)。

最后從夏普比率看,gcForest的夏普比率明顯高于其他兩種算法,說明在承擔(dān)同樣的風(fēng)險(xiǎn)系數(shù)下,gcForest可以更好幫助投資者作出有效的投資決策,獲取更高的收益率。綜合各種指標(biāo)來看,gcForest較其他兩種算法都具有一定的優(yōu)勢。

圖9繪制gcForest、RF、SVM三種策略的累計(jì)收益率。可以看出,在三種策略中g(shù)cForest的累計(jì)收益率最高,超過50%,然后是SVM策略,累計(jì)收益率超過40%,最后則為RF,基本和基準(zhǔn)線相同。整體來看,gcForest策略在滬深300指數(shù)穩(wěn)健趨勢中,能夠較好地控制回撤,同時(shí)也能有效地抓住證券上漲的機(jī)會(huì),獲取更多的超額收益。

圖9 基準(zhǔn)、gcForest、SVM、RF策略累計(jì)收益率(股市行情上漲時(shí)期)

4.3 gcForest策略不同時(shí)期的有效性分析

從圖9滬深300基準(zhǔn)線可以看出,2017年股市行情較好,基本處于上漲階段,為了比較不同時(shí)期股票市場三種策略的收益情況,另外選取了股市行情較為平穩(wěn)時(shí)期的2014年,和股市行情下跌時(shí)期2015年(股災(zāi))的數(shù)據(jù)進(jìn)行回測。

圖10所示為三種策略在股市行情平穩(wěn)時(shí)期的2014年的累計(jì)收益率情況,可以看到gcForest策略依然處于領(lǐng)先地位,此時(shí)仍能獲取更高的超額收益;圖11中所示為三種策略在股市行情下跌時(shí)期2015年的回測結(jié)果,此時(shí)獲取的最大累積收益率為SVM策略,其次為gcForest策略。因此結(jié)合圖10、圖11和圖9中結(jié)果結(jié)可以得出,gcForest策略在股市行情平穩(wěn)和上漲時(shí)期能夠更好地發(fā)揮其優(yōu)勢,投資者應(yīng)抓住機(jī)會(huì),根據(jù)股市行情合理選擇投資策略。

圖10 基準(zhǔn)、gcForest、SVM、RF策略累計(jì)收益率(股市行情平穩(wěn)時(shí)期)

圖11 基準(zhǔn)、gcForest、SVM、RF策略累計(jì)收益率(股市行情下跌時(shí)期)

5 結(jié)論

多因子量化選股利用有效因子設(shè)計(jì)相應(yīng)的投資策略建立有效的投資組合,以尋求超額收益。本文通過利用gcForest算法進(jìn)行量化選股,并與支持向量機(jī)和隨機(jī)森林算法進(jìn)行比較,以股票因子數(shù)據(jù)作為算法的輸入,輸出對(duì)未來股票價(jià)格形式的預(yù)測,并通過預(yù)測結(jié)果建立相應(yīng)投資組合。實(shí)證結(jié)果顯示:gcForest算法在股市行情平穩(wěn)和上漲的時(shí)期無論從風(fēng)險(xiǎn)還是收益角度均較其他兩種模型有一定的優(yōu)勢,并且在樣本檢測的預(yù)測準(zhǔn)確率高達(dá)55%,顯著高于50%的隨機(jī)概率。

猜你喜歡
策略模型
一半模型
基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
求初相φ的常見策略
例談未知角三角函數(shù)值的求解策略
我說你做講策略
高中數(shù)學(xué)復(fù)習(xí)的具體策略
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 欧美一级专区免费大片| 国产精品微拍| 中文字幕天无码久久精品视频免费| m男亚洲一区中文字幕| 99精品免费欧美成人小视频| 国产在线精品99一区不卡| 中文字幕在线看| 欧美精品啪啪一区二区三区| 久久综合九九亚洲一区| www.亚洲国产| 欧美日韩成人在线观看| 亚洲免费福利视频| 欧美a在线| 免费无码AV片在线观看中文| 国内熟女少妇一线天| 911亚洲精品| 亚洲小视频网站| 国产精品手机在线播放| 国产福利大秀91| 思思热精品在线8| 日本欧美精品| 国产一级一级毛片永久| 国内精品免费| 日韩不卡高清视频| 亚洲人成色在线观看| 亚洲欧美在线综合图区| 亚洲人成在线免费观看| 在线播放91| 91黄视频在线观看| 国产1区2区在线观看| 免费va国产在线观看| 国产在线精彩视频二区| 日本欧美一二三区色视频| 国产精品网拍在线| 亚洲美女一级毛片| 成人年鲁鲁在线观看视频| jizz国产视频| lhav亚洲精品| 久久夜色精品| 欧美日韩免费在线视频| 亚洲三级视频在线观看| 免费一级大毛片a一观看不卡| 2020久久国产综合精品swag| 久综合日韩| 精品91视频| 日韩在线观看网站| 试看120秒男女啪啪免费| 亚洲美女久久| 男女男免费视频网站国产| 国产91小视频在线观看| 老司机午夜精品网站在线观看 | 精品一区二区三区中文字幕| 青青操视频免费观看| 在线国产毛片| 日韩精品无码一级毛片免费| 国产精品3p视频| 国产成年女人特黄特色毛片免| 成人在线亚洲| 色综合热无码热国产| 久久精品女人天堂aaa| 99久久精品国产精品亚洲| 国产精品久久自在自线观看| 亚洲综合色区在线播放2019| 亚洲国产精品美女| 中文字幕在线视频免费| 亚洲天堂精品在线| 国产麻豆福利av在线播放| 97在线碰| 亚瑟天堂久久一区二区影院| 911亚洲精品| 色婷婷在线影院| 亚洲美女久久| 国产福利微拍精品一区二区| 日韩在线第三页| 国产无码精品在线播放| 凹凸精品免费精品视频| 久久国产乱子伦视频无卡顿| 激情视频综合网| 国产毛片高清一级国语| 激情视频综合网| 亚洲精品成人7777在线观看| 国产成人无码久久久久毛片|