基于改進(jìn)AdaBoost算法的選股模型

2020-04-29 11:00:38賀超，吳飛，何洋，朱海

智能計(jì)算機(jī)與應(yīng)用 2020年2期

關(guān)鍵詞：分類特征

賀超，吳飛，何洋，朱海

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院，上海 201620)

0 引言

隨著改革開放的不斷深入，股票市場呈現(xiàn)出強(qiáng)勁崛起態(tài)勢，并且在高速發(fā)展的當(dāng)代中國社會扮演著重要角色。股票投資的主要目的就是在控制一定風(fēng)險(xiǎn)的前提下取得投資的最高收益。

傳統(tǒng)的交易模式通?；谌藶榻?jīng)驗(yàn)的對MACD、BOLL和RSI等技術(shù)指標(biāo)進(jìn)行判斷，從而做出投資決策。由于大數(shù)據(jù)、云計(jì)算以及人工智能等科學(xué)技術(shù)的進(jìn)步，傳統(tǒng)的金融交易也深受影響，并且在實(shí)際量化投資領(lǐng)域運(yùn)用中取得了良好效果。一直以來，股票市場吸引了各界的廣泛關(guān)注與探討研究，究其原因就在于其具有各種復(fù)雜多變的指標(biāo)和觀測角度，使得投資機(jī)遇與風(fēng)險(xiǎn)并存。支持向量機(jī)(Support Vector Machine, SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論推演生成的數(shù)據(jù)挖掘技術(shù)[1]，但是由于SVM對于大數(shù)量級的數(shù)據(jù)樣本的訓(xùn)練有一定的難度，而實(shí)際面臨的股市信息數(shù)據(jù)巨大，所以傳統(tǒng)的SVM方法不足以支撐大規(guī)模訓(xùn)練強(qiáng)度。

針對股票信息受到影響波動拐點(diǎn)較多等特點(diǎn)[2]，單獨(dú)的分類或預(yù)測算法無法做到較為靈活處理的問題，經(jīng)過研究可知，AdaBoost算法通過權(quán)重結(jié)合若干個(gè)弱分類器進(jìn)行串行的學(xué)習(xí)[3]，并且通過聯(lián)合權(quán)重投票機(jī)制求得最終結(jié)果。同時(shí)考慮到股票因子繁雜，受到較多因素影響，如此一來就會在樣本數(shù)據(jù)集層面上引入較多的不確定性噪聲，而AdaBoost算法對于異常值較為敏感，對于最終結(jié)果也會造成較大的影響[4]，所以在訓(xùn)練階段選用了判決式的特征因子選擇方法，能夠在一定程度上剔除相關(guān)影響，與傳統(tǒng)決策機(jī)制相比[5]，除了分類器自身的精度信息外，還充分利用了特征因子權(quán)重信息來輔助決策，使得整體效果得到了顯著提升。利用上述分析來研究上市公司的財(cái)務(wù)指標(biāo)與個(gè)股價(jià)格浮動率之間的關(guān)系，從而建立選股分類模型[6]。這里對此課題擬展開研究論述如下。

1 AdaBoost算法

自適應(yīng)增強(qiáng)算法(Adaptive Boosting Algorithm)[7]，即AdaBoost算法，其主要思想是對于股票樣本訓(xùn)練集合D={(x1,y1),(x2,y2),...,(xN,yN)}，其中xi表示股票樣本的因子屬性特征，yi表示個(gè)股的輸贏率作為標(biāo)簽變量，N表示樣本個(gè)數(shù)，以股票一年為時(shí)間節(jié)點(diǎn)的后復(fù)權(quán)股價(jià)漲跌幅大于HS300指數(shù)的漲跌幅取“1”，小于則取“0”，所以有Y∈{+1，-1}。在選定好弱分類器后，初始狀態(tài)下，所有樣本權(quán)重相等，根據(jù)AdaBoost思想，不斷串行迭代訓(xùn)練，并且在訓(xùn)練過程中后一個(gè)弱分類器將會著重訓(xùn)練被前一個(gè)弱分類器錯(cuò)分的樣本，最終得到加權(quán)后的最終結(jié)果[8]。此處，給出主要流程具體如下。

輸入：(x1,y1),(x2,y2),...,(xN,yN)，其中xi∈X，且yi∈Y

初始化：W<1>=(w<1>1,w<1>2,...,w<1>N)T,w<1>i=1/N，其中i=1,2,...,N，表示第i個(gè)分類器樣本的權(quán)重分布。

訓(xùn)練過程：

formin range(M):

Step1利用具有權(quán)重向量wi的訓(xùn)練數(shù)據(jù)集對弱分類器進(jìn)行訓(xùn)練，其中m表示基分類器的個(gè)數(shù)，得到基分類器，可表示為公式(1):

hm(X):x->{-1,1},

(1)

Step2通過hm(X)在訓(xùn)練集上的效果，計(jì)算分類誤差率，可表示為公式(2)：

(2)

并且，若分類誤差率em≥1/2，則算法提前停止，整體構(gòu)建失敗。

Step3為基分類器分配相應(yīng)的構(gòu)建權(quán)重系數(shù)，可表示為公式(3)：

(3)

Step4更新訓(xùn)練權(quán)重向量W=(w1,w2,...,wN)T，其中wi的數(shù)學(xué)公式可表示為：

(4)

(5)

2 改進(jìn)AdaBoost算法

2.1 判決式因子選取

根據(jù)隨機(jī)子空間(Random Subspace Method, RSM)樹結(jié)構(gòu)采樣方法[3]，主要是從整個(gè)數(shù)據(jù)集中隨機(jī)采樣得到每個(gè)子樹空間的子樣本集，每次在建立子分類器的過程中，并不是采用整個(gè)數(shù)據(jù)集作為輸入，當(dāng)數(shù)據(jù)樣本數(shù)量足夠大時(shí)，通過實(shí)驗(yàn)表明，此種策略最終得到的分類結(jié)果精度要高于傳統(tǒng)的AdaBoost算法。但是，上述隨機(jī)采樣在多次采樣過程中，會出現(xiàn)某些樣本被多次重復(fù)提取，而某些樣本僅有少量的機(jī)會、甚至在建模階段未被采用的情況，這就會導(dǎo)致基分類器的多樣性受到制約。

ar=1+log2T,

(6)

研究中，并不是選擇整個(gè)數(shù)據(jù)集的所有特征進(jìn)行計(jì)算，選擇基尼系數(shù)小的特征屬性作為分割點(diǎn)，可表示為：

G[g(aj(d))]=gini(d)-gini(aj(d)) ,j∈[1,T],

(7)

其中，gini(d)表示該節(jié)點(diǎn)分割前的基尼系數(shù)，對應(yīng)的gini(aj(d))表示在節(jié)點(diǎn)d中以最佳特征屬性aj分割后的基尼系數(shù)。

由于采取特征屬性隨機(jī)采樣的機(jī)制，就使得在構(gòu)建基分類器的過程中會出現(xiàn)某些特征屬性被多次采取的情況，而在樣本個(gè)數(shù)相同的前提條件下，從特征屬性采樣的角度來分析，就勢必造成了數(shù)據(jù)的不均衡，因此當(dāng)所在基分類器建成后，對于被多次選擇的特征屬性aj，可進(jìn)行如下處理：

(8)

其中，ns(aj)表示選擇特征屬性aj的次數(shù)，μ(G[g(aj(d))]) 表示其均值，在子決策樹中選擇所有G[g(aj(d))]和其對應(yīng)的m個(gè)特征屬性(m≤T)，可推導(dǎo)計(jì)算出整體對應(yīng)的均值μ(G(g))和標(biāo)準(zhǔn)差σ(G(g))，并且如果μ(G(g))和σ(G(g))之間的差值是正數(shù)，則提高特征屬性aj的權(quán)重，反之減少其對應(yīng)的權(quán)重。

2.2 改進(jìn)決策機(jī)制

由2.1節(jié)內(nèi)容可知，為了保證子樹之間的多樣性，改進(jìn)AdaBoost算法對于樣本特征屬性進(jìn)行隨機(jī)采樣，并不是完整使用樣本的所有數(shù)據(jù)，對子分類器進(jìn)行訓(xùn)練，從而提高了各子分類器之間的多樣性，更貼近真實(shí)數(shù)據(jù)多變的情況。

改進(jìn)AdaBoost算法采用包外估計(jì)的方法，選用2/3的訓(xùn)練數(shù)據(jù)用于構(gòu)建子樹，即基分類器，此外1/3的數(shù)據(jù)用于模型建成后的驗(yàn)證及相關(guān)學(xué)習(xí)權(quán)重的驗(yàn)證。利用訓(xùn)練數(shù)據(jù)集Dk去構(gòu)建子樹基分類器Ck，將測試數(shù)據(jù)作為輸入時(shí)，由前述切割原理可知，通過計(jì)算特征屬性的基尼系數(shù)得到最佳切割屬性aj，再將測試數(shù)據(jù)通過基分類器得到分類結(jié)果的平均精度作為子樹基分類器Ck的屬性aj的決策權(quán)重wk,j。而在真正的在線使用階段，對于任何一個(gè)未知的樣本屬性，改進(jìn)后的算法將綜合考慮屬性分割點(diǎn)aj的決策權(quán)重wk, j和子分類器的自身精度去計(jì)算最終的聯(lián)合投票權(quán)重，最終分類預(yù)測結(jié)果可表示為：

y∈Y.

(9)

其中，I-AdaBoost(x)表示改進(jìn)算法的預(yù)測結(jié)果；y表示真實(shí)的分類標(biāo)簽；Ci(x)表示子樹基分類器的預(yù)測結(jié)果；acci為子樹Ci的精確度；wij即為切割屬性aj的決策權(quán)重。

通過新的決策集成機(jī)制，充分保留了對特征屬性隨機(jī)采樣而形成的子樹之間的多樣性，并且結(jié)合傳統(tǒng)的投票決策方式，在提高預(yù)測結(jié)果精確度的同時(shí)，更好地切合了真實(shí)數(shù)據(jù)不確定性和多變性，從而有效提升了模型的魯棒性。

3 實(shí)驗(yàn)設(shè)計(jì)與分析

3.1 實(shí)驗(yàn)設(shè)計(jì)

本文基于同花順平臺提供的iFinD數(shù)據(jù)庫接口，以HS300為股票池，提取了2008～2018年的年度每只股票財(cái)務(wù)指標(biāo)數(shù)據(jù)。文中例舉了貴州茅臺的財(cái)務(wù)指標(biāo)實(shí)驗(yàn)數(shù)據(jù)見圖1。

圖1 貴州茅臺的財(cái)務(wù)指標(biāo)實(shí)驗(yàn)數(shù)據(jù)

Fig. 1 Experimental data of financial indicators of Moutai, Guizhou

實(shí)驗(yàn)選取2008～2018年HS300為股票池中的股票數(shù)據(jù)作^為實(shí)驗(yàn)數(shù)據(jù)，實(shí)驗(yàn)數(shù)據(jù)為每只個(gè)股的財(cái)務(wù)指標(biāo)數(shù)據(jù)，包含營業(yè)總收入、營業(yè)總成本、營業(yè)利潤、利潤總額、凈利潤、每股收益、其他綜合收益、綜合收益總額等信息。目標(biāo)函數(shù)是通過計(jì)算每只個(gè)股復(fù)權(quán)股價(jià)漲跌幅是否大于HS300指數(shù)漲跌幅計(jì)算求得。如果個(gè)股指數(shù)漲跌幅大于HS300指數(shù)的漲跌幅則取“1”，小于則取“0”，實(shí)驗(yàn)以2008～2017年數(shù)據(jù)為訓(xùn)練數(shù)據(jù)集，以2018年數(shù)據(jù)作為測試數(shù)據(jù)集。

3.1.1 評價(jià)標(biāo)準(zhǔn)

對于改進(jìn)AdaBoost模型，在實(shí)際運(yùn)用中，以分類準(zhǔn)確率為其性能好壞的評價(jià)標(biāo)準(zhǔn)，其數(shù)學(xué)定義可寫為：

(10)

3.1.2 設(shè)計(jì)流程

股票投資中，股票收益率的漲跌幅是一個(gè)非常重要的指標(biāo)。根據(jù)模型規(guī)則，如果預(yù)測下一年的收益率為正，則做出買入的決策，并且投資狀態(tài)設(shè)置為1；如果預(yù)測下一年的收益率為負(fù)，則做出賣出的決策，并且投資狀態(tài)設(shè)置為0。決策流程如圖2所示。

3.2 實(shí)驗(yàn)分析

在量化交易發(fā)展初期，SVM算法由于其原理的簡單易用性，在實(shí)際運(yùn)用中取得了很好的效果，但是隨著數(shù)據(jù)量級的增加，SVM在大數(shù)量級的交易數(shù)據(jù)和研報(bào)數(shù)據(jù)的處理中暴露出不足之處，這也是其算法本身存在的問題。由于AdaBoost算法框架思想的提出，使得可以集中各弱分類器，并在每一步中不斷地進(jìn)行迭代優(yōu)化，因?yàn)槠鋵Ξ惓Ｖ递^為敏感的因素，在實(shí)際生產(chǎn)數(shù)據(jù)的應(yīng)用上會產(chǎn)生較大的影響，因此對于傳統(tǒng)的AdaBoost算法，加入新的特征屬性選擇機(jī)制，如此即使得最終的決策機(jī)制同時(shí)結(jié)合了子分類器自身的精度和特征屬性權(quán)重信息，使得最終的分類精準(zhǔn)度得到了極大的提升。本次研究中各選用算法的結(jié)果對比曲線如圖3所示。

圖2 決策流程圖

圖3 分類準(zhǔn)確率

由圖3分析指出，由于改進(jìn)后的AdaBoost算法融合了屬性自身精度和基分類器的精度，更加貼合實(shí)際決策方式，提高了系統(tǒng)的魯棒性，而相比于傳統(tǒng)的AdaBoost算法，SVM性能上要稍有遜色。改進(jìn)后的AdaBoost算法的實(shí)測效果最佳，分類準(zhǔn)確度可達(dá)到99.3%。

上述對比主要是基于業(yè)務(wù)層面的分析，下一步則需討論模型本身的性能分析，而為了更好地分析3種算法模型的性能，選取2014～2018年間的數(shù)據(jù)作為樣本，分析對比結(jié)果如圖4所示。

圖4 AUC評分

由圖4分析可知，從每個(gè)時(shí)期上看，因?yàn)楦倪M(jìn)后的AdaBoost算法運(yùn)用新的判決式因子選擇機(jī)制，保證了基分類器間的多樣性，提高了算法整體的魯棒性，所以每個(gè)時(shí)期的AUC評分非常穩(wěn)定，并且評分較高，最高評分可達(dá)0.71，這就表明改進(jìn)后的AdaBoost算法自身性能上較為穩(wěn)定且有好的實(shí)際效果。其中，SVM算法與傳統(tǒng)的AdaBoost算法相比，性能上仍有欠缺。

4 結(jié)束語

隨著中國一帶一路等政策的發(fā)展，逐漸走向國際市場，股票市場將不斷完善。金融科技的布局，也將給股票市場帶來新的活力。本文從股票的投資價(jià)值角度分析，利用改進(jìn)AdaBoost算法，通過新的判決式屬性選擇機(jī)制保持了基分類器的多樣性，更客觀地貼合實(shí)際股票數(shù)據(jù)的情況，增強(qiáng)了整體的魯棒性，與此同時(shí)，在最終的投票機(jī)制中融合了特征因子自身的精確度和基分類器的精確度評分，很大程度上提高了最終的決策性能，在實(shí)際應(yīng)用中有著良好的適用性。