999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)AdaBoost算法的選股模型

2020-04-29 11:00:38超,飛,洋,
關(guān)鍵詞:分類特征

賀 超, 吳 飛, 何 洋, 朱 海

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院, 上海 201620)

0 引 言

隨著改革開放的不斷深入,股票市場呈現(xiàn)出強(qiáng)勁崛起態(tài)勢,并且在高速發(fā)展的當(dāng)代中國社會扮演著重要角色。股票投資的主要目的就是在控制一定風(fēng)險(xiǎn)的前提下取得投資的最高收益。

傳統(tǒng)的交易模式通?;谌藶榻?jīng)驗(yàn)的對MACD、BOLL和RSI等技術(shù)指標(biāo)進(jìn)行判斷,從而做出投資決策。由于大數(shù)據(jù)、云計(jì)算以及人工智能等科學(xué)技術(shù)的進(jìn)步,傳統(tǒng)的金融交易也深受影響,并且在實(shí)際量化投資領(lǐng)域運(yùn)用中取得了良好效果。一直以來,股票市場吸引了各界的廣泛關(guān)注與探討研究,究其原因就在于其具有各種復(fù)雜多變的指標(biāo)和觀測角度,使得投資機(jī)遇與風(fēng)險(xiǎn)并存。支持向量機(jī)(Support Vector Machine, SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論推演生成的數(shù)據(jù)挖掘技術(shù)[1],但是由于SVM對于大數(shù)量級的數(shù)據(jù)樣本的訓(xùn)練有一定的難度,而實(shí)際面臨的股市信息數(shù)據(jù)巨大,所以傳統(tǒng)的SVM方法不足以支撐大規(guī)模訓(xùn)練強(qiáng)度。

針對股票信息受到影響波動拐點(diǎn)較多等特點(diǎn)[2],單獨(dú)的分類或預(yù)測算法無法做到較為靈活處理的問題,經(jīng)過研究可知,AdaBoost算法通過權(quán)重結(jié)合若干個(gè)弱分類器進(jìn)行串行的學(xué)習(xí)[3],并且通過聯(lián)合權(quán)重投票機(jī)制求得最終結(jié)果。同時(shí)考慮到股票因子繁雜,受到較多因素影響,如此一來就會在樣本數(shù)據(jù)集層面上引入較多的不確定性噪聲,而AdaBoost算法對于異常值較為敏感,對于最終結(jié)果也會造成較大的影響[4],所以在訓(xùn)練階段選用了判決式的特征因子選擇方法,能夠在一定程度上剔除相關(guān)影響,與傳統(tǒng)決策機(jī)制相比[5],除了分類器自身的精度信息外,還充分利用了特征因子權(quán)重信息來輔助決策,使得整體效果得到了顯著提升。利用上述分析來研究上市公司的財(cái)務(wù)指標(biāo)與個(gè)股價(jià)格浮動率之間的關(guān)系,從而建立選股分類模型[6]。這里對此課題擬展開研究論述如下。

1 AdaBoost算法

自適應(yīng)增強(qiáng)算法(Adaptive Boosting Algorithm)[7],即AdaBoost算法,其主要思想是對于股票樣本訓(xùn)練集合D={(x1,y1),(x2,y2),...,(xN,yN)},其中xi表示股票樣本的因子屬性特征,yi表示個(gè)股的輸贏率作為標(biāo)簽變量,N表示樣本個(gè)數(shù),以股票一年為時(shí)間節(jié)點(diǎn)的后復(fù)權(quán)股價(jià)漲跌幅大于HS300指數(shù)的漲跌幅取“1”,小于則取“0”,所以有Y∈{+1,-1}。在選定好弱分類器后,初始狀態(tài)下,所有樣本權(quán)重相等,根據(jù)AdaBoost思想,不斷串行迭代訓(xùn)練,并且在訓(xùn)練過程中后一個(gè)弱分類器將會著重訓(xùn)練被前一個(gè)弱分類器錯(cuò)分的樣本,最終得到加權(quán)后的最終結(jié)果[8]。此處,給出主要流程具體如下。

輸入:(x1,y1),(x2,y2),...,(xN,yN),其中xi∈X,且yi∈Y

初始化:W<1>=(w<1>1,w<1>2,...,w<1>N)T,w<1>i=1/N,其中i=1,2,...,N,表示第i個(gè)分類器樣本的權(quán)重分布。

訓(xùn)練過程:

formin range(M):

Step1利用具有權(quán)重向量wi的訓(xùn)練數(shù)據(jù)集對弱分類器進(jìn)行訓(xùn)練,其中m表示基分類器的個(gè)數(shù),得到基分類器,可表示為公式(1):

hm(X):x->{-1,1},

(1)

Step2通過hm(X)在訓(xùn)練集上的效果,計(jì)算分類誤差率,可表示為公式(2):

(2)

并且,若分類誤差率em≥1/2,則算法提前停止,整體構(gòu)建失敗。

Step3為基分類器分配相應(yīng)的構(gòu)建權(quán)重系數(shù),可表示為公式(3):

(3)

Step4更新訓(xùn)練權(quán)重向量W=(w1,w2,...,wN)T,其中wi的數(shù)學(xué)公式可表示為:

(4)

(5)

2 改進(jìn)AdaBoost算法

2.1 判決式因子選取

根據(jù)隨機(jī)子空間(Random Subspace Method, RSM)樹結(jié)構(gòu)采樣方法[3],主要是從整個(gè)數(shù)據(jù)集中隨機(jī)采樣得到每個(gè)子樹空間的子樣本集,每次在建立子分類器的過程中,并不是采用整個(gè)數(shù)據(jù)集作為輸入,當(dāng)數(shù)據(jù)樣本數(shù)量足夠大時(shí),通過實(shí)驗(yàn)表明,此種策略最終得到的分類結(jié)果精度要高于傳統(tǒng)的AdaBoost算法。但是,上述隨機(jī)采樣在多次采樣過程中,會出現(xiàn)某些樣本被多次重復(fù)提取,而某些樣本僅有少量的機(jī)會、甚至在建模階段未被采用的情況,這就會導(dǎo)致基分類器的多樣性受到制約。

ar=1+log2T,

(6)

研究中,并不是選擇整個(gè)數(shù)據(jù)集的所有特征進(jìn)行計(jì)算,選擇基尼系數(shù)小的特征屬性作為分割點(diǎn),可表示為:

G[g(aj(d))]=gini(d)-gini(aj(d)) ,j∈[1,T],

(7)

其中,gini(d)表示該節(jié)點(diǎn)分割前的基尼系數(shù),對應(yīng)的gini(aj(d))表示在節(jié)點(diǎn)d中以最佳特征屬性aj分割后的基尼系數(shù)。

由于采取特征屬性隨機(jī)采樣的機(jī)制,就使得在構(gòu)建基分類器的過程中會出現(xiàn)某些特征屬性被多次采取的情況,而在樣本個(gè)數(shù)相同的前提條件下,從特征屬性采樣的角度來分析,就勢必造成了數(shù)據(jù)的不均衡,因此當(dāng)所在基分類器建成后,對于被多次選擇的特征屬性aj,可進(jìn)行如下處理:

(8)

其中,ns(aj)表示選擇特征屬性aj的次數(shù),μ(G[g(aj(d))]) 表示其均值,在子決策樹中選擇所有G[g(aj(d))]和其對應(yīng)的m個(gè)特征屬性(m≤T),可推導(dǎo)計(jì)算出整體對應(yīng)的均值μ(G(g))和標(biāo)準(zhǔn)差σ(G(g)),并且如果μ(G(g))和σ(G(g))之間的差值是正數(shù),則提高特征屬性aj的權(quán)重,反之減少其對應(yīng)的權(quán)重。

2.2 改進(jìn)決策機(jī)制

由2.1節(jié)內(nèi)容可知,為了保證子樹之間的多樣性,改進(jìn)AdaBoost算法對于樣本特征屬性進(jìn)行隨機(jī)采樣,并不是完整使用樣本的所有數(shù)據(jù),對子分類器進(jìn)行訓(xùn)練,從而提高了各子分類器之間的多樣性,更貼近真實(shí)數(shù)據(jù)多變的情況。

改進(jìn)AdaBoost算法采用包外估計(jì)的方法,選用2/3的訓(xùn)練數(shù)據(jù)用于構(gòu)建子樹,即基分類器,此外1/3的數(shù)據(jù)用于模型建成后的驗(yàn)證及相關(guān)學(xué)習(xí)權(quán)重的驗(yàn)證。利用訓(xùn)練數(shù)據(jù)集Dk去構(gòu)建子樹基分類器Ck,將測試數(shù)據(jù)作為輸入時(shí),由前述切割原理可知,通過計(jì)算特征屬性的基尼系數(shù)得到最佳切割屬性aj,再將測試數(shù)據(jù)通過基分類器得到分類結(jié)果的平均精度作為子樹基分類器Ck的屬性aj的決策權(quán)重wk,j。而在真正的在線使用階段,對于任何一個(gè)未知的樣本屬性,改進(jìn)后的算法將綜合考慮屬性分割點(diǎn)aj的決策權(quán)重wk, j和子分類器的自身精度去計(jì)算最終的聯(lián)合投票權(quán)重,最終分類預(yù)測結(jié)果可表示為:

y∈Y.

(9)

其中,I-AdaBoost(x)表示改進(jìn)算法的預(yù)測結(jié)果;y表示真實(shí)的分類標(biāo)簽;Ci(x)表示子樹基分類器的預(yù)測結(jié)果;acci為子樹Ci的精確度;wij即為切割屬性aj的決策權(quán)重。

通過新的決策集成機(jī)制,充分保留了對特征屬性隨機(jī)采樣而形成的子樹之間的多樣性,并且結(jié)合傳統(tǒng)的投票決策方式,在提高預(yù)測結(jié)果精確度的同時(shí),更好地切合了真實(shí)數(shù)據(jù)不確定性和多變性,從而有效提升了模型的魯棒性。

3 實(shí)驗(yàn)設(shè)計(jì)與分析

3.1 實(shí)驗(yàn)設(shè)計(jì)

本文基于同花順平臺提供的iFinD數(shù)據(jù)庫接口,以HS300為股票池,提取了2008~2018年的年度每只股票財(cái)務(wù)指標(biāo)數(shù)據(jù)。文中例舉了貴州茅臺的財(cái)務(wù)指標(biāo)實(shí)驗(yàn)數(shù)據(jù)見圖1。

圖1 貴州茅臺的財(cái)務(wù)指標(biāo)實(shí)驗(yàn)數(shù)據(jù)

Fig. 1 Experimental data of financial indicators of Moutai, Guizhou

實(shí)驗(yàn)選取2008~2018年HS300為股票池中的股票數(shù)據(jù)作^為實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)為每只個(gè)股的財(cái)務(wù)指標(biāo)數(shù)據(jù),包含營業(yè)總收入、營業(yè)總成本、營業(yè)利潤、利潤總額、凈利潤、每股收益、其他綜合收益、綜合收益總額等信息。目標(biāo)函數(shù)是通過計(jì)算每只個(gè)股復(fù)權(quán)股價(jià)漲跌幅是否大于HS300指數(shù)漲跌幅計(jì)算求得。如果個(gè)股指數(shù)漲跌幅大于HS300指數(shù)的漲跌幅則取“1”,小于則取“0”,實(shí)驗(yàn)以2008~2017年數(shù)據(jù)為訓(xùn)練數(shù)據(jù)集,以2018年數(shù)據(jù)作為測試數(shù)據(jù)集。

3.1.1 評價(jià)標(biāo)準(zhǔn)

對于改進(jìn)AdaBoost模型,在實(shí)際運(yùn)用中,以分類準(zhǔn)確率為其性能好壞的評價(jià)標(biāo)準(zhǔn),其數(shù)學(xué)定義可寫為:

(10)

3.1.2 設(shè)計(jì)流程

股票投資中,股票收益率的漲跌幅是一個(gè)非常重要的指標(biāo)。根據(jù)模型規(guī)則,如果預(yù)測下一年的收益率為正,則做出買入的決策,并且投資狀態(tài)設(shè)置為1;如果預(yù)測下一年的收益率為負(fù),則做出賣出的決策,并且投資狀態(tài)設(shè)置為0。決策流程如圖2所示。

3.2 實(shí)驗(yàn)分析

在量化交易發(fā)展初期,SVM算法由于其原理的簡單易用性,在實(shí)際運(yùn)用中取得了很好的效果,但是隨著數(shù)據(jù)量級的增加,SVM在大數(shù)量級的交易數(shù)據(jù)和研報(bào)數(shù)據(jù)的處理中暴露出不足之處,這也是其算法本身存在的問題。由于AdaBoost算法框架思想的提出,使得可以集中各弱分類器,并在每一步中不斷地進(jìn)行迭代優(yōu)化,因?yàn)槠鋵Ξ惓V递^為敏感的因素,在實(shí)際生產(chǎn)數(shù)據(jù)的應(yīng)用上會產(chǎn)生較大的影響,因此對于傳統(tǒng)的AdaBoost算法,加入新的特征屬性選擇機(jī)制,如此即使得最終的決策機(jī)制同時(shí)結(jié)合了子分類器自身的精度和特征屬性權(quán)重信息,使得最終的分類精準(zhǔn)度得到了極大的提升。本次研究中各選用算法的結(jié)果對比曲線如圖3所示。

圖2 決策流程圖

圖3 分類準(zhǔn)確率

由圖3分析指出,由于改進(jìn)后的AdaBoost算法融合了屬性自身精度和基分類器的精度,更加貼合實(shí)際決策方式,提高了系統(tǒng)的魯棒性,而相比于傳統(tǒng)的AdaBoost算法,SVM性能上要稍有遜色。改進(jìn)后的AdaBoost算法的實(shí)測效果最佳,分類準(zhǔn)確度可達(dá)到99.3%。

上述對比主要是基于業(yè)務(wù)層面的分析,下一步則需討論模型本身的性能分析,而為了更好地分析3種算法模型的性能,選取2014~2018年間的數(shù)據(jù)作為樣本,分析對比結(jié)果如圖4所示。

圖4 AUC評分

由圖4分析可知,從每個(gè)時(shí)期上看,因?yàn)楦倪M(jìn)后的AdaBoost算法運(yùn)用新的判決式因子選擇機(jī)制,保證了基分類器間的多樣性,提高了算法整體的魯棒性,所以每個(gè)時(shí)期的AUC評分非常穩(wěn)定,并且評分較高,最高評分可達(dá)0.71,這就表明改進(jìn)后的AdaBoost算法自身性能上較為穩(wěn)定且有好的實(shí)際效果。其中,SVM算法與傳統(tǒng)的AdaBoost算法相比,性能上仍有欠缺。

4 結(jié)束語

隨著中國一帶一路等政策的發(fā)展,逐漸走向國際市場,股票市場將不斷完善。金融科技的布局,也將給股票市場帶來新的活力。本文從股票的投資價(jià)值角度分析,利用改進(jìn)AdaBoost算法,通過新的判決式屬性選擇機(jī)制保持了基分類器的多樣性,更客觀地貼合實(shí)際股票數(shù)據(jù)的情況,增強(qiáng)了整體的魯棒性,與此同時(shí),在最終的投票機(jī)制中融合了特征因子自身的精確度和基分類器的精確度評分,很大程度上提高了最終的決策性能,在實(shí)際應(yīng)用中有著良好的適用性。

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 伊人久久久久久久久久| 在线精品自拍| 99久久99视频| 曰韩人妻一区二区三区| 色一情一乱一伦一区二区三区小说| av一区二区三区高清久久| 精品一区二区三区波多野结衣| 日韩中文字幕亚洲无线码| 国产精品美女网站| 国产精鲁鲁网在线视频| 精品三级网站| 免费看美女毛片| 色婷婷成人网| 三级欧美在线| 国产精品高清国产三级囯产AV| 色综合网址| 正在播放久久| 国产午夜一级毛片| 国产精品第5页| 2021国产乱人伦在线播放| 亚洲国产成人自拍| 国产福利不卡视频| 久久久久国产精品熟女影院| 国产91丝袜在线播放动漫| 亚洲无限乱码一二三四区| 亚洲开心婷婷中文字幕| 91福利国产成人精品导航| 婷婷色一二三区波多野衣| 久久久久夜色精品波多野结衣| 久久永久免费人妻精品| 日本精品一在线观看视频| 国产欧美日韩另类| 国产精品福利导航| 在线看国产精品| 亚洲日韩AV无码一区二区三区人| 在线看片国产| 国产网站一区二区三区| 青青青伊人色综合久久| 精品国产www| 色哟哟国产成人精品| 精品国产aⅴ一区二区三区| 国产一级毛片网站| 精品一区二区三区水蜜桃| 91免费观看视频| 色亚洲成人| 男女男精品视频| 青青极品在线| 久久精品丝袜| 青青草原国产免费av观看| 青青久久91| 91网站国产| 日韩欧美综合在线制服| 无码AV动漫| 亚洲欧美色中文字幕| 久久久久青草线综合超碰| 亚洲日韩每日更新| 日韩高清在线观看不卡一区二区 | 毛片免费视频| 六月婷婷激情综合| 99无码中文字幕视频| 国产在线专区| 亚洲人成网址| 国产极品粉嫩小泬免费看| 中文字幕2区| 在线观看视频一区二区| 在线观看网站国产| 54pao国产成人免费视频 | 亚洲色婷婷一区二区| 亚洲一区波多野结衣二区三区| 亚洲精品在线观看91| 欧美日韩国产高清一区二区三区| 美女被操黄色视频网站| 免费一级毛片| 国产视频入口| 日本高清在线看免费观看| 91视频首页| 亚洲日韩久久综合中文字幕| 国产成人盗摄精品| 男女精品视频| 亚洲综合国产一区二区三区| 国产成人一区| 日韩天堂网|