999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機(jī)器學(xué)習(xí)方法在股指漲跌預(yù)測(cè)中的應(yīng)用研究

2020-01-10 03:18:42
新營(yíng)銷 2019年9期
關(guān)鍵詞:分類方法模型

(東華大學(xué)旭日工商管理學(xué)院 上海 200050)

一、引言

在預(yù)測(cè)金融時(shí)間序列的問題中,關(guān)于股票價(jià)格指數(shù)的預(yù)測(cè)得到了諸多學(xué)者的關(guān)注。股票指數(shù)不僅反映整個(gè)市場(chǎng)的價(jià)格趨勢(shì)和變動(dòng)情況,還能反映國(guó)民經(jīng)濟(jì)整體發(fā)展形勢(shì),同時(shí)也對(duì)投資者投資決策具有重要的參考價(jià)值,是靈敏反映市場(chǎng)社會(huì)、政治、經(jīng)濟(jì)變化情況的晴雨表。因此,預(yù)測(cè)股票指數(shù)具有重要意義。但由于市場(chǎng)受到諸多因素的影響,股指的不確定性增加,預(yù)測(cè)股票指數(shù)走勢(shì)成為最具挑戰(zhàn)性的金融時(shí)間序列預(yù)測(cè)問題之一。

與傳統(tǒng)的統(tǒng)計(jì)方法相比,機(jī)器學(xué)習(xí)在分類和預(yù)測(cè)等問題上的優(yōu)勢(shì)日益凸顯。將機(jī)器學(xué)習(xí)方法應(yīng)用在股票價(jià)格的預(yù)測(cè)上逐漸成為國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)。Yakup Kara(2011)[1]等基于人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)預(yù)測(cè)了指數(shù)的走勢(shì),他們選擇多項(xiàng)技術(shù)指標(biāo)作為模型的輸入,對(duì)模型進(jìn)行調(diào)參后,ANN模型與SVM模型的準(zhǔn)確率均超過了70%,且ANN模型的平均預(yù)測(cè)能力明顯優(yōu)于SVM模型。Jigar Patel等(2015)[2]討論了預(yù)測(cè)印度股票市場(chǎng)單個(gè)股票和股指的走勢(shì)問題,他們研究比較了ANN、SVM、隨機(jī)森林與樸素貝葉斯這4種預(yù)測(cè)模型,結(jié)果發(fā)現(xiàn),當(dāng)輸入指標(biāo)為連續(xù)值時(shí),隨機(jī)森林在整體性能上優(yōu)于其他3種預(yù)測(cè)模型。不僅如此,他們還發(fā)現(xiàn),當(dāng)輸入指標(biāo)為趨勢(shì)確定性數(shù)據(jù)時(shí),所有模型的預(yù)測(cè)準(zhǔn)確率都得到了改善。冉楊帆等(2018)[3]則結(jié)合了情感分析與機(jī)器學(xué)習(xí)方法,以股票的輿論新聞數(shù)據(jù)為基礎(chǔ),運(yùn)用BP神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)回歸(SVR)兩種方法,對(duì)20只股票的價(jià)格進(jìn)行了預(yù)測(cè),結(jié)果表明,SVR模型的預(yù)測(cè)正確率更高。王芊(2019)[4]基于機(jī)器學(xué)習(xí)預(yù)測(cè)并分析了股票收益率變化方向,綜合考慮了技術(shù)指標(biāo)、基本面指標(biāo)和輿情指標(biāo),研究發(fā)現(xiàn)極度梯度提升樹XGBoost算法的準(zhǔn)確率比隨機(jī)森林、支持向量機(jī)等多種前沿機(jī)器學(xué)習(xí)方法高。

由于研究者選擇的輸入變量、輸出變量及應(yīng)用的股票市場(chǎng)有所不同,各機(jī)器學(xué)習(xí)方法的預(yù)測(cè)表現(xiàn)也有所差異。但總體來(lái)說,相對(duì)于傳統(tǒng)的統(tǒng)計(jì)方法,越來(lái)越多的學(xué)者更傾向于選擇機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)股市走勢(shì)問題。本文借鑒國(guó)內(nèi)外學(xué)者的研究,以滬深300指數(shù)為市場(chǎng)代表,建立10個(gè)技術(shù)面指標(biāo),通過支持向量機(jī)、隨機(jī)森林、XGBoost預(yù)測(cè)股指的價(jià)格變動(dòng)方向,并對(duì)比分析各模型的準(zhǔn)確率。

二、研究方法

(一)指標(biāo)獲取

滬深300指數(shù)集合了滬深兩個(gè)市場(chǎng)流動(dòng)性最強(qiáng)、規(guī)模最大的300只股票,是A股最具代表性的核心指數(shù)。本文以滬深300指數(shù)為代表來(lái)預(yù)測(cè)股市的漲跌。選取2006年1月至2019年8月共計(jì)3 323個(gè)交易日的開盤價(jià)(Ot)、最低價(jià)(Lt)、最高價(jià)(Ht)、收盤價(jià)Ct以及成交量(Volt)指標(biāo),以此為基礎(chǔ)建立如表1所示的10個(gè)技術(shù)指標(biāo)。

表1 技術(shù)指標(biāo)建立

由于每個(gè)技術(shù)指標(biāo)具有不同的量綱與數(shù)量級(jí),本文將做標(biāo)準(zhǔn)化處理后作為模型的特征輸入。輸出特征為下一日股指的價(jià)格變動(dòng)方向,將其轉(zhuǎn)化為一個(gè)二分類問題,分類結(jié)果為“上漲”和“下跌”。

為輸出變量,class=1代表上漲,class=0代表下跌或不變。

(二)模型選擇

相對(duì)于傳統(tǒng)的邏輯回歸、決策樹簡(jiǎn)單的機(jī)器學(xué)習(xí)方法,支持向量機(jī)、隨機(jī)森林以及新穎的XGBoost等機(jī)器學(xué)習(xí)方法因?yàn)榉诸愋阅芎谩?zhǔn)確率高等優(yōu)勢(shì)得到學(xué)者的廣泛應(yīng)用。本文試圖通過建立支持向量機(jī)、隨機(jī)森林和XGBoost模型預(yù)測(cè)滬深300指數(shù)價(jià)格變化方向,并對(duì)比不同機(jī)器學(xué)習(xí)方法的準(zhǔn)確率。本文選取兩分類模型中常用評(píng)價(jià)指標(biāo)(見表2)以及ROC曲線來(lái)度量各模型的分類性能。評(píng)價(jià)指標(biāo)計(jì)算方式依賴混淆矩陣見表3。而ROC曲線向上離對(duì)角線越遠(yuǎn),曲線下的面積AUC值就越大,則說明模型的分類性能越好。

表2 模型評(píng)價(jià)指標(biāo)

表3 混淆矩陣

三、實(shí)證研究

本文研究的樣本區(qū)間包括2006年1月至2019年8月共計(jì)3 323個(gè)交易日的數(shù)據(jù),該區(qū)間包含了股市2007年與2015年兩次大起大落時(shí)期,這對(duì)測(cè)試模型的穩(wěn)健性具有重要意義。為測(cè)試模型準(zhǔn)確性,本文將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集占70%,測(cè)試集占30%。對(duì)10個(gè)技術(shù)指標(biāo)做標(biāo)準(zhǔn)化處理后,分別使用支持向量機(jī)、隨機(jī)森林和XGBoost模型對(duì)訓(xùn)練集監(jiān)督訓(xùn)練,并對(duì)測(cè)試集的進(jìn)行預(yù)測(cè),以檢驗(yàn)?zāi)P偷臏?zhǔn)確性。

(一)支持向量機(jī)對(duì)滬深300指數(shù)的預(yù)測(cè)

SVM是比較常用的分類算法,其核心是采用線性分類器,當(dāng)數(shù)據(jù)在當(dāng)前維度下不可分割時(shí),可以映射至更高的維度上。因此它在識(shí)別高維數(shù)據(jù)時(shí)要優(yōu)于其他機(jī)器學(xué)習(xí)模型。本文經(jīng)過多次參數(shù)調(diào)整,當(dāng)懲罰項(xiàng)C取3時(shí),模型的分類性能較好。利用訓(xùn)練好的SVM模型在測(cè)試集上預(yù)測(cè),輸出的混淆矩陣見表4,ROC曲線見圖1。

表4 SVM測(cè)試集混淆矩陣

圖1 SVM測(cè)試集ROC曲線

由表4可知,SVM模型預(yù)測(cè)下一交易日股指價(jià)格上漲且實(shí)際也上漲的有344次,預(yù)測(cè)為股指價(jià)格下跌且實(shí)際也下跌的有199次,得到模型的準(zhǔn)確率為0.544 6。圖1展示了SVM模型測(cè)試集的ROC曲線,該模型的AUC值為0.545,曲線偏離對(duì)角線有一定距離,模型分類性能一般。

(二)隨機(jī)森林對(duì)滬深300指數(shù)的預(yù)測(cè)

隨機(jī)森林實(shí)質(zhì)是對(duì)決策樹算法的改進(jìn),將多個(gè)決策樹合并在一起,每棵樹建立依賴獨(dú)立抽取的樣本。由于單棵樹的分類能力可能很小,但在隨機(jī)產(chǎn)生大量的決策樹后,一個(gè)測(cè)試樣本可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計(jì)后選擇最可能的分類。經(jīng)過多次實(shí)驗(yàn),本文最終設(shè)置森林中樹的棵數(shù)為300棵。利用訓(xùn)練好的隨機(jī)森林模型在測(cè)試集上預(yù)測(cè),輸出的混淆矩陣見表5,輸出的ROC曲線見圖2。

表5 隨機(jī)森林測(cè)試集混淆矩陣

圖2 隨機(jī)森林測(cè)試集ROC曲線

由表5可知,隨機(jī)森林預(yù)測(cè)為1且實(shí)際也為1的次數(shù)有336次,預(yù)測(cè)為1實(shí)際為零的次數(shù)有204次,實(shí)際為零預(yù)測(cè)為1的次數(shù)有236次,預(yù)測(cè)為零實(shí)際也為零的次數(shù)有222次。最終可得隨機(jī)森林模型的準(zhǔn)確率為0.559 7。圖2展示了隨機(jī)森林模型的ROC曲線,其AUC值為0.554,ROC曲線偏離對(duì)角線有一定距離,模型分類效果相比支持向量機(jī)有了提升。

(三)XGBoost對(duì)滬深300指數(shù)的預(yù)測(cè)

XGBoost,極端梯度提升,是GBDT的一個(gè)變種,GBDT在優(yōu)化時(shí)只用到一階導(dǎo)數(shù),而XGBoost則對(duì)代價(jià)函數(shù)做了二階泰勒展開,同時(shí)使用了一階導(dǎo)數(shù)和二階導(dǎo)數(shù),并且在損失函數(shù)中引入了正則化項(xiàng),用于控制模型的復(fù)雜度,防止模型過擬合。經(jīng)過多次實(shí)驗(yàn),當(dāng)收縮步長(zhǎng)設(shè)置為0.25,迭代次數(shù)為25次,樹的最大深度設(shè)置為10時(shí),模型得到了較好的分類效果。將學(xué)習(xí)好的模型用于測(cè)試集,輸出的混淆矩陣見表6,得到的ROC曲線見圖3。

表6 XGBoost測(cè)試集混淆矩陣

圖3 XGBoost測(cè)試集ROC曲線

由表6可知,XGBoost預(yù)測(cè)下一交易日股指價(jià)格上漲且實(shí)際情況也為上漲的次數(shù)有339次,預(yù)測(cè)下一交易日股指下跌實(shí)際情況上漲的有201次,預(yù)測(cè)為上漲實(shí)際為下跌的有232次,預(yù)測(cè)為下跌實(shí)際也下跌的有225次。最終可得XGBoost模型的準(zhǔn)確率為0.565 7。圖3展示了XGBoost模型的ROC曲線,其AUC值為0.560,ROC曲線偏離對(duì)角線有一定距離,XGBoost模型分類性能相對(duì)較好。

(四)模型對(duì)比

在二分類條件下比較各算法的預(yù)測(cè)準(zhǔn)確率,即把下一交易日滬深300指數(shù)價(jià)格上升的樣本設(shè)置標(biāo)簽為1,價(jià)格下降的樣本設(shè)置標(biāo)簽為零。利用支持向量機(jī)、隨機(jī)森林、XGBoost三種機(jī)器學(xué)習(xí)方法預(yù)測(cè)的結(jié)果見表7。

由表7可見,SVM預(yù)測(cè)準(zhǔn)確率為0.544 6,隨機(jī)森林預(yù)測(cè)準(zhǔn)確率為0.5597,XGBoost預(yù)測(cè)準(zhǔn)確率為0.565 7,XGBoost相對(duì)SVM提高了3.87%,相對(duì)隨機(jī)森林提高了1.08%;SVM的AUC值為0.545,隨機(jī)森林的AUC值為0.554,XGBoost的AUC值為0.560,XGBoost相對(duì)SVM提高了2.75%,相對(duì)隨機(jī)森林提高了1.08%;其他指標(biāo)也具有相似的情況。隨著模型準(zhǔn)確度的提高,模型的AUC值越來(lái)越大,模型分類性也越來(lái)越好。由此可見,XGBoost的預(yù)測(cè)精度相對(duì)SVM和隨機(jī)森林都有了較大幅度的提升,其中相對(duì)SVM的提升幅度更為明顯。

四、結(jié)論

機(jī)器學(xué)習(xí)是人工智能及模式識(shí)別領(lǐng)域的共同研究熱點(diǎn),最前沿的研究領(lǐng)域之一。如何將其應(yīng)用于金融領(lǐng)域,是近年來(lái)學(xué)者和投資者廣泛關(guān)注、積極探索的問題。本文通過支持向量機(jī)、隨機(jī)森林和XGBoost模型預(yù)測(cè)滬深300指數(shù)價(jià)格變動(dòng)方向,并且通過準(zhǔn)確率、AUC值等系統(tǒng)比較了該三種模型的分類性能,得出如下結(jié)論。第一,從數(shù)據(jù)本身看,滬深300指數(shù)具有反映滬深市場(chǎng)整體形勢(shì)的能力,能夠較好地反映市場(chǎng)價(jià)格的變化方向。本文以其每日開盤價(jià)、最高價(jià)、最低價(jià)、收盤價(jià)、成交量為基礎(chǔ)建立10個(gè)技術(shù)面指標(biāo)作為SVM、隨機(jī)森林和XGBoost的特征輸入,可以較好地預(yù)測(cè)下一交易日的變動(dòng)方向。其中SVM的預(yù)測(cè)準(zhǔn)確率為0.544 6,隨機(jī)森林的準(zhǔn)確率為0.559 7,XGBoost的準(zhǔn)確率為0.565 7,在一定程度上證明了機(jī)器學(xué)習(xí)方法在金融資產(chǎn)價(jià)格預(yù)測(cè)領(lǐng)域的有效性。第二,從使用的機(jī)器學(xué)習(xí)方法看,XGBoost模型預(yù)測(cè)準(zhǔn)確率相對(duì)SVM提高了3.87%,相對(duì)隨機(jī)森林提高了1.08%,說明了XGBoost的分類性能優(yōu)于SVM和隨機(jī)森林。此外,XGBoost方法新穎,用于預(yù)測(cè)金融資產(chǎn)價(jià)格的研究相對(duì)較少,本文將其用于預(yù)測(cè)滬深300指數(shù)的價(jià)格變動(dòng)方向,在一定程度上證明了該方法的可行性,將其用于更多的領(lǐng)域是今后的研究方向。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 四虎永久在线视频| 激情综合婷婷丁香五月尤物 | 国产高清又黄又嫩的免费视频网站| 久久人搡人人玩人妻精品 | 亚洲最猛黑人xxxx黑人猛交| 久久伊人久久亚洲综合| 91啦中文字幕| 亚洲色大成网站www国产| 国产精品一区二区在线播放| a在线亚洲男人的天堂试看| 免费无码AV片在线观看中文| 欧美成人精品高清在线下载| 亚洲第一香蕉视频| 欧美a在线看| 日韩精品一区二区三区大桥未久 | 国产欧美中文字幕| 欧美国产日韩在线| 无码一区二区波多野结衣播放搜索| 女人18毛片一级毛片在线 | 精品剧情v国产在线观看| 一级成人a毛片免费播放| 亚洲无码A视频在线| 免费A级毛片无码无遮挡| 成人综合网址| 97视频免费在线观看| 麻豆精品国产自产在线| 色播五月婷婷| 亚洲欧美精品一中文字幕| 黄色三级网站免费| 国产永久在线视频| 国产亚洲欧美在线专区| 欧美三級片黃色三級片黃色1| 亚洲AV电影不卡在线观看| 亚洲一区网站| 91av成人日本不卡三区| 日韩精品无码免费一区二区三区| 亚洲欧美一区二区三区蜜芽| 国产综合欧美| 人妻一区二区三区无码精品一区| 狠狠色成人综合首页| 无码免费视频| 幺女国产一级毛片| 欧美综合区自拍亚洲综合天堂| 毛片免费在线视频| 亚洲综合久久一本伊一区| 欧美成人一级| 成人字幕网视频在线观看| 99一级毛片| 日韩毛片基地| 中文字幕有乳无码| 亚洲一区二区三区麻豆| 国产理论精品| 老司机精品一区在线视频 | 国产福利免费视频| 女人18毛片久久| 久久夜色精品国产嚕嚕亚洲av| 四虎永久在线精品影院| 国产主播在线一区| 一本大道无码高清| 国产精品自拍合集| 国产网友愉拍精品| 亚洲色偷偷偷鲁综合| 亚洲成人一区二区三区| 精品無碼一區在線觀看 | 免费A∨中文乱码专区| 亚洲小视频网站| 亚洲综合亚洲国产尤物| 国产成人盗摄精品| 久久精品无码一区二区日韩免费| P尤物久久99国产综合精品| 国产亚洲高清在线精品99| 一区二区三区在线不卡免费| 国产在线拍偷自揄观看视频网站| 国产成人免费| 啦啦啦网站在线观看a毛片| 国产一区二区三区日韩精品| 激情综合五月网| 亚洲手机在线| 天堂在线视频精品| 1769国产精品免费视频| 孕妇高潮太爽了在线观看免费| 欧美yw精品日本国产精品|