999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的股票指數預測方法

2019-10-14 03:18:09孟葉于忠清周強
現代電子技術 2019年19期
關鍵詞:機器學習

孟葉 于忠清 周強

摘 ?要: 股票價格指數是衡量整個股票市場當前行情的重要指標,通常對指數內所有個股的漲跌幅進行加權平均得到,因此股票指數能夠及時準確地反映當前市場的動向走勢。對滬深300指數的歷史行情數據進行建模,通過挖掘大盤指數的漲跌幅與個股的漲跌比之間的關系,利用聚類算法確定對市場影響較大的指數漲跌幅集合[G],將其作為研究關鍵。運用集成學習的算法思想,選取K?近鄰、梯度提升和自適應提升這3個分類器,通過改進的投票算法聚合成一個新的分類器模型,對指數行情數據進行學習分類,從而對[G]的出現進行預測,改進的投票算法綜合考慮了弱分類器本身的分類效果,分類效果得到提升。實驗結果表明,與原模型相比,新聚合的模型在一定程度上提升了股指預測的準確度,對于滬深300股指的預測具有指導作用。

關鍵詞: 股指預測; 集成學習; 模型聚合; 機器學習; 分類器; 指數行情

中圖分類號: TN911?34; C32 ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)19?0115?04

Abstract: The stock index can reflect the overall development trend of the current stock market. The historical quotations of the ?CSI 300 index were modeled in this experiment. By mining the relationship between the rise and fall ratio of the market index and the rise and fall ratio of individual stock, the clustering algorithm is used to determine the set G, which has a large impact on the market and is taken as the key to study. In the course of experiment, the algorithms of KNN Classifier, Gradient Boosting Classifier and Adaboost Classifier are integrated as a more effective classifier model, and the index market data is classified to predict the appearance of G. The improved voting algorithm comprehensively considers the classifying effect of the weak classifier, so its classifying effect is improved. The experimental results show that, in comparison with the original model, the new polymerized model can improve the accuracy of the stock index forecast to a certain extent, which has a guiding effect on the short?term forecast of CSI 300 index.

Keywords: stock index prediction; integrated learning; model aggregation; machine learning; classifier; index marketing

0 ?引 ?言

利用機器學習進行投資分析的研究最早起源于19世紀末的美國,其研究結果也被證明切實可行。隨著研究的深入,機器學習在金融領域得到認可并被大量應用于股市交易領域,主要算法有支持向量機(SVM)、人工神經網絡(ANN)、隨機森林(Random Forest)、隱馬爾可夫模型(HMM)等,主要用于對股票趨勢進行預測。文獻[1]提出結合股票新聞事件的方法對時間序列數據進行準確預測,這是對股票進行文本分析的嘗試。文獻[2]將4種機器學習算法應用于股指預測,包括人工神經網絡、支持向量機、隨機森林和樸素貝葉斯等算法,對數據預處理進行改進,結果表明隨機森林的性能整體優于另外三種模型。國內利用機器學習進行投資分析的研究在21世紀才開始興起,相關研究較國外少,研究方法大都是根據已有模型進行改進并在中國股市進行實驗。文獻[3]將支持向量機和小波分析相結合,在數據去噪方面具有一定優勢。文獻[4]設計了一套將機器學習和技術指標相結合的量化投資策略,策略的年化收益均跑贏大盤指數并且各項風險指標均優于大盤指數,是一個高收益低風險的穩健策略。

本文對指數的漲跌行為進行預測,但對漲跌重新定義:當大盤的漲跌幅達到一定程度時,市場中的個股漲跌有了明顯的趨向性,個股有較大概率跟隨大盤走勢,通常發生于股指大漲或大跌之時,此時大盤指數的指導作用開始顯現,若能對其進行預測,對于投資者規避風險,投資獲利有一定指導作用。實驗主要分為聚類和預測兩個步驟:

1) 聚類:數據樣本為滬深300指數2015—2018年的歷史漲跌幅數據與通過統計得到的對應當日個股漲跌比數據。通過聚類算法K?means根據個股漲跌比對大盤漲跌幅進行分類,根據聚類結果和股指漲跌幅對每日股指進行標記,將原本漲跌的二分類結果轉化成漲跌類別的多分類結果。

2) 預測:數據樣本為上文已經通過聚類標記好漲跌類別的歷史交易數據,并根據基本行情數據計算出近50個股票技術指標輔助預測;將3個經典的機器學習分類器模型通過加權投票的方式聚合成為一個新的分類器,提升分類效果,預測下一個交易日的股指漲跌類別。

1 ?算法思想

1.1 ?Adaboost算法

Adaboost算法是在文獻[5]中提出的,是boosting方法中最優性能的代表算法。首先賦予[n]個訓練樣本相同的權重,從而訓練出一個基分類器,之后進行預先設置的[T]次迭代,每次迭代將前一次分類器中分錯的樣本加大權重,使得在下一次迭代中更加關注這些樣本,從而調整權重改善分類器,經過[T]次迭代得到[T]個基分類器,最終將這些基分類器線性組合得到最終分類器模型。

1.2 投票算法

投票(voting)廣泛用于對離散型數據輸出分類器的集成。集成學習中的投票方法[6]主要有:多數表決、簡單多數表決和帶權重的投票。多數表決即基分類器的某一預測結果出現的次數超過了半數,則該預測結果為最終結果;若沒有超過半數的結果,則該集成分類器沒有結果輸出。簡單多數表決與多數表決基本類似,即只要哪個基分類器的預測結果出現次數最多則為最終結果,無需過半數。帶權重的投票就是對每一個基分類器的結果分配一個權重,最終結果為預測結果與權重的乘積之和的最高者。本次實驗采用帶權重的投票方式并對其進行改進,將多數投票和帶權重投票結合,對弱分類器利用多數投票產生一列新的預測結果并將其與弱分類器得到的結果進行加權平均,權重按照各自的預測精度成比例設置,最終結果即為預測結果與權重的乘積之和的最高者。

2 ?實 ?驗

2.1 ?數據獲取

本次實驗所需要的數據樣本包括:2015—2018年滬深300成分股每個交易日的漲跌幅數據;滬深300指數2015年4月8日—2018年4月13日的歷史交易行情數據,共640行數據,數據均通過Tushare接口進行獲取。

此次實驗的股指預測是根據當前交易日的行情數據對下一個交易日的漲跌類別進行預測。通過將技術指標數據進行量化建模,利用分類器進行訓練:基于已獲取的收盤價、成交量等指標計算出如MACD(指數平滑移動平均值)、MASS(梅斯值)、EWMA(指數加權移動平均值)等47個技術指標以幫助分類器進行訓練,提升預測精度。

2.2 ?K?means聚類

滬深300指數的漲跌幅與滬深300成分個股漲跌比間的關聯關系若只通過觀察數據樣本則較難得到,因此先將數據進行可視化處理,繪制散點圖如圖1所示。

通過散點圖可以發現:指數漲跌幅與個股漲跌比存在某種線性關系,但并非簡單的一元線性關系;數據點的分布呈現一定規律——散落在漲跌幅(-2%,2%)的數據點最為密集;個股漲跌比最高不超過10,最低卻趨近于0,指數跌漲比最高達到100,遠遠大于10,表明指數大跌時個股的普跌性遠大于指數大漲時個股普漲性,也說明我國股市的抗壓能力較弱,投資者面臨指數大跌時的恐慌與非理性情緒會造成市場的進一步惡化。

對圖中數據點進行K?Means聚類,可視化展示如圖2所示。

綜合考量輪廓系數和聚類效果圖得出聚類數目為4時聚類效果最好,符合實驗的目的——將對市場影響較大的漲跌幅都聚為一類(圖中紅色與綠色部分),樣本分布也較為均勻。

2.3 ?分類與融合

本次實驗選用的分類器模型——K?NearestNeighborClassifier,GradientBoostingClassifier,AdaBoost Classifier。由于分類器模型均是處理二分類問題的模型,而本次實驗中涉及到了4個類別,因此采用迭代分類的策略[7]:首先各自訓練[C24]=6個分類器模型,每次選擇2個類別的數據樣本進行訓練,共進行6次分類操作。6個分類器模型訓練完畢后對同一測試樣本進行預測,最終預測結果以多數投票原則確定,即分類器輸出各自分類結果,輸出最多的即為最終類別,具體分類操作如圖3所示。

由于本次實驗的目的是預測出對市場影響較大的指數漲跌幅集合即漲跌類別中的1,4類別,因此預測結果的評判標準為1,4類別的預測準確率。

2.4 ?股指預測

本次實驗選用3個分類器模型:K?NearestNeighborClassifier,GradientBoostingClassifier,AdaBoostClassifier,其中,GradientBoostingClassifier和AdaBoostClassifier是基于boosting算法的分類器,分類效果較為理想,通過for?loop對模型中的參數進行調參,得到預測精度最高的參數。對分類器都做調參優化,得到的預測結果如表1所示,3個分類器的準確度都大于0.5,所以原則上都是有效的分類器,可以作為集成學習的第一層分類器。

對分類器進行集成學習,這里使用VotingClassifier(投票分類器)對3個分類器進行第一次集成,由于本次實驗只有3個基分類器,因此不會產生投票數相同的情況。直接使用多數投票方法,使用投票分類器的預測結果為0.775,整個模型的預測精度得到提升。再將多數投票分類器與前3個基分類器按預測精度分配權重,并對4個分類器的結果取加權平均。

2.5 ?結果分析

最終經過加權投票分類后的預測精度為0.793,與4個基分類器的預測精度結果如表2所示。

由表2可以看出,集成后的分類器預測效果大大提升,相比弱分類器中準確度最高的AdaboostClassifier提升了4.7%,最終分類準確度為0.793。對于股市預測而言,一般在0.56以上的預測結果即被認為是很好的分類結果[8],對于股市投資具有一定指導意義。實驗通過挖掘大盤指數漲跌幅與個股漲跌比間的聯系確定了對市場影響較大的漲跌幅集合,通過構建分類器模型對指數大漲和大跌進行預測,對于投資者而言,利用預測結果進行輔助決策,不僅避免投資過程中非理性因素的干擾,而且對于降低投資風險,提高投資收益都具有一定意義。

3 ?結 ?論

本文的創新點在于:

1) 通過K?means聚類算法挖掘出指數漲跌幅與個股漲跌比間的內在聯系,依據個股漲跌比將大盤漲跌幅進行聚類,得到多個漲跌類別,并選擇對市場影響較大的漲跌類別作為預測重點。

2) 將集成學習的算法思想運用于股指預測當中,對股指預測不只局限于漲跌這兩種情況——將漲跌行為定義為多類別問題,對股指“大漲”和“大跌”進行預測,與單純漲跌預測相比,預測精度得到提升。

3) 通過將傳統的股票技術分析進行程序量化,基于原數據基本行情指標計算出近50個技術指標輔助決策,使得學習器有更佳的學習性能,預測精度得到提升。

實驗結果較為理想,與文獻[9]在利用支持向量機對滬深300股指的漲跌進行預測的實驗結果0.595相比,有了較高的提升,基于集成學習預測股市行情總體而言是有效的。由于中國股市本身就是一個弱式有效市場,政策性、突發性的事件會對股市行情產生很大影響,因此預測模型還存在一定的局限性,下一步的工作就是完善模型,提升現有效果。

參考文獻

[1] YOO P D, KIM M H, JAN T. Machine learning techniques and use of event information for stock market prediction: a survey and evaluation [C]// International Conference on Computational Intelligence for Modelling, Control and Automation and International Conference on Intelligent Agents, Web Technologies and Internet Commerce Vol. IEEE Computer Society: IEEE, 2005: 835?841.

[2] PATEL J, SHAH S, THAKKAR P, et al. Predicting stock and stock price index movement using trend deterministic data preparation and machine learning techniques [J]. Expert systems with applications, 2015, 42(1): 259?268.

[3] 李元誠.股市預測中的小波支持向量機方法研究[J].計算機科學,2003,30(10):215?217.

LI Yuancheng. Research on wavelet support vector machine in stock market prediction [J]. Computer science, 2003, 30(10): 215?217.

[4] 李斌,林彥,唐聞軒.ML?TEA:一套基于機器學習和技術分析的量化投資算法[J].系統工程理論與實踐,2017,37(5):1089?1100.

LI Bin, LIN Yan, TANG Wenxuan. ML?TEA: a set of quantitative investment algorithms based on machine learning and technical analysis [J]. Systems engineering—theory & practice, 2017, 37(5): 1089?1100.

[5] FREUND Y, SCHAPIRE R E. A decision?theoretic generalization of ?on?line learning and an application to boosting [J]. Journal of computer and system sciences, 1997, 55(1): 119?139.

[6] 周星,丁立新,萬潤澤,等.分類器集成算法研究[J].武漢大學學報(理學版),2015,61(6):503?508.

ZHOU Xing, DING Lixin, WAN Runze, et al. Research on classifier ensemble algorithms [J]. Journal of Wuhan University (Natural science edition), 2015, 61(6): 503?508.

[7] 楊新武,馬壯,袁順.基于弱分類器調整的多分類Adaboost算法[J].電子與信息學報,2016,38(2):373?380.

YANG Xinwu, MA Zhuang, YUAN Shun. Multi?class adaboost algorithm based on the adjusted weak classifier [J]. Journal of electronics & information technology, 2016, 38(2): 373?380.

[8] GEORGE Tsibouris, MATTHEW Zeidenberg. Testing the efficient markets hypothesis with gradient descent algorithms [M]. [S. l.]: Johnwiley & Sons, 1995.

[9] 任東海.基于支持向量機的股指變動方向預測[D].濟南:山東大學,2016.

REN Donghai. Predicting direction of stock price index movement based on support vector machines [D]. Jinan: Shandong University, 2016.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 凹凸国产分类在线观看| 日本91在线| 91区国产福利在线观看午夜| 欧美a网站| 日本午夜精品一本在线观看| 午夜日b视频| 国产精品妖精视频| 99re精彩视频| 久久中文电影| 久草网视频在线| 欧美日韩国产精品va| 亚欧成人无码AV在线播放| 草草影院国产第一页| 超清无码一区二区三区| 精品国产成人av免费| www.精品国产| 999精品色在线观看| 99久久人妻精品免费二区| 欧美一级高清片欧美国产欧美| 亚洲天堂视频在线播放| 免费又爽又刺激高潮网址| 久久96热在精品国产高清| 午夜丁香婷婷| 一区二区三区高清视频国产女人| 日韩国产亚洲一区二区在线观看| 亚洲国模精品一区| 国产高清精品在线91| 亚洲天堂在线视频| 国产成人AV大片大片在线播放 | 98超碰在线观看| 国产高清在线观看91精品| 2020国产在线视精品在| 欧美成a人片在线观看| 午夜电影在线观看国产1区| 亚洲免费成人网| 国产日产欧美精品| 97国内精品久久久久不卡| AV老司机AV天堂| 欧美一级在线| 日韩在线永久免费播放| 97视频在线观看免费视频| 欧美视频免费一区二区三区| 亚洲欧美国产视频| 中文字幕亚洲精品2页| 国产精品无码AV片在线观看播放| 在线欧美日韩国产| 欧美成人午夜视频免看| 青青久久91| 天堂av综合网| 伊人久热这里只有精品视频99| 日韩欧美中文字幕一本| 青青草91视频| 色妞www精品视频一级下载| 亚洲国产成人在线| 亚洲伊人天堂| 久久黄色毛片| 2022国产91精品久久久久久| 青青操视频免费观看| 欧美日韩另类在线| 熟女视频91| 国产一级二级在线观看| 亚洲一级毛片在线观播放| 亚洲国产日韩在线观看| 国产91av在线| 精品伊人久久久久7777人| 日韩精品久久久久久久电影蜜臀| 四虎精品国产AV二区| 国产一级做美女做受视频| 久久青草免费91观看| 日韩一级毛一欧美一国产| 尤物在线观看乱码| 亚洲精品无码成人片在线观看| 久久一本精品久久久ー99| 久久www视频| 一级毛片免费的| 美女毛片在线| 黄色一级视频欧美| 一级毛片免费的| www精品久久| 亚洲色成人www在线观看| 色视频国产| 高清视频一区|