999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的滬深300預測研究

2022-03-14 08:50:24李巖中國人民大學
品牌研究 2022年2期
關鍵詞:模型

文/李巖(中國人民大學)

一、引言與文獻綜述

預測金融指數的趨勢是非常復雜且困難的,它包含了太多不確定因素,影響單只股票市場價值的因素更具體,如公司的財務報表、發行可轉債、對外訂立合約、突發的政治經濟輿論事件、大規模資金的買入賣出、投資者對一個特定的公司的情緒等,這就造成了單只股票波動的可預測性比較低。相比來說,股指作為一攬子股票,比單只股票更具有可預測性和難以被控盤性,更容易使用技術進行預測。當然,金融市場的本身影響因子復雜,波動性高,這決定了股指趨勢預測的困難性和必要性,準確預測有利于降低風險,也可以更好地掌握經濟發展勢頭,為國家的整體發展投資貢獻力量。預測股指價格的方法總結有:(1)技術分析(Technical Analysis),使用技術指標進行分析趨勢;(2)時間序列預測(Time Series Forecasting ),將價格作為時間序列進行分析;(3)微分方程(Differential Equation),使用微分方程對股指波動進行建模和預測;(4)機器學習(Machine Learning)和數據挖掘(Data Mining)。

本文主要研究的是第四種方法,利用股票市場的大數據集,使用隨機森林的分類方法進行處理。機器學習模型在股票市場行為中是一個新的應用。該方法與傳統的預測方法有所不同。早期使用技術指標進行股票價格預測,夏毅和藍伯雄(2004)[1]證明了中國股票市場弱有效狀態下的技術分析的有效性問題。趙國順(2009)[2]基于時間序列分析技術分析股票價格趨勢;王曉曄和王正歐(2004)[3]又對時間序列方法進行了改進,通過正則化訓練的神經網絡與粗集理論相結合的股票時間序列數據挖掘技術,預測效果比單純時間序列要好。在微分方程的應用方面,李凱(2014)[4]應用了隨機微分方程為股票期權定價。在機器學習的應用方面,也有國內外不少學者進行了探索,Li等(2014)[5]利用logistic回歸模型并考慮了股票價格對外部條件的敏感性,預測成功率為55.65%。Devi等(2015)[6]利用混合的支持向量機模型,采用了RSI、貨幣流量指數、均線、隨機振蕩器和MACD等技術指標,進行了預測。總體來看,股票價格具有的混沌性和高波動性,使預測其確切的價值變得非常困難,因此將股票預測作為分類問題處理,比將其作為回歸問題處理,不需要那么精確的預測結果,相對會取得更好的效果。在本次研究中,使用一種集成學習算法,即隨機森林對股票指數進行預測。

二、理論介紹

(一)基本假設-有效市場假說

使用預測算法來確定股票市場價格的未來趨勢通常建立在有效市場假設前提下,也就是當前的股票價格完全反映了所有相關信息。它意味著,如果有人想通過分析歷史股票數據獲得優勢,那么整個市場就會意識到這個優勢,結果,股票的價格就會被修正。這是一個極具爭議的理論,當然此假設不是本次研究的重點,我們暫時接受這一假設并在這一假設基礎上做研究。

(二)隨機森林

隨機森林是將一組決策樹模型進行袋裝,通過對多個決策樹產生結果投票,根據少數服從多數的原則,對產生最終的分類決策。該方法減少了構建決策樹時常見的方差和過擬合問題,提高了學習算法的穩定性和準確性,單一的決策樹具有非常低的偏差和高方差,可能會導致:為了學習精度而把樹長得非常深,這種情況往往會過度訓練集;數據中的輕微噪音也可能會導致樹以完全不同的方式生長,隨機森林通過在特征空間的不同子空間上訓練多個決策樹以略微增加偏差為代價克服了這個問題。這意味著森林中所有的樹都看不到整個訓練數據。數據被遞歸地分割成多個分區。隨機森林有眾多優點,如:對特征很多的數據也可以適用, 不用降維,不需要做特征選擇;可以輸出特征的重要性排序,方便邏輯解釋;可以判斷出不同特征之間的相互影響;訓練速度比較快;不容易過擬合;可以適用不平衡的數據等。

(三)決策樹

隨機森林的基礎是決策樹,那么決策樹的節點是怎么排序的呢,原則是信息增益最大的排前面,由分裂引起的信息增益可計算如下:

其中I(N)是節點N的Gini impurity或香農熵,PL是節點N在劃分后去往左邊子節點的比例,PR是節點N在劃分后去往右邊子節點的比例,NL和NR分別是左右節點。

Gini impurity作為衡量每個節點劃分質量的函數,公式為:

其中P(Wi)是類別標簽i的總體比例。

香農熵也可以用來判斷分裂質量,它衡量信息內容的混亂程度,是信息量的數學期望。在決策樹中,香農熵用于衡量樹的特定節點中包含的信息的不可預測性,節點N的熵計算公式為:

其中d是類別的數量,P(Wi)是第i個類別標簽占總體的比例。

三、模型建立

技術指標,是利用時間序列價格計算的參數,旨在預測價格方向。它們是投資者廣泛用于預測市場看跌或看漲信號的工具。我們將價量數據Open開盤價、High最高價、Low最低價、Close收盤價、Volume交易量及技術指標數據MA5、MA10、MA20、MA60、MACD_DIF、MACD_DEA、 MACD_MACD、KDJ_K、KDJ_D、KDJ_J、CCI_CCI、DMI_PDI、DMI_MDI、DMI_ADX、DMI_ADXR、 DMA_DIF、TRIX、CR、VR、OBV、ASI進行收集,研究數據均來自公開的交易數據,收集了2010年1月1日至2021年12月31日的399300指數數據進行測試,這些數據構成了我們的整個數據集。接下來將數據進一步分為訓練集(整個數據的90%)和測試集(整個數據的10%)。并且將數據輪流做測試集10次,以提高模型的準確度,將模型進行擬合訓練。

研究使用的隨機森林算法創新性地采用一日一訓練的方法進行預測,即按照今日的實際漲跌數據,投入下一輪訓練,得出次交易日的預測數據,以此類推,相當于每日訓練一次模型,改變過往只預測一次的方法,閾值選用0.5,即在預測概率大于0.5時,預測股票指數的次日將上漲,即預測次日的收盤價將大于開盤價,操作是在次交易日的開盤價買入,收盤價賣出,來計算實際收益。舉個例子,使用截止到今日的實際數據,預測股票指數的次日的漲跌情況,使用次日的實際價格重新投入訓練,預測后日的漲跌情況,以此循環往復,計算所有日期的預測綜合效果。

四、模型效果

在模型的效果評價方面,采用了AUC和凈值法。

AUC(Area Under Curve)被定義為ROC曲線(Receiver Operating Characteristic)與下坐標軸之間的面積,ROC曲線接近ROC的左邊沿和上邊沿時,也就是曲線下的面積越大,測試越準確。如果曲線接近ROC空間的45度對角線,則意味著測試不準確。當然也要考慮金融預測的復雜性,AUC的界值不需要設的很高,實際操作中,可以很容易地通過sklearn 包中的metrics.roc_auc_score函數來計算出隨機森林模型預測的準確率是0.52。

利用我們的模型產生的預測結果,可以判斷次日的漲跌,進而進行買賣決策。如果預測是1,這意味著次日的指數收盤價會高于開盤價,那么交易建議是購買指數。而如果預測是0,表示價格預期是下跌,收盤價會低于開盤價,建議按兵不動。最終形成的凈值曲線如圖1所示。可以計算得出11年的凈值為1.929395,相比滬深300指數凈值1.392133有明顯提升,從圖1中也可以看出對曲線的波動率有明顯的平滑作用。

圖1 隨機森林與399300指數對比凈值圖

五、結論與建議

由于股票市場的非線性、動態性和復雜性,對其進行預測是非常困難的。然而,近年來,機器學習技術在股票預測中被證明是有效的。研究使用了隨機森林分類器和眾多的技術指標因子來建立我們的預測模型,通過計算準確性和凈值等參數來評估模型,產生了1.9的凈值效果并有效平滑了波動,預測準確率為52%,考慮到股票市場的復雜性和不可完全預測性,模型被證明可以預測未來的股票指數運動方向。隨機森林分類的預測股指的意義在于,非線性的問題也可以用線性判別型機器學習算法來解決,生活中,尤其是金融領域,很多問題都不是線性可分的,在這類問題中,所采用的解決方案方法需要一種范式轉換,做出微小修改可能會使思路更加寬廣。

隨機森林模型對股值預測是技術上的擴展,也是對技術指標的創新應用,是傳統與新時代的碰撞。模型可以用來設計新的交易策略、應用在新的品種上執行股票投資組合管理,預測股指趨勢來選取一攬子股票進行投資。未來的發展改進主要有四個方面:

(1)模型時間上的擴展應用,在未來的工作中,可以建立隨機森林模型來預測以小時或分鐘為單位的短時間窗口的趨勢,更好地為市場提供流動性,也可以預測周或月為單位的趨勢,較長周期的預測可以更好地掌握經濟發展勢頭,為國家的整體發展投資貢獻力量;

(2)模型閾值的更改,現在選取0.5作為決策閾值,可以根據風險承受能力,選取在不同閾值下的收益與風險的平衡值;

(3)不同機器學習算法的集合也可以檢查其在股指預測的魯棒性。

相關鏈接

隨機森林指的是利用多棵樹對樣本進行訓練并預測的一種分類器。該分類器最早由Leo Breiman和AdeIe CutIer提出,并被注冊成了商標。

在機器學習中,隨機森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數而定。 Leo Breiman和AdeIe CutIer發展出推論出隨機森林的算法。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 无码aaa视频| 1769国产精品视频免费观看| 国产91蝌蚪窝| 丰满人妻中出白浆| 国产精品露脸视频| 国产一区二区精品福利| 伊人无码视屏| 午夜无码一区二区三区在线app| 成人福利在线观看| 国产精品v欧美| 国产在线观看一区精品| 国产精品观看视频免费完整版| 色香蕉影院| 亚洲一区二区无码视频| 孕妇高潮太爽了在线观看免费| 亚洲嫩模喷白浆| 国产毛片网站| 日韩色图在线观看| 日韩在线成年视频人网站观看| 欧美亚洲国产精品第一页| 国产成人高清精品免费| 亚洲av无码久久无遮挡| 国产簧片免费在线播放| 亚洲日韩高清在线亚洲专区| 国国产a国产片免费麻豆| 亚洲,国产,日韩,综合一区| 91外围女在线观看| 亚洲人成网站色7799在线播放| 91丝袜乱伦| 一本大道视频精品人妻| 在线日韩日本国产亚洲| 免费毛片网站在线观看| 91www在线观看| 日韩精品无码不卡无码| 亚洲精品自产拍在线观看APP| 日韩人妻精品一区| 中文字幕在线观| 99er这里只有精品| 成人午夜视频网站| 久青草免费在线视频| 欧美精品亚洲二区| 国产成人91精品| 91伊人国产| 精品福利国产| 日本道综合一本久久久88| 亚洲中文字幕久久精品无码一区| 日韩国产一区二区三区无码| 欧美性久久久久| 亚洲成人一区在线| 免费高清毛片| 97青草最新免费精品视频| 日韩国产无码一区| 青青草原国产一区二区| 日韩一级二级三级| 久久国产精品无码hdav| 熟妇人妻无乱码中文字幕真矢织江| 五月婷婷伊人网| 午夜福利在线观看成人| 日韩欧美网址| 欧美区国产区| 国产区在线看| 日韩av电影一区二区三区四区| 91精品国产麻豆国产自产在线| 亚洲成人网在线观看| 亚洲综合片| 免费网站成人亚洲| 狠狠五月天中文字幕| 国产真实乱子伦精品视手机观看| 白丝美女办公室高潮喷水视频| 国产va在线观看| 天堂中文在线资源| 又黄又爽视频好爽视频| 老司机精品99在线播放| 黄色网站在线观看无码| 一级黄色欧美| 欧美日韩激情| 无码又爽又刺激的高潮视频| 一本一本大道香蕉久在线播放| 香蕉色综合| 精品无码一区二区三区在线视频| 欧美精品高清| 91在线一9|永久视频在线|