999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RF-LSTM模型對A股歷史數據的分析

2024-01-16 05:03:04丁睦坤柴嘯龍
商展經濟 2024年1期
關鍵詞:模型

丁睦坤 柴嘯龍

(廣東財經大學 廣東廣州 510320)

相較已成熟的房地產市場,中國股市還處于發展階段。雖然我國股票市場尚未成熟,但關于個股歷史數據和指標的分析仍具有重要意義。因為無論市場發展到何種階段,其趨勢都會遵循一個周期循環,在歷史數據中隱藏了很多有用信息,利用機器學習可以比人工更加細節有效地提取這些信息,幫助觀察市場情況。

最初將深度學習算法與股票市場結合發生在1988年,Rodríguez等(2000)將神經網絡模型運用到對IBM公司的收益率預測中,自此之后,越來越多的研究人員將機器學習算法運用到金融市場中。在國外研究領域中,Nelson等(2017)、Roondiwala等(2017)將LSTM模型應用到股市中。2017年,Selvin等(2017)已將LSTM對股市數據的預測效果與RNN及CNN進行比較。在國內,陳衛華、徐國祥(2018)使用長短時間記憶模型(LSTM)對滬深300中的個股進行預測并進行了精度和比較研究,發現LSTM對個股數據預測的適用性比其他模型更高。Kim等(2019)使用特征融合長短時記憶—卷積神經網絡(LSTM-CNN)對美股的標普500指數中的股票進行預測,發現準確率更高了。雖然前面的研究在模型的改進及新指標的選取都有所提升,但在指標選取方面還較為薄弱,對指標的取舍沒有合理的解釋,于是,國內學者劉玉敏等(2021)發表了關于結合隨機森林(RandomForest)與長短時間記憶模型(LSTM)對個股的指標進行合理的取舍再進行預測分析[8],發現準確率有了更大的提高。本文參考了劉玉敏等(2021)搭建的集合模型,并結合自定義研究的指標及主觀定義的模型,對個股未來走勢進行預測。

與以往機器學習對股票數據進行預測的研究對象相比,本文在閱讀金融書籍的基礎上,參考過去數據,編寫代碼提取個股這段時期內的支撐壓力位,即上漲的壓力點和下跌的底部,從而得到新的自定義指標,并利用自定義指標對RF-LSTM模型的預測結果進行量化。

在對比模型上,本文采用基于自回歸的AR時間序列分析模型與隨機森林的集合模型,在對比模型上較為新穎。

1 RF-LSTM模型的建立與分析

1.1 指標選取與清洗

根據隨機抽樣的原則,本文從東方財富數據接口中隨機抽取30只A股個股的數據作為研究對象,劃分訓練集和測試集。通過爬蟲程序得到股票歷史數據后,本文取個股的11個屬性,即日期、開盤價、收盤價、最高價、最低價、成交量、成交額、振幅、漲跌幅、漲跌額和換手率。

在獲取歷史數據后,本文根據參考論文和金融書籍的建議,選取9個常用的二級指標即MACD、KDJ、BOLL、SAR、RSI、OBV、W%R、DPO、ROC。選取這些指標的原因是其能夠較好地反映出股票價格的趨勢和動量,且已被廣泛使用和研究。

通過箱線圖分析已有數據,未發現明顯的異常值,但可以觀察到數據集存在大量缺失值。一級指標均無缺失值,但由于二級指標基于歷史數據生成,在前期存在較多的缺失值,同時兩個自定義指標存在缺失值。由于時間窗口設置為150天且向后滾動了3天,則第154條數據才會出現相應的支撐壓力位。

其中,兩個自定義指標的缺失數量超過100條,屬于嚴重缺失;而其他二級指標的缺失情況并不很嚴重,均在30條以內。因此,本文采用最早一天的數據對這些二級指標進行填補。對于兩個缺失嚴重的自定義指標,本文將以第154條數據的支撐壓力線為基礎,采用同樣的規律進行量化填補。

1.2 自定義指標

本文使用歷史的最高價和最低價計算出股票價格的頂部和底部,在時間窗口設置為150天的情況下,通過rolling方法在原始數據上進行滾動處理。再通過shift函數向前移動的3個時間步數(天),利用得到的數值及頂部及19.1%、38.2%、50%、61.8%、80.9%的下跌幅度還有底部,得到7個數值,即對應的支撐壓力線。

本文將當日收盤價與對應當天的支撐壓力位進行比對,自定義一個新的指標將當日股價位置量化為1~8的數字,命名為“150均移3日支撐壓力位-指標1”,表示當日股價在長階段的位置。再利用linspace函數,將當日股價位于的小階段,即最接近的兩根線之間等分為4份,將中間的兩份量化為2,低位一份量化為1,高位一份量化為3,命名為“150均移3日支撐壓力位-指標2”,表示當日股價在短階段的位置。

1.3 隨機森林RF的指標處理

隨機森林能處理不同類型的問題,處理分類問題的隨機森林由分類樹集成,以及針對股票數據本文要使用到的處理預測回歸問題的隨機森林模型由回歸樹集成。本文利用boost-strap 抽樣方法,由隨機向量,即回歸樹構成組合模型。

該模型將數值型變量作為預測變量,生成多元非線性回歸隨機森林模型。這些樹{h(G, θk)}取的均值形成該模型的預測值,且該模型需要滿足一個條件:由各自相互獨立的訓練集形成隨機森林。

在設定森林的參數時,本文采用k折交叉驗證模型選出最優參數,最終得到的最佳選擇是100個決策樹、最大樹深為7、特征選擇數為7成。

建立RF模型的主要目的是抽取信息重要程度,以給出27個指標的最終排名,進而幫助建立LSTM模型。具體地,本文對每個指標進行重要程度評估,給出其在股票收盤價預測中的相對重要程度,某個股(不同個股特征排名不同)的特征重要排名如表1所示(展示27個指標中的前5個)。

表1 特征排名

訓練好的隨機森林模型對測試集的預測結果R方檢驗為0.9965。

1.4 AR-RF模型的應用

結合上一步實現的隨機森林模型,本文利用statsmodels模塊中的AutoReg方法建立AR模型,設置的滯后階數p為1。由于之前檢驗隨機森林模型的測試集是無序的,在傳入參數時重新劃分測試集,以數據集(以日期為順序)最后200條數據為預測對象,傳入AR模型對各項指標進行預測,再將預測結果與上文建立好的隨機森林RF模型相結合,得到新的收盤價預測結果。在重新劃分測試集之后,本文將數據集的全部數據傳入AR模型,并對未來的數據進行預測。

1.5 LSTM模型的應用

1.5.1 LSTM模型原理及對股票數據的適用性

長短期記憶模型LSTM是一種遞歸神經網絡(RNN),在處理時序數據時比傳統的MLP等模型能夠更好地捕捉到其序列性和長期依賴關系。在股票價格預測任務中,過去一段時間的收盤價、開盤價、最高價、最低價等信息都與未來的股票價格有一定的相關性,具有一定的時序性。

具體的模型公式如下:

關于輸入門的運算:

關于遺忘門的運算:

關于記憶單元的更新運算:

關于輸出門的運算:

LSTM模型的最終輸出:

式(2)~(6)中:it、ft、ot、ct分別代表輸入門、遺忘門、輸出門和記憶單元的狀態;ReLU 代表ReLU激活函數;tanh 代表雙曲正切函數; W 和 b 分別代表權重和偏置參數;⊙表示逐元素相乘操作。

不同于其他研究,本文采用ReLU函數替代常用的Sigmoid函數作為激活函數,因為Sigmoid函數處理梯度消失和梯度爆炸問題時存在一定限制。相比之下,ReLU函數的計算速度更快,并且在處理梯度問題時更加穩定,可以幫助LSTM模型更好地處理股票數據。

1.5.2 LSTM模型的指標選取與建立

在建立LSTM模型時,有許多參數需要設置,本文通過逐次檢驗誤差的方法,通過獲取模型對測試集的多種誤差檢驗,對參數進行調整,經過篩選,最終選擇時間步數n_steps設置為50。

在設置LSTM隱藏層神經元數量units、訓練迭代次數epochs、批大小batch_size的具體輸入參數時,本文使用3折交叉檢驗模型對指標進行選取,從字典中選出最佳參數,同時對不同的激活函數進行檢驗,驗證選擇ReLU的想法是否對應。最終得到的最佳參數選擇:神經元個數是250個,訓練次數為160,批大小為32;而在激活函數選擇時,3折交叉檢驗在ReLU、TanH、Sigmoid中選擇了ReLU作為激活函數,符合本文的最初選擇。

本文搭建LSTM神經網絡模型是基于keras深度學習框架。關于搭建好的模型,考慮到股票數據的特性,在損失函數選擇均方誤差(MSE),在優化器選擇適應性矩估計(Adam)。

1.5.3 模型的改進

本文通過上一步建立的初步模型,結合前文隨機森林RF模型的指標排名對指標選擇進行篩選改進,并通過列表對排序后的指標進行裝填,利用循環依次將指標輸入LSTM模型,再通過判斷模型的誤差,得到最合適的指標搭配。

結果發現,當去除排名倒數8位指標后將剩余指標輸入模型時,誤差評分最高,四種誤差MSE、RMSE、MAE、R2分別為:[0.030664,1.417732,0.732709,0.99075]。

在對多只股票進行指標選取時,本文發現對于不同個股的指標排名會有明顯浮動,在指標選取時皆舍去排名倒數8個指標,選擇剩余的指標建立最終LSTM模型。

2 股票預測結果分析與量化

2.1 對過去數據預測的誤差

在完成數據的預處理后,本文將30只股票的數據劃分為訓練集和測試集兩部分。其中,訓練集用于訓練模型,測試集用于評估模型的預測準確性。

2.1.1 AR-RF模型對過去數據預測的誤差

在重新劃分測試集后,利用AR模型對各指標進行預測,并將預測結果可視化(見下圖1/2/3),從樣本集中挑選了三只不同走勢的個股(下面的案例皆以這三只個股)其中黑線為真實K線,紅線為AR-RF模型預測結果,可以發現AR-RF模型的預測幅度皆過于單一,大部分個股預測的走勢趨近水平線,分析的價值很小。

圖1/2/3 AR-RF對測試集的預測結果

2.1.2 RF-LSTM模型對過去數據預測的誤差

在確定好輸入指標、時間步長、神經元個數等因素后,本文選擇“epochs=160”作為訓練輪次,并根據評價指標R方誤差、均方根誤差RMSE等指標評估模型的效果(得到的誤差評估效果見表2)。訓練好模型后,對劃分好的測試集進行預測,得到30只個股的R方均值為0.871159193,表明模型具有很好的泛化能力和預測精度(個股的可視化結果見下圖4/5/6)。

圖4/5/6 RF-LSTM對測試集預測的結果

表2 RF-LSTM對測試集預測的誤差

由此可以看到,模型對歷史數據的預測十分精準。

2.2 對未來走勢的預測

2.2.1 RF-LSTM模型對未來數據的預測

從上文AR-RF模型對測試集的歷史數據預測可以看到,該模型對具有周期性的數據預測效果不佳;對未來數據的預測可以看到,AR-RF模型無法有效利用歷史數據的信息。相反RF-LSTM模型則能很好地給出一個能更好地反映歷史數據的周期性信息。

將預測時長設置為50天,預測可視化結果如圖7/8/9所示。

圖7/8/9 RF-LSTM對未來趨勢的預測

雖然能更好的觀察到RF-LSTM模型預測結果的周期性,但由于預測的時間跨度太長,且帶有劇烈的波動使預測結果難以達到參考的目的。針對這個問題,本文決定最終將預測的趨勢量化成一個投資參考值,結合其它因素,給出一個更加合理的量化結果。

2.3 對結果進行分析及量化

2.3.1 量化方法

在拿到預測數據后,本文主觀定義了一個公式,用于實現量化預測結果及不同個股之間的比較:

式(7)中:F NS(Fi n alSc ore)為最終量化的結果;SC(SelfCol)模型輸出結果及LL(LastLevel)最新交易日的支撐壓力位的定義公式如下:

式(12)(13)中:i-1和j-1是現階段最后一個交易日的自定義指標1和自定義指標2,Z1、Z2是兩個根據自定義指標1和指標2的數據分布實現的,用來實現標準化的數組,分別是

本文通過i-1和j-1從Z1、Z2取出對應的數值,引入LL1和LL2是為了展現當前最新交易數據所處的位置在量化模型中產生的影響,定義Z1和Z2數組是為了保證不同股票之間的同量級,方便比較。

2.3.2 量化結果分析

將股票的模型預測結果代入量化預測公式進行處理,可以得到以下數據(見表3)。

表3 各只個股的自定義指標

模型對這30只個股的給分情況差異較大,其中代碼為601155的個股的量化結果最高,FNS達到89.875,而代碼為002229的個股量化結果最低,FNS為-67.015。

2.3.3 量化結果聚類

從上文的量化結果可視化可以看出,模型給出的得分沒有明顯區分,本文在分析結果時,考慮使用輪廓系數結合Kmeans模型對量化結果進行聚類,聚類對象包括個股的FNS、RLM、LDP等屬性。結果發現,當將個股樣本分為3個類時最為合理,對分類后的數據進行分析,模型將FNS在[-67.015,-42.687]之間的個股分為一類,FNS在[-37.893,14.689]之間的個股分為一類,FNS在[22.144, 89.875]之間的個股分為一類,本文按照FNS的區間將三個類分別命名為“數據悲觀”“數據觀望”及“數據樂觀”。針對隨機抽取的個股樣本,有43.44%的個股處于“數據觀望”范圍,即最終模型對當前大部分個股持“觀望”態度。

3 結語

綜上所述,本文對于研究建立的RF-LSTM模型的預測結果進行誤差檢驗,30只個股的平均R方為0.87,可見RFLSTM模型對股票數據的適用性。本文結合自定義量化公式實現該模型的目的是將歷史數據中的信息量化作為參考值,以期降低決策者做出判斷的噪聲。在今后的研究方向上,還會考慮引進更多模型及利用能獲取的信息因素對預測結果量化進行二次改進。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 中文纯内无码H| 久久公开视频| 国产区网址| 国产精品深爱在线| 国产成人精品男人的天堂| 成人免费一区二区三区| 国产一区二区丝袜高跟鞋| 无码人中文字幕| 中国国产高清免费AV片| 国产在线无码av完整版在线观看| 国产欧美性爱网| AV在线天堂进入| 青青青伊人色综合久久| 国产在线欧美| 四虎永久免费在线| 91成人在线免费观看| a在线亚洲男人的天堂试看| 精品国产污污免费网站| 91久久夜色精品国产网站| 亚洲国产综合自在线另类| 国产精品久久久久久久久kt| 五月天天天色| 91网址在线播放| 国产亚卅精品无码| 狼友视频一区二区三区| 99热6这里只有精品| 欧美亚洲国产一区| 国产农村精品一级毛片视频| 欧美亚洲日韩中文| 欧美亚洲国产精品久久蜜芽| 精品少妇人妻无码久久| 欧美成人影院亚洲综合图| 精品视频免费在线| 亚洲欧美不卡视频| V一区无码内射国产| 高清久久精品亚洲日韩Av| 国产激爽大片高清在线观看| 亚洲色图另类| 色窝窝免费一区二区三区| 国产精品久久久免费视频| 国产免费羞羞视频| 国产日韩精品一区在线不卡| 精品国产亚洲人成在线| 亚洲三级影院| 久久久亚洲国产美女国产盗摄| 亚洲伦理一区二区| 亚洲AⅤ无码国产精品| 欧美一区福利| 国产真实乱子伦视频播放| 国产在线精彩视频论坛| 国产黄色免费看| 国产不卡网| 国产精品污视频| 国产激情无码一区二区APP| 国产99视频精品免费观看9e| 亚洲日韩精品欧美中文字幕| 91久久偷偷做嫩草影院精品| 亚洲欧美日韩中文字幕在线| 欧美视频在线第一页| 亚洲国产天堂久久九九九| 久久人人97超碰人人澡爱香蕉| 免费一级大毛片a一观看不卡| 制服丝袜在线视频香蕉| 色呦呦手机在线精品| 国产精品成人观看视频国产| 国产精品女主播| 久久黄色小视频| 欧美国产日韩在线| 国产成人高清精品免费软件| 97视频在线精品国自产拍| 潮喷在线无码白浆| 午夜性爽视频男人的天堂| 波多野衣结在线精品二区| 无码人中文字幕| 国产无套粉嫩白浆| 香蕉久久永久视频| 免费国产一级 片内射老| 沈阳少妇高潮在线| 亚洲欧洲自拍拍偷午夜色| 亚洲欧美日韩中文字幕在线| 538国产视频| 精品国产三级在线观看|