999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的金融交易系統

2018-02-24 13:55:24傅聰郝泳濤
電腦知識與技術 2018年34期

傅聰 郝泳濤

摘要:強化學習(Reinforcement Learning)是解決序列化決策問題的途徑之一,其在圍棋、電子游戲、物理控制等確定環境下解決問題的能力已經得到證明。該文將強化學習應用到自動交易系統(Automated Trading System)的設計中,通過實驗討論了強化學習方法在混沌、動態環境下的表現,為自動交易系統的設計提出新的可能。不同于傳統自動交易系統分別設計預測算法與策略算法的做法,基于強化學習的算法將兩者合二為一,簡化了設計步驟。該文第1章簡述了強化學習發展現狀;第2章闡述了金融交易問題的建模方法;第3章中通過實驗,討論了策略梯度算法與特征編碼方式(RNN、CNN)在處理金融時序數據時的優劣。實驗表明,使用RNN編碼特征的方法有比較好的短期效果。最后,第4章總結了使用強化學習理論設計交易系統的優勢與劣勢。

關鍵詞: 強化學習; 交易系統; 時間序列; 梯度下降

中圖分類號:TP18? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)34-0172-04

1 引言

1.1 強化學習

隨著AlphaGo[1]的成功,強化學習受到的關注日益增加,并被視為強人工智能的實現途徑之一。作為機器學習的分支領域,強化學習基于Markov理論[2],其思想是模擬智能體在與環境交互中學習的過程,非常適合處理序列化決策問題。

近年來,隨著深度學習理論與硬件處理能力的發展,不少傳統強化學習模型與深度學習理論相結合,使其能夠處理的問題規模大大增加。例如經典的Q-Learning,在與神經網絡結合之后,Deep Q Network算法(DQN)[3]在相當一部分Atari游戲中的表現超過了人類玩家。文獻[4]證明了訓練過程中最大化收益的過程就是沿著“策略梯度”優化參數的過程,基于這個理論的策略梯度算法在許多方面得到了成功應用。此外,與對抗網絡(GAN)非常相似的演員-評論家(Actor-Critic)模型也是研究熱點之一,該強化學習模型在學習過程中同時訓練Actor與Critic兩個網絡,由Actor網絡提出執行的動作,由Critic網絡評估動作可能獲得的收益,以此在交互過程中尋求最大收益。但是,由于AC模型的參數量的大,訓練收斂速度不能得到保證,因此不少研究以加快AC模型的收斂速度為目標,例如文獻[4],提出了目標網絡技術,提高訓練穩定性與收斂速度。

除了基礎理論與訓練技巧,不少研究著重于使用強化學習解決實際問題。文獻[5]使用AC模型,設計了水下機器人的自治控制算法;文獻[6]研究了DQN在連續控制問題上的應用,為機器人連續控制問題提出了新的研究方向。強化學習在金融問題的應用也有一定的研究[7]闡述了強化學習主要算法應用到交易問題時需要做出的調整。文獻[8]以DQN為基礎,構造了Buy/Sell,Signal/Order 4個agent,設計交易系統,其在1999.1-2000.12的約30000個價格數據上訓練,在2001.1-2005.12時間段內獲得了最大約1138%的增長。

1.2 自動交易系統

交易過程可以看作一個序列化決策問題。在研究中,諸如股價、交易量等金融數據往往被研究者建模為時間序列,進而以統計分析、博弈論等方法為基礎,分別設計自動交易系統的各個模塊。交易系統的設計過程與各個模塊如圖1所示。據文獻[9]所述,預測與決策是交易系統的兩大主要組成部分,現有的研究大都只著眼于預測或者策略部分,少有將預測與交易策略結合在一起的研究。

本文將強化學習理論應用到交易系統的設計中,基于策略梯度算法設計了自動交易系統,并通過實驗展示了交易系統的效果,同時比較了不同特征編碼方式對于交易系統的影響,為交易系統的設計與研究提出新的可能。

3 實驗

3.1 實驗數據

實驗主要使用上證指數000300自2017.01.01-2017.12.31分鐘級別收盤價,共58560個數據點作為實驗數據(圖3),挑選了前15000個數據點作為訓練數據接下來的5000個數據點作為測試數據(圖4)。

3.2 實驗結果

實驗使用的網絡結構如圖5所示,layer1、2、3為3個全連接層,節點個數為128,64,32,數據經過正則化,選區當前時刻前45分鐘,以及前3小時、5小時、1天、3天、10天的共50個數據點做為特征。不同于其他問題,交易環境是動態、不固定的,比起通常的網絡訓練,由于金融環境的動態性,訓練過程極易發生過擬合現象。如圖6所示,在訓練數據上,經過2k次迭代后獲得了800%的收益,而在測試數據上的平均收益僅為0.43%并且出現了相當多的虧損情況。因此,在每個全連接層后加入了dropout,經過10k次迭代后,訓練數據平均收益為1136.19%,測試數據平均收益為85.87%。

此外,訓練中一個交易過程為15000個數據點,上述測試只用了5000個數據點。圖7反映了交易時長與收益的關系??梢钥闯?,當不使用特殊編碼方式時,收益隨交易時長波動較大,同時由于交易環境的不穩定性,隨著時間偏差越大,收益越來越少。當使用CNN編碼特征后,隨著交易時長的增加,收益略微增加。并且由于其平滑了特征,波動較小。RNN編碼特征的效果最好,雖然波動較大,但是其注重特征的近期變化,始終著眼于特征近期的變化,環境的不穩定性對于其影響較小,因此收益隨時間的累計效應明顯。

4 結論與展望

本文基于強化學習理論設計了自動交易系統,相比傳統的交易系統設計,使用強化學習理論的優勢在于簡化了設計,免去了耦合預測、博弈算法的煩瑣過程。此外,傳統預測方法在預測價格時往往需要實時計算偏、正相關因數等統計學特征,以確定算法的參數(例如ARMA、GARCH等算法),計算量大,耗時嚴重。而前沿強化學習理論與深度學習結合緊密,使得使用RNN、CNN等各類特征編碼器動態編碼特征非常方便,減輕了人工設計特征的負擔。

基于強化學習理論的交易系統也有不足,其缺陷主要分為以下兩類:

一是由于強化學習還處在發展期,理論有待完善,能解決的問題也有限。比如當前后動作有邏輯依賴時難以定義狀態-價值函數,比如在交易問題中,買入達到資金上限后,在賣出前不能買入;同理持有量為0時,不能做出賣出操作。本文同大部分研究者一樣,將看漲、看平、看衰作為動作空間的定義,以此計算值函數與收益函數。有不少文獻針對該問題進行研究,例如文獻[11],將三個動作作為特征,分別訓練另外兩個買入、賣出模型,使模型更加符合實際。

另一個難點在于金融環境的復雜與動態。不同時期的金融環境往往大不相同,沒有一個模型能普世地在所有時期都能盈利。因此,如何將風險控制機制加入模型中也是研究的方向之一。

參考文獻:

[1] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search.[J]. Nature, 2016, 529(7587):484-489.

[2] Bradtke S J, Duff M O. Reinforcement learning methods for continuous-time Markov decision problems[C]// International Conference on Neural Information Processing Systems. MIT Press, 1994:393-400.

[3] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning.[J]. Nature, 2015, 518(7540):529.

[4] Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]// International Conference on International Conference on Machine Learning. JMLR.org, 2014:387-395.

[5] Cui R, Yang C, Li Y, et al. Adaptive Neural Network Control of AUVs With Control Input Nonlinearities Using Reinforcement Learning[J]. IEEE Transactions on Systems Man & Cybernetics Systems, 2017, 47(6):1019-1029.

[6] Zhao D, Zhu Y. MEC--a near-optimal online reinforcement learning algorithm for continuous deterministic systems[J]. IEEE Transactions on Neural Networks & Learning Systems, 2015, 26(2):346-356.

[7] Eilers D, Dunis C L, Mettenheim H J V, et al. Intelligent trading of seasonal effects: A decision support algorithm based on reinforcement learning[J]. Decision Support Systems, 2014, 64(3):100-108.

[8] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to Q-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 2007, 37(6):864-877.

[9] Cavalcante R C, Brasileiro R C, Souza V L F, et al. Computational Intelligence and Financial Markets: A Survey and Future Directions[J]. Expert Systems with Applications, 2016, 55(C):194-211.

[10] Du X, Zhai J, Lv K. Algorithm trading using q-learning and recurrent reinforcement learning[J]. positions, 2016, 1: 1.

[11] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to $ Q $-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2007, 37(6): 864-877.

【通聯編輯:唐一東】

主站蜘蛛池模板: 国产亚洲欧美日韩在线一区| 国产免费久久精品99re丫丫一| 国产成人一二三| 日韩色图区| 国内精品91| 91毛片网| 国产综合精品日本亚洲777| 日本不卡免费高清视频| 久久中文电影| av在线手机播放| 久草热视频在线| 国产欧美精品专区一区二区| 欧美午夜在线视频| 免费观看欧美性一级| 一级一级特黄女人精品毛片| 免费国产好深啊好涨好硬视频| 激情综合网址| 国产亚洲欧美在线人成aaaa| 91丝袜美腿高跟国产极品老师| 国产欧美日韩免费| 日韩第一页在线| 亚洲精品男人天堂| 成人久久精品一区二区三区| 亚洲精品波多野结衣| 免费可以看的无遮挡av无码| 日本高清免费一本在线观看 | 午夜一级做a爰片久久毛片| 亚洲色图欧美在线| 好紧好深好大乳无码中文字幕| 男女男精品视频| 欧美午夜网站| 伊人激情综合网| 黄色网址免费在线| 黄网站欧美内射| 91九色国产在线| 婷婷久久综合九色综合88| 日本高清在线看免费观看| 五月婷婷亚洲综合| 日本不卡视频在线| 国产乱子伦无码精品小说| 国产黄网站在线观看| 久久国产乱子伦视频无卡顿| 国产成人精品日本亚洲| 在线观看欧美国产| 91精品国产自产91精品资源| 中国国产高清免费AV片| 亚洲天堂.com| 中国黄色一级视频| 99热最新网址| 曰AV在线无码| 亚洲综合精品香蕉久久网| 国产性生交xxxxx免费| 成人在线不卡视频| 亚洲床戏一区| 午夜精品一区二区蜜桃| 免费一极毛片| 日韩在线永久免费播放| 欧美区日韩区| 日本一区二区三区精品AⅤ| 国产精品视频公开费视频| 国产精品高清国产三级囯产AV | 久热中文字幕在线观看| 色婷婷狠狠干| 欧美日韩精品在线播放| 国产亚洲欧美日韩在线一区二区三区| 国产视频a| 玖玖精品在线| 日韩中文精品亚洲第三区| 国产又色又爽又黄| 国内丰满少妇猛烈精品播| 精品无码日韩国产不卡av| 伊人狠狠丁香婷婷综合色| 久久婷婷色综合老司机| 亚洲资源站av无码网址| 狠狠v日韩v欧美v| 国产91高清视频| 国产精品30p| a欧美在线| 在线免费a视频| 毛片手机在线看| 国产精品一区二区不卡的视频| 婷婷六月综合网|