999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)的股市操盤手模型研究

2020-11-10 07:10:36韓道岐張鈞垚周玉航
關(guān)鍵詞:動(dòng)作策略模型

韓道岐,張鈞垚,周玉航,劉 青

中國人民大學(xué) 信息學(xué)院,北京 100872

1 引言

深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用于各領(lǐng)域,實(shí)現(xiàn)了類似人腦的分類、推理、預(yù)測功能。深度強(qiáng)化學(xué)習(xí)模型進(jìn)一步解決了過程決策問題,在生物仿真、機(jī)器翻譯、工業(yè)制造、自動(dòng)駕駛控制、優(yōu)化和調(diào)度、視頻游戲和圍棋等領(lǐng)域取得了顯著成果[1],對股票交易領(lǐng)域也將起重要作用。在金融市場中,已有股票預(yù)測和操作策略方面的研究[2-4],在估值、風(fēng)險(xiǎn)評估方面文獻(xiàn)不多,與經(jīng)典量化投資理論相結(jié)合的強(qiáng)化學(xué)習(xí)模型并可實(shí)戰(zhàn)的成果更少。

在金融市場量化操作時(shí),研究人員是針對產(chǎn)品價(jià)值、眾多指標(biāo)和周邊環(huán)境影響因素進(jìn)行綜合評估,形成當(dāng)前的操作策略。但是往往受限于以下三個(gè)方面:

(1)產(chǎn)品信息量不足,不能準(zhǔn)確估值。

(2)片面地依據(jù)一個(gè)指標(biāo),效果很差。

(3)依據(jù)已總結(jié)的指標(biāo)和固定操作策略不能動(dòng)態(tài)適應(yīng)環(huán)境變化,抗風(fēng)險(xiǎn)能力弱,策略易失效。

采用基于深度強(qiáng)化學(xué)習(xí)技術(shù)的機(jī)器人自動(dòng)進(jìn)行股票交易操作,也必然面臨以上問題,因此擴(kuò)展DQN算法[5-6],實(shí)現(xiàn)智能股票操盤手模型ISTG(Intelligent Stock Trader and Gym),它能更高頻和準(zhǔn)確地發(fā)現(xiàn)投資機(jī)會(huì);可端到端學(xué)習(xí)和優(yōu)化操作策略,自動(dòng)適應(yīng)環(huán)境變化。模型在完成高收益、低風(fēng)險(xiǎn)關(guān)鍵目標(biāo)的同時(shí),還能輔助判斷市場形勢、投資決策、預(yù)測股市未來發(fā)展?fàn)顩r。

2 相關(guān)工作

人工智能發(fā)展經(jīng)過了幾次重大突破[7],形成了較完備的理論體系,并在2006 年進(jìn)入深度學(xué)習(xí)階段[8],學(xué)術(shù)界把大規(guī)模訓(xùn)練數(shù)據(jù)和大規(guī)模可迭代的網(wǎng)絡(luò)結(jié)構(gòu)作為人工智能的發(fā)展方向。LeCun等[9]提出了類似與人類觀察世界結(jié)構(gòu)方式的自學(xué)習(xí),是未來研究重點(diǎn)。強(qiáng)化學(xué)習(xí)可無監(jiān)督的觀察環(huán)境,主動(dòng)探索和試錯(cuò),能自我總結(jié)出優(yōu)秀經(jīng)驗(yàn)。目前深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的主動(dòng)學(xué)習(xí)系統(tǒng)雖然處于初級(jí)階段,但在學(xué)習(xí)各種視頻游戲方面已經(jīng)取得出色的成果。

2016 年 3 月 9 日,AlphaGo 戰(zhàn)勝李世石[10],之后深度強(qiáng)化學(xué)習(xí)DRL(Deep Reinforcement Learning)[11-12]技術(shù)發(fā)展迅速。DRL實(shí)現(xiàn)了類生物智能體,不受體力和情緒限制,能通過網(wǎng)絡(luò)獲得幾乎無限的存儲(chǔ)和計(jì)算能力,并結(jié)合了深度學(xué)習(xí)的高維數(shù)據(jù)感知能力、數(shù)據(jù)統(tǒng)計(jì)分析的預(yù)測能力、強(qiáng)化學(xué)習(xí)的搜索最優(yōu)操作策略能力,使得智能體[13]能快速成為某個(gè)領(lǐng)域的強(qiáng)手。在DRL基礎(chǔ)上,樹搜索、層次化、多任務(wù)遷移學(xué)習(xí)、多agent合作和競爭學(xué)習(xí)[14]等方法均有很好的應(yīng)用前景。周文吉等[15]提出端到端的、自動(dòng)總結(jié)抽象的分層強(qiáng)化學(xué)習(xí),能夠適應(yīng)復(fù)雜環(huán)境。李晨溪等[16]提出應(yīng)用知識(shí)圖譜和自然語言處理、遷移學(xué)習(xí)、模仿學(xué)習(xí)等方法,利用知識(shí)更好地指導(dǎo)深度強(qiáng)化學(xué)習(xí)。

金融市場由于大量復(fù)雜因素的相互影響,其數(shù)據(jù)具有不確定性和時(shí)序特征,數(shù)據(jù)分析是復(fù)雜的非線性和非穩(wěn)態(tài)問題,傳統(tǒng)的統(tǒng)計(jì)學(xué)模型和海量數(shù)據(jù)挖掘模型在金融預(yù)測和序列決策中效果欠佳。量化投資[17]強(qiáng)調(diào)建立嚴(yán)謹(jǐn)?shù)姆治瞿P汀⒏咝Р东@機(jī)會(huì)并自動(dòng)執(zhí)行,如果自動(dòng)決策不能針對當(dāng)前實(shí)際情況自適應(yīng)調(diào)整,則風(fēng)險(xiǎn)巨大,因此研究適合的智能決策模型有著迫切的需求。

DeepMind[5]的DQN(深度Q網(wǎng)絡(luò))首次將CNN深度學(xué)習(xí)模型和Q-learning 相結(jié)合,解決了傳統(tǒng)Q-learning難以處理高維數(shù)據(jù)的問題。Double DQN[18]提出使用兩個(gè)Q網(wǎng)絡(luò),一個(gè)負(fù)責(zé)選擇動(dòng)作,另一個(gè)負(fù)責(zé)計(jì)算,定期更新計(jì)算網(wǎng)絡(luò),克服了Q-learning 過優(yōu)化現(xiàn)象。針對隨機(jī)抽取經(jīng)驗(yàn)導(dǎo)致忽略了經(jīng)驗(yàn)之間的不同重要程度這個(gè)缺陷,文獻(xiàn)[19]采取按優(yōu)先級(jí)抽取經(jīng)驗(yàn)池中過往經(jīng)驗(yàn)樣本。Dueling DQN[20]提出了一種新的網(wǎng)絡(luò)架構(gòu),在評估Q(S,A)的時(shí)候,同時(shí)評估了動(dòng)作無關(guān)的狀態(tài)的價(jià)值函數(shù)V(S)和在狀態(tài)下各個(gè)動(dòng)作的相對價(jià)值函數(shù)A(S,A)的值,Dueling DQN是一個(gè)端到端的訓(xùn)練網(wǎng)絡(luò)。多步合并收益[21-22]可更快地將新觀察到的獎(jiǎng)勵(lì)傳播到之前觀察到的狀態(tài),減少了學(xué)習(xí)樣本。價(jià)值分布網(wǎng)絡(luò)[23]學(xué)習(xí)獲得的隨機(jī)回報(bào)的多個(gè)分類分布而非狀態(tài)值函數(shù),損失函數(shù)變成兩個(gè)概率分布的距離,在有相同均值情況下,可以選擇方差(風(fēng)險(xiǎn))最小的動(dòng)作。噪聲網(wǎng)絡(luò)[24]在參數(shù)上增加噪聲和學(xué)習(xí)噪聲參數(shù),并可取消隨機(jī)探索,能控制不同場景下的探索隨機(jī)性。彩虹網(wǎng)絡(luò)[25]實(shí)現(xiàn)上述機(jī)制的同時(shí)有更快的訓(xùn)練速度和更高的得分。針對需要連續(xù)動(dòng)作的場景,策略梯度類算法(Policy Gradient)[26]可以直接學(xué)習(xí)動(dòng)作,解決無法直接學(xué)習(xí)值函數(shù)的問題。A3C(Asynchronous Advantage Actor Critic)[22]和 OpenAI 的同步式變體A2C是actor-critic方法上的最優(yōu)實(shí)現(xiàn),actorcritic 方法將策略梯度方法與價(jià)值函數(shù)結(jié)合,拆分兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)兩個(gè)不同的函數(shù):策略和價(jià)值。策略函數(shù)基于采取該動(dòng)作的當(dāng)前估計(jì)優(yōu)勢來調(diào)整動(dòng)作概率,而價(jià)值函數(shù)則基于經(jīng)歷和后續(xù)策略收集到的獎(jiǎng)勵(lì)來更新該優(yōu)勢。分層式強(qiáng)化學(xué)習(xí)(HRL)則嘗試使用更高層面的抽象策略,形成組合邏輯,Nachum等[27]設(shè)計(jì)了通過上級(jí)控制器自動(dòng)學(xué)習(xí)和提出目標(biāo)來監(jiān)控下級(jí)控制器,可用更少樣本和更快速度的交互,學(xué)習(xí)模擬機(jī)器人的復(fù)雜行為。總的來看,深度強(qiáng)化學(xué)習(xí)發(fā)展歷程如圖1所示。

圖1 深度強(qiáng)化學(xué)習(xí)發(fā)展歷程

深度強(qiáng)化學(xué)習(xí)目前已應(yīng)用于金融配對交易、高頻交易和投資組合等領(lǐng)域。Moody等[28]提出的遞歸強(qiáng)化學(xué)習(xí)(Recurrent Reinforcement Learning,RRL)和Q-learning組合的學(xué)習(xí)算法,訓(xùn)練交易系統(tǒng),通過返回的差分夏普比率做風(fēng)險(xiǎn)調(diào)整,實(shí)驗(yàn)結(jié)果顯示RRL 系統(tǒng)明顯優(yōu)于監(jiān)督學(xué)習(xí)系統(tǒng),同時(shí)發(fā)現(xiàn)了Q-learning可能遭受維數(shù)災(zāi)難,該研究的訓(xùn)練數(shù)據(jù)使用單一指數(shù)產(chǎn)品、較長周期和月線行情,適用面較窄。Deng等[29]構(gòu)建了DRL模型,在參數(shù)初始化、特征學(xué)習(xí)、去噪等過程采用機(jī)器學(xué)習(xí)技術(shù),以提高隨機(jī)序列的預(yù)測準(zhǔn)確率,對股票和商品期貨市場進(jìn)行交易決策和驗(yàn)證。該研究的期貨類產(chǎn)品數(shù)量單一,針對期貨類高頻交易使用分鐘周期,依據(jù)收盤價(jià)單一指標(biāo),不適合其他周期類型。齊岳等[4]首次把深度確定性策略梯度方法DDPG應(yīng)用到投資組合管理,動(dòng)態(tài)調(diào)整投資組合中資產(chǎn)的權(quán)重到最優(yōu)。投資組合是隨機(jī)選取的16只股票,輸入的收盤價(jià)數(shù)據(jù)信息量少,沒有提出合理選擇投資組合的方法,缺乏較大規(guī)模的組合對照實(shí)驗(yàn)。胡文偉等[30]將強(qiáng)化學(xué)習(xí)算法和協(xié)整配對交易策略相結(jié)合,解決投資組合的選擇問題,使用索提諾比率作為回報(bào)指標(biāo),實(shí)現(xiàn)了模型參數(shù)的自適應(yīng)動(dòng)態(tài)調(diào)整,收益率和索提諾比率大幅提高,最大回撤明顯下降,交易次數(shù)明顯減少。但債券品種較少,數(shù)據(jù)集規(guī)模小,狀態(tài)指標(biāo)較少。

針對當(dāng)前研究普遍存在的股票交易品種少、輸入狀態(tài)少、測試周期短等問題,本文基于深度強(qiáng)化學(xué)習(xí)的最新成果,與傳統(tǒng)量化理論結(jié)合,提取更豐富的股票交易特征,采用更全面的市場數(shù)據(jù)、更準(zhǔn)確評估模型性能的指標(biāo),端到端訓(xùn)練模型,以適應(yīng)不同類型金融產(chǎn)品的投資操作并獲得更大收益。

已有文獻(xiàn)在訓(xùn)練CNN 和LSTM 模型時(shí),把數(shù)據(jù)加工成圖片模式輸入,本質(zhì)上增加了無關(guān)的背景噪聲,有效信息稀疏,導(dǎo)致只能提取特定的圖片形狀特征。本文直接使用數(shù)據(jù)和指標(biāo)構(gòu)建多日滑動(dòng)窗口,可更靈活地添加特征和擴(kuò)展歷史天數(shù),噪聲少、收斂快。針對股票行情,取消DDQN模型訓(xùn)練時(shí)的價(jià)值網(wǎng)絡(luò)預(yù)測輸出各個(gè)動(dòng)作回報(bào)、目標(biāo)網(wǎng)絡(luò)預(yù)測輸出最大Q值,而直接使用模型的收盤價(jià)準(zhǔn)確計(jì)算回報(bào),加快模型訓(xùn)練速度。

3 ISTG模型

3.1 目標(biāo)

ISTG 智能操盤手模型主要目標(biāo)是在某個(gè)市場中,根據(jù)歷史(多日)行情,進(jìn)行當(dāng)日的買賣操作,找到最優(yōu)的行動(dòng)策略,使指定周期范圍的最終收益最大化。

為增強(qiáng)操盤手對市場的把握能力,理論上應(yīng)利用市場所有股票的全部歷史數(shù)據(jù)。

本文基于經(jīng)典的DQN方法,利用CNN網(wǎng)絡(luò)學(xué)習(xí)和輸出動(dòng)作價(jià)值,Q-learning方法與環(huán)境不斷交互,獲得有回報(bào)標(biāo)簽的訓(xùn)練數(shù)據(jù),建立存儲(chǔ)上百萬幀的記憶隊(duì)列,隨機(jī)采樣小批量數(shù)據(jù)進(jìn)行模型訓(xùn)練。ISTG的總體架構(gòu)如圖2所示。

圖2 ISTG的總體架構(gòu)

3.2 設(shè)計(jì)

強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)是馬爾科夫決策過程MDP。MDP 的模型為一個(gè)五元組 <S,P,A,R,γ> ,其中包括:有限狀態(tài)集S,狀態(tài)轉(zhuǎn)移概率P,有限行動(dòng)集A,回報(bào)函數(shù)R,計(jì)算未來回報(bào)折現(xiàn)后的折扣因子γ。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)策略π使得累積回報(bào)的期望最大。積累回報(bào)Gt定義為:

本文定義股市操作的優(yōu)化目標(biāo)為最大化一個(gè)周期的總收益TR,控制單個(gè)動(dòng)作的幅度風(fēng)險(xiǎn)SR,控制操作次數(shù)風(fēng)險(xiǎn)TO。從量化投資分析角度,可對應(yīng)到年化收益率、最大回撤率和夏普比率三個(gè)量化指標(biāo),評估一個(gè)階段的操作效果。可直接利用行情數(shù)據(jù),計(jì)算指標(biāo)折算后的回報(bào)值。

策略π是給定狀態(tài)s的情況下行動(dòng)a的分布:

一個(gè)策略π定義了智能體的行為,因此:

操盤手的操作策略有:控制單次買賣數(shù)量、控制風(fēng)險(xiǎn)倉位、控制漲跌成交的幅度、控制止損止盈,可以根據(jù)經(jīng)驗(yàn)設(shè)置智能代理的這些控制參數(shù)。智能代理應(yīng)能夠全面分析和選擇優(yōu)質(zhì)股票,在合適時(shí)機(jī)買入賣出,使投資組合獲得最大上漲可能的同時(shí),盡可能減少操作次數(shù)。

MDP 過程可以采用Bellman 方程(Bellman Expectation Equation)計(jì)算策略π獲得的兩個(gè)價(jià)值函數(shù),狀態(tài)值函數(shù)vπ和狀態(tài)動(dòng)作值函數(shù)qπ:

兩個(gè)價(jià)值目標(biāo)的最優(yōu)函數(shù)為:

通過找最大化q?(s,a)對應(yīng)的行動(dòng),并迭代,可以找到最優(yōu)策略,得到可存儲(chǔ)值函數(shù)、迭代的Bellman最優(yōu)方程(Bellman Optimality Equation):

Bellman 最優(yōu)方程實(shí)現(xiàn)了迭代的分解,價(jià)值函數(shù)v存儲(chǔ)和再利用。按照動(dòng)態(tài)規(guī)劃原理,如果已知子問題的最優(yōu)解v?(s′),那么對于后繼狀態(tài)是s′的狀態(tài)s,均可找到最優(yōu)解:

本文設(shè)計(jì)了圖3 所示系統(tǒng)工作流程實(shí)現(xiàn)上述求最優(yōu)解原理。在圖3中的原始數(shù)據(jù)整理模塊,預(yù)先收集加工相關(guān)數(shù)據(jù),形成以下輸入信息:智能代理狀態(tài)、環(huán)境狀態(tài)、序列狀態(tài),形成多日的時(shí)間窗口矩陣。通過DQN網(wǎng)絡(luò)模型,迭代計(jì)算策略的最優(yōu)解。由于股市具有不同周期特點(diǎn),數(shù)據(jù)加工模塊可針對各種典型周期數(shù)據(jù),加工后進(jìn)行學(xué)習(xí)和分析結(jié)果。AGENT模塊每天優(yōu)選回報(bào)最優(yōu)的產(chǎn)品,按大概率獲利策略操作,形成實(shí)際的最優(yōu)投資組合。

圖3 系統(tǒng)工作流程

具體迭代過程為:已知下一步的信息v?(s′),遞推當(dāng)前的信息v?(s),從后往前計(jì)算,形成最優(yōu)動(dòng)作,構(gòu)成整個(gè)策略。如果采用貪心算法,每次策略π都選到該狀態(tài)下qπ(s,a)值最大時(shí)所對應(yīng)的行動(dòng)a,當(dāng)Q值不能再改進(jìn)時(shí),模型收斂:

此時(shí)滿足bellman最優(yōu)方程:

對于所有的s∈S,都滿足vπ(s)=v?(s),此時(shí)π為模型學(xué)會(huì)的最優(yōu)策略。設(shè)計(jì)了一個(gè)復(fù)盤環(huán)境SGYM,即ISTG 中的Stock GYM 模塊。它回放過程,形成充足的狀態(tài)s,準(zhǔn)確計(jì)算狀態(tài)s的回報(bào),訓(xùn)練智能代理搜索和存儲(chǔ)策略π。智能代理不斷主動(dòng)行動(dòng)和存儲(chǔ)經(jīng)驗(yàn),學(xué)習(xí)一個(gè)行動(dòng)生成模型,不斷減少當(dāng)前策略和最優(yōu)策略的回報(bào)差距,最終每次都能選擇類似狀態(tài)下的一個(gè)最優(yōu)行動(dòng)A,其回報(bào)qπ(s,a)最大(公式(15))。

SGYM 的回報(bào)設(shè)計(jì),體現(xiàn)總收益TR目標(biāo)的最大化,單步收益SR目標(biāo)的時(shí)機(jī)、價(jià)格幅度、買賣數(shù)量三者最優(yōu)化,操作次數(shù)TO目標(biāo)的上漲概率、交易成本、波動(dòng)風(fēng)險(xiǎn)三者最優(yōu)化,針對不能成交操作、反向的錯(cuò)誤判斷成交增加額外懲罰。實(shí)現(xiàn)多目標(biāo)最優(yōu)方程如下:

目前在AGENT模塊中的狀態(tài)加工和量化策略控制基于規(guī)則實(shí)現(xiàn),這一方面能直接利用現(xiàn)有的優(yōu)秀量化控制策略,減少失誤,另一方面便于發(fā)現(xiàn)優(yōu)秀策略的操作特征,總結(jié)經(jīng)驗(yàn)。其中經(jīng)驗(yàn)參數(shù)優(yōu)化問題,后續(xù)可通過強(qiáng)化學(xué)習(xí)解決。

3.3 實(shí)現(xiàn)

為了建立SGYM,本文把股票信息分為四個(gè)部分:智能代理發(fā)出操作前的狀態(tài)、對應(yīng)股票的行情狀態(tài)、指標(biāo)狀態(tài)、宏觀經(jīng)濟(jì)狀態(tài),共37個(gè)特征,如表1~4所示。

表2 股票行情狀態(tài)的特征描述

表3 行情分析指標(biāo)狀態(tài)的特征描述

表4 宏觀經(jīng)濟(jì)指標(biāo)狀態(tài)的特征描述

AGENT 針對一個(gè)股票執(zhí)行買賣操作后,SGYM 根據(jù)操作計(jì)算返回表1 中6 個(gè)狀態(tài)字段,直接使用第二天的行情、行情的分析指標(biāo)、宏觀經(jīng)濟(jì)的分析指標(biāo),返回表2~4的相關(guān)特征。

在加工好上述數(shù)據(jù)后,SGYM可指定一個(gè)目錄下的股票數(shù)據(jù),創(chuàng)建環(huán)境對象。每個(gè)回合初始化時(shí),使用隨機(jī)策略選擇一個(gè)股票,初始化AGENT 該股票賬戶的總價(jià)值和指定比率的股票,返回初始狀態(tài)。有0至20共21個(gè)行動(dòng)標(biāo)簽,分別為賣出10手到買入10手。AGENT發(fā)出行動(dòng),SGYM 執(zhí)行一步操作,調(diào)整智能代理狀態(tài)和輸出下一日狀態(tài),計(jì)算回報(bào)值。回報(bào)可以是下一日的總價(jià)值的增減,或是收益率增減,或是本次操作股票成交后的價(jià)值增減。針對成交情況,扣減千分之一手續(xù)費(fèi),針對不能成交情況做千分之三的懲罰,針對反向操作(買入第二天下跌,賣出第二天上漲)追加百分之一的懲罰。AGENT 使用百萬幀空間存儲(chǔ)<s,a,r,s′>的每次經(jīng)驗(yàn)數(shù)據(jù),異步隨機(jī)采樣訓(xùn)練模型,打破樣本相似性,減少模型不穩(wěn)定對行動(dòng)預(yù)測的影響。ISTG的經(jīng)驗(yàn)回放策略采用了一些優(yōu)化技巧:開始時(shí)隨機(jī)執(zhí)行空操作(NO_OP),等待狀態(tài)窗口中有效歷史數(shù)據(jù)的積累;間隔5 步行動(dòng)、累積較充分經(jīng)驗(yàn)后,訓(xùn)練模型一次;存儲(chǔ)到5 萬個(gè)隨機(jī)策略后,再開始訓(xùn)練;超過10%損失掉命重新開始回合,這樣經(jīng)驗(yàn)池可保存更多的優(yōu)秀策略。這種離策略模型可以發(fā)現(xiàn)利用優(yōu)先級(jí)高的經(jīng)驗(yàn)、發(fā)現(xiàn)利用高分的回合、注入人類加工的優(yōu)秀策略,總結(jié)經(jīng)驗(yàn)、加快智能代理的學(xué)習(xí)。

DQN模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,由3個(gè)卷積層和2個(gè)全連接層構(gòu)成,網(wǎng)絡(luò)參數(shù)與經(jīng)典的DQN一致。使用連續(xù)滑動(dòng)4 日的窗口作為輸入的4 個(gè)通道,每個(gè)窗口幀為20 天的37 個(gè)特征組成的矩陣。輸出為21 個(gè)動(dòng)作的Q值。本文建立了模型保存和恢復(fù)機(jī)制,可以階段性保存成果,重入后使用新的匹配參數(shù)繼續(xù)訓(xùn)練網(wǎng)絡(luò)。

DQN 模型的關(guān)鍵是針對Q值函數(shù)學(xué)習(xí),最終能夠收斂、準(zhǔn)確預(yù)測各種狀態(tài)下每個(gè)動(dòng)作的Q值。根據(jù)Bellman期望方程可計(jì)算Q值:

圖4 網(wǎng)絡(luò)結(jié)構(gòu)

其中,r為回報(bào),Q*為下一步的最大Q值,γ為折現(xiàn)因子,γ設(shè)為0時(shí),模型只關(guān)心當(dāng)前收益,γ設(shè)為1時(shí),模型均衡考慮當(dāng)前收益和下一步的最大Q值,初始值設(shè)為0.95。模型預(yù)測能力越強(qiáng),γ越應(yīng)趨向1。AGENT決策行動(dòng)時(shí),使用模型預(yù)測各步的Q值,每次都按最大Q值的動(dòng)作行動(dòng)。AGENT 離策略訓(xùn)練模型,隨機(jī)提取經(jīng)驗(yàn)池中小批量數(shù)據(jù),根據(jù)經(jīng)驗(yàn)記憶中的狀態(tài)預(yù)測各動(dòng)作Q值,根據(jù)下一個(gè)狀態(tài),預(yù)測獲得下一步最大Q值并折扣累加到當(dāng)前動(dòng)作的Q值上,即r+γmaxQ(s′,a′)作為期望的Q值。根據(jù)方程(17)使用 (r+γmaxQ(s′,a′)-Q(s,a))2作為損失,梯度下降訓(xùn)練模型,預(yù)測結(jié)果更接近綜合了下一個(gè)狀態(tài)情況的Q值。

探索和開發(fā)過程是強(qiáng)化學(xué)習(xí)不斷試錯(cuò),獲得環(huán)境回報(bào)標(biāo)簽和利用經(jīng)驗(yàn)數(shù)據(jù)學(xué)習(xí)的交替過程。模型初期預(yù)測Q值不準(zhǔn)確,與隨機(jī)動(dòng)作效果類似,隨著各種狀態(tài)的學(xué)習(xí),Q值越來越準(zhǔn)確后,預(yù)測結(jié)果變平穩(wěn),從而會(huì)減少探索到新的有效策略的能力。DQN采用了e貪心選擇,有e概率選擇隨機(jī)動(dòng)作,否則按預(yù)測的最大Q值選擇動(dòng)作,初始e為1,最終穩(wěn)定到0.1,差值0.9 按照百萬幀平均到每個(gè)幀上,隨著訓(xùn)練過程線性衰減e。記錄初始的5萬個(gè)隨機(jī)動(dòng)作過程時(shí),無需訓(xùn)練。

算法1智能代理探索和開發(fā)過程

輸入:環(huán)境env,代理agent

輸出:模型結(jié)果model,訓(xùn)練過程的reward、maxq、return rate

1.for 在指定回合內(nèi)

2.環(huán)境env.reset獲得當(dāng)前股票和初始狀態(tài)state

3.組織初始窗口,state重復(fù)20次形成20*37矩陣states

4.while當(dāng)前股票周期未完成

5.代理ε貪心選擇動(dòng)作agent.ac(tstates)

6.環(huán)境執(zhí)行動(dòng)作env.step(action)

7.states窗口滑入一天數(shù)據(jù)作為下一天狀態(tài)

8.代理記憶經(jīng)驗(yàn)數(shù)據(jù) <s,a,r,s′>

9.價(jià)值損失超過10%結(jié)束當(dāng)前回合

10.agent 記憶內(nèi)存超過 5 萬幀并每隔 5 幀,replay 訓(xùn)練模型一次

11.end

12.end

由于股票具有可復(fù)盤歷史數(shù)據(jù)和直接計(jì)算第二天收益的特點(diǎn),原DDQN方法訓(xùn)練模型時(shí)需要使用目標(biāo)網(wǎng)絡(luò)T預(yù)測最大Q值的處理,ISTG 模型改成直接使用SGYM 計(jì)算出準(zhǔn)確的動(dòng)作回報(bào)和動(dòng)作的最大Q值,使得每步都可以獲得確定性的動(dòng)作值,加快模型的收斂速度。

4 實(shí)驗(yàn)和性能

4.1 環(huán)境

實(shí)驗(yàn)的硬件環(huán)境為Intel i7-6700HQ 4C/8T,主頻2.6 GHz(MAX 3.5),16 GB內(nèi)存,顯卡NVIDIA GeForce GTX 960M,2 GB GPU內(nèi)存。軟件環(huán)境為Windows 10操作系統(tǒng),Python 3.6開發(fā)平臺(tái),keras和tensorflow深度學(xué)習(xí)框架。

4.2 數(shù)據(jù)準(zhǔn)備

收集的數(shù)據(jù)有中國2007 年至2018 年的1 479 只股票的行情數(shù)據(jù),上證綜指和宏觀經(jīng)濟(jì)數(shù)據(jù)。經(jīng)過加工后,形成了37個(gè)特征。

數(shù)據(jù)預(yù)處理模塊對缺失字段,進(jìn)行填充零值處理。針對宏觀經(jīng)濟(jì)數(shù)據(jù)按日重新采樣插入每日記錄,貨幣供應(yīng)量增長率M1和M2后取值、插值到下一個(gè)月末,其他諸如利率和匯率前取值、插值到下一個(gè)變更點(diǎn)。由于相關(guān)字段數(shù)據(jù)范圍穩(wěn)定,本文統(tǒng)一歸一化到0~1 之間,對日期和股票代碼字段進(jìn)行0~n個(gè)類標(biāo)簽的整數(shù)編碼。最終按時(shí)間拆分?jǐn)?shù)據(jù)成2007—2014 年的訓(xùn)練數(shù)據(jù)集TN1,2015—2017年測試數(shù)據(jù)集TS1,還提取了2015年大幅波動(dòng)趨勢RG2015和2018年總體下降趨勢RB2018的兩個(gè)典型數(shù)據(jù)集,用于對比不同周期情況下的模型效果。

4.3 實(shí)驗(yàn)結(jié)果

為了評估本文提出的智能股票交易手的性能,設(shè)計(jì)了四種實(shí)驗(yàn)方案:買入持有策略ev_hold,使用每日資產(chǎn)收益回報(bào)和目標(biāo)網(wǎng)絡(luò)計(jì)算Q值ev_tq,初始時(shí)股票占一半的ev_tqh,使用 SGYM行情數(shù)據(jù)計(jì)算Q值ev_mq。

第1 種ev_hold 方案,所有股票初始化同樣的資金后,每次1手買入直到使用完資金。各數(shù)據(jù)集復(fù)盤后平均收益率如表5所示。

表5 ev_hold方案數(shù)據(jù)集的復(fù)盤結(jié)果

第2 種是ev_tq 方案,所有股票初始化同樣的充足資金。訓(xùn)練階段分別運(yùn)行1 000、2 000、5 000、10 000 個(gè)回合,使用TN1 數(shù)據(jù)集進(jìn)行四次訓(xùn)練,獲得四個(gè)不同能力的模型和訓(xùn)練過程數(shù)據(jù)。可靈活根據(jù)上次訓(xùn)練情況,動(dòng)態(tài)調(diào)整超參數(shù),裝載上次訓(xùn)練的結(jié)果模型后進(jìn)入下一次訓(xùn)練。多輪訓(xùn)練的資產(chǎn)收益率、平均最大Q值、回報(bào)的學(xué)習(xí)情況趨勢如圖5所示。經(jīng)過一千多回合后,平均最大Q值開始穩(wěn)定下降,趨向17 000。可以看出增加回合數(shù),回報(bào)值逐步穩(wěn)定,5 000 回合后資產(chǎn)收益率變平穩(wěn),學(xué)習(xí)階段收益率可達(dá)最大5 000%,最小值-24%,均值22%。

在TS1 測試集上,ev_tq 方案使用訓(xùn)練獲得的四個(gè)DQN,分別測試1 479只股票的分布情況見圖6,可以看出2 000回合后模型收益率差異不大。

圖5 ev_tq訓(xùn)練的資產(chǎn)收益率、平均最大Q 值、回報(bào)趨勢

圖6 ev_tq測試的各股票資產(chǎn)收益率、平均最大Q 值、回報(bào)情況

ev_tq 方案測試的關(guān)鍵評估指標(biāo)情況見表6,對比ev_hold方案,其收益率和夏普比率的均值高。

表6 ev_tq和ev_hold方案測試集上關(guān)鍵指標(biāo)對比%

分析ev_tq 方案最終的資產(chǎn)總收益率情況,發(fā)現(xiàn)測試集TS1 中的股票,如亨通光電、貝瑞基因、分眾傳媒、水井坊、南京新百等,收益可達(dá)4~5倍,比買入持有的收益更高。控制最大回撤在20%~30%區(qū)間時(shí),恒瑞醫(yī)藥、五糧液、貴州茅臺(tái)、南極電商等保存了2~3 倍的高收益率,同時(shí)回撤風(fēng)險(xiǎn)也較小。

實(shí)驗(yàn)驗(yàn)證了ISTG 在資產(chǎn)收益率和夏普比率方面結(jié)果較好。為進(jìn)一步對比時(shí)序上的總體操作效果,本文分析了ev_hold 和ev_tq 方案在測試集上的總收益率變化過程。通過計(jì)算1 479個(gè)股票的每日資產(chǎn)均值和標(biāo)準(zhǔn)差,顯示總收益率在3 年中的變化趨勢,如圖7 所示,可以看出ev_tq在各時(shí)間段都超過ev_hold,兩個(gè)方案均在2015 年5 月達(dá)到最大收益水平。而陰影表示的標(biāo)準(zhǔn)差,隨時(shí)間推移逐步擴(kuò)大,顯示了模型的穩(wěn)定性在逐步下降。

圖7 資本總收益率對照

由于ev_tq 方案的全部初始化持有資金處理,導(dǎo)致模型學(xué)習(xí)的動(dòng)作偏向買入,圖7 顯示資金用完后,方案效果與買入持有的完全一樣。本文設(shè)計(jì)了第3種ev_tqh方案,嘗試初始化一半股票,初始時(shí)買入和賣出動(dòng)作都可以獲利。同樣進(jìn)行四輪訓(xùn)練后,發(fā)現(xiàn)模型能夠?qū)W會(huì)減少頻繁操作,買賣操作也更均衡。在訓(xùn)練集上的收益率達(dá)到最大7 000%,遠(yuǎn)超全部初始化成資金的效果。在測試集上進(jìn)行驗(yàn)證,ev_tqh 與買入持有ev_hold 的對照效果如圖8所示。

圖8 初始化一半股票情況下資本總收益率對照

再對比分析兩種不同初始化效果的圖8 和圖7,在2016年至2018年之間,ev_tqh方案的資產(chǎn)收益很穩(wěn)定,陰影表示的標(biāo)準(zhǔn)差區(qū)間更小、也更穩(wěn)定。最終的總體平均收益率為24.43%,超過全部初始化成資金的13.73%。

在觀察到ev_tq 模型的loss 值較大后,實(shí)驗(yàn)第4 種ev_mq 方案,采用單個(gè)動(dòng)作操作計(jì)算回報(bào),實(shí)現(xiàn)SGYM直接計(jì)算Q值、取消目標(biāo)網(wǎng)絡(luò)的策略,使用logcosh做損失函數(shù),減少異常樣本的影響。

4.4 性能分析

最終針對四種實(shí)驗(yàn)測試方案:ev_hold、ev_tq、ev_tqh和ev_mq,統(tǒng)計(jì)分析總收益率趨勢capital rate、最大回撤率withdraw rate 指標(biāo),結(jié)果如圖9 所示。總收益率、最大回撤率兩個(gè)指標(biāo)都是ev_tqh效果最好,而ev_mq的效果不佳,還需要研究更好的回報(bào)計(jì)算方法。

圖9 四種方案總收益率和回撤率對照

為對比模型的泛化能力,使用2015 牛市和2018 熊市進(jìn)行實(shí)驗(yàn)收益情況對比。發(fā)現(xiàn)ev_tq 的2015 年平均收益率49.60%遠(yuǎn)高于買入持有ev_hold的15.42%,2018年的平均收益率-30.27%,低于ev_hold的-18.07%。分析原因?yàn)椋河?xùn)練數(shù)據(jù)集TN1 為中國經(jīng)濟(jì)快速增長的周期,模型習(xí)得策略更適合諸如數(shù)據(jù)集RG2015 的趨勢增長年份,而且數(shù)據(jù)集RB2018 離訓(xùn)練數(shù)據(jù)集TN1 較遠(yuǎn),模型表現(xiàn)更不穩(wěn)定,影響測試效果。

4.5 問題分析

本文在實(shí)驗(yàn)過程中發(fā)現(xiàn)了三個(gè)問題:

(1)使用累計(jì)收益作為回報(bào)而不是當(dāng)前操作股票的回報(bào),會(huì)使模型缺乏短期操作策略。

(2)DQN模型輸出較多不能成交操作,比如不能發(fā)現(xiàn)資金不足和股票不足的狀態(tài)。操作也比較頻繁。

(3)ev_tq 方案的 loss 值遠(yuǎn)超過模型的輸出Q值,波動(dòng)大,狀態(tài)的影響遠(yuǎn)超過單個(gè)動(dòng)作的回報(bào)。而ev_mq方案只有單個(gè)動(dòng)作回報(bào),又缺失了狀態(tài)價(jià)值影響。

針對上述問題,后續(xù)可進(jìn)一步優(yōu)化模型。隨機(jī)初始化資金和股票占比,可進(jìn)一步提高操作靈活性。要提高模型的泛化能力,可在隨機(jī)初始化狀態(tài)、更長周期數(shù)據(jù)、更多不同周期特征數(shù)據(jù)集的加工等方面開展研究。

5 結(jié)束語

本文提出的智能股票操盤手ISTG 模型采用DQN深度強(qiáng)化學(xué)習(xí)技術(shù),選擇中國股市的12 年有效行情數(shù)據(jù),8年數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),3年數(shù)據(jù)測試模型的整體操作策略效果,1年典型周期數(shù)據(jù)進(jìn)行對比。該模型可觀察到股票市場大量產(chǎn)品的價(jià)格變化,隨機(jī)操作,發(fā)現(xiàn)規(guī)律,形成操作策略,較好地適應(yīng)這個(gè)市場環(huán)境。

ISTG 模型學(xué)習(xí)-10 至10 手的較大范圍操作動(dòng)作,考慮了不能成交操作和交易手續(xù)費(fèi)的懲罰,使用CNN深度網(wǎng)絡(luò)學(xué)習(xí)20 天37 個(gè)特征的滑動(dòng)窗口數(shù)據(jù),輸出最大Q值動(dòng)作,比繪制圖片方式做輸入數(shù)據(jù)的效率更高。

針對股市操作有延遲獎(jiǎng)賞和部分狀態(tài)可觀測問題,利用智能代理本身的收益增長情況累計(jì)回報(bào),學(xué)習(xí)較長期的有效策略。在三年較長測試數(shù)據(jù)集上收益率實(shí)現(xiàn)了超越買入持有模型。

后續(xù)研究將逐步增加深度強(qiáng)化學(xué)習(xí)的最新技術(shù),不斷增強(qiáng)模型學(xué)習(xí)策略能力。尋找高層抽象邏輯記憶和控制住智能代理的方法。

猜你喜歡
動(dòng)作策略模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
例談未知角三角函數(shù)值的求解策略
我說你做講策略
動(dòng)作描寫要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
畫動(dòng)作
動(dòng)作描寫不可少
3D打印中的模型分割與打包
主站蜘蛛池模板: 九九免费观看全部免费视频| 国内毛片视频| 精品福利网| 国产毛片基地| 久久精品女人天堂aaa| 五月婷婷欧美| 国产真实乱子伦视频播放| 久爱午夜精品免费视频| 中文字幕欧美日韩高清| 亚洲人在线| 热久久综合这里只有精品电影| 国产真实乱子伦精品视手机观看 | 亚洲一级毛片在线播放| h网址在线观看| 久久人人爽人人爽人人片aV东京热| 国产天天色| 91在线无码精品秘九色APP| 亚洲日韩久久综合中文字幕| 国产幂在线无码精品| 欧美激情成人网| 国产精品综合色区在线观看| 少妇高潮惨叫久久久久久| 在线视频一区二区三区不卡| 国产精品成人免费综合| 成年午夜精品久久精品| 亚洲精品自产拍在线观看APP| 18禁黄无遮挡网站| 国产一级二级三级毛片| 蜜臀AVWWW国产天堂| 久久综合婷婷| 免费a级毛片视频| 国产在线欧美| 一级毛片在线播放| 色首页AV在线| 亚洲欧美精品日韩欧美| jizz亚洲高清在线观看| 亚洲色偷偷偷鲁综合| 国产亚洲一区二区三区在线| 亚洲AⅤ综合在线欧美一区| 久久综合伊人 六十路| 免费高清毛片| jijzzizz老师出水喷水喷出| 欧美视频在线不卡| 亚洲第一天堂无码专区| 老司机精品久久| 亚洲欧美日本国产综合在线| 亚洲欧美在线综合图区| 无码aⅴ精品一区二区三区| 在线免费观看a视频| 亚洲区一区| 99精品福利视频| 91美女在线| 狠狠干欧美| 女人天堂av免费| 国产亚洲欧美在线人成aaaa| 国产性猛交XXXX免费看| 制服丝袜国产精品| 久久精品国产91久久综合麻豆自制| 国产成人精品午夜视频'| 国产乱子伦一区二区=| 日韩国产欧美精品在线| 精品亚洲麻豆1区2区3区| 日韩不卡免费视频| 国产亚洲欧美在线视频| 色哟哟国产精品| 国产精品亚洲一区二区三区z | 国产免费久久精品99re丫丫一| 日韩欧美中文字幕在线精品| 亚洲swag精品自拍一区| 国产区在线观看视频| 72种姿势欧美久久久久大黄蕉| 无码区日韩专区免费系列| 国产视频资源在线观看| 欧美三级日韩三级| 欧美日韩免费观看| 女人毛片a级大学毛片免费| 91福利一区二区三区| 亚洲美女高潮久久久久久久| 久久精品无码中文字幕| 久久这里只有精品国产99| 国产9191精品免费观看| 伊人精品视频免费在线|