基于深度強(qiáng)化學(xué)習(xí)的股市操盤手模型研究

2020-11-10 07:10:36韓道岐張鈞垚周玉航

計(jì)算機(jī)工程與應(yīng)用 2020年21期

韓道岐，張鈞垚，周玉航，劉青

中國人民大學(xué) 信息學(xué)院，北京 100872

1 引言

深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用于各領(lǐng)域，實(shí)現(xiàn)了類似人腦的分類、推理、預(yù)測功能。深度強(qiáng)化學(xué)習(xí)模型進(jìn)一步解決了過程決策問題，在生物仿真、機(jī)器翻譯、工業(yè)制造、自動(dòng)駕駛控制、優(yōu)化和調(diào)度、視頻游戲和圍棋等領(lǐng)域取得了顯著成果[1]，對股票交易領(lǐng)域也將起重要作用。在金融市場中，已有股票預(yù)測和操作策略方面的研究[2-4]，在估值、風(fēng)險(xiǎn)評估方面文獻(xiàn)不多，與經(jīng)典量化投資理論相結(jié)合的強(qiáng)化學(xué)習(xí)模型并可實(shí)戰(zhàn)的成果更少。

在金融市場量化操作時(shí)，研究人員是針對產(chǎn)品價(jià)值、眾多指標(biāo)和周邊環(huán)境影響因素進(jìn)行綜合評估，形成當(dāng)前的操作策略。但是往往受限于以下三個(gè)方面：

（1）產(chǎn)品信息量不足，不能準(zhǔn)確估值。

（2）片面地依據(jù)一個(gè)指標(biāo)，效果很差。

（3）依據(jù)已總結(jié)的指標(biāo)和固定操作策略不能動(dòng)態(tài)適應(yīng)環(huán)境變化，抗風(fēng)險(xiǎn)能力弱，策略易失效。

采用基于深度強(qiáng)化學(xué)習(xí)技術(shù)的機(jī)器人自動(dòng)進(jìn)行股票交易操作，也必然面臨以上問題，因此擴(kuò)展DQN算法[5-6]，實(shí)現(xiàn)智能股票操盤手模型ISTG（Intelligent Stock Trader and Gym），它能更高頻和準(zhǔn)確地發(fā)現(xiàn)投資機(jī)會(huì)；可端到端學(xué)習(xí)和優(yōu)化操作策略，自動(dòng)適應(yīng)環(huán)境變化。模型在完成高收益、低風(fēng)險(xiǎn)關(guān)鍵目標(biāo)的同時(shí)，還能輔助判斷市場形勢、投資決策、預(yù)測股市未來發(fā)展?fàn)顩r。

2 相關(guān)工作

人工智能發(fā)展經(jīng)過了幾次重大突破[7]，形成了較完備的理論體系，并在2006 年進(jìn)入深度學(xué)習(xí)階段[8]，學(xué)術(shù)界把大規(guī)模訓(xùn)練數(shù)據(jù)和大規(guī)模可迭代的網(wǎng)絡(luò)結(jié)構(gòu)作為人工智能的發(fā)展方向。LeCun等[9]提出了類似與人類觀察世界結(jié)構(gòu)方式的自學(xué)習(xí)，是未來研究重點(diǎn)。強(qiáng)化學(xué)習(xí)可無監(jiān)督的觀察環(huán)境，主動(dòng)探索和試錯(cuò)，能自我總結(jié)出優(yōu)秀經(jīng)驗(yàn)。目前深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的主動(dòng)學(xué)習(xí)系統(tǒng)雖然處于初級(jí)階段，但在學(xué)習(xí)各種視頻游戲方面已經(jīng)取得出色的成果。

2016 年 3 月 9 日，AlphaGo 戰(zhàn)勝李世石[10]，之后深度強(qiáng)化學(xué)習(xí)DRL（Deep Reinforcement Learning）[11-12]技術(shù)發(fā)展迅速。DRL實(shí)現(xiàn)了類生物智能體，不受體力和情緒限制，能通過網(wǎng)絡(luò)獲得幾乎無限的存儲(chǔ)和計(jì)算能力，并結(jié)合了深度學(xué)習(xí)的高維數(shù)據(jù)感知能力、數(shù)據(jù)統(tǒng)計(jì)分析的預(yù)測能力、強(qiáng)化學(xué)習(xí)的搜索最優(yōu)操作策略能力，使得智能體[13]能快速成為某個(gè)領(lǐng)域的強(qiáng)手。在DRL基礎(chǔ)上，樹搜索、層次化、多任務(wù)遷移學(xué)習(xí)、多agent合作和競爭學(xué)習(xí)[14]等方法均有很好的應(yīng)用前景。周文吉等[15]提出端到端的、自動(dòng)總結(jié)抽象的分層強(qiáng)化學(xué)習(xí)，能夠適應(yīng)復(fù)雜環(huán)境。李晨溪等[16]提出應(yīng)用知識(shí)圖譜和自然語言處理、遷移學(xué)習(xí)、模仿學(xué)習(xí)等方法，利用知識(shí)更好地指導(dǎo)深度強(qiáng)化學(xué)習(xí)。

金融市場由于大量復(fù)雜因素的相互影響，其數(shù)據(jù)具有不確定性和時(shí)序特征，數(shù)據(jù)分析是復(fù)雜的非線性和非穩(wěn)態(tài)問題，傳統(tǒng)的統(tǒng)計(jì)學(xué)模型和海量數(shù)據(jù)挖掘模型在金融預(yù)測和序列決策中效果欠佳。量化投資[17]強(qiáng)調(diào)建立嚴(yán)謹(jǐn)?shù)姆治瞿Ｐ汀⒏咝Р东@機(jī)會(huì)并自動(dòng)執(zhí)行，如果自動(dòng)決策不能針對當(dāng)前實(shí)際情況自適應(yīng)調(diào)整，則風(fēng)險(xiǎn)巨大，因此研究適合的智能決策模型有著迫切的需求。

DeepMind[5]的DQN（深度Q網(wǎng)絡(luò)）首次將CNN深度學(xué)習(xí)模型和Q-learning 相結(jié)合，解決了傳統(tǒng)Q-learning難以處理高維數(shù)據(jù)的問題。Double DQN[18]提出使用兩個(gè)Q網(wǎng)絡(luò)，一個(gè)負(fù)責(zé)選擇動(dòng)作，另一個(gè)負(fù)責(zé)計(jì)算，定期更新計(jì)算網(wǎng)絡(luò)，克服了Q-learning 過優(yōu)化現(xiàn)象。針對隨機(jī)抽取經(jīng)驗(yàn)導(dǎo)致忽略了經(jīng)驗(yàn)之間的不同重要程度這個(gè)缺陷，文獻(xiàn)[19]采取按優(yōu)先級(jí)抽取經(jīng)驗(yàn)池中過往經(jīng)驗(yàn)樣本。Dueling DQN[20]提出了一種新的網(wǎng)絡(luò)架構(gòu)，在評估Q(S,A)的時(shí)候，同時(shí)評估了動(dòng)作無關(guān)的狀態(tài)的價(jià)值函數(shù)V(S)和在狀態(tài)下各個(gè)動(dòng)作的相對價(jià)值函數(shù)A(S,A)的值，Dueling DQN是一個(gè)端到端的訓(xùn)練網(wǎng)絡(luò)。多步合并收益[21-22]可更快地將新觀察到的獎(jiǎng)勵(lì)傳播到之前觀察到的狀態(tài)，減少了學(xué)習(xí)樣本。價(jià)值分布網(wǎng)絡(luò)[23]學(xué)習(xí)獲得的隨機(jī)回報(bào)的多個(gè)分類分布而非狀態(tài)值函數(shù)，損失函數(shù)變成兩個(gè)概率分布的距離，在有相同均值情況下，可以選擇方差（風(fēng)險(xiǎn)）最小的動(dòng)作。噪聲網(wǎng)絡(luò)[24]在參數(shù)上增加噪聲和學(xué)習(xí)噪聲參數(shù)，并可取消隨機(jī)探索，能控制不同場景下的探索隨機(jī)性。彩虹網(wǎng)絡(luò)[25]實(shí)現(xiàn)上述機(jī)制的同時(shí)有更快的訓(xùn)練速度和更高的得分。針對需要連續(xù)動(dòng)作的場景，策略梯度類算法（Policy Gradient）[26]可以直接學(xué)習(xí)動(dòng)作，解決無法直接學(xué)習(xí)值函數(shù)的問題。A3C（Asynchronous Advantage Actor Critic）[22]和 OpenAI 的同步式變體A2C是actor-critic方法上的最優(yōu)實(shí)現(xiàn)，actorcritic 方法將策略梯度方法與價(jià)值函數(shù)結(jié)合，拆分兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)兩個(gè)不同的函數(shù)：策略和價(jià)值。策略函數(shù)基于采取該動(dòng)作的當(dāng)前估計(jì)優(yōu)勢來調(diào)整動(dòng)作概率，而價(jià)值函數(shù)則基于經(jīng)歷和后續(xù)策略收集到的獎(jiǎng)勵(lì)來更新該優(yōu)勢。分層式強(qiáng)化學(xué)習(xí)（HRL）則嘗試使用更高層面的抽象策略，形成組合邏輯，Nachum等[27]設(shè)計(jì)了通過上級(jí)控制器自動(dòng)學(xué)習(xí)和提出目標(biāo)來監(jiān)控下級(jí)控制器，可用更少樣本和更快速度的交互，學(xué)習(xí)模擬機(jī)器人的復(fù)雜行為。總的來看，深度強(qiáng)化學(xué)習(xí)發(fā)展歷程如圖1所示。

圖1 深度強(qiáng)化學(xué)習(xí)發(fā)展歷程

深度強(qiáng)化學(xué)習(xí)目前已應(yīng)用于金融配對交易、高頻交易和投資組合等領(lǐng)域。Moody等[28]提出的遞歸強(qiáng)化學(xué)習(xí)（Recurrent Reinforcement Learning，RRL）和Q-learning組合的學(xué)習(xí)算法，訓(xùn)練交易系統(tǒng)，通過返回的差分夏普比率做風(fēng)險(xiǎn)調(diào)整，實(shí)驗(yàn)結(jié)果顯示RRL 系統(tǒng)明顯優(yōu)于監(jiān)督學(xué)習(xí)系統(tǒng)，同時(shí)發(fā)現(xiàn)了Q-learning可能遭受維數(shù)災(zāi)難，該研究的訓(xùn)練數(shù)據(jù)使用單一指數(shù)產(chǎn)品、較長周期和月線行情，適用面較窄。Deng等[29]構(gòu)建了DRL模型，在參數(shù)初始化、特征學(xué)習(xí)、去噪等過程采用機(jī)器學(xué)習(xí)技術(shù)，以提高隨機(jī)序列的預(yù)測準(zhǔn)確率，對股票和商品期貨市場進(jìn)行交易決策和驗(yàn)證。該研究的期貨類產(chǎn)品數(shù)量單一，針對期貨類高頻交易使用分鐘周期，依據(jù)收盤價(jià)單一指標(biāo)，不適合其他周期類型。齊岳等[4]首次把深度確定性策略梯度方法DDPG應(yīng)用到投資組合管理，動(dòng)態(tài)調(diào)整投資組合中資產(chǎn)的權(quán)重到最優(yōu)。投資組合是隨機(jī)選取的16只股票，輸入的收盤價(jià)數(shù)據(jù)信息量少，沒有提出合理選擇投資組合的方法，缺乏較大規(guī)模的組合對照實(shí)驗(yàn)。胡文偉等[30]將強(qiáng)化學(xué)習(xí)算法和協(xié)整配對交易策略相結(jié)合，解決投資組合的選擇問題，使用索提諾比率作為回報(bào)指標(biāo)，實(shí)現(xiàn)了模型參數(shù)的自適應(yīng)動(dòng)態(tài)調(diào)整，收益率和索提諾比率大幅提高，最大回撤明顯下降，交易次數(shù)明顯減少。但債券品種較少，數(shù)據(jù)集規(guī)模小，狀態(tài)指標(biāo)較少。

針對當(dāng)前研究普遍存在的股票交易品種少、輸入狀態(tài)少、測試周期短等問題，本文基于深度強(qiáng)化學(xué)習(xí)的最新成果，與傳統(tǒng)量化理論結(jié)合，提取更豐富的股票交易特征，采用更全面的市場數(shù)據(jù)、更準(zhǔn)確評估模型性能的指標(biāo)，端到端訓(xùn)練模型，以適應(yīng)不同類型金融產(chǎn)品的投資操作并獲得更大收益。

已有文獻(xiàn)在訓(xùn)練CNN 和LSTM 模型時(shí)，把數(shù)據(jù)加工成圖片模式輸入，本質(zhì)上增加了無關(guān)的背景噪聲，有效信息稀疏，導(dǎo)致只能提取特定的圖片形狀特征。本文直接使用數(shù)據(jù)和指標(biāo)構(gòu)建多日滑動(dòng)窗口，可更靈活地添加特征和擴(kuò)展歷史天數(shù)，噪聲少、收斂快。針對股票行情，取消DDQN模型訓(xùn)練時(shí)的價(jià)值網(wǎng)絡(luò)預(yù)測輸出各個(gè)動(dòng)作回報(bào)、目標(biāo)網(wǎng)絡(luò)預(yù)測輸出最大Q值，而直接使用模型的收盤價(jià)準(zhǔn)確計(jì)算回報(bào)，加快模型訓(xùn)練速度。

3 ISTG模型

3.1 目標(biāo)

ISTG 智能操盤手模型主要目標(biāo)是在某個(gè)市場中，根據(jù)歷史（多日）行情，進(jìn)行當(dāng)日的買賣操作，找到最優(yōu)的行動(dòng)策略，使指定周期范圍的最終收益最大化。

為增強(qiáng)操盤手對市場的把握能力，理論上應(yīng)利用市場所有股票的全部歷史數(shù)據(jù)。

本文基于經(jīng)典的DQN方法，利用CNN網(wǎng)絡(luò)學(xué)習(xí)和輸出動(dòng)作價(jià)值，Q-learning方法與環(huán)境不斷交互，獲得有回報(bào)標(biāo)簽的訓(xùn)練數(shù)據(jù)，建立存儲(chǔ)上百萬幀的記憶隊(duì)列，隨機(jī)采樣小批量數(shù)據(jù)進(jìn)行模型訓(xùn)練。ISTG的總體架構(gòu)如圖2所示。

圖2 ISTG的總體架構(gòu)

3.2 設(shè)計(jì)

強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)是馬爾科夫決策過程MDP。MDP 的模型為一個(gè)五元組＜S,P,A,R,γ＞，其中包括：有限狀態(tài)集S，狀態(tài)轉(zhuǎn)移概率P，有限行動(dòng)集A，回報(bào)函數(shù)R，計(jì)算未來回報(bào)折現(xiàn)后的折扣因子γ。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)策略π使得累積回報(bào)的期望最大。積累回報(bào)Gt定義為：

本文定義股市操作的優(yōu)化目標(biāo)為最大化一個(gè)周期的總收益TR，控制單個(gè)動(dòng)作的幅度風(fēng)險(xiǎn)SR，控制操作次數(shù)風(fēng)險(xiǎn)TO。從量化投資分析角度，可對應(yīng)到年化收益率、最大回撤率和夏普比率三個(gè)量化指標(biāo)，評估一個(gè)階段的操作效果。可直接利用行情數(shù)據(jù)，計(jì)算指標(biāo)折算后的回報(bào)值。

策略π是給定狀態(tài)s的情況下行動(dòng)a的分布：

一個(gè)策略π定義了智能體的行為，因此：

操盤手的操作策略有：控制單次買賣數(shù)量、控制風(fēng)險(xiǎn)倉位、控制漲跌成交的幅度、控制止損止盈，可以根據(jù)經(jīng)驗(yàn)設(shè)置智能代理的這些控制參數(shù)。智能代理應(yīng)能夠全面分析和選擇優(yōu)質(zhì)股票，在合適時(shí)機(jī)買入賣出，使投資組合獲得最大上漲可能的同時(shí)，盡可能減少操作次數(shù)。

MDP 過程可以采用Bellman 方程（Bellman Expectation Equation）計(jì)算策略π獲得的兩個(gè)價(jià)值函數(shù)，狀態(tài)值函數(shù)vπ和狀態(tài)動(dòng)作值函數(shù)qπ：

兩個(gè)價(jià)值目標(biāo)的最優(yōu)函數(shù)為：

通過找最大化q?(s,a)對應(yīng)的行動(dòng)，并迭代，可以找到最優(yōu)策略，得到可存儲(chǔ)值函數(shù)、迭代的Bellman最優(yōu)方程（Bellman Optimality Equation）：

Bellman 最優(yōu)方程實(shí)現(xiàn)了迭代的分解，價(jià)值函數(shù)v存儲(chǔ)和再利用。按照動(dòng)態(tài)規(guī)劃原理，如果已知子問題的最優(yōu)解v?(s′)，那么對于后繼狀態(tài)是s′的狀態(tài)s，均可找到最優(yōu)解：

本文設(shè)計(jì)了圖3 所示系統(tǒng)工作流程實(shí)現(xiàn)上述求最優(yōu)解原理。在圖3中的原始數(shù)據(jù)整理模塊，預(yù)先收集加工相關(guān)數(shù)據(jù)，形成以下輸入信息：智能代理狀態(tài)、環(huán)境狀態(tài)、序列狀態(tài)，形成多日的時(shí)間窗口矩陣。通過DQN網(wǎng)絡(luò)模型，迭代計(jì)算策略的最優(yōu)解。由于股市具有不同周期特點(diǎn)，數(shù)據(jù)加工模塊可針對各種典型周期數(shù)據(jù)，加工后進(jìn)行學(xué)習(xí)和分析結(jié)果。AGENT模塊每天優(yōu)選回報(bào)最優(yōu)的產(chǎn)品，按大概率獲利策略操作，形成實(shí)際的最優(yōu)投資組合。

圖3 系統(tǒng)工作流程

具體迭代過程為：已知下一步的信息v?(s′)，遞推當(dāng)前的信息v?(s)，從后往前計(jì)算，形成最優(yōu)動(dòng)作，構(gòu)成整個(gè)策略。如果采用貪心算法，每次策略π都選到該狀態(tài)下qπ(s,a)值最大時(shí)所對應(yīng)的行動(dòng)a，當(dāng)Q值不能再改進(jìn)時(shí)，模型收斂：

此時(shí)滿足bellman最優(yōu)方程：

對于所有的s∈S，都滿足vπ(s)=v?(s)，此時(shí)π為模型學(xué)會(huì)的最優(yōu)策略。設(shè)計(jì)了一個(gè)復(fù)盤環(huán)境SGYM，即ISTG 中的Stock GYM 模塊。它回放過程，形成充足的狀態(tài)s，準(zhǔn)確計(jì)算狀態(tài)s的回報(bào)，訓(xùn)練智能代理搜索和存儲(chǔ)策略π。智能代理不斷主動(dòng)行動(dòng)和存儲(chǔ)經(jīng)驗(yàn)，學(xué)習(xí)一個(gè)行動(dòng)生成模型，不斷減少當(dāng)前策略和最優(yōu)策略的回報(bào)差距，最終每次都能選擇類似狀態(tài)下的一個(gè)最優(yōu)行動(dòng)A，其回報(bào)qπ(s,a)最大（公式（15））。

SGYM 的回報(bào)設(shè)計(jì)，體現(xiàn)總收益TR目標(biāo)的最大化，單步收益SR目標(biāo)的時(shí)機(jī)、價(jià)格幅度、買賣數(shù)量三者最優(yōu)化，操作次數(shù)TO目標(biāo)的上漲概率、交易成本、波動(dòng)風(fēng)險(xiǎn)三者最優(yōu)化，針對不能成交操作、反向的錯(cuò)誤判斷成交增加額外懲罰。實(shí)現(xiàn)多目標(biāo)最優(yōu)方程如下：

目前在AGENT模塊中的狀態(tài)加工和量化策略控制基于規(guī)則實(shí)現(xiàn)，這一方面能直接利用現(xiàn)有的優(yōu)秀量化控制策略，減少失誤，另一方面便于發(fā)現(xiàn)優(yōu)秀策略的操作特征，總結(jié)經(jīng)驗(yàn)。其中經(jīng)驗(yàn)參數(shù)優(yōu)化問題，后續(xù)可通過強(qiáng)化學(xué)習(xí)解決。

3.3 實(shí)現(xiàn)

為了建立SGYM，本文把股票信息分為四個(gè)部分：智能代理發(fā)出操作前的狀態(tài)、對應(yīng)股票的行情狀態(tài)、指標(biāo)狀態(tài)、宏觀經(jīng)濟(jì)狀態(tài)，共37個(gè)特征，如表1～4所示。

表2 股票行情狀態(tài)的特征描述

表3 行情分析指標(biāo)狀態(tài)的特征描述

表4 宏觀經(jīng)濟(jì)指標(biāo)狀態(tài)的特征描述

AGENT 針對一個(gè)股票執(zhí)行買賣操作后，SGYM 根據(jù)操作計(jì)算返回表1 中6 個(gè)狀態(tài)字段，直接使用第二天的行情、行情的分析指標(biāo)、宏觀經(jīng)濟(jì)的分析指標(biāo)，返回表2～4的相關(guān)特征。

在加工好上述數(shù)據(jù)后，SGYM可指定一個(gè)目錄下的股票數(shù)據(jù)，創(chuàng)建環(huán)境對象。每個(gè)回合初始化時(shí)，使用隨機(jī)策略選擇一個(gè)股票，初始化AGENT 該股票賬戶的總價(jià)值和指定比率的股票，返回初始狀態(tài)。有0至20共21個(gè)行動(dòng)標(biāo)簽，分別為賣出10手到買入10手。AGENT發(fā)出行動(dòng)，SGYM 執(zhí)行一步操作，調(diào)整智能代理狀態(tài)和輸出下一日狀態(tài)，計(jì)算回報(bào)值。回報(bào)可以是下一日的總價(jià)值的增減，或是收益率增減，或是本次操作股票成交后的價(jià)值增減。針對成交情況，扣減千分之一手續(xù)費(fèi)，針對不能成交情況做千分之三的懲罰，針對反向操作（買入第二天下跌，賣出第二天上漲）追加百分之一的懲罰。AGENT 使用百萬幀空間存儲(chǔ)＜s,a,r,s′＞的每次經(jīng)驗(yàn)數(shù)據(jù)，異步隨機(jī)采樣訓(xùn)練模型，打破樣本相似性，減少模型不穩(wěn)定對行動(dòng)預(yù)測的影響。ISTG的經(jīng)驗(yàn)回放策略采用了一些優(yōu)化技巧：開始時(shí)隨機(jī)執(zhí)行空操作（NO_OP），等待狀態(tài)窗口中有效歷史數(shù)據(jù)的積累；間隔5 步行動(dòng)、累積較充分經(jīng)驗(yàn)后，訓(xùn)練模型一次；存儲(chǔ)到5 萬個(gè)隨機(jī)策略后，再開始訓(xùn)練；超過10%損失掉命重新開始回合，這樣經(jīng)驗(yàn)池可保存更多的優(yōu)秀策略。這種離策略模型可以發(fā)現(xiàn)利用優(yōu)先級(jí)高的經(jīng)驗(yàn)、發(fā)現(xiàn)利用高分的回合、注入人類加工的優(yōu)秀策略，總結(jié)經(jīng)驗(yàn)、加快智能代理的學(xué)習(xí)。

DQN模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，由3個(gè)卷積層和2個(gè)全連接層構(gòu)成，網(wǎng)絡(luò)參數(shù)與經(jīng)典的DQN一致。使用連續(xù)滑動(dòng)4 日的窗口作為輸入的4 個(gè)通道，每個(gè)窗口幀為20 天的37 個(gè)特征組成的矩陣。輸出為21 個(gè)動(dòng)作的Q值。本文建立了模型保存和恢復(fù)機(jī)制，可以階段性保存成果，重入后使用新的匹配參數(shù)繼續(xù)訓(xùn)練網(wǎng)絡(luò)。

DQN 模型的關(guān)鍵是針對Q值函數(shù)學(xué)習(xí)，最終能夠收斂、準(zhǔn)確預(yù)測各種狀態(tài)下每個(gè)動(dòng)作的Q值。根據(jù)Bellman期望方程可計(jì)算Q值：

圖4 網(wǎng)絡(luò)結(jié)構(gòu)

其中，r為回報(bào)，Q*為下一步的最大Q值，γ為折現(xiàn)因子，γ設(shè)為0時(shí)，模型只關(guān)心當(dāng)前收益，γ設(shè)為1時(shí)，模型均衡考慮當(dāng)前收益和下一步的最大Q值，初始值設(shè)為0.95。模型預(yù)測能力越強(qiáng)，γ越應(yīng)趨向1。AGENT決策行動(dòng)時(shí)，使用模型預(yù)測各步的Q值，每次都按最大Q值的動(dòng)作行動(dòng)。AGENT 離策略訓(xùn)練模型，隨機(jī)提取經(jīng)驗(yàn)池中小批量數(shù)據(jù)，根據(jù)經(jīng)驗(yàn)記憶中的狀態(tài)預(yù)測各動(dòng)作Q值，根據(jù)下一個(gè)狀態(tài)，預(yù)測獲得下一步最大Q值并折扣累加到當(dāng)前動(dòng)作的Q值上，即r+γmaxQ(s′,a′)作為期望的Q值。根據(jù)方程（17）使用 (r+γmaxQ(s′,a′)-Q(s,a))2作為損失，梯度下降訓(xùn)練模型，預(yù)測結(jié)果更接近綜合了下一個(gè)狀態(tài)情況的Q值。

探索和開發(fā)過程是強(qiáng)化學(xué)習(xí)不斷試錯(cuò)，獲得環(huán)境回報(bào)標(biāo)簽和利用經(jīng)驗(yàn)數(shù)據(jù)學(xué)習(xí)的交替過程。模型初期預(yù)測Q值不準(zhǔn)確，與隨機(jī)動(dòng)作效果類似，隨著各種狀態(tài)的學(xué)習(xí)，Q值越來越準(zhǔn)確后，預(yù)測結(jié)果變平穩(wěn)，從而會(huì)減少探索到新的有效策略的能力。DQN采用了e貪心選擇，有e概率選擇隨機(jī)動(dòng)作，否則按預(yù)測的最大Q值選擇動(dòng)作，初始e為1，最終穩(wěn)定到0.1，差值0.9 按照百萬幀平均到每個(gè)幀上，隨著訓(xùn)練過程線性衰減e。記錄初始的5萬個(gè)隨機(jī)動(dòng)作過程時(shí)，無需訓(xùn)練。

算法1智能代理探索和開發(fā)過程

輸入：環(huán)境env,代理agent

輸出：模型結(jié)果model，訓(xùn)練過程的reward、maxq、return rate

1.for 在指定回合內(nèi)

2.環(huán)境env.reset獲得當(dāng)前股票和初始狀態(tài)state

3.組織初始窗口，state重復(fù)20次形成20*37矩陣states

4.while當(dāng)前股票周期未完成

5.代理ε貪心選擇動(dòng)作agent.ac（tstates）

6.環(huán)境執(zhí)行動(dòng)作env.step（action）

7.states窗口滑入一天數(shù)據(jù)作為下一天狀態(tài)

8.代理記憶經(jīng)驗(yàn)數(shù)據(jù) ＜s,a,r,s′＞

9.價(jià)值損失超過10%結(jié)束當(dāng)前回合

10.agent 記憶內(nèi)存超過 5 萬幀并每隔 5 幀，replay 訓(xùn)練模型一次

11.end

12.end

由于股票具有可復(fù)盤歷史數(shù)據(jù)和直接計(jì)算第二天收益的特點(diǎn)，原DDQN方法訓(xùn)練模型時(shí)需要使用目標(biāo)網(wǎng)絡(luò)T預(yù)測最大Q值的處理，ISTG 模型改成直接使用SGYM 計(jì)算出準(zhǔn)確的動(dòng)作回報(bào)和動(dòng)作的最大Q值，使得每步都可以獲得確定性的動(dòng)作值，加快模型的收斂速度。

4 實(shí)驗(yàn)和性能

4.1 環(huán)境

實(shí)驗(yàn)的硬件環(huán)境為Intel i7-6700HQ 4C/8T，主頻2.6 GHz（MAX 3.5），16 GB內(nèi)存，顯卡NVIDIA GeForce GTX 960M，2 GB GPU內(nèi)存。軟件環(huán)境為Windows 10操作系統(tǒng)，Python 3.6開發(fā)平臺(tái)，keras和tensorflow深度學(xué)習(xí)框架。

4.2 數(shù)據(jù)準(zhǔn)備

收集的數(shù)據(jù)有中國2007 年至2018 年的1 479 只股票的行情數(shù)據(jù)，上證綜指和宏觀經(jīng)濟(jì)數(shù)據(jù)。經(jīng)過加工后，形成了37個(gè)特征。

數(shù)據(jù)預(yù)處理模塊對缺失字段，進(jìn)行填充零值處理。針對宏觀經(jīng)濟(jì)數(shù)據(jù)按日重新采樣插入每日記錄，貨幣供應(yīng)量增長率M1和M2后取值、插值到下一個(gè)月末，其他諸如利率和匯率前取值、插值到下一個(gè)變更點(diǎn)。由于相關(guān)字段數(shù)據(jù)范圍穩(wěn)定，本文統(tǒng)一歸一化到0～1 之間，對日期和股票代碼字段進(jìn)行0～n個(gè)類標(biāo)簽的整數(shù)編碼。最終按時(shí)間拆分?jǐn)?shù)據(jù)成2007—2014 年的訓(xùn)練數(shù)據(jù)集TN1，2015—2017年測試數(shù)據(jù)集TS1，還提取了2015年大幅波動(dòng)趨勢RG2015和2018年總體下降趨勢RB2018的兩個(gè)典型數(shù)據(jù)集，用于對比不同周期情況下的模型效果。

4.3 實(shí)驗(yàn)結(jié)果

為了評估本文提出的智能股票交易手的性能，設(shè)計(jì)了四種實(shí)驗(yàn)方案：買入持有策略ev_hold，使用每日資產(chǎn)收益回報(bào)和目標(biāo)網(wǎng)絡(luò)計(jì)算Q值ev_tq，初始時(shí)股票占一半的ev_tqh，使用 SGYM行情數(shù)據(jù)計(jì)算Q值ev_mq。

第1 種ev_hold 方案，所有股票初始化同樣的資金后，每次1手買入直到使用完資金。各數(shù)據(jù)集復(fù)盤后平均收益率如表5所示。

表5 ev_hold方案數(shù)據(jù)集的復(fù)盤結(jié)果

第2 種是ev_tq 方案，所有股票初始化同樣的充足資金。訓(xùn)練階段分別運(yùn)行1 000、2 000、5 000、10 000 個(gè)回合，使用TN1 數(shù)據(jù)集進(jìn)行四次訓(xùn)練，獲得四個(gè)不同能力的模型和訓(xùn)練過程數(shù)據(jù)。可靈活根據(jù)上次訓(xùn)練情況，動(dòng)態(tài)調(diào)整超參數(shù)，裝載上次訓(xùn)練的結(jié)果模型后進(jìn)入下一次訓(xùn)練。多輪訓(xùn)練的資產(chǎn)收益率、平均最大Q值、回報(bào)的學(xué)習(xí)情況趨勢如圖5所示。經(jīng)過一千多回合后，平均最大Q值開始穩(wěn)定下降，趨向17 000。可以看出增加回合數(shù)，回報(bào)值逐步穩(wěn)定，5 000 回合后資產(chǎn)收益率變平穩(wěn)，學(xué)習(xí)階段收益率可達(dá)最大5 000%，最小值-24%，均值22%。

在TS1 測試集上，ev_tq 方案使用訓(xùn)練獲得的四個(gè)DQN，分別測試1 479只股票的分布情況見圖6，可以看出2 000回合后模型收益率差異不大。

圖5 ev_tq訓(xùn)練的資產(chǎn)收益率、平均最大Q 值、回報(bào)趨勢

圖6 ev_tq測試的各股票資產(chǎn)收益率、平均最大Q 值、回報(bào)情況

ev_tq 方案測試的關(guān)鍵評估指標(biāo)情況見表6，對比ev_hold方案，其收益率和夏普比率的均值高。

表6 ev_tq和ev_hold方案測試集上關(guān)鍵指標(biāo)對比%

分析ev_tq 方案最終的資產(chǎn)總收益率情況，發(fā)現(xiàn)測試集TS1 中的股票，如亨通光電、貝瑞基因、分眾傳媒、水井坊、南京新百等，收益可達(dá)4～5倍，比買入持有的收益更高。控制最大回撤在20%～30%區(qū)間時(shí)，恒瑞醫(yī)藥、五糧液、貴州茅臺(tái)、南極電商等保存了2～3 倍的高收益率，同時(shí)回撤風(fēng)險(xiǎn)也較小。

實(shí)驗(yàn)驗(yàn)證了ISTG 在資產(chǎn)收益率和夏普比率方面結(jié)果較好。為進(jìn)一步對比時(shí)序上的總體操作效果，本文分析了ev_hold 和ev_tq 方案在測試集上的總收益率變化過程。通過計(jì)算1 479個(gè)股票的每日資產(chǎn)均值和標(biāo)準(zhǔn)差，顯示總收益率在3 年中的變化趨勢，如圖7 所示，可以看出ev_tq在各時(shí)間段都超過ev_hold，兩個(gè)方案均在2015 年5 月達(dá)到最大收益水平。而陰影表示的標(biāo)準(zhǔn)差，隨時(shí)間推移逐步擴(kuò)大，顯示了模型的穩(wěn)定性在逐步下降。

圖7 資本總收益率對照

由于ev_tq 方案的全部初始化持有資金處理，導(dǎo)致模型學(xué)習(xí)的動(dòng)作偏向買入，圖7 顯示資金用完后，方案效果與買入持有的完全一樣。本文設(shè)計(jì)了第3種ev_tqh方案，嘗試初始化一半股票，初始時(shí)買入和賣出動(dòng)作都可以獲利。同樣進(jìn)行四輪訓(xùn)練后，發(fā)現(xiàn)模型能夠?qū)W會(huì)減少頻繁操作，買賣操作也更均衡。在訓(xùn)練集上的收益率達(dá)到最大7 000%，遠(yuǎn)超全部初始化成資金的效果。在測試集上進(jìn)行驗(yàn)證，ev_tqh 與買入持有ev_hold 的對照效果如圖8所示。

圖8 初始化一半股票情況下資本總收益率對照

再對比分析兩種不同初始化效果的圖8 和圖7，在2016年至2018年之間，ev_tqh方案的資產(chǎn)收益很穩(wěn)定，陰影表示的標(biāo)準(zhǔn)差區(qū)間更小、也更穩(wěn)定。最終的總體平均收益率為24.43%，超過全部初始化成資金的13.73%。

在觀察到ev_tq 模型的loss 值較大后，實(shí)驗(yàn)第4 種ev_mq 方案，采用單個(gè)動(dòng)作操作計(jì)算回報(bào)，實(shí)現(xiàn)SGYM直接計(jì)算Q值、取消目標(biāo)網(wǎng)絡(luò)的策略，使用logcosh做損失函數(shù)，減少異常樣本的影響。

4.4 性能分析

最終針對四種實(shí)驗(yàn)測試方案：ev_hold、ev_tq、ev_tqh和ev_mq，統(tǒng)計(jì)分析總收益率趨勢capital rate、最大回撤率withdraw rate 指標(biāo)，結(jié)果如圖9 所示。總收益率、最大回撤率兩個(gè)指標(biāo)都是ev_tqh效果最好，而ev_mq的效果不佳，還需要研究更好的回報(bào)計(jì)算方法。

圖9 四種方案總收益率和回撤率對照

為對比模型的泛化能力，使用2015 牛市和2018 熊市進(jìn)行實(shí)驗(yàn)收益情況對比。發(fā)現(xiàn)ev_tq 的2015 年平均收益率49.60%遠(yuǎn)高于買入持有ev_hold的15.42%，2018年的平均收益率-30.27%，低于ev_hold的-18.07%。分析原因?yàn)椋河?xùn)練數(shù)據(jù)集TN1 為中國經(jīng)濟(jì)快速增長的周期，模型習(xí)得策略更適合諸如數(shù)據(jù)集RG2015 的趨勢增長年份，而且數(shù)據(jù)集RB2018 離訓(xùn)練數(shù)據(jù)集TN1 較遠(yuǎn)，模型表現(xiàn)更不穩(wěn)定，影響測試效果。

4.5 問題分析

本文在實(shí)驗(yàn)過程中發(fā)現(xiàn)了三個(gè)問題：

（1）使用累計(jì)收益作為回報(bào)而不是當(dāng)前操作股票的回報(bào)，會(huì)使模型缺乏短期操作策略。

（2）DQN模型輸出較多不能成交操作，比如不能發(fā)現(xiàn)資金不足和股票不足的狀態(tài)。操作也比較頻繁。

（3）ev_tq 方案的 loss 值遠(yuǎn)超過模型的輸出Q值，波動(dòng)大，狀態(tài)的影響遠(yuǎn)超過單個(gè)動(dòng)作的回報(bào)。而ev_mq方案只有單個(gè)動(dòng)作回報(bào)，又缺失了狀態(tài)價(jià)值影響。

針對上述問題，后續(xù)可進(jìn)一步優(yōu)化模型。隨機(jī)初始化資金和股票占比，可進(jìn)一步提高操作靈活性。要提高模型的泛化能力，可在隨機(jī)初始化狀態(tài)、更長周期數(shù)據(jù)、更多不同周期特征數(shù)據(jù)集的加工等方面開展研究。

5 結(jié)束語

本文提出的智能股票操盤手ISTG 模型采用DQN深度強(qiáng)化學(xué)習(xí)技術(shù)，選擇中國股市的12 年有效行情數(shù)據(jù)，8年數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)，3年數(shù)據(jù)測試模型的整體操作策略效果，1年典型周期數(shù)據(jù)進(jìn)行對比。該模型可觀察到股票市場大量產(chǎn)品的價(jià)格變化，隨機(jī)操作，發(fā)現(xiàn)規(guī)律，形成操作策略，較好地適應(yīng)這個(gè)市場環(huán)境。

ISTG 模型學(xué)習(xí)-10 至10 手的較大范圍操作動(dòng)作，考慮了不能成交操作和交易手續(xù)費(fèi)的懲罰，使用CNN深度網(wǎng)絡(luò)學(xué)習(xí)20 天37 個(gè)特征的滑動(dòng)窗口數(shù)據(jù)，輸出最大Q值動(dòng)作，比繪制圖片方式做輸入數(shù)據(jù)的效率更高。

針對股市操作有延遲獎(jiǎng)賞和部分狀態(tài)可觀測問題，利用智能代理本身的收益增長情況累計(jì)回報(bào)，學(xué)習(xí)較長期的有效策略。在三年較長測試數(shù)據(jù)集上收益率實(shí)現(xiàn)了超越買入持有模型。

后續(xù)研究將逐步增加深度強(qiáng)化學(xué)習(xí)的最新技術(shù)，不斷增強(qiáng)模型學(xué)習(xí)策略能力。尋找高層抽象邏輯記憶和控制住智能代理的方法。