999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

考慮行為克隆的深度強化學(xué)習(xí)股票交易策略

2024-02-05 07:11:32楊興雨陳亮威鄭蕭騰
系統(tǒng)管理學(xué)報 2024年1期
關(guān)鍵詞:動作智能策略

楊興雨,陳亮威,鄭蕭騰,張 永

(廣東工業(yè)大學(xué) 管理學(xué)院,廣州 510520)

如何設(shè)計股票交易策略是金融領(lǐng)域中被廣泛關(guān)注的重要問題。傳統(tǒng)的交易策略利用股票的歷史價格數(shù)據(jù)進行技術(shù)分析,尋找合適的投資機會,例如雙推力策略[1]。然而,這類交易策略有一定的局限性。一方面,面對復(fù)雜的金融市場,策略的泛化能力較弱,不能很好地適應(yīng)未來的價格變化;另一方面,策略依賴人類專家對市場規(guī)律的準(zhǔn)確分析與把握,而人類專家可處理的信息量有限且存在認(rèn)知偏差。

近年來,隨著人工智能的迅速發(fā)展,深度強化學(xué)習(xí)越來越多地被用于設(shè)計股票交易策略。強化學(xué)習(xí)與人類學(xué)習(xí)類似,通過與環(huán)境的不斷交互試錯來積累經(jīng)驗,從而實現(xiàn)對環(huán)境的感知,并做出與環(huán)境相適應(yīng)的決策[2],可應(yīng)用于研究資產(chǎn)定價[3]等問題。深度學(xué)習(xí)通過多層網(wǎng)絡(luò)和非線性變換對輸入的信息進行特征提取,實現(xiàn)高維特征的表達(dá),被廣泛應(yīng)用于研究資產(chǎn)定價[4]、股價預(yù)測[5]與信用風(fēng)險管理[6]等問題。深度強化學(xué)習(xí)將兩者結(jié)合,通過不斷地感知環(huán)境,實現(xiàn)從狀態(tài)空間到動作空間的映射轉(zhuǎn)換,使決策者同時具有深度感知能力和決策能力,并實現(xiàn)自適應(yīng)的優(yōu)化控制[7]。目前,深度強化學(xué)習(xí)廣泛應(yīng)用于金融投資決策[8]、商品定價[9]、游戲博弈[10]等領(lǐng)域,展現(xiàn)了其在解決序列決策問題方面的優(yōu)勢。

利用深度強化學(xué)習(xí),可以直接從大量金融數(shù)據(jù)中學(xué)習(xí)得到股票交易策略,即根據(jù)決策時的價格等信息,對股票頭寸進行適應(yīng)性調(diào)整。與傳統(tǒng)的交易策略相比,基于深度強化學(xué)習(xí)的股票交易策略具有較強的泛化能力。該策略設(shè)計方法可以方便地調(diào)整網(wǎng)絡(luò)層數(shù)與數(shù)據(jù)類型,具有良好的擴展性。對于利用深度強化學(xué)習(xí)設(shè)計的股票交易策略,智能體通過不斷地探索金融市場環(huán)境,利用市場反饋的收益獎勵,適應(yīng)性地調(diào)整股票頭寸。然而,在探索過程中智能體缺少探索方向的指引,學(xué)習(xí)效率低,需要大量的探索才可能得到有效的股票交易策略。因此,本文借鑒模仿學(xué)習(xí)的思想,使智能體在保持自主探索能力的同時,將專家的投資決策作為探索的指引,即模仿專家的行為,從而提高智能體的決策質(zhì)量與學(xué)習(xí)效率,使交易策略具有良好的盈利能力和抗風(fēng)險能力。

基于上述分析,本文研究考慮行為克隆的深度強化學(xué)習(xí)股票交易策略。首先,選取股票的價格數(shù)據(jù)與技術(shù)因子作為強化學(xué)習(xí)中環(huán)境的狀態(tài),用于模擬股票市場環(huán)境;其次,通過設(shè)計專家策略為智能體提供每個狀態(tài)的投資建議;再次,令智能體不斷探索股票市場環(huán)境,使用對決DQN(Dueling Deep Qlearning Network,DDQN)算法優(yōu)化智能體的決策,利用行為克隆的方法,使智能體在環(huán)境中探索的同時模仿專家的決策,從而構(gòu)造出考慮行為克隆的對決DQN 股票交易策略;最后,對交易策略進行數(shù)值分析,并檢驗策略的性能。

本文的主要貢獻(xiàn)如下:

(1) 將模仿學(xué)習(xí)中的行為克隆引入深度強化學(xué)習(xí),讓智能體在探索的同時克隆專家的決策,提高智能體的決策水平。

(2) 結(jié)合深度強化學(xué)習(xí)與模仿學(xué)習(xí),設(shè)計同時具有探索能力和模仿能力的股票交易策略,使交易策略具有良好的盈利與抗風(fēng)險能力。

(3) 利用多只股票對所設(shè)計的策略進行測試,實驗結(jié)果表明,所設(shè)計的策略可以適應(yīng)金融市場的變化,具有良好的泛化能力。

1 文獻(xiàn)綜述

利用深度強化學(xué)習(xí)算法設(shè)計股票交易策略已成為量化投資領(lǐng)域的新趨勢,受到眾多學(xué)者的廣泛關(guān)注,取得了豐富的研究成果。

許多學(xué)者提出了以Q 學(xué)習(xí)算法為框架的交易策略。Chakole等[11]利用K-Means聚類算法對股票狀態(tài)進行離散化,并確定每個狀態(tài)類別離散的交易動作集合,借助Q 學(xué)習(xí)算法設(shè)計了一個單只股票交易策略。由于深度學(xué)習(xí)的發(fā)展,可以利用神經(jīng)網(wǎng)絡(luò)實現(xiàn)非離散的股票狀態(tài)到投資動作的映射,使強化學(xué)習(xí)也適用于狀態(tài)連續(xù)的決策問題。Li等[12]利用深度Q 學(xué)習(xí)(Deep Q-learning Network,DQN)算法分別在股票上實現(xiàn)了交易策略,通過數(shù)值實驗驗證了將深度強化學(xué)習(xí)用于設(shè)計股票交易策略的優(yōu)勢。許杰等[13]利用長短期記憶網(wǎng)絡(luò)(LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),提出了一個可在復(fù)雜的金融市場中實現(xiàn)自動交易的DQN 股票交易算法。考慮到股票數(shù)據(jù)的噪聲與非線性往往是影響交易策略性能的重要因素,Wu等[14]利用門控循環(huán)單元(GRU)提取股票在時間維度上的特征,結(jié)合DQN 算法構(gòu)造了GDQN 模型,實現(xiàn)了單只股票的自適應(yīng)交易。Lucarelli等[15]設(shè)計了一個由單個全局智能體和多個局部智能體構(gòu)成的深度Q 學(xué)習(xí)投資組合管理框架,其中,每個局部智能體負(fù)責(zé)單個資產(chǎn)的交易,全局智能體管理每個局部智能體的獎勵,且在加密貨幣市場對所設(shè)計策略進行了測試。Lee等[16]基于多智能體DQN 強化學(xué)習(xí)框架設(shè)計了一個分散化的投資組合策略。為了在動態(tài)的金融市場中實現(xiàn)穩(wěn)定的決策,Jeong等[17]利用深度神經(jīng)網(wǎng)絡(luò)提取股票價格數(shù)據(jù)的時序特征和挖掘交易信號,并結(jié)合DQN算法設(shè)計了具有良好魯棒性的深度強化學(xué)習(xí)交易策略。

在基于深度強化學(xué)習(xí)設(shè)計交易策略的過程中,上述研究只關(guān)注股票自身的信息,而在現(xiàn)實的投資決策過程中,往往還需要參考專家的決策建議。因此,本文考慮將模仿學(xué)習(xí)引入深度強化學(xué)習(xí)股票交易策略,使智能體在學(xué)習(xí)過程中模仿專家的決策,從而提高智能體的學(xué)習(xí)效率與決策質(zhì)量。模仿學(xué)習(xí)使智能體通過模仿專家的決策過程學(xué)習(xí)策略。類似于強化學(xué)習(xí),模仿學(xué)習(xí)也適用于決策問題,其廣泛應(yīng)用于機器人控制[18]、自動駕駛[19]、游戲[20]等領(lǐng)域,例如AlphaGo即通過克隆人類圍棋選手的行為進行決策。然而,將模仿學(xué)習(xí)應(yīng)用于金融領(lǐng)域的研究較少。Liu等[21]通過模仿學(xué)習(xí)使智能體在學(xué)習(xí)中盡可能地參考專家的投資決策,設(shè)計了一個高頻的期貨交易算法。

隨著深度強化學(xué)習(xí)算法的不斷發(fā)展,不少更穩(wěn)定的DQN 改進算法被提出,例如對決DQN[22]。為了進一步豐富深度強化學(xué)習(xí)應(yīng)用于股票交易的研究,本文將對決DQN 作為基礎(chǔ)模型,設(shè)計股票交易策略。同時,結(jié)合模仿學(xué)習(xí)的行為克隆方法,通過引入專家的決策信息,讓智能體在探索環(huán)境的同時克隆專家的決策,使其同時具有自主探索能力和模仿能力。將模仿學(xué)習(xí)引入強化學(xué)習(xí),一方面可以利用專家信息作為智能體探索環(huán)境的指引,提高探索環(huán)境的效率與決策質(zhì)量;另一方面保持智能體的自主探索能力,避免只依賴于行為克隆方法導(dǎo)致策略泛化能力弱的問題。

2 相關(guān)概念與原理

2.1 對決DQN 算法

強化學(xué)習(xí)是通過與環(huán)境的不斷交互試錯,根據(jù)環(huán)境反饋的獎勵,不斷優(yōu)化策略。智能體觀測到環(huán)境的狀態(tài)s t,并根據(jù)策略π做出動作a t,然后從環(huán)境中得到獎勵r t,同時觀測到環(huán)境的下一個狀態(tài)s t+1。框架如圖1所示。

圖1 強化學(xué)習(xí)框架Fig.1 The framework of the reinforcement learning

智能體在狀態(tài)s t下執(zhí)行動作a t,從環(huán)境中獲得的折扣獎勵記為u t,其期望稱為動作價值函數(shù)或Q函數(shù),記為Q(s t,a t),即

式中,γ為折扣率,且γ∈(0,1)。動作價值函數(shù)可用于判斷動作a t的好壞。

Q 學(xué)習(xí)的目的是學(xué)習(xí)最優(yōu)動作價值函數(shù),使智能體做出最優(yōu)決策,其更新公式為

2015年,Mnih等[7]基于深度神經(jīng)網(wǎng)絡(luò)和Q 學(xué)習(xí)算法,使用Q 網(wǎng)絡(luò)代替Q 表,實現(xiàn)連續(xù)狀態(tài)到離散動作的映射,即(其 中θQ為Q 網(wǎng)絡(luò)的參數(shù)),提出了DQN 算法。同時,為充分利用智能體的探索經(jīng)驗,DQN 引入經(jīng)驗回放機制[23]。在智能體每次與環(huán)境交互之后,將經(jīng)驗四元組(s t,a t,r t,s t+1)存放在經(jīng)驗回放池P中。在訓(xùn)練過程中,DQN 每次從P中隨機抽取N個四元組,并將當(dāng)前Q值與目標(biāo)Q值之間的均方誤差作為損失函數(shù),即

然而,DQN 算法存在高估Q值的問題[24],對決DQN 算法是解決這一問題的方法之一。該算法通過改進DQN 中Q 網(wǎng)絡(luò)的結(jié)構(gòu),更準(zhǔn)確地估計Q值。對于某個狀態(tài),動作價值與狀態(tài)價值之差稱為動作優(yōu)勢值,對決DQN 設(shè)計了狀態(tài)價值網(wǎng)絡(luò)和動作優(yōu)勢網(wǎng)絡(luò),分別計算智能體的狀態(tài)價值V(s)以及各動作的優(yōu)勢值D(s,a),從而得到Q(s,a)。對決DQN 還包括一個共享網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 對決DQN 框架Fig.2 The framework of the dueling DQN

2.2 行為克隆

模仿學(xué)習(xí)是一種針對專家決策進行模仿的方法,其中最直接的模仿學(xué)習(xí)方法是行為克隆(Behavior Cloning,BC),即對專家的決策行為進行克隆[26]。它以專家的決策動作為標(biāo)簽,使智能體在克隆專家決策的過程中得到一個接近專家決策水平的策略。

行為克隆的決策流程如下:

(1) 構(gòu)建一個專家訓(xùn)練集D,由M個“(狀態(tài),動作)”二元組組成,即

(2) 在監(jiān)督學(xué)習(xí)的范式下,將智能體在N個狀態(tài)下的決策與專家決策的差距,定義為行為克隆的損失,即

(3) 計算損失值Loss(θμ),并利用梯度下降法優(yōu)化策略網(wǎng)絡(luò)參數(shù)θμ,從而使智能體具有接近專家決策水平的能力。

3 考慮行為克隆的對決DQN 股票交易策略

在強化學(xué)習(xí)中,智能體不斷地在環(huán)境中進行探索,并根據(jù)環(huán)境反饋的獎勵,優(yōu)化自身的策略。然而,智能體通過探索的方式學(xué)習(xí)策略,存在學(xué)習(xí)效率低、策略收斂速度慢的問題[27]。若智能體在學(xué)習(xí)過程中將有關(guān)決策的先驗知識作為指引,則有望提高其探索與學(xué)習(xí)的效率。因此,本文考慮利用機器學(xué)習(xí)中模仿學(xué)習(xí)的思想,賦予智能體模仿專家決策的能力,提高智能體的決策水平。具體地,本節(jié)結(jié)合對決DQN 與行為克隆,設(shè)計一個克隆專家決策的深度強化學(xué)習(xí)股票交易策略。

3.1 專家策略的構(gòu)造

理想的專家行為應(yīng)與市場行情一致,即專家在每期決策時已知當(dāng)期股票價格的漲跌,并進行相應(yīng)的買入或賣出操作。由于專家在每期期初調(diào)整資產(chǎn)頭寸時已知當(dāng)期股票價格的漲跌,故專家只持有現(xiàn)金或股票。

專家決策規(guī)則如下:

(1) 若當(dāng)期股票的收盤價高于開盤價,則專家買入股票。具體地,若專家當(dāng)前持有現(xiàn)金,則全部買入股票;若專家當(dāng)前持有股票,則繼續(xù)持有。記對應(yīng)的交易動作為1。

(2) 若當(dāng)期股票的收盤價低于開盤價,則專家賣出股票。具體地,若專家當(dāng)前持有股票,則賣出全部股票,轉(zhuǎn)為持有現(xiàn)金;若專家當(dāng)前持有現(xiàn)金,則繼續(xù)持有。記對應(yīng)的交易動作為-1。

(3) 若當(dāng)期股票行情持平,即收盤價等于開盤價,則專家不進行任何交易操作,記對應(yīng)的交易動作為0。

綜上可知,第t期的專家動作可表示為

投資者難以預(yù)知未來股票的漲跌,而且該類型的專家策略只有在事后才能確定,因此,這類專家策略不能用于現(xiàn)實的股票交易。本文將該類型專家引入股票交易策略的訓(xùn)練過程中,為智能體提供一個模仿對象,使智能體進行自主探索的同時根據(jù)專家的決策進行模仿學(xué)習(xí)。

3.2 股票策略的設(shè)計

為實現(xiàn)基于深度強化學(xué)習(xí)框架的股票交易策略,下面首先介紹環(huán)境的狀態(tài)、智能體的交易規(guī)則與動作以及環(huán)境中的獎勵函數(shù),然后利用深度強化學(xué)習(xí)對決DQN 算法和行為克隆方法設(shè)計完整的股票交易策略。

3.2.1環(huán)境的狀態(tài) 狀態(tài)是對環(huán)境的一種描述,代表智能體從環(huán)境中所能獲取的信息。利用股票價格數(shù)據(jù)與技術(shù)因子等指標(biāo)模擬真實的金融環(huán)境,包括每日股票的開盤價(Open)、最高價(High)、最低價(Low)、收盤價(Close)、相對強弱指數(shù)(RSI)、變動率指標(biāo)(ROC)、順勢指標(biāo)(CCI)、收盤價平滑異同移動平均線(MACD)、指數(shù)平均數(shù)指標(biāo)(EMA)和成交量平滑異同移動平均線(VMACD)10個指標(biāo)。智能體每次從環(huán)境中觀察到的狀態(tài)是股票在過去一個歷史時間窗口內(nèi)(本文的歷史時間窗口大小是15個交易日)的各指標(biāo)數(shù)據(jù)。狀態(tài)s的樣例如表1所示。

表1 環(huán)境的狀態(tài)s 的樣例Tab.1 The example of the environment state s

3.2.2智能體動作與獎勵函數(shù) 在投資過程中,投資者只持有股票或現(xiàn)金,不會同時持有兩者,在每期期初對資產(chǎn)頭寸進行調(diào)整,因此,投資者的決策包含將持有的資金全部買入股票、將持有的股票全部賣出和不進行任何交易3 種,分別記為1、-1 與0。智能體的動作記為a t,代表投資者的投資決策,其取值范圍為{1,-1,0},與專家動作一致。值得注意的是,相比于專家策略,智能體并不知道當(dāng)期股票的漲跌,只能基于過去歷史時間窗口內(nèi)的數(shù)據(jù)進行投資決策。

在強化學(xué)習(xí)中,通常選取Q值最大的動作作為智能體的動作,即然而,對于本文研究的股票交易問題,Q值最大的動作不一定能夠被執(zhí)行。具體地,若當(dāng)前不持有現(xiàn)金,則買入動作不能被執(zhí)行;若當(dāng)前不持有股票,則賣出動作不能被執(zhí)行。因此,下面分3 種情形討論智能體的動作。為方便敘述,記第t期末股票的持有數(shù)量為m t,第t期末的現(xiàn)金數(shù)額為b t,交易費用率為c。

將第t+1期對數(shù)收益率作為環(huán)境對智能體的獎勵,即

3.2.3股票交易策略 股票投資是一個序列決策問題,可利用深度強化學(xué)習(xí)方法實現(xiàn)交易決策。相比于DQN 算法,對決DQN 算法能更準(zhǔn)確地估計各投資動作帶來的未來期望收益。因此,本文基于對決DQN 算法設(shè)計股票交易策略。

令智能體在金融環(huán)境中探索。具體地,在第t期智能體觀察狀態(tài)st,通過ε貪心策略選擇投資動作a t,從環(huán)境中獲得相應(yīng)的即期獎勵r t,隨后環(huán)境返回下一個狀態(tài)s t+1,得到一個經(jīng)驗四元組(s t,a t,r t,s t+1)。為了打破經(jīng)驗間相關(guān)性和重復(fù)利用經(jīng)驗,采用經(jīng)驗回放技巧,將智能體每次探索得到的經(jīng)驗放入經(jīng)驗回放池。當(dāng)經(jīng)驗數(shù)量大于閾值L時,開始對Q 網(wǎng)絡(luò)進行訓(xùn)練。隨機抽取經(jīng)驗回放池的N條經(jīng)驗計算這批經(jīng)驗四元組的實際Q值與目標(biāo)Q值間的均方誤差,即

對決DQN 通過不斷地與環(huán)境交互以優(yōu)化策略,這種基于探索的學(xué)習(xí)方式存在效率不高、策略收斂速度慢的問題。為此,本文將對決DQN 與行為克隆方法相結(jié)合,將專家的決策作為智能體模仿的對象,通過模仿專家來提高智能體的學(xué)習(xí)效率與決策質(zhì)量。令智能體對被抽取的歷史狀態(tài)s i再次決策,對應(yīng)的動作為,并與專家動作進行對比,然后計算智能體的模仿?lián)p失,即此處不應(yīng)采用狀態(tài)si下的歷史動作a i與專家動作對比,是因為過去的決策不能及時反映智能體模仿的效果。

為使智能體同時具備探索環(huán)境和克隆專家決策的能力,本文將智能體的強化學(xué)習(xí)損失和模仿?lián)p失進行加權(quán)求和,作為智能體的最終損失。考慮到智能體的強化學(xué)習(xí)損失與模仿?lián)p失存在量綱不一致的問題,若直接聯(lián)結(jié)智能體強化學(xué)習(xí)損失和模仿?lián)p失,則調(diào)節(jié)效果不明顯。因此,本文利用兩個損失的極差解決該問題。具體地,智能體強化學(xué)習(xí)損失和模仿學(xué)習(xí)損失的極差的定義為:

利用極差分別對這兩部分的損失進行歸一化,再利用參數(shù)λ1、λ2加權(quán)處理后的損失,最終構(gòu)造模型的損失函數(shù)。具體定義為

式中:θ為Q 網(wǎng)絡(luò)的參數(shù);λ1和λ2分別為探索損失與模仿?lián)p失的權(quán)重,用于調(diào)節(jié)智能體探索能力和模仿專家的程度,λ1+λ2=1,λ1∈[0,1]。當(dāng)λ1=0,λ2=1時,智能體僅具有克隆專家決策的能力。隨著λ1的不斷增大和λ2的不斷減小,智能體的探索能力逐漸增強,模仿能力逐漸減弱。當(dāng)λ1=1,λ2=0時,智能體僅具有自主探索的能力。

利用梯度下降法對Q 網(wǎng)絡(luò)參數(shù)θ進行更新,更新公式為

式中,α為學(xué)習(xí)率。

綜上所述,本文設(shè)計了考慮行為克隆的對決DQN 股票交易策略,稱為BCDDQN(Behavior Cloning Dueling Deep Q-learning Network)。該策略的整體算法框架如圖3所示。

圖3 股票交易策略BCDDQN 的算法框架Fig.3 The algorithm framework of the stock trading strategy BCDDQN

偽代碼如算法1所示:

4 實驗設(shè)計與結(jié)果分析

為檢驗上節(jié)所設(shè)計的BCDDQN 策略的性能,將在多只股票上對其進行訓(xùn)練與測試,同時與多個基準(zhǔn)策略進行對比,并分析相關(guān)的實驗結(jié)果。

4.1 實驗數(shù)據(jù)

從銀行、房地產(chǎn)、制造業(yè)與高新科技行業(yè)選取4只股票作為測試對象,分別是中國A 股市場的平安銀行、萬科A、格力電器和紫光股份。為了更充分地說明策略的性能,額外選取銀行業(yè)指數(shù)、家電行業(yè)指數(shù)與滬深300指數(shù)作為測試對象。

描述環(huán)境狀態(tài)的資產(chǎn)數(shù)據(jù)從東方財富網(wǎng)中獲得,時間段是2011年3月1日至2023年3 月1日。其中,將2011-03-01~2020-02-07 的交易數(shù)據(jù)作為訓(xùn)練集,將2020-02-10~2023-03-01的交易數(shù)據(jù)作為測試集。由于策略在決策時需要使用過去15個交易日的數(shù)據(jù),故測試數(shù)據(jù)中初始決策日實際為2020年3月1日。對于數(shù)據(jù)殘缺值,采取過去歷史時間窗口內(nèi)的平均值進行代替。

4.2 網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)

在實驗中,選取3 個全連接神經(jīng)網(wǎng)絡(luò)作為BCDDQN 策略的共享網(wǎng)絡(luò)、狀態(tài)價值網(wǎng)絡(luò)與動作優(yōu)勢值網(wǎng)絡(luò)。選取股票的10個指標(biāo)在過去15個交易日的每日數(shù)據(jù)作為狀態(tài)s,將其轉(zhuǎn)換為一個150維的向量作為Q 網(wǎng)絡(luò)的輸入,亦即共享網(wǎng)絡(luò)的輸入。設(shè)置共享網(wǎng)絡(luò)輸出層的節(jié)點數(shù)為50,即狀態(tài)價值網(wǎng)絡(luò)與動作優(yōu)勢值網(wǎng)絡(luò)輸入層的節(jié)點數(shù)為50。后兩者的輸出層節(jié)點數(shù)分別為3和1。Q 網(wǎng)絡(luò)最終輸出一個維度為3的向量,各分量分別為買入、持有和賣出3個動作的價值。

設(shè)置智能體與環(huán)境交互的回合E=100,學(xué)習(xí)率α=0.001,經(jīng)驗回放池中經(jīng)驗數(shù)量閾值L=1 500,每次抽取經(jīng)驗四元組的個數(shù)N=512,探索損失權(quán)重λ1與模仿?lián)p失權(quán)重λ2均為0.5。在訓(xùn)練過程中,Q網(wǎng)絡(luò)參數(shù)每更新10次,目標(biāo)Q網(wǎng)絡(luò)參數(shù)更新一次。另外,除了交易成本靈敏度分析,取交易費用率為0.3%。

4.3 對比策略

本文將與買入并持有策略、基于DQN 的交易算法、基于對決DQN 的交易算法、基于行為克隆的交易算法以及A 股市場指數(shù)在測試集內(nèi)的表現(xiàn)進行對比。各對比策略介紹如下:

(1) 買入并持有策略(B&H)。該策略在第1期使用全部現(xiàn)金買入股票,此后不進行任何買賣操作,其最終累計收益完全由市場決定。因此,通過觀察B&H 策略的走勢,可以判斷該股票在各階段內(nèi)是否發(fā)生了較大的價格變化。

(2) 基于DQN 的交易策略。該算法適用于解決狀態(tài)連續(xù)的序列決策問題,其決策動作是離散的。DQN 算法可用于實現(xiàn)股票交易,在每一期選擇對股票進行買入、持有或賣出的決策。

(3) 基于對決DQN 的交易策略。與DQN 算法類似,該算法同樣適合于解決連續(xù)狀態(tài)的序列決策問題,其決策動作是離散的。相對于DQN 算法,對決DQN 對動作價值的估計更準(zhǔn)確。

(4) 基于行為克隆的交易策略。該策略僅利用行為克隆的模仿學(xué)習(xí)方法。該算法中的智能體不與環(huán)境進行交互,而是在監(jiān)督學(xué)習(xí)的范式下,以專家決策為標(biāo)簽,通過克隆專家的決策學(xué)習(xí)股票交易策略。

(5) 市場策略。利用A 股指數(shù)在測試時間段內(nèi)的表現(xiàn)與BCDDQN 進行對比,從而判斷BCDDQN盈利表現(xiàn)是否能夠高于市場整體水平。

在各策略訓(xùn)練完成后,將它們分別在不同股票上進行測試,記錄每期的累計收益率,并選取年化收益率、夏普比率與卡瑪比率作為評價策略性能的指標(biāo),計算公式分別為:

式中:y為投資年限;n為投資期數(shù);S n為累計至n期的收益率;最大回撤

rf為無風(fēng)險年化收益率;σ為日收益率的年化標(biāo)準(zhǔn)差。本文取rf=0.03。

4.4 實驗結(jié)果與分析

本節(jié)對比各策略在累計收益率、夏普比率和卡瑪比率等指標(biāo)上的表現(xiàn),以此分析損失函數(shù)中權(quán)重λ1、λ2和 交易成本對本文策略BCDDQN 的影響,并對BCDDQN 策略進行超額收益檢驗。

4.4.1策略的收益表現(xiàn) 為檢驗本文策略的盈利能力,分別使用上述所選標(biāo)的資產(chǎn)對其進行測試,計算策略在各標(biāo)的資產(chǎn)上的逐日累計收益率,并與其他策略進行對比,如圖4所示。

圖4 各策略在不同標(biāo)的資產(chǎn)上的逐日累計收益率對比Fig.4 The comparison of daily cumulative returns of the strategies on different underlying assets

由圖4可以發(fā)現(xiàn):對比基于行為克隆的交易算法,BCDDQN 策略的逐日累計收益率更高。基于行為克隆的交易算法缺少自主探索能力,其每期的投資動作只是針對當(dāng)期情況做出,而強化學(xué)習(xí)方法會考慮對未來期望收益的影響。通過觀察BCDDQN 策略在7 只標(biāo)的資產(chǎn)上的表現(xiàn),可以發(fā)現(xiàn):當(dāng)市場上漲時,智能體往往能夠持有股票賺取收益;反之,當(dāng)市場下跌時,智能體往往能夠賣出股票減少損失。這體現(xiàn)了BCDDQN 策略具有充分應(yīng)對股票價格變化的能力和較好的泛化能力。DQN 與DDQN 交易算法缺少模仿專家投資決策的能力,僅通過自主探索能力所學(xué)策略不能很好地適應(yīng)未來復(fù)雜且變化的金融市場,導(dǎo)致策略的收益表現(xiàn)不足。對比DQN 和DDQN 只有自主探索能力的交易算法,BCDDQN 策略的逐日累計收益率也是最高的。BCDDQN 策略通過行為克隆的方法模仿專家決策,充分利用專家的投資建議,從而智能體在各狀態(tài)下能更準(zhǔn)確地執(zhí)行投資動作。因此,同時結(jié)合強化學(xué)習(xí)和模仿學(xué)習(xí)的股票交易策略有更好的收益表現(xiàn),其逐日累計收益率明顯高于其他對比策略。

4.4.2策略風(fēng)險調(diào)整的收益表現(xiàn) 衡量股票交易策略的性能既要考慮收益也要考慮風(fēng)險,因此關(guān)注策略風(fēng)險調(diào)整的收益表現(xiàn)。測試各策略并計算夏普比率和卡瑪比率,結(jié)果如表2、3所示。

表2 各策略的夏普比率Tab.2 The Sharpe ratios of the strategies

表3 各策略的卡瑪比率Tab.3 The Calmar ratios of the strategies

由表2、3可知,BCDDQN 策略的風(fēng)險調(diào)整后的收益均優(yōu)于其他策略。基于行為克隆的策略僅模仿專家的決策,在學(xué)習(xí)過程中缺少收益等信息的指示,即智能體不知道決策可帶來的獎勵與動作價值,最終策略的收益表現(xiàn)不足。BCDDQN 策略在模仿的同時保持了自主探索能力,不僅模仿專家的投資決策,而且還利用環(huán)境反饋的獎勵信息調(diào)整策略,從而提高策略在風(fēng)險調(diào)整后的收益。

DQN 和DDQN 交易策略只是根據(jù)每期的對數(shù)收益率來調(diào)整投資策略,則智能體可能會執(zhí)行冒險的投資動作來賺取收益而忽略風(fēng)險。BCDDQN 策略通過引入專家決策進行模仿,使智能體在探索時考慮決策可實現(xiàn)收益的同時減少決策帶來的風(fēng)險,最終策略具有良好的風(fēng)險調(diào)整后的收益表現(xiàn)。同時,策略的抗風(fēng)險表現(xiàn)也是股票交易策略的重要性能,相關(guān)結(jié)果如表4所示。由表4可知,BCDDQN 策略抗風(fēng)險的表現(xiàn)也是最優(yōu)的。綜上所述,BCDDQN 策略在所選股票上展現(xiàn)了良好的適用性和抗風(fēng)險能力。

表4 各策略的最大回撤Tab.4 The maximum drawdowns of the strategies

4.4.3行為克隆與對決Q 網(wǎng)絡(luò)的作用 為了進一步驗證智能體在探索環(huán)境時克隆專家決策的有效性以及不同類型Q 網(wǎng)絡(luò)對策略的影響,本文設(shè)計了考慮行為克隆的DQN 算法,記為BCDQN(Behavior Cloning Deep Q-learning Network)策略。BCDQN策略分別與DQN 交易算法和BCDDQN 策略對比年化收益率,從而驗證使用行為克隆和對決Q 網(wǎng)絡(luò)的作用。BCDDQN 策略與DDQN 交易算法對比年化收益率,用于驗證克隆專家決策的作用;DDQN 交易算法與DQN 交易算法對比年化收益率,用于驗證使用對決Q 網(wǎng)絡(luò)的作用。實驗結(jié)果如表5所示。

表5 各策略的年化收益率Tab.5 The annualized percentage yields of the strategies

由表5可知:在多數(shù)股票上考慮行為克隆的深度強化學(xué)習(xí)交易策略對比未考慮行為克隆的深度強化學(xué)習(xí)股票交易策略實現(xiàn)了更高的收益,即BCDQN 策略好于DQN策略,且BCDDQN 策略好于DDQN策略;使用對決Q 網(wǎng)絡(luò)的策略對比使用傳統(tǒng)Q 網(wǎng)絡(luò)的策略,在多數(shù)股票上實現(xiàn)了更高的年化收益率,即DDQN 策略好于DQN策略,且BCDDQN策略好于BCDQN策略。BCDDQN 策略結(jié)合強化學(xué)習(xí)和模仿學(xué)習(xí)兩種方法,不僅保持了在環(huán)境中自主探索的能力,而且還具有克隆專家決策的能力,使智能體在學(xué)習(xí)時同時利用自主探索的學(xué)習(xí)經(jīng)驗和專家的投資建議優(yōu)化投資策略,從而智能體執(zhí)行更為恰當(dāng)?shù)耐顿Y動作,帶來更高的收益。

4.4.4損失函數(shù)中權(quán)重對策略的影響 本文策略通過探索損失權(quán)重λ1與模仿?lián)p失權(quán)重λ2控制智能體自主探索和克隆專家決策的程度。為了分析損失函數(shù)中權(quán)重對策略的影響,分別計算BCDDQN 策略在不同權(quán)重取值下的年化收益率,如表6所示。

表6 參數(shù)λ1 與λ2 對各策略年化收益率的影響Tab.6 The impact of parametersλ1 and λ2 on the annualized percentage yields of the strategies

由表6可知:當(dāng)λ1取值較小、λ2取值較大時,智能體主要依賴于專家過去的決策經(jīng)驗進行模仿學(xué)習(xí),并利用所學(xué)投資策略做出關(guān)于未來市場的決策,策略在缺少足夠的探索時未能實現(xiàn)良好的收益;當(dāng)λ1取值較大、λ2取值較小時,智能體主要依賴于自主探索能力進行學(xué)習(xí),智能體在探索過程中模仿專家的投資建議不充分,所學(xué)策略不能充分體現(xiàn)專家的決策規(guī)則,使得策略可帶來的收益降低;當(dāng)λ1、λ2取值恰當(dāng)時,智能體在環(huán)境中探索時具有充分的自主探索能力和克隆專家決策能力,策略在各股均實現(xiàn)良好的收益。因此,應(yīng)同時保持智能體的自主探索能力和模仿能力,使智能體在學(xué)習(xí)過程中充分利用環(huán)境反饋的信息和專家的投資建議不斷地優(yōu)化投資策略。

4.4.5交易成本對策略收益的影響 交易成本是影響策略實現(xiàn)收益的重要因素之一,智能體每次買賣標(biāo)的資產(chǎn)時均會產(chǎn)生交易費用。為了分析交易成本對策略收益的影響,對各策略在交易費用率分別為0.00%、0.15%、0.30%、0.45%和0.60%時進行測試,計算它們在不同交易成本下最終實現(xiàn)的年化收益率。具體結(jié)果如圖5所示。

圖5 交易成本對策略收益的影響Fig.5 The impact of transaction costs on the returns of the strategies

由實驗結(jié)果可知,當(dāng)交易費用率不斷提高時,各股票交易策略可實現(xiàn)的收益均呈現(xiàn)下降趨勢。本文提出的BCDDQN 股票交易策略,在不同的交易費用率下,其收益變化曲線均高于其他策略的收益變化曲線,且在各股中實現(xiàn)了最高的年化收益率。即使在高交易費用率下,BCDDQN 股票交易策略仍然表現(xiàn)出良好的盈利能力,相比于其他策略具備更高的收益性和穩(wěn)定性。因此,同時保持智能體的自主探索能力和模仿能力,能有效提高智能體的投資決策水平,使股票交易策略有良好的收益表現(xiàn)。

4.4.6基于Fama-French三因子模型與五因子模型的策略超額收益檢驗 實現(xiàn)超額收益是交易策略的核心目標(biāo)之一,一個交易策略如果能持續(xù)地獲得超額收益,則意味著該策略具有一定的市場優(yōu)勢,并能夠抓住市場中存在的收益機會。為了檢驗BCDDQN 策略是否具有市場優(yōu)勢,利用Fama-French 三因子模型[28]與Fama-French 五因子模型[29]對BCDDQN 策略進行超額收益檢驗,檢驗結(jié)果如表7、8所示。實驗結(jié)果表明,BCDDQN 策略在測試集中均實現(xiàn)超額收益且通過顯著性檢驗。本文策略為投資者實現(xiàn)了比市場平均水平更高的收益,從而增加投資者的回報。

表7 基于Fama-French三因子模型的BCDDQN超額收益檢驗Tab.7 The excess return test of the strategy BCDDQN based on Fama-French three-factor model

表8 基于Fama-French五因子模型的BCDDQN超額收益檢驗Tab.8 The excess return test of the strategy BCDDQN based on Fama-French five-factor model

5 結(jié)語

本文將專家的決策信息引入深度強化學(xué)習(xí)對決DQN 算法中,設(shè)計了同時具有探索能力和模仿能力的股票交易策略。利用不同標(biāo)的資產(chǎn)數(shù)據(jù)對本文策略進行測試,實驗發(fā)現(xiàn):本文策略在收益和風(fēng)險指標(biāo)上均表現(xiàn)良好,具有較強的抗風(fēng)險能力與適用性。這說明,模仿專家決策的同時保持自主學(xué)習(xí)能力能夠有效提高交易策略的表現(xiàn)。

本文存在一些不足。設(shè)計的交易策略只適用單只股票的投資決策,在決策過程中僅使用歷史價格數(shù)據(jù)與技術(shù)指標(biāo)。因此,未來研究將利用多源異構(gòu)的股票數(shù)據(jù),包括基本面數(shù)據(jù)和財經(jīng)文本數(shù)據(jù),設(shè)計交易多只股票的策略。

猜你喜歡
動作智能策略
例談未知角三角函數(shù)值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
畫動作
動作描寫不可少
主站蜘蛛池模板: 日韩欧美国产成人| 少妇露出福利视频| 亚洲天堂免费在线视频| 亚洲国产亚洲综合在线尤物| 欧美国产日韩在线观看| 国产成人精品优优av| 亚瑟天堂久久一区二区影院| 亚洲天堂精品在线| 亚洲欧洲一区二区三区| 91av成人日本不卡三区| 国产网友愉拍精品| 中文字幕在线欧美| 天天综合网色中文字幕| 欧美精品导航| 日本午夜网站| 波多野结衣在线一区二区| 四虎国产永久在线观看| 少妇人妻无码首页| 香蕉综合在线视频91| 制服丝袜 91视频| 国产男女XX00免费观看| 婷婷激情亚洲| AV天堂资源福利在线观看| 国产激情无码一区二区免费| 国产成人精品在线1区| 久久综合色天堂av| 成人午夜网址| 国产日韩欧美视频| 热九九精品| 青青草一区| 欧美狠狠干| 成人午夜网址| 99在线小视频| 在线亚洲小视频| 伊人精品视频免费在线| 亚洲香蕉久久| 91成人在线免费观看| 四虎永久在线| 久久6免费视频| 日本日韩欧美| 欧美日韩国产成人高清视频| 最新无码专区超级碰碰碰| 最新国产精品鲁鲁免费视频| 日本道综合一本久久久88| 国产精品亚洲欧美日韩久久| 精品撒尿视频一区二区三区| 国产免费高清无需播放器| 亚洲人成网线在线播放va| 日韩专区欧美| 伊人中文网| 精品超清无码视频在线观看| 亚洲综合香蕉| 在线观看亚洲精品福利片| 亚洲最大综合网| 国产91成人| 国产免费福利网站| 免费不卡视频| 亚洲国产天堂久久综合| 国产成人精品在线1区| 久久人搡人人玩人妻精品| 欧美激情二区三区| 欧美天堂在线| 国产精品网曝门免费视频| 久久亚洲AⅤ无码精品午夜麻豆| 成人在线观看一区| 在线日本国产成人免费的| 看av免费毛片手机播放| 成人在线亚洲| 日韩高清中文字幕| 国产XXXX做受性欧美88| 2021最新国产精品网站| 国产在线精品99一区不卡| 另类专区亚洲| 国产午夜福利在线小视频| 日韩国产欧美精品在线| a毛片基地免费大全| 亚洲人成网7777777国产| 免费中文字幕一级毛片| 国产亚洲精久久久久久久91| 手机精品视频在线观看免费| 国产又大又粗又猛又爽的视频| a级毛片免费播放|