






摘 "要: 投資組合策略問題是金融領域經(jīng)久不衰的一個課題,將人工智能技術用于金融市場是信息技術時代一個重要的研究方向。目前的研究較多集中在股票的價格預測上,對于投資組合及自動化交易這類決策性問題的研究較少。文中基于深度強化學習算法,利用深度學習的BiLSTM來預測股價的漲跌,以強化學習的智能體進行觀測,更好地判斷當期情況,從而確定自己的交易動作;同時,利用傳統(tǒng)的投資組合策略來建立交易的預權重,使智能體可以在自動化交易的過程中進行對比,從而不斷優(yōu)化自己的策略選擇,生成當期時間點內(nèi)最優(yōu)的投資組合策略。文章選取美股的10支股票進行實驗,在真實的市場模擬下表明,基于深度強化學習算法的模型累計收益率達到了86.5%,與其他基準策略相比,收益最高,風險最小,具有一定的實用價值。
關鍵詞: 投資組合策略; 自動化交易; 深度強化學習; BiLSTM; 深度確定性策略梯度(DDPG); 權重對比
中圖分類號: TN911?34 " " " " " " " " " " " " " "文獻標識碼: A " " " " " " " " " " " 文章編號: 1004?373X(2024)06?0154?07
Research on investment portfolio strategy and automated trading based on deep reinforcement learning algorithm
YANG Xu1, LIU Jiapeng2, YUE Han1, ZHANG Qin1
(1. College of Economics and Management, China Jiliang University, Hangzhou 310018, China;
2. College of Business, Zhejiang Wanli University, Ningbo 315100, China)
Abstract: The problem of investment portfolio strategy is an enduring topic in the financial field, and the application of artificial intelligence techniques in financial markets is an important research direction in the information technology era. Current research is more focused on price prediction of stocks, and less on decision?making problems such as investment portfolio and automated trading. Based on the deep reinforcement learning algorithm, the BiLSTM of deep learning is used to predict the rise and fall of stock prices, and the reinforcement learning agents is used to observe and better assess the current situation, so as to determine one's own trading actions. Intelligent agents can comparison during automated trading processes by using traditional investment portfolio strategy to establish pre weights for transactions, so as to continuously optimize their strategy choices and generate the optimal investment portfolio strategy at the current time point. 10 stocks from the US stock market are selected for experiments. Under real market simulations, the results show that the cumulative return of the model based on deep reinforcement learning algorithm can reach 86.5%. In comparison with other benchmark strategies, it has the highest return and the lowest risk, and has a certain practical value.
Keywords: investment portfolio strategy; automated trading; deep reinforcement learning;BiLSTM;DDPG; weighting comparison
0 "引 "言
投資組合策略的目標是指對所購買的金融產(chǎn)品的權重進行調(diào)節(jié)以盡可能控制并縮小風險,擴大收益。傳統(tǒng)的投資組合模型往往伴隨著較多的假設和約束,但當今金融市場瞬息萬變,數(shù)據(jù)海量,傳統(tǒng)的投資組合模型已經(jīng)不能適應現(xiàn)實的需要,亟待有新的方法來解決不同情境下的投資組合管理問題。
近年來,隨著科技的進步與硬件設施的發(fā)展,人工智能在各行各業(yè)上的優(yōu)勢逐步顯現(xiàn)。在金融科技領域,深度學習算法常常被國內(nèi)外學者用于股價預測[1?3]方面。強化學習屬于近些年的一個新興方向,在金融領域的應用較少;但是依據(jù)強化學習的基本原理和運作模式,其非常適合于金融領域的一些決策性活動。因此在已有的研究里,強化學習常常被用于量化交易和資產(chǎn)組合方面[4]。
近年來,學者們已經(jīng)在金融市場中進行了廣泛的深度學習和強化學習,主要總結其在量化交易上的成果。Liang等人通過比較PPO、DDPG和PG算法在投資組合市場中的應用,發(fā)現(xiàn)基于策略梯度(PG)的算法要優(yōu)于其他算法[5]。Xiong等人訓練了一個深度強化學習代理,獲得自適應交易策略,并將其與道瓊斯工業(yè)平均水平和傳統(tǒng)的最小變化投資組合分配策略進行了比較,發(fā)現(xiàn)該系統(tǒng)在夏普比率和累積回報方面都優(yōu)于其他兩個基準[6]。Buehler等人提出了一種DRL框架,通過強化學習方法,直接利用歷史價格來解決投資組合問題[7]。Gao等人將DQN算法用于股票市場的投資組合管理,為了使DQN適應金融市場,將行動空間離散為不同資產(chǎn)中投資組合的權重[8]。
在實驗上,選取了5支美國股票來測試該模型。結果表明,基于DQN策略的表現(xiàn)優(yōu)于其他10種傳統(tǒng)策略,DQN算法的利潤比其他策略的利潤高30%。此外,夏普比率表明,使用DQN制定的政策風險最低。Weng等人提出了一種三維注意門網(wǎng)絡,它對上升時期的資產(chǎn)賦予更高的權重[9]。在不同的市場條件下,這個系統(tǒng)獲得了更大的回報,大大提高了夏普比率,并且風險指數(shù)遠低于傳統(tǒng)算法。
Lei等人提出了一個基于時間驅(qū)動的特征感知聯(lián)合深度強化學習模型(TFJ?DRL),結合門控循環(huán)單元(GRU)和策略梯度算法,實施股票交易[10]。Lee等人提出了一個HW_LSTM_RL結構,它首先使用了小波轉換以消除股票數(shù)據(jù)中的噪聲,然后基于深度強化學習分析股票數(shù)據(jù),做出交易決策[11]。許杰等人提出了一種將CNN和LSTM相結合的自動交易算法,通過CNN模型對股票數(shù)據(jù)進行分析,從中提取動態(tài)特征;然后使用LSTM模型對股票數(shù)據(jù)的動態(tài)時間序列進行循環(huán)學習,通過強化學習制定相應的交易策略[12]。實證表明,該方法比標準模型具有更好的魯棒性。
現(xiàn)有的研究大多只將深度強化學習算法直接用于股票的投資組合決策中,而本文引入傳統(tǒng)的投資組合理論,使強化學習算法可以不斷優(yōu)化自己的權重選擇;不同于僅僅單一用深度強化學習算法,用神經(jīng)網(wǎng)絡預測股價的下一步走勢,使強化學習智能體在做出交易決策時可以更好地把握下一時刻的股價信息。
1 "整體模型建立
1.1 "BiLSTM預測股票價格
1.1.1 "LSTM網(wǎng)絡結構
LSTM中引入了3個門以及與隱藏狀態(tài)形狀相同的記憶細胞,通過門來控制信息的流動。
[t]時期的輸入包括前期輸出[ht-1]、當期市場信息[xt]以及前期細胞記憶[Ct-1]。遺忘門[ft]對前期細胞信息進行選擇。其計算公式如下:
[ft=σWf?ht-1,xt+bf] (1)
式中:[σ]表示非線性函數(shù);[Wf]表示遺忘門的權重系數(shù);[ht-1]是LSTM單元的隱藏狀態(tài);[bf]是偏置項;“*”符號代表向量點乘。
通過對[xt]、[ht-1]的函數(shù)映射機制,可以得到當期市場信息的臨時細胞記憶[Ct~]。具體計算公式如下:
[it=σWi?ht-1,xt+bi] (2)
[Ct~=tanhWC?ht-1,xt+bC] (3)
式中:[it]表示記憶現(xiàn)在某些信息;[tanh]是雙曲正切函數(shù);[Wi]、[WC]表示對應門的權重系數(shù);[bi]、[bC]表示偏置項。
通過遺忘門和輸入門得到新的輸入信息的記憶[Ct],公式為:
[Ct=ft·Ct-1+it·Ct~] (4)
式中[Ct]表示將過去與現(xiàn)在信息合并。
[tanh]函數(shù)將單元格狀態(tài)規(guī)范到-1~1之間,并乘以sigmoid門輸入,作為最終的結果。
[ot=σWo?ht-1,xt+bo] (5)
[ht=ot·tanhCt] (6)
式中:[ot]表示輸出門輸出;[Wo]是輸出門輸入權重參數(shù);[bo]是偏置項,每個單元的相同門的輸入?yún)?shù)共享。
1.1.2 "BiLSTM預測股票漲跌
BiLSTM(Bi?directional Long Short?Term Memory)是LSTM網(wǎng)絡的一種改進模型,也稱為雙向LSTM網(wǎng)絡,它利用了后續(xù)時間信息對于當前時間進行判斷,可以獲得更加準確的預測效果。實驗設計的BiLSTM網(wǎng)絡整體的輸入序列為樣本個數(shù)(samples)、時間步長(time steps)和特征(features)。實驗過程是:首先將選擇好的數(shù)據(jù)進行歸一化處理;接下來采用滑動窗口的方式來構建預測模型的數(shù)據(jù)集;再使用Keras框架進行模型的構建與訓練,采用Adam算法更新,將數(shù)據(jù)分批輸入模型;然后測試不同時間步長下預測模型的性能,對比時間步長為3、7、10、20,找出最優(yōu)的時間步長;最后測試模型最優(yōu)時間步長下最小的RMSE和MAPE。
1.2 "投資組合權重分配
本文以馬科維茨的投資組合理論為基礎建立資產(chǎn)配置的權重模型,它包含了均值?方差模型和投資組合有效邊界模型。投資者可以預先確定一個期望收益,進一步確定投資者在每個項目上的權重,使其總投資風險最小,故不同的期望收益對應著不同的最小方差組合。在有效邊界模型中,將收益率作為縱軸,收益率標準差作為橫軸,繪制出所有包含最小方差的點,構成投資組合理論中的有效邊界。該理論的核心思想是將不同的投資資產(chǎn)組合在一起,以實現(xiàn)最小化投資組合風險和最大化預期收益率。投資組合的風險和收益率是由其中每種資產(chǎn)的風險和收益率以及它們之間的相關性所決定的,通過組合不同風險和收益率的資產(chǎn),可以降低整個投資組合的風險,同時最大化預期收益率。
本文以馬科維茨的投資組合理論為基礎,去除交易成本限制,用數(shù)據(jù)訓練生成一組最優(yōu)的投資組合權重。首先輸入股票數(shù)量,隨機生成一組權重;接著計算該權重下的收益率標準差和收益率,重復該過程,得出最優(yōu)邊界;最后,在最優(yōu)邊界上可以找到最小風險和最大收益的投資組合權重。將此過程建模為MPT模型。
1.3 "強化學習算法
1.3.1 "股票市場定義
將投資組合過程近似看作是一個馬爾科夫決策過程(MDP)。MDP定義為元組[S,A,P,r],其中[S]是狀態(tài)空間,[A]是動作空間,[PSt+1St,at]表示在[at∈Α]、[st∈S]到下一個狀態(tài)[St+1]的概率,[rSt,at,St+1]表示在狀態(tài)[St]采取行動的直接回報,同時達到新狀態(tài)[St+1]。強化學習的具體操作是選擇最佳的投資組合權重向量,并根據(jù)前后的向量之差進行交易,計算收益(或正或負),從而達到最大化累計收入,并且盡可能降低風險以及交易成本的目的。
本文預設初始資金為1 000 000美元,基于強化學習對于股票市場的描述如下:
1) 狀態(tài)空間(state)。[ct]:[t]時刻的可用余額;[Otyst]:[t]時刻每支股票的持有市值;[Closet]:[t]時刻后10天每天的收盤價。
2) 動作空間(action)。在投資組合交易問題中,智能體的工作是計算出每種股票的買入和賣出量。允許投資者在行動空間內(nèi)做多和做空資產(chǎn),但是在做空時,賣出要從價格最低的進行賣出,以獲得最大的收益。對于單個股票,動作空間被定義為[-k,…,-1,0,1,…,k],其中[k]和[-k]代表可以買賣的股票數(shù)量,[k≤hmax]。[hmax]是一個預定義的參數(shù),用于設置每次購買行為的最大股份數(shù)量;操作空間歸一化為[-1,1],這也意味著操作空間是連續(xù)的。在每個狀態(tài)的操作選擇之后,首先進行判斷,對每支股票是執(zhí)行賣出操作,還是執(zhí)行買入或持有操作。
3) 股票支數(shù)[M]。本文定義的股票支數(shù)為[M=10]。
4) 投資組合向量。第i項表示投資總預算與第i項資產(chǎn)的比率,即:
[wt=w1,t,w2,t,…,wM,tT∈RM] (7)
式中[wt]的每一個元素[wi,t∈0,1],且[i=1Mwi,t-1=1]。
5) 調(diào)整后的收盤價。本文將股票i在時間[t]的調(diào)整后的收盤價記為[pi,t]。
6) 資產(chǎn)價格。本文定義資產(chǎn)在[t]時期的價格為:
[Vt=i=1Mhi,t-1·pi,t+ct-1] (8)
7) 持股情況。本文定義在時間[t]股票i的持股為:
[hi,t=Vt·wi,tpi,t] (9)
8) 獎勵函數(shù)(Reward Function)。將獎勵函數(shù)定義為:
[Rt=Vt-Vt-1] (10)
9) 為增加預期投資匯報,設置投資組合交易深度強化學習框架中的動作向量為:
[at=wt] (11)
式中[wt]的每一個元素[wt,j∈0,1],且[j=0mwt,j=1]。
1.3.2 "DDPG算法
深度確定性策略梯度(DDPG)算法采用的是經(jīng)典的Actor?Critic架構,Actor網(wǎng)絡為策略[μ],Critic網(wǎng)絡為價值函數(shù)[Q]。Actor網(wǎng)絡輸入環(huán)境的狀態(tài),輸出在該狀態(tài)下價值[Q]最大的動作[a],以此構成確定性策略[μ]。該網(wǎng)絡直接對價值函數(shù)[Q]做梯度下降,其目的是找到最大的動作[a]。這里的[Q]來源于上一輪Critic網(wǎng)絡的輸出。根據(jù)策略梯度定理推導出確定性策略梯度定理:
[?θμ=ESt~pβ?aQs,aθQS=St,a=μ(st)·?θμμ(sθμ)s=st] (12)
Critic網(wǎng)絡輸入環(huán)境的狀態(tài),Actor網(wǎng)絡輸出動作[a]、輸出擬合[Q]。該網(wǎng)絡的Label為通過Bellman最優(yōu)方程計算出的價值,描述最優(yōu)動作的Bellman等式為:
[Q?(s,a)=Er(s,a)+γmaxQ?(s',a')] (13)
DDPG的Q?learning算法使用目標網(wǎng)絡實現(xiàn)目標的表達式為:
[ρ=r+γ(1-d)maxQ?(s',a')] (14)
綜上,整體的模型結構如圖1所示。
2 "實驗過程
2.1 "數(shù)據(jù)準備
本實驗的數(shù)據(jù)來源是雅虎財經(jīng)網(wǎng)站,選擇具有代表性的10支上市公司的股票,分別為谷歌(GOOGL)、蘋果(APPL)、亞馬遜(AMZN)、高通(QCOM)、特斯拉(TSLA)、微軟(MSFT)、好市多(COST)、迪許網(wǎng)路(DISH)、卡康斯特(CMCSA)和易趣(EBAY)。選取美股市場的股票原因在于市場比較穩(wěn)定,更利于訓練和分析模型。
本實驗的數(shù)據(jù)范圍是2013年1月29日—2022年12月30日之間10年的數(shù)據(jù),除周六、周日以及節(jié)假日外所有交易日共2 500條數(shù)據(jù)。其中,將訓練集與測試集按7∶3的比例劃分。在數(shù)據(jù)字段中以收盤價作為主要的標準數(shù)據(jù),以蘋果(APPL)的部分股票基本數(shù)據(jù)為例,如表1所示。
同時,選取4類技術指標作為輔助,以便更好地提取股票的特征,技術指標的選取如表2所示。
2.2 "實驗環(huán)境
本實驗的代碼整體上使用Python進行編寫,LSTM網(wǎng)絡預測模型在基于TensorFlow的Keras框架下進行建立,并利用Python提供的sklearn、numpy等第三方工具庫進行輔助,實現(xiàn)了數(shù)據(jù)的預處理以及預測結果的可視化工作。本次實驗所使用的環(huán)境信息如表3所示。
2.3 "評估指標
2.3.1 "BiLSTM評價指標
本文選取RMSE(均方根誤差)和MAPE(平均絕對百分比誤差)來作為預測模型結果的評價指標。
其中,RMSE為MSE的平方根。MSE定義為預測數(shù)據(jù)與原始數(shù)據(jù)對應點誤差的平方和的均值,公式如下:
[MSE=1ni=1nyi-yi2] (15)
[RMSE=MSE] (16)
且RMSE越小,表明結果越好。
MAPE的公式如下:
[MAPE=1ni=1nyi-yiyi×100%] (17)
且MAPE越小,表明結果越好。
2.3.2 "投資組合策略評價指標
本文使用累計收益率、夏普比率、最大回撤、Alpha和Beta等5個指標對投資組合策略結果進行評估。
股票的累計收益率(CR)是衡量投資組合管理在時間期間上投資結果的常用指標,即投資組合的累計收益除以本金。夏普比率反映了單位風險資產(chǎn)凈值增長率超過無風險收益率的程度,是用股票的凈值增長率的平均值減無風險利率再除以股票的凈值增長率的標準差,是最主流的評價投資組合策略績效的指標。其計算公式如下所示:
[Sharpe=ERp-Rfσp] (18)
最大回撤是指在任一時間點向后推,產(chǎn)品凈值到達最低點時,收益率回撤幅度的最大值。這一指標描述了投資者買入某資產(chǎn)可能出現(xiàn)的最為糟糕的情況,其計算公式如下所示:
[max down=minXi-XjXj×100%] (19)
Alpha值是用來衡量模型相較于基準模型獲得的超額收益。Alpha值越大,表示相較于基準獲得的額外回報越多,其計算公式如下所示:
[Alpha=Rp-Rf+βpRm-Rf] (20)
式中:[Rp]表示組合收益率;[Rf]表示無風險收益率;[Rm]代表市場收益率(本文選取道瓊斯指數(shù)作為基準市場)。
Beta值是用來評估模型到基準市場的相對于評估模型系統(tǒng)風險的指標。如果Beta值大于1,則模型的波動性大于基準;如果Beta值小于1,則模型小于基準;如果Beta值等于1,則波動率模型的性能與基準測試的性能相同。其計算公式如下所示:
[Beta=CovRp,Rmσ2m] (21)
式中[σ2m]表示基準市場即道瓊斯市場的方差。
2.3.3 "基準策略
本文選取4個基準策略和所提投資組合模型進行對比,即道瓊斯工業(yè)平均指數(shù)(DJI)、買入持有計劃(BAH)、集成有三個Actor?Critic算法的強化學習模型(ES)[13]以及基于主成分分析和小波去噪的方法(PCAamp;DWT)[14]。
3 "實驗結果
3.1 "BiLSTM預測效果
根據(jù)BiLSTM網(wǎng)絡的預測結果進行如下評估。首先對模型預測效果進行分析,由于每支股票有其數(shù)據(jù)特性,因此在訓練時,常選取不同的網(wǎng)絡進行預測。本文選取APPL作為展示結果,模型的預測值與真實值的對比結果如圖2所示。
圖b)、a)、c)分別為尺度為5、50、200的真實值與預測值的對比。由圖中可見在局部的振蕩上預測值準確,在整體上的趨勢預測也能準確實現(xiàn),且得到的評價指標分別為:RMSE是8.145;MAPE是0.836%。可知預測結果較好。
對APPL預測模型的損失評估如圖3所示。訓練輪次達到70次左右時,模型收斂,得到的誤差結果在0.042 5左右,此時模型誤差最小。再增加訓練輪次時,模型訓練效果會產(chǎn)生過擬合,使模型效果變差。
3.2 "DDPG決策效果
基于相同的市場數(shù)據(jù)來對比投資組合方法的優(yōu)劣,各個算法的評價結果如表4和圖4所示。
由表4可知:本文提出的模型在累計收益率上高于其他4個模型;本文的交易策略有著最高的夏普比率,這表明與其他策略相比,本文模型可以在同等風險水平下獲得更高的回報。由于本文模型相較于其他模型有最低的最大回撤值,這表明可能發(fā)生的最大虧損幅度是最小的;相較于其他模型,本文的模型基于基準市場有著最高的Alpha值,這說明同等情況下,本文的模型可能會獲得更多的額外收益;Beta值最低,說明本文的模型相較于基準市場存在的系統(tǒng)風險最低。綜上所述,本文模型在同等市場條件下,可以獲得較高的收益,且風險水平較小,具有一定的實用意義。
4 "結 "論
本文基于深度強化學習技術,提出一種適合于個人投資者的智能投資組合優(yōu)化方法及交易模型。通過使用股票的價格數(shù)據(jù)以及技術指標數(shù)據(jù)作為BiLSTM的輸入,引入注意力機制,預測市場下一步的價格走勢,強化學習智能體在此基礎上進行股票的買賣操作;與此同時,將經(jīng)典的馬科維茨投資組合理論進行建模,在本文的權重選擇過程中,不斷與其進行對比,使本文的權重選擇不斷趨于更優(yōu)解。本研究有助于個人投資者在不確定的市場環(huán)境中做出理性投資決策,提升投資風險管理意識,同時獲得更高的投資回報。本文基于真實的市場數(shù)據(jù)進行實證分析,且豐富了現(xiàn)代投資組合理論與金融實證研究,為人工智能技術在經(jīng)濟學和管理學中的深入研究提供了參考。
深度強化學習作為人工智能的前沿技術,已經(jīng)在投資組合和自動化交易方面展現(xiàn)了優(yōu)勢之處,是未來金融市場發(fā)展的重要方向。未來的工作也許可以從以下幾個方面考慮:
1) 股價波動受到多種因素的共同影響,以往的工作將多種信息并行拼接,而忽略了各種信息之間的內(nèi)在聯(lián)系。因此,如何利用各個信息之間的關系重構向量是未來研究的一個重要方向。
2) 金融市場是一個復雜的系統(tǒng),憑借單一的不變的模型不可能一直獲利,因此需要構建一種多資產(chǎn)投資組合的動態(tài)交易模型,根據(jù)不同的市場環(huán)境和不同的限制要求來滿足投資者的需求。
3) 情緒因素也是影響金融市場變動的一個重要因素,如何將情感量化加入股票的買賣之中,也是一個值得研究的課題。
注:本文通訊作者為劉家鵬。
參考文獻
[1] SHAHI T B, SHRESTHA A, NEUPANE A, et al. Stock price forecasting with deep learning: a comparative study [J]. Mathematics, 2020, 8(9): 1441.
[2] JI Y, LIEW W C, YANG L. A novel improved particle swarm optimization with long?short term memory hybrid model for stock indices forecast [J]. IEEE access, 2021(9): 23660?23671.
[3] 翁曉健,林旭東,趙帥斌.基于經(jīng)驗模態(tài)分解與投資者情緒的長短期記憶網(wǎng)絡股票價格漲跌預測模型[J].計算機應用,2022,42(z2):296?301.
[4] 梁天新,楊小平,王良,等.基于強化學習的金融交易系統(tǒng)研究與發(fā)展[J].軟件學報,2019,30(3):20.
[5] LIANG Z, HAO C, ZHU J, et al. Adversarial deep reinfor?cement learning in portfolio management [EB/OL]. [2023?08?07]. https://arxiv.org/pdf/1808.09940.
[6] XIONG Z, LIU X Y, SHAN Z, et al. Practical deep reinfor?cement learning approach for stock trading [EB/OL]. [2023?02?15]. http://arxiv.org/pdf/1811.07522.
[7] BUEHLER H, GONON L, TEICHMANN J, et al. Deep hedging [J]. Quantitative finance, 2019, 19(8): 1271?1291.
[8] GAO Z, GAO Y, HU Y, et al. Application of deep q?network in portfolio management [C]// 2020 5th IEEE International Conference on Big Data Analytics. [S.l.]: IEEE, 2020: 268?275.
[9] WENG L, SUN X, XIA M, et al. Portfolio trading system of digital currencies: a deep reinforcement learning with multidimensional attention gating mechanism [J]. Neurocomputing, 2020, 402: 171?182.
[10] LEI K, ZHANG B, LI Y, et al. Time?driven feature?aware jointly deep reinforcement learning for financial signal representation and algorithmic trading [J]. Expert systems with applications, 2019, 140: 112872.
[11] LEE J, KOH H, CHOE H J. Learning to trade in financial time series using high?frequency through wavelet transformation and deep reinforcement learning [J]. Applied intelligence, 2021(2): 1?22.
[12] 許杰,祝玉坤,邢春曉.基于深度強化學習的金融交易算法研究[J].計算機工程與應用,2022,29(3):1?11.
[13] YANG H, LIU X Y, ZHONG S, et al. Deep reinforcement learning for automated stock trading: an ensemble strategy [EB/OL]. [2022?12?07]. https://blog.csdn.net/weixin_37958272/article/details/121506666.
[14] LI L. An automated portfolio trading system with feature preprocessing and recurrent reinforcement learning [EB/OL]. [2023?04?11]. http://arxiv.org/abs/2110.05299v1.