[摘" " 要] 我國股票交易市場每天都在產(chǎn)生大量交易數(shù)據(jù),為了解決傳統(tǒng)交易分析方法難以處理海量數(shù)據(jù)的缺陷,引入量化投資的方式。但是,量化投資是利用計算機技術(shù)建模以挖掘交易信號的一種投資方式,不能脫離傳統(tǒng)分析方法和解決投資者對于投資組合管理的需求。為此,本文提出一種融合投資者情緒和改進特征提取網(wǎng)絡(luò)的深度強化算法的股票投資組合模型,可以借助深度神經(jīng)網(wǎng)絡(luò)來處理原始數(shù)據(jù),提取新聞和評論情感與股票的時間序列交易數(shù)據(jù)的特征信息,再利用強化學習不斷訓(xùn)練以實現(xiàn)智能決策。
為了驗證模型的效果,使用HS300成分股中100只流通性好的股票作為資產(chǎn)池,首先改善深度強化學習算法的特征提取網(wǎng)絡(luò),使用多層感知機神經(jīng)網(wǎng)絡(luò)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)作為特征提取網(wǎng)絡(luò),應(yīng)用到深度確定性策略梯度算法(DDPG)、雙延時深度確定性策略梯度算法(TD3)、柔性演員—評論員算法(SAC)中。其次,使用基于新聞和評論文本的情緒分析模型計算投資人情緒影響力分值。最后,融合情緒影響力分值輸入后重新訓(xùn)練智能體,在測試數(shù)據(jù)集上,CTD3-LSTM模型最高收益率達到38.81%,歐米伽率為1.35,最大回撤率為14.3%,均明顯優(yōu)于其他對照組。
[關(guān)鍵詞] 投資組合管理;深度強化學習;改善特征提取網(wǎng)絡(luò);文本情緒分析
doi : 10 . 3969 / j . issn . 1673 - 0194. 2023. 03. 036
[中圖分類號] F830.91" " [文獻標識碼]" A" " " [文章編號]" 1673 - 0194(2023)03- 0130- 04
0" " " 引" " 言
中國股票市場迅速發(fā)展,每天產(chǎn)生海量的交易數(shù)據(jù),推進了信息技術(shù)與金融市場的融合。深度強化學習將深度學習的感知能力和強化學習的決策能力相結(jié)合,是一種更接近人類思維方式的人工智能方法。因此將深度強化學習應(yīng)用于量化投資領(lǐng)域,可以促進金融交易向智能化方向發(fā)展,是金融領(lǐng)域科技創(chuàng)新的一個重大突破。我國個體投資者與互聯(lián)網(wǎng)用戶具有高度的耦合性。數(shù)據(jù)顯示,截至2021年12月,中國網(wǎng)民規(guī)模達10.32億,互聯(lián)網(wǎng)普及率達73.0%,使用手機上網(wǎng)的比例高達99.7%。[1]互聯(lián)網(wǎng)已經(jīng)成為輿論發(fā)布、傳播的主要載體,每個人既創(chuàng)造和傳遞輿論,又深受其影響。深度強化學習技術(shù)快速發(fā)展[2],它在其他很多領(lǐng)域取得成功,研究人員認為它可以很好地處理復(fù)雜和非線性的金融市場數(shù)據(jù),越來越多的學者嘗試用深度強化學習算法解決投資組合策略問題。
1nbsp; " " 問題與虛擬環(huán)境設(shè)定
現(xiàn)有基于深度強化學習的投資組合優(yōu)化研究大多側(cè)重于實現(xiàn)算法在金融市場中的應(yīng)用,一般選擇采用深度前饋神經(jīng)網(wǎng)絡(luò)對金融時序數(shù)據(jù)進行特征提取處理。在深度強化學習的數(shù)據(jù)輸入上,很少考慮中國投資者的情緒傾向等因素。
1.1" "狀態(tài)空間
在構(gòu)建虛擬交易環(huán)境的過程中參考了FinRL的構(gòu)建步驟[3],我們使用一個包含17部分信息的1 601維向量來表示多個股票交易環(huán)境的狀態(tài)空間。其中現(xiàn)金余額是1維,持股數(shù)量是100只股票100個維度,每只股票的收、開、低、高、交易量等信息加上MA、RSI、MACD、KDJ、WR等10項技術(shù)指標15項,共1 500個維度,總共1 601個狀態(tài)維度。
1.2" "動作空間
本文使用一個連續(xù)的動作空間來對多個股票的交易進行建模,并將資產(chǎn)動作空間的定義為[-k,…,-1,0,1,…,k],其中-k和k是我們可以購買和出售的股份數(shù)量,那么在t時刻投資組合權(quán)重wt的公式如式(1)所示:
在式(1)中,wi,t表示第i個資產(chǎn)在t時間的權(quán)重,用[w1,t,w2,t,…,wn,t]表示n只股票的權(quán)重并滿足wi,t之和等于1。
2" " " 改進特征提取網(wǎng)絡(luò)的深度強化算法模型
深度強化算法模型中的特征提取網(wǎng)絡(luò)是感知數(shù)據(jù)信息特征值的主要工具,本文利用深度前饋神經(jīng)網(wǎng)絡(luò)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期神經(jīng)網(wǎng)絡(luò)(LSTM)分別構(gòu)建深度確定性策略梯度算法(DDPG),雙延時深度確定性策略梯度算法(TD3),柔性演員—評論員算法(SAC)的特征提取網(wǎng)絡(luò)。
2.1" " DDPG、TD3、SAC算法框架
DDPG算法采用深度強化學習的演員和評論員(Actor-Critic)架構(gòu)[4],具體架構(gòu)由4個神經(jīng)網(wǎng)絡(luò)組成。TD3算法采用了雙重Critic網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計[5],比DDPG算法多了一套Critic網(wǎng)絡(luò),由六個神經(jīng)網(wǎng)絡(luò)組成。SAC算法的網(wǎng)絡(luò)結(jié)構(gòu)有5個神經(jīng)網(wǎng)絡(luò)[6],1個Actor網(wǎng)絡(luò),2個Critic V網(wǎng)絡(luò)(1個V Critic當前網(wǎng)絡(luò),1個V Critic目標網(wǎng)絡(luò)),2個Critic Q網(wǎng)絡(luò)。本文分別用三種特征提取神經(jīng)網(wǎng)絡(luò)構(gòu)架Actor和Critic網(wǎng)絡(luò)。
2.2" "算法實證分析
交易數(shù)據(jù)集中按照10∶1劃分訓(xùn)練數(shù)據(jù)集和交易數(shù)據(jù)集,將2011年1月4日到2021年1月4日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,2021年1月4日到2021年12月31日的數(shù)據(jù)作為交易數(shù)據(jù)集,總步長設(shè)定為10萬步。
本文為了對比改進特征提取網(wǎng)絡(luò)的效果,將實驗組分成DDPG、TD3、LSTM算法的改進特征提取網(wǎng)絡(luò)對照組,特征提取網(wǎng)絡(luò)分別是MLP、CNN、LSTM特征提取網(wǎng)絡(luò)。我們對三組深度強化算法進行回測,改善特征提取器的三種算法的智能體表現(xiàn)都優(yōu)于基線指標,最差的年化收益率是SAC對照組中LSTM 特征提取網(wǎng)絡(luò)的3.83%,TD3對照組中的LSTM特征提取網(wǎng)絡(luò)獲得了最高的21.34%的收益率。TD3-CNN對照組智能體表現(xiàn)也十分突出,獲得了15.01%的年化收益率并且夏普率和最大回撤率也僅排在TD3-LSTM之后,并且年化波動率小于TD3-LSTM模型,具體實測結(jié)果見表1。
3" " " 基于新聞和評論文本的情緒分析模型
3.1" "基于新聞和評論文本的情緒分析框架
基于股票新聞和評論文本的情緒分析模型是通過詞向量技術(shù)提取出其中股票相關(guān)的特征向量,之后導(dǎo)入金融詞庫輸入訓(xùn)練情緒分析模型,最終輸出資產(chǎn)池中每只股票的情緒分析影響值。
3.2" "數(shù)據(jù)采集和金融詞典訓(xùn)練
本文共計采集了32萬頁新聞和評論數(shù)據(jù),整理后得到640萬條數(shù)據(jù),包括股評信息、作者、點贊數(shù)、作者粉絲數(shù)、閱讀量和評論數(shù)等信息,用于計算投資者的情緒分值。利用CFSD中文金融情緒詞典、金融領(lǐng)域中文情緒詞典和知網(wǎng)情緒詞典對其進行訓(xùn)練[7],增加情緒分析的準確度。通過幾種中文金融情緒詞典訓(xùn)練后,保存模型并修改SnowNLP庫的初始文件中的文件路徑就可以用新模型分析金融情緒詞典。
3.3" "新聞和評論情緒影響力值計算
金融評論情緒分析是對每日的評論按照股票代碼分類、對評論數(shù)據(jù)分詞、計算每詞情緒分、累加每條評論情緒分、統(tǒng)計每日所有的情緒分值。因為一些權(quán)威人士對于金融市場有著超乎想象的影響力,所以在計算情緒影響力分值時加入了作者的關(guān)注度和粉絲數(shù)分值。
我們用情緒影響力分值作為融合數(shù)據(jù)輸入之前TD3算法中,因此需要測試情緒影響分值和股價的相關(guān)性,我們使用MIC最大互信息系數(shù)來表示情緒影響分值和股價的相關(guān)性。隨機抽取兩只股票(平安銀行、瀘州老窖)測試相關(guān)性,MIC最大互信息系數(shù)顯示值分別為0.59和0.6,表示其為強相關(guān)性,因此股票影響力分值可以作為影響股價的因素之一輸入深度強化學習模型中進一步研究。
4" " " 融合新聞和評論文本情緒分析的深度強化學習模型
融合情緒分析的雙延時深度確定性策略梯度算法簡稱CTD3,將融合模型分成CTD3-MLP、CTD3-CNN、CTD3-LSTM對照組,對比三種特征提取網(wǎng)絡(luò)的訓(xùn)練過程的效果,發(fā)現(xiàn)三種特征提取網(wǎng)絡(luò)都使智能體模型收斂,說明融合網(wǎng)絡(luò)模型對于策略網(wǎng)絡(luò)改進沒有效果。
而在收益率方面,CTD3-MLP、CTD3-CNN和CTD3-LSTM三個對照組的測試中收益率效果都強于基線和改進特征提取網(wǎng)絡(luò)的兩個對照組,取得了良好的效果,其中CTD3-LSTM取得了最好的收益率38.81%。由此可見,如果按照收益率來看,最佳的融合智能體模型是CTD3-LSTM,表現(xiàn)最均衡的是CTD3-CNN對照組,具體見表2所示。
5" " " 結(jié)" " 語
本文提出基于投資者情緒分析和深度強化學習算法結(jié)合的股票投資組合優(yōu)化模型,改進了深度強化算法的特征提取網(wǎng)絡(luò)對金融時序數(shù)據(jù)特征提取能力,使用SnowNLP庫提取情緒分析數(shù)據(jù)輸入深度強化算法模型訓(xùn)練,取得最高收益率達到38.81%。但本研究仍有不足,在今后的工作中將從以下幾方面加以改進。
第一,在本文中直接使用了SnowNLP類庫分析投資者情緒,SnowNLP類庫使用的是樸素貝葉斯原理分析情緒概率分布,現(xiàn)在已有BiLSTM和Bert模型可以更好地分析情緒分值,在后續(xù)的研究中可以更新模型以提高實驗準確率。
第二,在選擇深度強化算法時選用的都是Off-Policy算法,沒有嘗試On-Policy算法,在以后的工作中可以盡量嘗試其他深度強化算法與融合情緒影響力數(shù)據(jù)結(jié)合。
主要參考文獻
[1]武曉莉.中國網(wǎng)民規(guī)模達10.32億[N].中國消費者報,2022-03-03(003).
[2]焦禹銘.基于深度強化學習的股票投資組合管理及實證研究[D].西安:西北大學,2021.
[3]Liu X-Y,Yang H, Chen Q,et al. FinRL:A Deep Reinforcement Learning Library for Automated Stock Trading in Quantitative Finance[C]//Neurl IPS,2020.
[4]Lillicrap T P, Hunt J J, Pritzel A, et al.Continuous Control with Deep Reinforcement Learning[C]//ICLR,2016.
[5]Thrun S,Schwartz A.Issues in Using Function Approximation for Reinforcement Learning[C]//Proceedings of the Fourth Connectionist Models Summer School,1993.
[6]Haarnoja T, Zhou A,Abbeel P,et al.Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor[C]//Proceedings of the ICML,2018.
[7]姚加權(quán),馮緒,王贊鈞,等. 語調(diào)、情緒及市場影響:基于金融情緒詞典[J].管理科學學報,2021,24(5): 26-46.