張亞飛,王 晶,趙耀帥,武志昊,林友芳
(1.北京交通大學 計算機與信息技術學院,北京 100044;2.交通數據分析與挖掘北京市重點實驗室(北京交通大學),北京 100044;3.中國民用航空局 民航旅客服務智能化應用技術重點實驗室,北京 101318;4.中國民航信息網絡股份有限公司,北京 101318)
股票市場是最大的金融市場之一,根據國家統計局最新統計數據顯示,截止到2020 年,境內的上市公司已發展到了4 154 家,股票市價總值也達到了79.6 萬億元。并且,根據世界銀行最新的數據顯示,截止到2019 年,全球股票市值也已超過61.1 萬億美元。由于股票市場巨大的經濟效益,預測股票市場的未來狀況一直是股市參與者最感興趣的事情之一。目前,針對股票的預測主要集中在股票的價格趨勢預測,即根據以股票價格特征為主的金融時間序列,預測股票價格是否會上漲/下跌,或者價格變化是否會超過一個閾值。
傳統的股票價格趨勢預測方法主要基于基本面分析(Fundamental Analysis,FA)、技術分析(Technical Analysis,TA)[1]和一些計量經濟學模型,比如整合移動平均自回歸模型(AutoRegressive Integrated Moving Average model,ARIMA model)[2]、廣義自回歸條件異方差(Generalized Auto Regressive Conditional Heteroskedasticity,GARCH)模型[3]等。然而,這些方法要么要求投資者具有堅實的金融學基礎理論,要么僅能捕獲金融時間序列的簡單模式,且不適合處理非線性數據,導致傳統方法在實際應用中具有諸多限制。近年來,隨著人工智能技術的崛起和計算機性能的提升,深度學習模型在解決非線性問題方面表現出了強大的能力,其強大的特征自動學習能力也大幅降低了研究人員的研究門檻,在金融預測領域顯示出了廣闊的研究前景,越來越受到研究人員的青睞。
然而,股票價格的變動具有較強的波動性和非平穩性,這給深度學習模型的泛化性能帶來了巨大的挑戰。有效市場假說理論指出,股票價格反映的是市場上存在的信息。由于股票市場結構復雜,信息來源多樣,包括社會輿論情緒、公共新聞、國家政策、企業財務業績、行業信息[4-6]等,它們都會對股票的價格產生影響。基于靜態價格特征訓練的模型很容易對這種復雜的波動性數據產生過擬合,從而降低模型的泛化性能。這也是股票價格預測一直以來面對的一大難題。不過,相對于單只股票價格來說,市場的宏觀趨勢則穩定很多,如果能夠準確地捕捉并結合市場的宏觀環境信息進行預測,將有助于減輕股票波動性帶來的影響[7]。
除此之外,單一股票的價格變動,往往還和其他股票緊密相關[8-9]。比如,同一行業中的股票往往具有相似的變化趨勢,并且會產生一定的超前-滯后效應(Lead-leg Effect)[4];不同行業的股票在同一個社會熱點事件的影響下,也可能會產生截然不同的變化趨勢[10-11]。因此,在進行股票價格趨勢預測時,除了需要考慮股票自身的過往表現以外,還應當綜合考慮股票與股票、股票與行業、行業與行業之間多層次的相互影響,并且這些相互影響還會隨著時間動態變化。而現有的研究往往把每只股票當作一個獨立的個體[12-14],或者根據簡單的先驗知識構建起股票間的靜態關系[15-16],缺少對市場影響的層次性和動態性的考量。
本文提出了一種動態宏觀記憶網絡(Dynamic Macro Memory Network,DMMN),并基于DMMN 同時對多只股票進行價格趨勢預測。該方法利用股票的行業信息動態地從全部股票中提取出不同層次的宏觀環境信息,然后將它們融入每一個股票中,在動態層次性宏觀信息的輔助下減少單一股票價格波動性帶來的影響,從而提升模型的性能。本文的主要工作如下:
1)提出一種融合股票微觀特征信息和市場宏觀環境信息的記憶網絡架構DMMN。這種網絡架構既可以捕獲單只股票的變化趨勢,又能捕獲市場的宏觀變化趨勢,并在單只股票的表示中融入市場的宏觀環境信息,減少股票價格波動性帶來的影響。
2)提出一種分層多尺度的市場宏觀環境表示構建方法。本文按照“股票-行業-市場”的層次來構建市場的宏觀信息。首先考慮同一行業內的所有股票,對每一個行業生成一個行業表示來代表市場的局部環境信息;然后考慮全市場內所有的行業,生成市場宏觀環境表示,用來表示全市場的宏觀信息。通過分層的結構,在捕獲全市場宏觀信息的同時,增強了模型的局部感知能力。
3)引入動態注意力機制,在每一個時間步根據捕獲到的趨勢性信息計算行業內每只股票對生成行業表示的貢獻度,以此確保在每一個時間步都能融入最有價值的信息;同時,借助趨勢性信息,擴大注意力模塊的感受野,增強它的記憶能力,以幫助增強模型對時序數據的處理能力。
為了從股市中獲得超額收益,自股市誕生之日起人們就希望可以準確預測股票價格的趨勢,并在不斷的探索研究中形成了許多金融學理論和市場分析方法,也發展出許多計量經濟學模型用于金融時序數據的預測。隨著人們對金融市場研究的不斷深入和人工智能技術的崛起,近年來涌現出了一批基于深度學習的股價趨勢預測方法,并且憑借它們出色的非線性擬合能力和特征自動學習能力,在股價趨勢預測上有著不俗的表現。
1)傳統的金融學分析方法。基本面分析(FA)和技術分析(TA)是最早最著名的股價趨勢預測方法。其中,FA 是指股票投資者根據金融學、財務管理學、經濟學和證券投資學等學科的相關知識,通過對影響股票投資價值及價格的相關要素的探究,判定股票的投資價值,判斷股票的價位浮動,從而通過預測提出相關投資建議的一種分析方法。這種方法會比較全面地把握股票價格的基本趨勢,但是預測時間跨度相對較長,對短線投資來說時效性較差,且精度較低。TA 僅從股票的各個技術指標來分析和預測股票價格的未來趨勢。TA 所依據的主要技術指標包括K 線類、切線類、形態類、指標類和波浪類,最常用的是K 線圖和指標類的均線。和FA相比,TA 更接近市場的切實變化,能夠直觀地分析股價的漲跌幅度,但是考慮面有限,對于非常規交易不能作出及時判斷。同時,上述兩種方法都有一個共性的問題,那就是需要投資者具備專業的金融學知識和豐富的投資經驗。
2)基于計量經濟學模型的股價趨勢預測方法。與傳統的金融學分析方法不同,基于計量經濟學模型的股價預測方法主要使用金融時間序列來預測股價趨勢,并不需要研究人員具備專業的金融學知識,比如ARIMA 模型和GARCH 模型等。雖然這些模型都具有較強的可解釋性,但是由于其自身線性結構的約束,在面對金融時間序列這種非線性屬性很強的數據時,往往難以達到令人滿意的效果。
3)基于深度學習的股價趨勢預測方法。最近幾年,隨著人工智能技術的崛起和計算機性能的提升,深度學習在圖像識別、流量預測、語音識別、文本分析等各個領域都取得了不俗的成就,在金融領域,特別是股票價格趨勢預測方面也取得了大量的成果[17-19]。有許多研究[20-21]直接利用長短期記憶(Long Short-Term Memory,LSTM)網絡[22]以金融時間序列作為輸入預測股價趨勢。這種方式簡單直觀,但是容易受到股價波動性的影響。為了應對這種情況,Feng 等[13]提出一種對抗訓練方案,在注意力長短期記憶(Attentive LSTM,ALSTM)網絡的基礎上引入對抗訓練來模擬股票市場的隨機性,從而增強模型的泛化能力。而Ding 等[14]則從股價序列自身出發,以金融時間序列的周期性和層次性為切入點進行股價趨勢預測。然而,股價的變動與許多因素息息相關,包括社會輿論、突發事件等,僅依靠單只股票歷史價格序列難以解釋其復雜的波動性,因此出現了很多融合公共新聞、社交媒體[12,23-25]等異質信息的方法。考慮到市場宏觀趨勢相較于股票價格變動來說不確定性更低,Wang 等[7]嘗試利用市場的宏觀指標,從數據和模型的角度緩解股票價格波動性帶來的影響。還有人設計出新的市場指標用于分析市場狀態[26]。除此之外,股票和股票之間也具有很強的依賴關系,一些對股票間相互影響進行建模的研究[15-16]應運而生。然而,現有研究缺少對于股票市場中股票間相互影響的層次性和動態性的考量,忽視了股票對股票、行業對股票、行業對行業這種層次性的影響,并且這種影響會隨著時間不斷變化。
循環神經網絡(Recurrent Neural Network,RNN)[27]是一種以序列數據作為輸入,在序列演進方向進行遞歸且所有節點按鏈式連接的遞歸神經網絡,它出現的目的是解決全連接神經網絡參數量過多、無法利用數據中的時間序列信息等問題。RNN 結構的網絡以遞歸的方式處理一條序列數據,且當前時刻的輸出不僅取決于當前時刻的輸入,還取決于上一時刻的輸出。通過這種結構,RNN 以有限的參數可以做到處理無限量的序列數據,并且天然能夠捕捉到序列中元素的先后順序,非常擅長處理時序數據。但是,當輸入序列過長時,在反向傳播的過程中,很容易出現梯度消失的問題。為此,人們提出了兩種循環神經網絡的變體:LSTM 網絡和門控循環單元(Gated Recurrent Unit,GRU)[28]。然而現有的循環架構的神經網絡都是處理單一序列的模型,無法感知到不同股價序列之間的關系,也無法捕捉到市場宏觀趨勢。雖然有些研究在RNN 結構的基礎上融入了圖卷積網絡(Graph Convolutional Network,GCN)去捕獲股票序列之間的關系[15],但是僅描述了股票之間的靜態關系,對股票間相互影響的層次性和動態性分析不足。并且,受限于模型深度,在這種融入GCN 的方法中,每個股票也只能感知到市場中一小部分環境的信息。
股票趨勢預測被定義為一個三分類問題,對于每一個股票,預測其股價趨勢。對于股價趨勢的定義如下:
其中:pt是調整后的收盤價;rt代表了給定股票s在目標交易日t相較于前一日的價格變化率;l1和l2是兩個閾值,將股票的變化趨勢分成了3 類。因為不同的股票價格差距很大,所以使用價格變化率作為判斷股票漲跌的標準。
考慮股票與股票、股票與行業、行業與行業之間復雜的依賴關系,本文利用股票的行業信息同時對來自m個行業的n只股票進行預測。輸入包括兩部分:第一部分是n只股票長度為T的特征序列,用來表示每一只股票;第二部分是n只股票的行業表示,用來描述行業信息。公式化描述如下:
其中:表示預測結果,是一個n維向量;Xt-T+i∈Rn×d是n只股票在第i個時間步的特征,d代表每個股票在該時間步的特征維度。本文中,每個時間步的股票都包括6 個維度,分別是:開盤價、收盤價、最高價、最低價、成交量、成交額。I∈Rn×m是行業矩陣,描述這n只股票屬于m個行業中的哪一類,若股票p屬于行業q,則Ip,q為1,反之為0。
RNN 的遞歸鏈式結構可以明確地感知到不同時間步的先后關系,因此該架構的神經網絡在處理時序數據上存在天然的優勢。但股票市場受到多種因素的影響,股票變動往往具有很強的波動性,這導致單獨對一個股票進行價格趨勢預測十分困難。而通過圖的形式同時對多個股票進行預測時,又容易出現過于強調個別股票對目標股票的影響這一問題。同時,不合適的圖結構的構建,也會給股價趨勢預測帶來不必要的噪聲。因此,本文提出一種動態宏觀記憶網絡DMMN,以n只股票的特征序列[X1,…,Xi,…,XT]和對應的行業矩陣I作為輸入,動態地從所有的股票中提取出市場宏觀信息,同時對這n只股票進行股價趨勢預測。其中,Xi∈Rn×d,I∈Rn×m,n是股票個數,d是每一個股票在每一個時間步的維度,m是行業數,Xi代表第i個時間步上n個股票的特征。DMMN 的架構如圖1 所示,包括嵌入層、宏觀記憶層和預測層。其中嵌入層和預測層都是普通的全連接網絡:嵌入層的作用是將原始的特征序列進行特征交互,將它們映射到一個高維的特征空間中;預測層以宏觀記憶層的最后一步輸出作為輸入,最終得到n個股票的預測結果。

圖1 DMMN的架構Fig.1 Architecture of DMMN
DMMN 模型的核心是宏觀記憶層,它采用了RNN 的架構,以嵌入后的n只股票的特征序列和行業矩陣作為輸入,進行迭代處理。在每一個時間步,進行數據處理的宏觀記憶單元如圖2 所示,公式化定義如下:

圖2 宏觀記憶單元Fig.2 Macro memory unit
其中:hi∈Rn×D,是在迭代進行完第i步后得到n個股票的D維向量;而ei∈Rm×D,是m個行業的D維向量。和普通的RNN 不同,宏觀記憶層在迭代過程中會輸出兩個不同的隱層[h,e],分別代表n個股票的隱狀態和m個行業的隱狀態。通過這種迭代的形式,既捕獲到了每一個股票微觀層面的時序依賴信息,也能捕獲到股票市場中不同行業局部宏觀環境的時序依賴信息。
宏觀記憶單元通過門控單元來決定保留多少歷史信息以獲得長期的時序依賴,并和當前時間步的信息融合得到每個股票的微觀表示∈Rn×D;然后通過宏觀信息提取模塊動態捕獲每只股票對應的市場宏觀趨勢信息∈Rn×D;最后,將股票的微觀表示和宏觀趨勢信息進行融合得到當前時間步的股票表示hi。同時,宏觀信息提取模塊也會更新得到當前時間步的行業表示ei。計算公式如下:
其中:Gate(*)和Macro(*)分別代表門控單元和宏觀信息提取模塊,將在下面的章節對這兩部分進行詳細介紹;α是超參,用來平衡股票自身的特征信息和宏觀環境信息所占的比重,因為股票的自身信息和市場的宏觀信息同等重要,所以本文α=0.5。
同時,本文隨機初始化宏觀記憶層中包含h0和e0兩個參數,并隨著訓練的進行而更新。
普通RNN 在訓練的過程中很容易出現梯度爆炸和梯度消失的問題,這使得訓練時梯度不能在較長的序列中一直傳遞下去,導致RNN 無法捕捉到長距離的影響。為了解決這些問題,人們利用門控機制提出了RNN 的一些改進結構,其中最具有代表性的就是LSTM 和GRU。為了緩解梯度爆炸和梯度消失帶來的影響,使模型捕獲到序列的長期依賴,本文采用了一種簡單的門控機制,根據當前時間步的輸入xi∈Rn×D和上一時刻的輸出hi∈Rn×D計算出歷史信息的記憶門MGate∈Rn×D,決定有多少歷史數據需要保留到當前時刻;然后將xi和hi-1根據記憶門合并成當前時刻門控單元的輸出。門控單元的結構如圖3 所示,公式化描述如下:

圖3 門控單元Fig.3 Gated unit
其中:W∈R2D×D是待學習參數;σ是sigmoid 激活函數;運算符°表示按元素乘。
股票市場的眾多行業間存在著復雜的關系:有些行業處于同一產業鏈的上下游,比如采礦業和冶金業,這類行業之間往往具有十分密切的關系,在股票市場中往往具有相似的變化趨勢;而有些行業在同一事件的影響下往往具有相反的變化趨勢,比如在互聯網的沖擊下,傳統線下零售業和線上零售業呈現出了完全不同的發展趨勢;此外,同一行業內部,由于公司規模不同、對最新消息的反應速度不同,它們的股價變動也會存在較為明顯的“超前-滯后”效應。種種現象都表明,在股票市場中存在著股票與股票間、行業與行業間、股票與行業間等多種層次的復雜影響。同時,這種復雜的層次影響會隨著時間的推移而不斷變化。因此本文提出了針對股票市場的宏觀信息提取模塊,動態地從宏觀市場中捕捉到層次性的市場宏觀信息,結構如圖4 所示。

圖4 針對股票市場的宏觀信息提取模塊Fig.4 Macro information extraction module for stock market
該模塊的輸入包括4 部分:n只股票當前時間步的特征是股票k的特征向量;n只股票關于m個行業的行業矩陣I;上一時間步輸出的行業表示ei-1;上一時間步輸出的股票表示hi-1。輸出包括2 部分:當前時刻的行業表示ei;當前時刻得到的市場宏觀表示。考慮到市場中相互影響的層次性,宏觀信息提取模塊被設計成一種分層結構。
其中:Kc是所有屬于行業c的股票編號集合;運算符⊙是求兩個向量的內積。本文使用attention 機制計算在一個行業中每個股票所占的權重,從而得到行業的輸入表示。
接著是宏觀信息提取模塊中的門控單元。該門控單元和上一節介紹的門控單元結構相同,不同的是這里的輸入是行業表示而非股票表示xi。同樣的,輸出也是如此。經過門控單元得到了該模塊的第一個輸出,也就是當前時刻輸出的股票表示ei。通過門控單元可以捕獲到行業信息的長期依賴,感知到行業的變化趨勢。
最后是全市場宏觀信息的提取。對于每一只股票來說,不同行業對它的影響程度不同,一般來說,股票所在的行業對它的影響最大。同樣地,同一個行業,對不同的股票的影響也不同。因此針對每一只股票,從m個行業表示中聚合得到n個股票的特異性宏觀市場表示。計算公式如下:
這種動態分層提取市場宏觀信息的設計,既切合了股票市場的實際情況,又增強了對市場中的局部感知性。
本文將股價趨勢預測定義為一個三分類問題,因此,在訓練模型時采用了交叉熵損失。
其中:C是類別數,本文設置C=3;yic是符號函數,如果樣本i的真實類別等于c,則取1,否則取0;pic是觀測樣本屬于類別c的概率,滿足pic≥0,并且
為了評估本文提出的方法,本文收集了CSI300 數據集,并進行了大量的實驗;同時對模型進行了消融實驗,以驗證動態層次提取市場宏觀信息的有效性。
本文在公共API 接口(Tushare)收集的CSI300 數據集由滬深股市上流動性良好的300 家大盤股上市公司組成,按照2021 年最新的公司列表,在刪除了已經摘牌的股票后,共收集了295 家上市公司的數據。為了解決部分股票在某些交易日因為被臨時停牌而缺少交易數據的問題,所有股票的歷史交易日被對齊,并用最近一天的歷史交易數據填充缺失數據。
實驗中,數據集被分成5 段,在每一段上單獨進行訓練與測試。每一段都包含400 個交易日的樣本,其中前250 個交易日的數據用于訓練,中間50 個交易日的數據用于驗證,最后100 個交易日的數據用于測試。同時,為了保證類部均衡,也為了避免過長的時間跨度給股票預測帶來干擾,本文在每一個數據段上單獨進行標簽標記,統計所有樣本的收盤價變化率,確定其下三分位點和上三分位點,分別作為l1和l2,使標記后的樣本達到類部均衡。具體描述見表1。

表1 數據描述Tab.1 Data description
對于這樣一個分類任務,本文首先比較了不同方法的F1 分數。F1 分數常用來衡量多分類任務下模型的性能,兼顧模型的精準率和召回率。
除此之外,為了評估模型的實際收益能力,本文參考了Sawhney 等[16]的做法,將訓練好的模型在測試集上進行了市場投資模擬,根據模型的預測結果構造投資組合,計算投資組合的夏普比率來評價模型在現實市場的實際適用性。首先從預測為漲的股票中選擇5 個預測概率最高的股票進行投資,即以當前交易日的收盤價購入股票,然后以第二天的收盤價賣出股票。接著從預測為跌的股票中選擇5 個概率最高的股票進行賣空,即在當前交易日從證券機構借入股票,以當前交易日的收盤價售出,然后在第二天以收盤價購入并還給有關機構,賺取股票價格下跌的差價。在進行投資和賣空時,每只股票投入的金額一致,因此收益率就是股價收盤價的變化率。夏普比率的計算公式如下:
其中:Ra是一個隨機變量,代表對每個股票投資的收益率;Rf是無風險投資的收益率,這里選用的是國債投資的日收益率;std(Ra)代表Ra的標準差。
在進行市場投資模擬時有以下幾點假設:1)股票市場有足夠的流動性,股票總是可以順利地以收盤價及時買入賣出;2)投資金額足夠大,因此可以忽略交易成本,包括手續費等資金。夏普比率反映了在一定風險下,投資組合能帶來多大的收益,如果夏普比率為正,代表收益為正,反之代表收益為負;并且,夏普比率越大,代表該投資組合能在承擔更小風險的情況下獲得更高的收益。
ARIMA[2]:一個差分整合移動平均自回歸模型,通過回歸預測股票收盤價的變化率,然后根據閾值判斷股票價格的漲跌形式。
多層感知機(Multi-Layer Perceptron,MLP)[17]:一個簡單的多層感知機,包含3 個隱層,分別有64、32、16 個隱藏神經元,每個樣本輸出為一個3 維的向量,表示3 分類的預測結果。
卷積神經網絡(Convolutional Neural Network,CNN)[18]:它包含兩層隱狀態,每一層的通道數分別為64 和128。這里使用一維卷積,在時間方向上滑動卷積核,同時捕捉股票的時序依賴信息和特征交互信息。
LSTM[20]:一種循環神經網絡,隱層維度為128。實驗中只使用了一層循環單元。
GCN-LSTM[15]:添加了GCN 的LSTM 網絡,依據行業關系構造股票之間的圖結構,然后通過GCN 捕捉股票之間的關系,最后通過LSTM 捕獲股票間的時序依賴。
ALSTM[13]:添加了Attention 機制的LSTM 網 絡,針 對LSTM 在不同時間步得到的隱狀態計算出對應的權重,然后將各時間步的隱狀態匯聚在一起,增強了對不同時間步的感知能力。
在5 段數據集上對不同模型分類結果的F1 分數和夏普比率進行對比,結果如表2 所示,其中:最優的結果被加粗標注,次優的結果標注下劃線。

表2 CSI300數據集的5段數據上的F1分數和夏普比率對比Tab.2 F1-score and Sharpe ratio comparison on 5 phase data of CSI-300 dataset
由表2 可知,DMMN 的F1 分數除了在第3 段數據上取得了次優的結果以外,在其他所有的數據段上都達到了最優的效果;DMMN 在5 段數據上的平均F1 分數也是最高的,與基準模型中最優的模型ALSTM 相比提升了4.87%。此外,通過比較不同模型在5 段數據集上F1 分數的標準差可以發現,DMMN 的穩定性最好。雖然ALSTM 在第3 段數據集上的表現最優,但是它的標準差約為DMMN 的2.74 倍,其余方法的標準差也遠高于DMMN。這也說明,引入市場動態層次宏觀信息確實可以降低股價變化波動性帶來的影響,提升模型的泛化能力。也正是由于其他方法受股價變化波動性的影響大,才使得像ALSTM 這樣的方法出現在某一數據段上取得很好的效果卻在其他數據段表現一般的情況。
從5 段數據上根據模型構造的投資組合的夏普比率結果可知,DMMN 在大多數數據段上都取得了最優或者次優的結果,并且平均夏普比率也達到了最好的水平,相比ALSTM提升了31.90%。這表明在實際應用時,本文方法可以在承擔更小的風險的情況下取得更高的收益。
為了驗證宏觀記憶網絡架構和動態層次提取宏觀市場環境信息的有效性,對模型作出一定的調整后進行了多次消融實驗。
首先,為了驗證動態層次提取市場宏觀環境信息的有效性,同時驗證行業信息的作用,對宏觀信息提取模塊進行修改得到宏觀記憶網絡(Macro Memory Network,MMN)。該網絡的宏觀記憶模塊不再分組得到每個行業的表示,而是直接得到全市場的表示。同時,DMMN 的輸出ei不再代表m個行業的行業表示,而是全市場的宏觀表示。即和DMMN 相比,MMN 不再具備動態層次地提取市場宏觀信息的能力。
接著,為了驗證宏觀記憶網絡架構的有效性,在MMN 的基礎上,宏觀信息提取模塊的門控單元被刪除,得到宏觀網絡(Macro Network,MacroN)。這種改變直接使宏觀記憶單元不再有ei這一輸出,而是僅能根據當前時間步的輸入去捕獲市場的宏觀信息,不具備對歷史宏觀信息的記憶能力。消融實驗的實驗結果如表3 所示。通過對比消融實驗的結果可以發現,從MacroN 到MMN,再到DMMN,模型的性能依次提升,證明了宏觀記憶網絡架構和動態層次提取宏觀市場環境信息的有效性。

表3 消融實驗結果Tab.3 Results of ablation experiment
針對股價變動波動性大這一挑戰,本文提出一種動態宏觀記憶網絡DMMN,以股票的金融時序數據和行業標識作為輸入,同時對多只股票進行預測。該網絡架構在迭代處理股票的金融時序數據時,不僅能夠捕捉到每只股票的長期趨勢,還能捕捉到行業的長期趨勢。并且,考慮到股票市場中相互影響的復雜性,本文提出了動態層次性提取市場宏觀信息的策略。首先從全體n個股票表示中動態得到股票市場中m個行業的行業表示,然后再針對每一個股票動態生成其特異性的市場表示以獲得對其有用的宏觀市場信息。這種分層的結構提升了模型對全市場的局部感知能力。在Tushare 上收集了CSI300 數據集,將其分成5 段,再對這處于不同時期的5 段數據集分別進行實驗,從分類性能和現實適用性兩個角度來對模型進行評估。實驗結果表明,引入市場宏觀信息確實能夠緩解股價變化波動性帶來的影響;而且市場投資模擬結果也表明,本文提出的模型具有更好的市場適用性。通過消融實驗還可以看到,宏觀記憶網絡結構和動態分層提取宏觀信息的設計都提升了模型的性能。
下一步將對股票自身微觀的特征序列之間的影響進行研究,考慮同時引入市場宏觀環境信息和股票微觀特征信息進行股價趨勢預測。