基于改進遺傳算法和圖神經網絡的股市波動預測方法

2022-06-21 07:18:06李曉寒賈華丁程雪李太勇

計算機應用 2022年5期

關鍵詞：特征評價

李曉寒，賈華丁，程雪，李太勇

（西南財經大學經濟信息工程學院，成都 611130）（?通信作者電子郵箱lixiaohan134@163.com）

基于改進遺傳算法和圖神經網絡的股市波動預測方法

李曉寒*，賈華丁，程雪，李太勇

（西南財經大學經濟信息工程學院，成都 611130）（?通信作者電子郵箱lixiaohan134@163.com）

針對支持向量機（SVM）、長短期記憶（LSTM）網絡等智能算法在股市波動預測過程中股票評價特征選擇困難及時序關系維度特征缺失的問題，為能夠準確預測股票波動、有效防范金融市場風險，提出了一種基于改進遺傳算法（IGA）和圖神經網絡（GNN）的股市波動預測方法——IGA-GNN。首先，利用相鄰交易日間的時序關系構建股市交易指標圖數據；其次，通過評價指標特性優化交叉、變異概率來改進遺傳算法（GA），從而實現節點特征選擇；然后，建立圖數據的邊與節點特征的權重矩陣；最后，運用GNN進行圖數據節點的聚合與分類，實現了股市波動預測。在實驗階段，所研究的股票總評價指標數為130個，其中IGA在GNN方法下提取的有效評價指標87個，使指標數量降低了33.08%。應用所提IGA在智能算法中進行特征提取，得到的算法與未進行特征提取的智能算法相比，預測準確率整體提升了7.38個百分點；而與應用傳統GA進行智能算法的特征提取相比，應用所提IGA進行智能算法的特征提取的總訓練時間縮短了17.97%。其中，IGA-GNN方法的預測準確率最高，相較未進行特征提取的GNN方法的預測準確率整體提高了19.62個百分點；而該方法與用傳統GA進行特征提取的GNN方法相比，訓練時間平均縮短了15.97%。實驗結果表明，所提方法可對股票特征進行有效提取，預測效果較好。

股市預測；遺傳算法；圖神經網絡；機器學習；特征選擇

0 引言

股票價格走勢是一種非線性、非穩定的時間序列，在過去三十多年里，為能夠有效防范金融風險，對股票價格的分析和預測從未停止過。實際上，關于股票價格預測的研究發展歷程與信息技術的迭代息息相關，最早的股價預測研究可以追溯到20世紀末，Lo等［1］證明了股票價格并不會遵循非隨機漫步理論，從而佐證了股市價格的可預測性。隨著計算機技術的發展，對于股市價格波動的預測從最初的人工逐漸轉變為計算機算法：Dierks等［2］采用遺傳算法通過歷史交易數據實現了對股票價格趨勢的捕捉；Kim等［3］提出了支持向量機（Support Vector Machine， SVM）用于股票價格的研究，后續又進一步利用多層感知器研究股票價格的波動［4］。自此之后，越來越多的智能算法被應用到股市價格波動的研究中。Nelson等［5］以歷史交易數據和技術分析指標為基礎運用長短期記憶（Long Short-Term Memory， LSTM）網絡來預測股價波動趨勢。基于卷積神經網絡（Convolutional Neural Network， CNN）［6-7］、循環神經網絡（Recurrent Neural Network， RNN）等神經網絡及其改進神經網絡的算法在股票價格波動研究領域得到了廣泛的應用［8-9］。特征選擇是影響智能算法預測性能的重要因素，上述智能算法輸入不同的特征指標，呈現出了不同的預測結果。目前股票市場具有多個維度上萬種股票特征因子用于預測和評價股票。為解決股票評價特征選擇問題，Huang等［10］和He等［11］提出了通過遺傳算法進行特征選擇，并與智能算法結合預測股市波動；然而所選用的傳統遺傳算法忽略了評價特征的時間序列特點，特征選擇效率較低。如何高效選擇用于智能算法的股市評價特征成為亟待解決的問題。過往研究對于已選定的特征指標數據側重于單個交易日。為獲取股市波動趨勢信息，Selvin等［7］提出了應用滑動窗口方法［12］來預測短期內的股市波動，但是其忽略了不同交易間隔中變化的相關性。如何有效捕獲及準確表示時間序列特征因子的動態趨勢也是需要研究和解決的問題。

為能夠準確獲取股票特征因子及變化趨勢信息，本文提出了基于改進遺傳算法（Improved Genetic Algorithm， IGA）和圖神經網絡（Graph Neural Network， GNN）的股市波動預測方法IGA-GNN進行股票特征因子的選擇，通過遺傳算法（Genetic Algorithm， GA）進行全局搜索，應對量化特征因子的評價選擇［13］，并引入自適應交叉概率和變異概率提高全局搜索效率［14］。同時，構建了股票特征圖數據，每個交易日為一個節點，將經過選擇的特征因子設置為節點特征，相鄰交易日設置為節點的邊，相鄰交易日的特征因子變動量設置為邊權重，運用圖神經網絡對構建的圖數據分析預測股市波動。

1 相關工作

1.1 股市預測

股票市場的研究中已經證明，股價趨勢預測與金融時間序列的特征密切相關［1］。事實上，金融數據之間具有噪聲、非線性、隨機的金融時間特征，影響因素眾多且復雜［15］。但是Edwards等［16］研究證明金融時間序列走勢會重現，個別特殊時間序列走勢會極其相似地出現在未來時間序列的走勢中。因此，股票價格走勢可以被預測，學者們引入各種評價指標，用于股市價格波動的預測。從最初的開盤價、收盤價等直接指標逐漸衍生出動能、重量等有效顯示某一特性的間接指標，如：Jegadeesh等［17］提出了股票的價格有延續原來的運動方向的趨勢，成交量、換手率均衍生出動量因子用于股票價格走勢預測；Fama等［18］利用總市值、賬面市值比等衍生指標因子構建了因子定價模型用于解釋預期股票報酬率的橫截面變化。隨著評價指標研究的更新變化，股市預測方法也在不斷發展。預測方法從最初的人工通過交易數據進行預測逐漸轉變為通過計算機獲得的金融時間序列統計特性輔助預測，例如，ARMA（Auto Regressive Moving Average）等方法就是基于時序的統計學特性進行股票價格預測［19］。隨著人工智能的飛速發展，股票走勢預測逐漸由機器輔助預測轉變為計算機可自主迭代學習預測。經典的機器學習算法如SVM、LSTM等廣泛應用于股票價格走勢預測［20］，但始終存在引言中所述的問題需要進一步探索。

1.2 遺傳算法

Holland教授基于優勝劣汰的生物進化理論于1975年提出了遺傳算法［21］，遺傳算法具有簡單易于實現，且具有普遍適用性的特點。在之后的幾十年中遺傳算法在各個領域得到了廣泛應用［22-24］，并且隨著算法應用的深入，遺傳算法不斷得到優化改進［25-26］。金融預測方面遺傳算法也得到了廣泛應用，如：1）對于智能算法的參數優化，Kim等［27］提出了一種基于遺傳算法的特征離散化方法，優化神經網絡層間的連接權值和特征離散化的閾值降低特征空間維度，預測股票價格指數；Fang等［28］提出了改進遺傳算法優化目標和小波神經網絡變化的網絡參數以改善神經網絡在股市預測中的表現。2）對于時間窗口的優化，Chung等［29］運用現有財務數據建立了長短期記憶網絡和遺傳算法融合的股票市場預測模型，利用遺傳算法來確定長短期記憶網絡的時間窗大小及拓撲結構，通過實驗選擇韓國股票價格指數驗證了所提方法的預測準確率優于基準模型。采用遺傳算法進行特征選擇及權重優化，Bonde等［30］取得了上市公司的6個屬性，并使用6個連接權重進行連接，每個連接權重值定義了每個屬性在預測股票價格時給出的貢獻，運用遺傳算法優化連接權重用于量化分析公司股票波動。但是，遺傳算法對于股票評價特征選擇的維度較少，且對于多維特征選擇的效率也并不理想。

1.3 圖神經網絡

為能夠解決圖數據的深度學習問題，圖神經網絡應運而生。短短幾年時間圖神經網絡技術突飛猛進，得到了廣泛的應用［31］。Bruna等［32］首次提出了圖卷積神經網絡，采用譜空間方法定義圖卷積。ChebNet（Chebyshev Net）［33］和圖神經網絡（GNN）［34］為能夠降低時空復雜度，從空間角度定義節點的權重矩陣，對核函數進行參數優化。近年來，部分金融領域學者也嘗試使用關系數據進行金融領域研究，并提出了運用此類方法預測股市波動。Kim等［35］提出了一種利用關系數據進行股票市場預測的分層注意力網絡，用于預測個股價格和市場指數的走勢；Liu等［36］提出了一種利用上市公司之間各種關系知識圖譜并采用門控循環單元（Gated Recurrent Unit， GRU）的模型用于股市波動預測；Matsunaga等［37］研究了市場預測和圖神經網絡交叉工作的有效性；Chan［38］則通過構建相關公司關系圖的方式采用圖卷積神經網絡方法進行信息融合分析。雖然學者們針對利用圖神經網絡方法對股市預測進行了研究探索，但是仍處于起步階段。對于金融圖數據關系維度的表示及應用，特別是股市評價特征的圖數據并未有更為深入的探究。

總結以上研究的局限性，主要有以下幾個方面：1）首先，遺傳算法對于機器學習算法在股市預測方面的優化，多基于對算法參數的優化，而非立足于股市金融屬性本身對股市評價特征因子進行相關優化及搜索。2）其次，面對海量股市評價特征因子進行選擇，以往的研究多以靜態截面數據為主，而忽略了特征因子波動趨勢信息，特征節點信息與趨勢信息未能較好實現融合。3）另外，傳統的機器學習算法缺乏對金融市場波動維度的分析，忽略了股市波動的趨勢規律及延續性，主要以歐幾里得結構樣本進行數據訓練及預測，對于股市波動趨勢傳導機制有待進一步探索。

為了克服現有相關工作的局限性，本文提出了一種基于改進遺傳算法和圖神經網絡的股市波動預測方法，通過提高交叉及變異效率改進遺傳算法進行股市評價特征因子的選擇，構建包含特征因子波動趨勢信息的股市評價圖數據，并運用圖神經網絡方法預測股市波動情況。本文的主要工作如下：

1）解決股市評價特征因子預測股市波動的過擬合問題，利用因子間的相關性更新變異概率優化遺傳算法完成股市特征因子選擇。

2）以交易日為節點構建股市圖數據，創新股市評價特征嵌入方法，以此捕獲傳遞股市趨勢信息。

3）鑒于圖神經網絡對于非歐氏數據處理的優勢［39］，本文從圖神經網絡邊的消息傳遞角度，結合構建的股市圖數據特點優化圖神經網絡的消息傳遞機制，對股市波動進行預測。

2 本文方法

2.1 模型的整體設計

本文所提出的方法通過改進遺傳算法選擇股票特征因子構建圖數據，并運用圖神經網絡進行股市波動的預測，模型框架如圖1所示，通過接口獲取Yahoo財經數據，加工生成股市評價因子。

圖1 本文模型框架示意圖Fig. 1 Schematic diagram of proposed model framework

如圖1所示，模型對所要進行選擇的因子進行基因編碼，并采用改進遺傳算法進行全局搜索。本文所提出的IGA的核心為根據股票特征因子的特性動態調整交叉概率和變異概率，以提高GA的效率，避免陷入局部最優。將經選擇后的股市評價特征因子用于構建預測股市的圖數據，采用圖神經網絡對圖數據節點聚合，以股市漲跌為標記進行節點分類。將量化評價預測準確率作為適應度函數的輸出對本文IGA進行迭代優化。最終，得到有效評價股票的特征因子用于股市波動預測，如圖2所示。

2.2 圖數據構建

本文中選取較為常用的13個股票評價特征指標數據表示為一個二進制向量：。表示第個指標是否用于評價股票，表示第個指標不用于評價預測股票，表示第個指標用于評價預測股票。本文參考文獻［16-17］中提及的指標參數，進行了指標參數的合并歸納，本文采用的13個股票指標數據如表1所示，包括：最高價（High price， High）、最低價（Low price， Low）、開盤價（Opening price， Open）、成交量（Volume of transaction， Volume）、復權后的收盤價（Closing price， Close）、簡單移動平均值（simple Moving Average， MA）、指數移動平均值（Exponential Moving Average， EMA）、順勢指標（Commodity Channel Index， CCI）、動量指標（MoMenTum， MMT）、動量指標%K（StOchastic K%， SOK）、動能指標%D（StOchastic D%， SOD）、強力指數（Force Index， FI）、重量指數（Mass Index， MI）。在取以上指標參數的基礎上，賦予不同的時間跨度（3 d，5 d，10 d和15 d）。

2.3 改進遺傳算法

遺傳算法是根據生物進化理論衍生出來的搜索最優解的方法，其核心是“適者生存”的理念，通過不停地迭代個體和種群，完成優勝劣汰。本文將量化投資收益作為一個種群適應度，每一個量化投資策略作為一個個體，股票特征因子則作為染色體，染色體將會通過不同的機器學習算法帶來盈利，種群個體在迭代進化過程中，算法采用交叉、變異等遺傳操作實現最優個體及染色體的選擇。尋找最優股票特征因子作為機器學習的訓練資源，達到最優適應度，實現量化投資策略收益的最大化。

2.3.1 染色體編碼的設置

染色體編碼是遺傳算法優化機器學習算法的關鍵，本文選取2.2節中介紹的較為常用的13個股票指標數據作為染色體基因，包括最高價、最低價、開盤價、成交量、復權后的收盤價、簡單移動平均值、指數移動平均值、順勢指標、動能指標、動能指標%K、動能指標%D、強力指數、重量指數。

圖2 股市評價特征因子Fig. 2 Feature factors of stock market evaluation

表1 常用的股票指標參數Tab. 1 Common stock index parameters

2.3.2 適應度函數的確定

機器學習模型的準確率是評價機器學習預測模型的重要指標，模型的準確率與預測性能密切相關。個體適應度則為算法的最終追求目標，也是算法迭代的動力，設為適應度函數，機器學習的混淆矩陣如表2所示。

表2 混淆矩陣Tab. 2 Confusion matrix

個體的適應度函數為：

機器學習的準確率為遺傳算法不斷進化的目標，機器學習的預測準確率越高，個體表現越好，其個體及種群的適應度就越大。

2.3.3 遺傳操作的設計

傳統選擇算子常采用輪盤賭法或最優個體保存策略，采用傳統方法選擇算子會把適應度高的個體淘汰，或者出現局部最優現象，降低了遺傳進化效率。設是種群中個體的個數，是的適應度，采用輪盤法選出的個體的概率依賴于種群向量，概率表達式為：

由大數定理可知，大樣本平均值與單個實驗結果的期望值接近。隨著種群數量不斷變多，選擇每一個個體的比例會接近于。

具體流程為：初始化種群，計算種群內個體的適應度，將個體適應度按照最優進行排序，如果，即種群中個體適應度大于上一個種群中個體適應度中的最大值，則作為精英個體進行保留，剩余個體按照式（3）給出的隨時間、適應度值及初始向量變化的比例向量實施選擇動作。

2.3.4 自適應交叉概率和變異概率的設計

通過實驗驗證可知，傳統遺傳算法對于不同應用場景并未表現出高效的普適性，結合各個領域、應用場景的改進遺傳算法應運而生。改進遺傳算法多采用自適應的方式調整交叉概率。適應度好的，賦予一個較小的交叉概率，而且隨著迭代不斷增加，賦予的交叉概率不斷減小。引入這種自適應的交叉概率策略以提高GA的全局搜索能力。

本文基于現有研究［40］（如表3所示）的基礎上，對交叉和變異概率進行了重新設計，交叉概率設計如下：

表3 遺傳算法的參數設置Tab. 3 Parameter setting of genetic algorithm

本文IGA部分中個體基因是股票特征因子，其之間存在相關關系，變異概率不采用固定值，基因突變是保持物種多樣的必要操作，因此選擇個體基因之間相關系數的平均值作為變異概率，相關系數平均值越大，變異概率越大。為了避免導致近親繁殖和進入進化的死胡同，根據式（7）求得各基因之間的相關系數，形成相關系數矩陣。

不同個體結合相關系數矩陣，可以獲得基因之間的相關系數平均值，則變異概率設計如下：

2.4 優化圖神經網絡

本文借鑒GraphSAGE（Graph Sample and AggreGatE）嵌入生成方法［41］，對于股市評價特征因子圖數據指標均采用消息傳遞模式進行相應指標子圖的節點更新嵌入。基于圖神經網絡進行股市波動預測的流程如圖3所示。

圖3 基于圖神經網絡股市波動預測流程Fig. 3 Flow chart of stock market volatility prediction based on graph neural network

3 實驗驗證與結果分析

本文數據來源于雅虎財經2000年1月1日至2019年6月15日蘋果（AAPL）、臉書（FB）、特斯拉（TSLA）、通用汽車（GM）、國際商業機器公司（IBM）、微軟（MSFT）、卡特彼勒（CAT）、埃克森美孚（XOM）、家得寶（HD）、標普500ETF-SPDR（SPY）的指標數據，包括最高價、最低價、開盤價、成交量、復權后的收盤價、移動平均值、指數移動平均值、順勢指標、動量指標、動量指標%K、動量指標%D、強力指標、重量指數，指標構建方式如表1所示。其中，2000年1月1日至2015年12月31日為訓練數據，2016年1月1日至2019年6月15日為測試數據。采用標準普爾500指數中的500支成分股進行訓練，為能有效測量準確率和收益，采用標準普爾500指數基金進行回測。實驗在Intel Xeon Silver4114 CPU RAM 128 GB的服務器上運行完成，軟件環境為Python3.6.1。

為能夠進一步驗證所構建模型的優越性，本文將IGA應用在K最近鄰（K-Nearest Neighbor， KNN）分類算法、支持向量機（SVM）算法、長短期記憶（LSTM）網絡算法、樸素貝葉斯（Naive Bayesian， NB）算法進行比較。將實驗數據按交易日指標數據和波動值組成向量進行其他算法的訓練及測試。

KNN算法的理論來源于極限定理，樣本的分類主要根據其最近鄰的一個或幾個樣本來決定待分類樣本的所屬類別。KNN算法更加適合類域的交叉和重疊較多的樣本集。

支持向量機（SVM）是一種應用廣泛的機器學習分類算法，將特征指標拼接成向量，并將向量輸入支持向量機進行預測。

長短期記憶（LSTM）網絡在1997年被首次提出，是為了解決RNN存在的問題，避免梯度消失和爆炸。該算法將原來簡單的神經網絡結構改造為鏈式結構，通過門結構實現對信息的控制、保護和傳遞。

樸素貝葉斯（NB）理論是基于貝葉斯定理和特征條件獨立假設。樸素貝葉斯算法屬于監督機器學習，其核心是基于概率進行分類，概率值則取決于待分類客體的設定特征。用于對比的模型參數設置參考文獻［42-45］，如表4所示，其中GNN參數為式（9）～（11）中的變量，指標因子為13個，且圖數據中的邊為無向邊，所以GNN參數設置為。

表4 不同算法參數設置Tab. 4 Parameter setting of different algorithms

3.1 模型訓練效率

將各經典機器學習算法采用GA和本文IGA的訓練時間進行比較，通過圖神經網絡采用不同的遺傳算法策略進行特征選擇，圖4以蘋果公司股票（AAPL）為例展示了特征選擇遺傳算法的進化過程，同時給出了自適應交叉和變異概率過程，GA為基本遺傳算法［46］，IGA1為改進算法采用固定的交叉變異算子進行優化［40］，IGA2為采用了交叉變異算子自調整策略［47］，IGA3為采用了本文提出的改進遺傳算法。

圖4 不同改進遺傳算法的進化過程Fig. 4 Evolution processes of improved genetic algorithms

訓練時間的對比結果如表5所示，從表5中可以看出：采用本文提出的IGA進行機器學習的訓練速度優于采用傳統GA進行特征選擇機器學習的訓練速度，本文所提的IGA相較于傳統GA在特征選擇效率方面更有優勢。傳統GA應用于實驗中智能算法進行特征提取的總訓練時間為1 520 126 s，本文IGA用于該過程的總訓練時間為1 246 886 s，總訓練時間縮短了17.97%。其中，IGA有效提升了圖神經網絡的訓練效率，IGA-GNN相較使用GA的圖神經網絡的訓練時間平均縮短了15.97%。

3.2 模型預測性能

表6中，經過本文IGA優化的機器學習算法提高了股市預測精度。實驗結果表明，對于遺傳算法所選擇出的股票評價特征，不同股票和機器學習算法所選擇的最優特征體系是不同的，進一步驗證了采用本文IGA進行特征選擇的必要性，每支股票和機器學習算法通過適配提取出的因子最大限度提高了預測準確率和效率。

表7則給出了改進遺傳算法在圖神經網絡方法下選擇的最優評價股票因子。表7中涉及個股10支，總評價指標數130個，結果顯示有效指標87個，指標數量下降了33.08%。下文將按照表7所示特征因子體系進行策略回測，驗證策略的收益。

表5 不同算法的訓練時間對比單位： sTab. 5 Comparison of training time among different algorithms unit： s

表6 不同算法的準確率對比Tab. 6 Comparison of accuracy among different algorithms

表7 IGA-GNN方法選擇的股票評價指標Tab. 7 Stock evaluation indexes selected by IGA- GNN method

3.3 收益情況比較

本文選取2020年6月1日至2020年12月31日的150個交易日的數據進行文本策略的回測。模型預測上漲，則生成買入信號，下降則生成賣出信號，連續相同信號不觸發交易操作。策略初始資金為10 000，以交易日收盤價作為收益結算標準。根據表6中的預測準確率，選取IGA-KNN、IGA-SVM、IGA-LSTM、IGA-NB、GNN與本文方法進行比較。圖5給出了本文所提方法形成的策略在投資蘋果、臉書、特斯拉、通用汽車、國際商業機器公司、微軟、卡特彼勒、埃克森美孚、家得寶、標普500ETF-SPDR（AAPL、FB、TSLA、GM、IBM、MSFT、CAT、XOM、HD、SPY）的所得收益情況。

由表6～7可以初步得出，不同的股票及算法對于股票評價特征體系具有不同的要求，但是在幾支股票中，特征指標均選擇了重量指數、移動平均值和復權后的收盤價。移動平均值能夠反映股票價格變化的慣性指標，慣性的特質使其可以作為判斷股市走勢的有效工具，其波峰、波谷及形態則可以提供量化交易中進行交易的有效信號。復權后的收盤價為每日最終股票狀態。兩種重要指標也是量化策略經常采用的指標，如金叉死叉策略等。可以看出，本文提出的改進遺傳算法具有較好的評價股票特征指標選擇的能力。采用該方法進行特征選擇的算法的預測準確率優于傳統采用全維度特征的算法。

圖5 不同算法的量化策略投資收益情況Fig. 5 Investment returns of quantitative strategies in different algorithms

如圖5中個股及標準普爾500指數策略收益結果所示，IGA-GNN形成的策略交易收益最優，與表6中呈現的結果基本相符。股市交易指標圖數據嵌入和圖神經網絡預測方法的準確率與經過本文IGA進行特征選擇后的LSTM、KNN、SVM、LSTM、NB方法準確率相當，甚至略優于以上方法。表6結果表明本文所提基于改進遺傳算法和圖神經網絡的預測方法遠優于未經過該方法進行特征選擇的方法，驗證了本文所提出的IGA有效提升了智能算法的預測性能。將節點特征作為圖數據的核心組成部分，圖5給出了經過本文改進遺傳算法特征選擇的圖神經網絡IGA-GNN具有更好的預測性能，明顯優于GNN方法，進一步驗證了改進遺傳算法特征選擇對于圖神經網絡的重要性。然而，圖5（h）中對于XOM個股的GNN與IGA-GNN方法的策略收益最為接近，經表7的特征選擇結果分析可知，采用本文改進遺傳算法進行特征選擇的方法經訓練優化后，最優評價指標中并未選擇重量指數（Mass Index）。XOM個股波動的預測最優評價指標維度與全量維度最為接近，進一步驗證了特征選擇的有效性。綜上，實驗結果充分驗證了本文改進遺傳算法與圖神經網絡方法融合的必要性和優越性。

4 結語

目前主流的機器學習算法廣泛應用于量化投資領域，由于機器學習算法存在面對海量的數據和瞬息萬變的市場行情算法訓練時間過長的問題，模型迭代更新速度嚴重影響預測準確率，本文提出了IGA-GNN方法以自適應交叉概率和變異概率的方式改進GA，使其作為選擇特征的核心，并運用圖神經網絡方法進行股票評價預測。本文方法在提高股票特征因子使用效率的同時，保證了所選擇股票特征因子的可解釋性，通過實驗驗證了本文方法有效提高了股市波動預測準確率。但是，本文采用的評價指標為股票交易數據，而實際金融市場中影響股票波動的因素非常多，對于股票多源異構信息的融合及分析將成為下一步研究的方向。

[1] LO A W， MACKINLAY A C. Stock market prices do not follow random walks：evidence from a simple specification test ［J］. The Review of Financial Studies， 1988， 1（1）： 41-66.

[2] DIERKS T， ALLEN C. The TLS protocol version 1.0： RFC 2246［S］. Reston： Internet Society， 1999.

[3] KIM K. Financial time series forecasting using support vector machines ［J］. Neurocomputing， 2003， 55（1/2）： 307-319.

[4] 鄧一沙.多層感知器神經網絡構建交易策略——基于滬深300股指期貨數據［D］.成都：西南財經大學，2012：62-71.（DENG Y S. Building a trading strategy via multilayer perceptron neural network — base on the CSI300Stock index futures data ［D］. Chengdu：Southwestern University of Finance and Economics， 2012： 62-71.）

[5] NELSON D M Q， PEREIRA A C M， DE OLIVEIRA R A. Stock market’s price movement prediction with LSTM neural networks ［C］// Proceedings of 2017 International Joint Conference on Neural Networks. Piscataway： IEEE，2017： 1419-1426.

[6] WHITE H. Economic prediction using neural networks： the case of IBM daily stock returns ［C］// Proceedings of the IEEE 1988 International Conference on Neural Networks. Piscataway： IEEE， 1988：451-458.

[7] SELVIN S， VINAYAKUMAR R， GOPALAKRISHNAN E A， et al. Stock price prediction using LSTM， RNN and CNN-sliding window model ［C］// Proceedings of the 2017 International Conference on Advances in Computing，Communications and Informatics. Piscataway： IEEE， 2017： 1643-1647.

[8] RATHER A M， AGARWAL A， SASTRY V N. Recurrent neural network and a hybrid model for prediction of stock returns ［J］. Expert Systems with Applications， 2015， 42（6）： 3234-3241.

[9] JAHAN I， SAJAL S. Stock price prediction using Recurrent Neural Network （RNN） algorithm on time-series data ［EB/OL］. ［2021-01-12］. http：//micsymposium.org/mics2018/proceedings/MICS_2018_paper_55.pdf.

[10] HUANG C F， CHANG B R， CHENG D W， et al. Feature selection and parameter optimization of a fuzzy-based stock selection model using genetic algorithms ［J］. International Journal of Fuzzy Systems， 2012，14（1）：65-75.

[11] HE Y Q， FATALIYEV K， WANG L P. Feature selection for stock market analysis ［C］// Proceedings of the 2013 International Conference on Neural Information Processing， LNCS 8227. Berlin： Springer， 2013： 737-744.

[12] CHOU J S， NGUYEN T K. Forward forecast of stock price using sliding-window metaheuristic-optimized machine-learning regression ［J］. IEEE Transactions on Industrial Informatics， 2018， 14（7）： 3132-3142.

[13] BARON M， BROGAARD J， HAGSTR?MER B， et al. Risk and return in high-frequency trading ［J］. Journal of Financial and Quantitative Analysis， 2019， 54（3）： 993-1024.

[14] BERAT SEZER O， OZBAYOGLU A M. Algorithmic financial trading with deep convolutional neural networks： time series to image conversion approach ［J］. Applied Soft Computing， 2018， 70： 525-538.

[15] 李立輝，田翔，楊海東，等.基于SVR的金融時間序列預測［J］.計算機工程與應用，2005，41（30）：221-224.（LI L H，TIAN X， YANG H D， et al. Financial time series forecasting based on SVR ［J］. Computer Engineering and Applications，2005， 41（30）： 221-224.）

[16] EDWARDS R D， MAGEE J， BASSETTI W H C. Technical Analysis of Stock Trends ［M］. 11th ed. Boca Raton： CRC Press， 2018：34-45.

[17] JEGADEESH N， TITMAN S. Returns to buying winners and selling losers：implications for stock market efficiency ［J］. The Journal of Finance， 1993， 48（1）： 65-91.

[18] FAMA E F， FRENCH K R. Common risk factors in the returns on stocks and bonds ［J］. Journal of Financial Economics， 1993， 33（1）： 3-56.

[19] TANG H， CHIU K C， XU L. Finite mixture of ARMA-GARCH model for stock price prediction ［EB/OL］. ［2021-03-10］. http：//www.cse.cuhk.edu.hk/～lxu/papers/conf-chapters/TangCIEF2003.pdf.

[20] CHEN K， ZHOU Y， DAI F Y. A LSTM-based method for stock returns prediction： a case study of China stock market ［C］// Proceeding of 2015 IEEE International Conference on Big Data. Piscataway： IEEE， 2015： 2823-2824.

[21] 李敏強，寇紀淞，林丹，等.遺傳算法的基本理論與應用［M］.北京：科學出版社，2002：31-62.（LI M Q， KOU J S， LIN D， et al. Basic Theory and Application of Genetic Algorithm ［M］. Beijing： Science Press， 2002： 31-62.）

[22] 李壯年，儲滿生，柳政根，等.基于機器學習和遺傳算法的高爐參數預測與優化［J］.東北大學學報（自然科學版），2020，41（9）：1262-1267.（LI Z N， CHU M S， LIU Z G， et al. Prediction and optimization of blast furnace parameters based on machine learning and genetic algorithm ［J］. Journal of Northeastern University （Natural Science）， 2020， 41（9）： 1262-1267.）

[23] SILVA R C C， DE MENEZES JúNIOR J M P， DE ARAúJO JúNIOR J M. Optimization of NARX neural models using PSO and GA algorithms applied to identification of photovoltaic systems ［J］. Journal of Solar Energy Engineering， 2021， 143（5）： Article No. 051001.

[24] 孫波，姜平，周根榮，等.改進遺傳算法在移動機器人路徑規劃中的應用［J］.計算機工程與應用，2019，55（17）：162-168.（SUN B， JIANG P， ZHOU G R， et al. Application of improved genetic algorithm in path planning of mobile robots ［J］. Computer Engineering and Applications，2019， 55（17）： 162-168.）

[25] WHITLEY D， STARKWEATHER T. GENITOR II： a distributed genetic algorithm ［J］. Journal of Experimental and Theoretical Artificial Intelligence， 1990，2（3）： 189-214.

[26] JIAO L C， WANG L. A novel genetic algorithm based on immunity［J］. IEEE Transactions on Systems， Man， and Cybernetics — Part A： Systems and Humans， 2000， 30（5）： 552-561.

[27] KIM K J， HAN I. Genetic algorithms approach to feature discretization in artificial neural networks for the prediction of stock price index ［J］. Expert Systems with Applications， 2000， 19（2）： 125-132.

[28] FANG Y， FATALIYEV K， WANG L P， et al. Improving the genetic-algorithm-optimized wavelet neural network for stock market prediction ［C］// Proceeding of the 2014 International Joint Conference on Neural Networks. Piscataway： IEEE， 2014： 3038-3042.

[29] CHUNG H， SHIN K S. Genetic algorithm-optimized long short-term memory network for stock market prediction ［J］. Sustainability，2018， 10（10）： Article No.3765.

[30] BONDE G， KHALED R. Stock price prediction using genetic algorithms and evolution strategies ［EB/OL］. ［2021-02-10］. http：//worldcomp-proceedings.com/proc/p2012/GEM4716.pdf.

[31] 呼延康，樊鑫，余樂天，等.圖神經網絡回歸的人臉超分辨率重建［J］.軟件學報，2018，29（4）：914-925.（HU Y K， FAN X， YU L T， et al. Graph based neural network regression strategy for facial image super-resolution ［J］. Journal of Software， 2018， 29（4）： 914-925.）

[32] BRUNA J， ZAREMBA W， SZLAM A， et al. Spectral networks and locally connected networks on graphs ［EB/OL］. ［2021-02-12］. http：//arxiv.org/pdf/1312.6203.pdf.

[33] DEFFERRARD M， BRESSON X， VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering ［C］// Proceedings of the 2016 30th International Conference on Neural Information Processing Systems. Red Hook： Curran Associates Inc.， 2016：3844-3852.

[34] KIPF T N， WELLING M. Semi-supervised classification with graph convolutional networks ［EB/OL］. ［2021-02-12］. https：//arxiv.org/pdf/1609.02907.pdf.

[35] KIM R， SO C H， JEONG M， et al. HATS： a hierarchical graph attention network for stock movement prediction ［EB/OL］. ［2021-02-12］. https：//arxiv.org/pdf/1908.07999.pdf.

[36] LIU J， LU Z C， DU W. Combining enterprise knowledge graph and news sentiment analysis for stock price volatility prediction ［EB/OL］. ［2021-02-10］. https：//scholarspace.manoa.hawaii.edu/bitstream/10125/59565/1/0125.pdf.

[37] MATSUNAGA D， SUZUMURA T， TAKAHASHI T. Exploring graph neural networks for stock market predictions with rolling window analysis ［EB/OL］. ［2021-02-12］. https：//arxiv.org/pdf/1909.10660.pdf.

[38] CHAN W S. Stock price reaction to news and no-news： drift and reversal after headlines ［J］. Journal of Financial Economics， 2003， 70（2）： 223-260.

[39] BRONSTEIN M M， BRUNA J， LECUN Y， et al. Geometric deep learning： going beyond Euclidean data ［J］. IEEE Signal Processing Magazine， 2017， 34（4）： 18-42.

[40] DE JONG K A， SPEARS W M， GORDON D F. Using genetic algorithms for concept learning ［J］. Machine Learning， 1993， 13（2/3）： 161-188.

[41] HAMILTON W L， YING R， LESKOVEC J. Inductive representation learning on large graphs ［C］// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook： Curran Associates Inc.， 2017： 1025-1035.

[42] CHEN Y J， HAO Y T. A feature weighted support vector machine andK-nearest neighbor algorithm for stock market indices prediction ［J］. Expert Systems with Applications， 2017， 80：340-355.

[43] LI Q， JIANG L L， LI P， et al. Tensor-based learning for predicting stock movements ［C］// Proceedings of the 2015 29th AAAI Conference on Artificial Intelligence. Palo Alto： AAAI Press， 2015： 1784-1790.

[44] LIU X W， DOU Y， YIN J P， et al. Multiple kernelk-means clustering with matrix-induced regularization ［C］// Proceedings of the 2016 30th AAAI Conference on Artificial Intelligence. Palo Alto： AAAI Press， 2016： 1888-1894.

[45] SHIHAVUDDIN A S M， AMBIA M N， AREFIN M M N， et al. Prediction of stock price analyzing the online financial news using Naive Bayes classifier and local economic trends ［C］// Proceedings of the 2010 3rd International Conference on Advanced Computer Theory and Engineering. Piscataway： IEEE， 2010： V4-22-V4-26.

[46] VOSE M D. The Simple Genetic Algorithm： Foundations and Theory ［M］. Cambridge： MIT Press， 1999： 89-95.

[47] JAFAR-ZANJANI S， INAMPUDI S， MOSALLAEI H. Adaptive genetic algorithm for optical metasurfaces design ［J］. Scientific Reports， 2018， 8： Article No.11040.

Stock market volatility prediction method based on improved genetic algorithm and graph neural network

LI Xiaohan*， JIA Huading，CHENG Xue， LI Taiyong

（School of Economic Information Engineering，Southwestern University of Finance and Economics，Chengdu Sichuan611130，China）

Aiming at the difficulty in selecting stock valuation features and the lack of time series relational dimension features during the prediction of stock market volatility by intelligent algorithms such as Support Vector Machine （SVM） and Long Short-Term Memory （LSTM） network， in order to accurately predict stock volatility and effectively prevent financial market risks， a new stock market volatility prediction method based on Improved Genetic Algorithm （IGA） and Graph Neural Network （GNN）named IGA-GNN was proposed. Firstly， the data of stock market trading index graph was constructed based on the time series relation between adjacent trading days. Secondly， the characteristics of evaluation indexes were used to improve Genetic Algorithm （GA） by optimizing crossover and mutation probabilities， thereby realizing the node feature selection. Then， the weight matrix of edge and node features of graph data was established. Finally， the GNN was used for the aggregation and classification of graph data nodes， and the stock market volatility prediction was realized. In the experiment stage， the studied number of total evaluation indexes of stock was 130， and 87 effective evaluation indexes were extracted from the above by IGA under GNN method， making the number of stock evaluation indexes reduced by 33.08%. The proposed IGA was applied to the intelligent algorithms for feature extraction. The obtained algorithms has the overall prediction accuracy improved by 7.38 percentage points compared with the intelligent algorithms without feature extraction. Compared with applying the traditional GA for feature extraction of the intelligent algorithms， applying the proposed IGA for feature extraction of the intelligent algorithms has the total training time shortened by 17.97%. Among them， the prediction accuracy of IGA-GNN method is the highest， which is 19.62 percentage points higher than that of GNN method without feature extraction. Compared with the GNN method applying the traditional GA for feature extraction， the IGA-GNN method has the training time shortened by 15.97% on average. Experimental results show that， the proposed method can effectively extract stock features and has good prediction effect.

stock market prediction; Genetic Algorithm (GA); Graph Neural Network (GNN); machine learning; feature selection

TP391.7

1001-9081（2022）05-1624-10

10.11772/j.issn.1001-9081.2021030519

2021?04?06；

2021?07?15；

2021?07?15。

中央高校基本科研業務費專項資金資助項目（JBK2102001）。

李曉寒（1985—），男，山東濟南人，博士研究生，CCF會員，主要研究方向：金融信息管理、智能決策、大數據、商務智能；賈華丁（1956—），男，四川成都人，教授，博士，CCF會員，主要研究方向：機器學習、算法交易、擴頻序列設計；程雪（1997—），女，山西河津人，碩士研究生，CCF會員，主要研究方向：機器學習、量化交易；李太勇（1979—），男，四川安岳人，教授，博士，CCF高級會員，主要研究方向：機器學習、模式識別、自然計算。

This work is partially supported by Fundamental Research Funds for Central Universities （JBK2102001）.

LI Xiaohan， born in 1985， Ph. D. candidate. His research interests include financial information management， intelligent decision-making， big data， business intelligence.

JIA Huading， born in 1956， Ph. D.， professor. His research interests include machine learning， algorithmic trading， spread spectrum sequence design.

CHENG Xue， born in 1997， M. S. candidate. Her research interests include machine learning，quantitative trading.

LI Taiyong， born in 1979， Ph. D.， professor. His research interests include machine learning， pattern recognition， natural computing.