毛月月,張秋悅
(1.貴州師范大學大數據與計算機科學學院,貴陽550025;2.貴州師范大學數學科學學院,貴陽550025)
股票市場是國家經濟和金融活動的重要體現,在各國的經濟發展中發揮著重要的作用,同時對于國家、企業、個人都有著重要的影響。如果能夠提前掌握股市的動向,將會給投資機構和投資者帶來收益。但是由于股票市場的不確定性和波動性,如果股民盲目投資,將會帶來不可計量的損失。因此,股票的預測一直是一項具有挑戰性和重要意義的任務。
股票預測,作為一個交叉的研究方向,數學家、經濟學家、計算機領域的研究者們都在這個領域做了相當多的工作。這些工作主要分為兩類,第一類方法是僅使用股票的歷史數據[1-6]去預測股市,其忽略了影響股市的關鍵來源:金融新聞和社交平臺的股民評論。近年來,大數據的計算技術、人工智能等技術的發展,促使人們不僅可以處理結構化的數據,對于非結構化的文本數據也能很好的處理。深度學習技術的廣泛使用,使得自然語言處理的能力逐漸提升。越來越多的研究者開始使用數據挖掘技術從大量金融新聞、社交媒體中挖掘重要信息,研究其和股票歷史數據的相關性,通過結合兩者一起預測股市的波動情況,從而為股民們提供建議。下面從以上兩種方法對相關的工作進行介紹。
金融領域的許多分析和假設表明,股票市場是可預測的。研究者們通過對過去股票市場的數據進行研究來預測股市,下面介紹其預測使用的方法。
Tang C 等人[1-2]都使用分段線性表示(PLR)來確定歷史數據的波谷或波峰。前者結合高斯過程分類來預測股票價格的轉折點。后者結合隨機森林去分類和預測轉折點,最后使用深度遞歸神經網絡(DRNN)設計投資決策模型。
傳統的模型都是基于歷史數據的統計特征和圖像特征來分析數據,其只通過默認值固定每一個時間窗口來獲取股票數據中不同指標的特征,這樣預測的結果精度不高。RIT Ritzmann Junior 等人[3]提出使用遺傳算法來最優化時間窗口的值,然后使用支持向量機(SVM)來決定未來交易是購買、持有還是出售。
傳統的方法大多數使用線性模型來預測股票,例如支持向量機、決策樹、隨機森林等。這種方法的優點是僅使用結構化的數據,數據的處理比較簡單且運算速度快。這種線性統計模型的主要缺點是無法解釋各種公司股票價格之間存在的潛在動態和關系,而且股票數據是帶時間屬性的,這種方法也不能捕獲其時序特征。
CHEN Y 等人[4]提出深度學習的方法去預測股票的變化趨勢和持續時間。使用卷積神經網絡(CNN)去提取短期的特征,使用PLR 對時間序列數據進行分割,提取長期的特征,最后通過雙重注意力機制去關注長短期特征對股票預測的影響。
ZHANG K 等人[5]提出使用生成對抗網絡來預測股票市場,其以多層感知機(MLP)為鑒別器,長短期記憶網絡(LSTM)為生成器來預測收盤價,這是一種新方法的突破,但是其僅僅和基準的方法做了對比,值得繼續深入和改進。
這種方法的優點是能夠捕獲到股票數據的時序特征,缺點是由于僅使用單一的歷史股票數據,其預測結果精度不高,忽略了突發事件對股市造成的即時影響。
股票市場中,股市的波動受國家宏觀經濟發展、法律法規,以及股民的情緒等因素的影響。因此,結合歷史股票數據以及相應的金融新聞和股民的評論進行分析具有重要意義。基于對新聞文本的特征提取方式進行劃分,使用的方法分為如下三個類型。
Xiao Ding 等人[6]證明了使用結構化的事件去預測股票的有效性。其總結了前任的不足,即以前關于新聞驅動的股票市場預測的工作通過詞袋模型、命名實體識別和名詞短語的方式提取文本特征,得到的僅是文本淺層的特征,這些特征不能捕獲結構化的實體關系信息。其提出采用事件的結構化表示即:E=(O1,P,O2,T),其中O1代表參與者,P 代表行動,O2代表執行動作的對象,T 代表時間戳,用于將股票數據與新聞數據對齊。以此來實現股票漲、跌的預測。
Xiao Ding 等人[7]在2015 年提出一個基于深度學習方法的事件驅動型股票預測模型。首先,將大型的財經新聞語料轉換為詞向量的形式。其次,不同于文獻[6],這里使用神經張量網絡去獲取新聞的事件表示,然后將提取到的具有時間順序的向量表示作為輸入,采用卷積神經網絡(CNN)去提取長、中、短期的特征,長期使用30 天的數據,一天的事件通過取平均值獲得。將其按照時間順序排列,設置一個滑動窗口,同一個窗口內的事件進行卷積操作。之后,將所有卷積層輸出的向量進行最大池化(獲得局部的最大特征),得到最終的長期事件向量。中期時間定義為過去的一周,方法和上面類似,短期事件使直接將前一天的所有事件求平均。最終得到長、中、短期的三個事件向量,將三者拼接為一個向量表示,聯系這個特征向量和股票價格,得到最后的分類結果即股票價格的漲跌。
Dev Shah 等人[8-12]都提出基于詞典的新聞情緒分析模型來研究新聞文章中情感表達對股票的影響。首先需要建立一個情感詞典,然后對新聞文本進行情感極性分析,最后結合新聞的情感極性、股票歷史數據以及相鄰日收盤價的方差來進行股市的預測。
Manoj S Hegde 等人[13]提出利用公司歷史股價和金融新聞及社交媒體內容的情緒得分進行預測。與上述方法不同的是,其使用了LSTM 模型去捕獲數據中的時間序列信息,同時還提出了基于CNN 分類器的推薦模塊,最后采用背包投資模型來使投資者收益最大化,投資最小化。
Luca Cagliero 等人[14]提出了一種將新聞信息、歷史股票價格相結合的趨勢逆轉方法來量化股票交易。文章中主要研究三個問題,在基于分類的趨勢逆轉方法中新聞信息是否值得考慮?新聞信息對于股票預測有什么影響?什么特征應該結合新聞情感分析去最大化趨勢逆轉的平均回報率?其使用方法也是對新聞進行情感分析,不同的是其提出了基于股票預測分類的趨勢反轉策略。其監控每只股票的每日收盤價格變化,以檢測用戶在持續時間的上升趨勢或下降趨勢,最后針對上一步檢測到的每一個趨勢,訓練分類器以便于預測未來五天的收盤價格變化。
Ryo Akita 等人[15]提出將每一篇新聞文檔表示成一個固定長度的向量,然后將所有文章的向量表示連接起來,同時與經過標準化處理的股票價格一同送入長短期記憶網絡(LSTM)中捕獲文本和股票的時序信息,最后通過回歸輸出預測值。LSTM 捕獲文本和股票的時序信息時,LSTM 的輸入是文本序列和股票價格序列的連接,其存在一個問題,即文本信息的表示維度遠大于股票數值表示的維度,其容易造成文本信息對于預測的影響更大,導致預測精度的不平衡。為了解決這個問題,文章提出對向量的大小進行縮放,以使每個向量具有相同的維數。
Che-Yu Lee 等人[16]提出基于遞歸神經網絡的股票預測模型,采用Word2Vec 將新聞標題轉化為詞向量的形式,然后使用CNN 提取文本的局部特征,將提取的文本特征向量和過去的股票價格送入到LSTM 中,其可以捕獲金融新聞和價格的長期時間依賴性,最后預測輸出股票類別,分別是上升、下降、持平。
結合非結構化的文本數據(金融新聞、社交媒體數據)和結構化的歷史數據(股票數值數據)來對股市進行預測時,如何從眾多文本數據中挖掘出對于股票價格影響的信息十分重要。同時,如何把非結構化的文本數據表示成輕量、精簡而不失其語義信息的抽象特征十分重要。
以上就是對近年來股票預測方法的總結,我們可以看出使用股票的歷史數據去預測股市,其忽略了市場波動中金融新聞和公眾評論所造成的影響。結合歷史數據和金融新聞和公眾評論去預測股票時,如何準確、快速地從文本中挖掘出關鍵信息十分重要。基于深度學習的預測方法能更好地提取文本和股票數據的特征,特別是循環神經網絡其能夠捕獲數據的時序特征。
股票預測領域大多數是確定并跟蹤持續的價格趨勢,這個趨勢在未來幾天將會持續。相反,利用機器學習算法預測股市趨勢的逆轉的研究相對較少,未來可以在這個方向上深入研究。