經濟行為呈現出高度的復雜性和不確定性[1]。以證券交易為例,海量的多種策略類型的投資交易者相互博弈,并受到全球經濟活動的影響,使得證券數據異常龐大而且充滿了復雜的隨機性。對證券數據的研究,提取其特征和規律可應用于金融理論分析或交易指導,例如產生交易信號、投資策略等。因而長期以來,對證券數據的有效分析一直以來都是熱點研究領域。
在證券數據研究的早期,研究者主要靠著數學工具以及市場的經驗和一些經濟學知識來判斷證券的漲跌,或預測證券的價格。其后,隨著社會科學不斷的發展,研究者提出量化計算證券數據的更多規律特征,從而發展成為量化投資技術[2-4]。總體而言,因證券交易數據作為一種時間序列總體上體現出高度的復雜性和不確定性,研究者們嘗試利用各種方法、工具尋找出證券數據的規律,然而目前卻仍然沒有完善、成熟的理論或者算法來解釋證券數據中的規律和包含的信息。
機器學習技術具有類似人的思維能力,亦被稱之為人工智能,其中深度學習技術[5]是機器學習領域的核心學習技術,推動著人工智能時代往前邁出一大步。利用機器學習相關算法對證券數據進行研究是一大熱點與新穎的研究方向。
本文采用深度學習算法來研究證券歷史數據,通過學習趨勢交易者對證券數據的思維方式,從中獲取證券數據的特征信息并挖掘證券交易中隱藏的規律。由于證券數據的趨勢特征具有周期性和穩定性,深度學習如果能提取出證券數據中的特征趨勢,這樣就可以分析證券市場的運動方向,給投資者提供可靠的指導信息。
在機器學習領域,卷積神經網絡有著非常強大的功能,能夠提取局部數據的特征、局部數據與局部數據之間的聯系。本文選擇神經網絡和深度學習技術作來提取證券數據的趨勢特征。
證券歷史數據來自于國內A股市場,考慮到次新股的歷史交易周期偏短,因此剔除了上市時間不足1年的次新股,得到近2200只證券的歷史交易數據作為訓練樣本和回測數據,典型的證券數據以及趨勢指標(MACD、均線等)計算結果見表1。

表1 證券歷史數據與趨勢指標
表1中的數據作為輸入數據,其中的行數據代表不同時間周期的歷史交易數據或技術指標值,數據的交易周期包括天、周、月、分鐘等。此外,深度學習模型還需要輸入期望數據,即標簽數據。本文采用漲/跌這兩種趨勢分類,由此得到對輸入數據趨勢(trend)的期望輸出標簽數據。
本文模型訓練數據為日線和周線數據。在深度學習模型的訓練過程中,數據的處理流程如圖1所示。先將數據分為m組的二維數據,二維數據的大小為(dateLen,input_dim)。dateLen表示每組二維數據包含日線數據的天數,input_dim表示輸入特征向量個數。接下來分割數據,任意從表中截取 行 列( 即卷積核的大小,遠小于所有交易個數,小于輸入特征向量)的數據,將一組二維數據又分為n個局部數據。每個截取的小塊數據的特征、各個截取的小塊數據之間的聯系就是隱藏在證券數據中的特征。利用深度學習模型將這些特征利用卷積核提取出來并記錄在每一步的輸出數據中。

圖1 深度學習模型的數據預處理過程
將上述輸入數據集作為本文的訓練樣本數據集,訓練樣本數據集在訓練過程中按照時間先后順序會被分為訓練集與驗證集,訓練集占80%,驗證集占20%。訓練過程中將每一組數據通過已經構建好的模型進行訓練,每一組訓練完成后都會保存當前組訓練完的權重值以及每組訓練的結果。當下一組的數據訓練時,會加載上一組訓練完成的權重值,接續上輪的訓練后權重值繼續加以訓練,直到所有的數據通過模型的訓練過程。圖2是訓練函數誤差的收斂情況,表明隨著訓練輪數的增加,訓練集的準確率也是逐步提高到趨于穩定,最終訓練集的準確率達到了72%;驗證集的準確率基本也是先增加再趨于穩定狀態,最終準確率達到了68%,且其相對于訓練集,更早進入了穩定狀態,對證券數據的趨勢特征分析效果優良。

圖2 漲/跌趨勢分類的訓練誤差收斂情況
本文研究了利用卷積神經網絡與深度學習技術,構造一種證券數據趨勢分析模型來提取證券歷史數據特征信息。首先研究了對證券歷史數據的預處理和樣本標簽化處理,然后采用分塊的循環訓練模式。仿真結果表明,本模型對證券數據的漲/跌特征提取的效果良好,主要趨勢特征趨勢分類的準確率達到68%,穩定性高、可泛化性好,具備一定的參考價值和應用價值。