顧書豪 羅效禹 何江 西華大學經濟學院
中國的第一份股指期貨合約滬深300股指期貨合約于2010年4月16日推出。在這之后,隨著金融市場的不斷完善,相繼推出了兩種股指期貨,包括上證50股指期貨和中證500股指期貨。由于股指期貨市場流動性差,市場主體無法對沖風險。基于此,國內學者圍繞股指期貨展開了大量研究,盡管少數學者研究證實推廣股指期貨會降低股市波動的影響,但仍對能否穩定股市功能存在學術爭議?,F有對股指期貨的研究多集中于期貨的價格發現功能和波動溢出效應,使用的方法也是基于傳統的計量模型。隨著互聯網時代的不斷發展,更多的學者開始將機器學習、人工智能引入金融領域,這在股票市場、匯率市場開始出現,但對于股指期貨市場的價格走勢預測還相對較少。
事實上,現在有大量的國內外學者開始在金融領域通過在傳統計量模型的基礎上,加入機器學習進行研究,為資本市場的價格走勢預測提供新的方向。Galeshchuk(2016)的研究通過描述和實證檢驗外匯市場數據發現了人工神經網絡的經濟目的。對匯率的面板數據(USD/EUR,JPY/USD,USD/GBP)進行了檢驗,并利用神經網絡對時間序列進行了優化預測。Hew(2020)等人應用人工神經網絡(ANN)來研究驅動移動社交商務的阻力。Lahmiri等人在金融數據分類中使用了集成學習。Lei(2020)等人提出了一種時間驅動的特征感知聯合深度強化學習(DRL),用于金融信號表示和算法交易。Sermpinis(2013)等人引入了一種基于粒子群優化和自適應徑向基函數(ARBFPSO)的混合神經網絡結構和用于財務預測的神經網絡適應度函數。這是通過標桿ARBF-PSO的結果與三種不同的神經網絡架構(最近鄰算法(k-NN),自回歸移動平均模型(ARMA),移動平均收斂/輻散模型(MACD))的結果實現。Wang(2020)等人提出了一種由長短期記憶網絡和均值-方差模型組成的混合方法,結合資產預選優化投資組合的形成,從而捕獲金融時間序列數據的長期依賴性。該實驗使用了1994年3月至2019年3月期間英國證券交易所100指數的大量樣本數據。研究發現,長短時記憶網絡適用于金融時間序列預測,比其他基準模型具有明顯的優勢。在國內,眾多學者也開始將機器學習的方法運用到了金融領域之中。張瑞(2020)基于網絡搜索數據,針對部分商品零售價格指數的非線性變化,采用支持向量機(SVR)對商品的零售價格指數進行預測。包振山等(2020)提出利用長短期記憶細胞神經網絡(LSTM)預測中證500股票未來價格,并在此基礎上,又運用遺傳算法進行調參,進一步提高了預測效果。戴德寶等(2019)利用文本挖掘技術和情感分析方法生成情緒時間序列數據,用支持向量機和神經網絡預測股票市場價格變化。楊康等(2017)提出利用基于細粒度演化超網絡的股票預測方法,對證券年報數據進行處理,并預測其中的股票走勢。
預測股票的漲跌趨勢本質上是一個二類分類問題。邏輯回歸、費歇判別分析、支持向量機和人工神經網絡等方法在價格走勢預測中較為常見。由于支持向量機不能提供類概率估計,費歇判別分析需要對輸入特征作正態分布假定,人工神經網絡因為噪音累積、非平穩特征和復雜維數在學習方式上有限制等原因產生不穩定的預測精度,故本文采用既能提供類概率估計又能提高預測精度的邏輯回歸模型作為二類分類函數。
邏輯分布是一種連續型的概率分布,其分布函數和密度函數分別為:

其中,μ表示位置參數,γ > 0為形狀參數。
邏輯分布是由其位置和尺度參數定義的連續分布。邏輯分布的形狀與正態分布的形狀相似,但是邏輯分布的尾部更長,所以我們可以使用邏輯分布來建模比正態分布具有更長尾部和更高波峰的數據分布。
邏輯回歸主要用于二分類問題,即對于所給數據集假設存在一條直線可以將數據完成線性可分,如圖1所示。

圖1 數據集
決策邊界表示為:w1x1+w2x2+b=0。假設某個樣本點hw(x)=w1x1+w2x2+b>0,則可判斷類別為1,邏輯回歸在此基礎之上,還要找到分類概率P(Y=1)與輸入向量x的直接關系,通過比較概率值來判斷類別。考慮到本文數據集所采用的二分類問題,給定數據集:

考慮到wTx+b取值是連續的,因此它不能擬合離散變量。可用它來擬合條件概率P(Y=1|x),因為概率的取值是連續的。但對于ω≠0,wTx+b取值為R,不符合概率取值從0到1,故采用廣義線性模型。最理想的單位階躍函數:

但這個階躍函數不可微,取對數幾率函數去替代該函數:

將y視為x為正例的概率,則1-y為x為其反例的概率。兩者的比值稱為幾率,特指該事件發生概率與不發生概率的比值,若事件發生的概率為p。則對數幾率:

將y視為類后驗概率估計,重新書寫公式有:

即對數幾率輸出為Y=1是由線性函數輸入x表示的模型,這也就是邏輯回歸模型。當wTx+b得的值越接近正無窮,P(Y=1|x)概率值也就越接近1。
在統計學中,經常使用極大似然估計法來求解,通過找到一組參數,在這組參數下,使得數據的似然度最大。設:

似然函數:

為了便于求解,在等式兩邊取對數,寫做對數似然函數:

損失函數是衡量模型預測錯誤的程度。若取整個數據集上的平均對數似然損失,可得到:

由此式可知,在邏輯回歸模型中,最大化似然函數和最小化損失函數實際上是等價的。
求解邏輯回歸模型的方法有很多種,本文采用了梯度下降算法。邏輯回歸的損失函數是:

梯度下降算法通過J(w)對w的一階導數來找下降方向,并以迭代的方式來更新參數,更新方式為:

數據選用中證500股指期貨從2015年4月16日9點14分到2016年12月30日14點59分的開盤價、最高價、最低價、收盤價、成交量的每分鐘數據,共84328行有效數據。首先對數據進行簡要分析,圖2和圖3為2015年4月16日9點14分 到2016年12月30日14點59分中證500股指期貨的對數收益率極其波動率。

圖2 對數收益率
從圖3可以看出,中證500股指期貨的對數收益率2015年到2016年12月間在1500-3500之間波動,且在2015年6月到8月價格水平波動較大,出現峰值之后開始下降;2015年9月至2016年12月在一個較低的價格水平內波動,沒有明顯的上升趨勢。波動率主要波動幅度集中在(0.000,0.003)之間。將對數收益率與正態分布圖相比中證500股指期貨對數收益率呈現出尖峰后尾的特征,符合金融數據的波動特點(見圖4)。

圖3 對數收益率的波動率

圖4 中證500股指期貨對數收益率正態分布圖
其次,將中證500股指期貨指數前一天的最高價、開盤價、最低價、成交量作為邏輯回歸的4個技術指標,將后一天股指期貨收盤價的預測作為輸出結果,將原始數據集按照8:2的比例隨機分成訓練集和測試集。表1是5個指標的描述統計量,從表1可知,5個指標標準差和均值均較大,且收盤價最大值為3564.6,最小值為1793,成交量每天最小成交1筆,最多成交8287筆,具體情況如表1。

表1 5個技術指標的描述統計量

表示股指的漲跌趨勢,則建模股指漲跌趨勢的邏輯回歸模型可以表示為:

其中β=(β0,β1,…,β5)T
按照上文對邏輯回歸模型的分析與建立,對中證500股指期貨指數2015年4月16日9點14分到2016年12月30日14點59分的全部數據進行整體回歸分析預測,得到的回歸預測擬合結果如圖5所示。從圖中可以看出擬合值與真實值基本重合,表示擬合效果良好,得到的均方誤差為1.430,部分預測值與真實值比較如表2所示。

圖5 整體回歸擬合圖

表2 部分預測值與真實值比較
股指期貨于2011年4月推出,相對于股票發展時間較短。針對于股指期貨的研究也大多是對股指期貨的市場波動進行研究,對于股指期貨本身的預測問題相對較少,且多用計量統計的辦法進行預測,但多是使用傳統的線性經濟學模型,不能應對非線性的股指期貨市場。隨著互聯網時代的發展,人工智能、機器學習開始大范圍應用于金融預測方面的研究。本文采取2015年4月16日9點14分到2016年12月30日14點59分的分鐘數據建立邏輯回歸模型,利用最高價、最低價、收盤價、開盤價、成交量為樣本數據,在預測前對數據進行統計分析,發現其呈尖峰后尾的分布,符合金融數據的特征。為了證明邏輯回歸模型的預測效果,將原始數據集按照8:2的比例隨機分成訓練集和測試集,通過python編程得到邏輯回歸模型進行預測,由得到的擬合結果可知邏輯回歸模型在股指期貨的預測中效果良好。但由于存在觀測值缺陷,數據量不大,沒有用同一數據集與其他模型進行對比,因此還需要大量的后續研究來得出更加精確合理的預測模型。