999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維高頻數據和LSTM模型的滬深300股指期貨價格預測

2022-04-12 04:05:58邱冬陽
關鍵詞:因素模型

邱冬陽,丁 玲

(重慶理工大學 經濟金融學院, 重慶 400054)

一、引言

金融時間序列的預測是擁有悠久歷史且被學者們持續關注的經典問題,方興未艾的金融科技和量化投資都在尋求有效的預測方法作為突破口。在人工智能、區塊鏈、云計算、大數據時代背景下,信息的獲取、傳播與規模達到了前所未有的水平,大數據正潛移默化地改變著金融市場中每位投資者的日常交易方式。早期投資者們獲取信息的渠道單一,只能通過證券交易所現場交易,后來可以坐在計算機前觀察價格走勢,再發展到隨時隨地通過移動終端借助應用軟件實時獲取行情信息。重要性日益凸顯的金融信息數據正逐漸商品化,催生了大量的金融信息數據公司。以信息數據為底層邏輯的量化投資、智能投顧等新興的投資手段應運而生并不斷擴散。顯然,信息獲取、交易方式、投資模式的改變意味著股票市場、期貨市場乃至整個金融市場的價格波動有新特點、新規律,需要用升級換代的新方法來刻畫這種變化。

與此同時,從神經網絡、機器學習發展到深度學習的建模、算法伴隨著計算機科學和人工智能的發展而廣泛應用在工程領域、語音識別、圖形處理和金融市場中,其中,深度學習中的眾多具體方法在處理非線性海量數據時的優勢明顯,拓展了經典金融計量學的理論框架。同行研究表明[1]:深度學習方法能夠有效刻畫、恰當擬合和預測人工智能時代金融市場價格波動的新特征。期貨市場屬于分散風險的金融衍生品市場,其風險遠遠高于股票市場,因此對期貨市場價格波動的預測、預警更有必要。本文選取滬深300股指期貨(簡稱:CSIF 300)作為樣本,采用深度學習的長短期記憶(Long Short-Term Memory,簡稱LSTM)模型,重點放在變量維度、數據頻率處理方面,擬解決如何有效提高期貨市場價格及波動性預測精度的問題。后續結構安排如下:第二部分為文獻綜述,第三部分為研究設計,第四部分為數據處理,第五部分為實證研究,第六部分為結論及啟示。

二、文獻綜述

(一)文獻回顧

金融資產價格與波動率的預測是學術界持續探討的問題之一。多年以來,國內外學者們從不同角度對金融時間序列的預測與分析開展了相關研究。

在研究對象上,現有文獻集中于股票價格與波動性的預測,其中不乏以股票市場多只股票、個股為對象進行的研究,如李斌等[2]、史建楠等[3];一些文獻選取股指作為樣本對象,如劉曉倩等[4]、陳黎明等[5];不少學者從多種角度也對期貨市場價格變動及其波動率開展了相關研究,但研究角度主要集中在跨市場行為的信息傳導[6]、期現貨市場之間的價格相依性[7]。對于期貨價格與波動率預測的關注度顯然低于股票,研究成果甚至不到股票的一半。

在預測方法上,當前文獻多集中于運用統計預測方法如移動平均、指數平滑、線性回歸、ARMA模型、ARCH模型、GARCH模型、Monte Carlo方法、隨機波動(SV)等對金融時間序列數據進行預測,并伴隨著信息獲取、交易方式、投資模式的變化仍在不斷迭代更新。而股指期貨預測的研究文獻早期集中于基礎統計模型、經典的GARCH及其衍生模型。Baillie等[8]利用GARCH分別計算了期現貨市場條件方差的比率。魏宇等[9]通過比較OLS、VAR、VECM和MVGARCH等傳統避險模型研究日內高頻的避險效率。邱冬陽等[10]運用馬爾科夫鏈進行預測。近年來,學者不斷嘗試運用非參數模型和其他算法模型,發現算法模型的預測能力往往優于數據模型,計算機軟硬件條件的提升和大數據時代的到來,助其在理論和實踐中脫穎而出。近段時間,利用機器學習方法預測金融資產價格波動性的研究文獻越來越多。王宣承[11]以CSIF 300為樣本構建了基于LASSO和神經網絡的量化交易系統,而王國長等[12]提出LASSO主要是用來懲罰變量選擇,做預測時需要結合ANN模型進行優化;陳標金等[13]構建了隨機森林算法機器學習預測模型。但已有文獻中所采用的多為常見的方法,只有部分文獻開始引入深度學習的方法對金融資產進行預測,預測效果有所提升,這些文獻多集中于國外,國內僅有少數學者[1]對這方面開展過相關研究。

在樣本數據上,股指期貨交易頻率極高,交易速度極快,交易量極大,高峰期甚至更大,低頻數據并不能準確刻畫股指期貨日內風險特征。但國內部分文獻主要采用低頻數據進行研究,基本都是選取日度行情數據,邵振文等[14]研究了日數據和月數據,魏宇[15]是采用分鐘級別的分時金融市場價格數據,即高頻數據。

在影響因素上,傳統的計量模型難以挖掘復雜的輸入特征,景楠等[16]僅對收盤價、成交量等單一指標進行研究,卻忽略了很多外因,比如宏觀經濟政策、經濟發展狀況、投資者情緒等市場相關因素,而尚玉皇等[17]證實了對這些深層因素的考量會大幅增加發現金融市場隱藏的波動規律的能力。

在精度評價上,Cochrane[18]通過實證研究確定資產收益是可預測的。一直以來,不少文獻致力于提高資產收益的預測精度,但關于影響預測精度的原因卻說法不一。陳標金等[13]將預測精度不高的原因歸于因素選取不夠充分, Stoll等[19]提出預測頻率升高或降低使得精度產生變化,景楠等[16]認為預測方法無法適應金融市場的結構突變。研究者關于模型預測精度比較的評價指標選取也不盡相同,大多數選用的評價指標為均方誤差(MSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)等。

(二)簡單述評

受限于當時的技術條件,信息數據獲取方式單一,已有文獻多是運用統計預測方法描述低維度、低頻率的金融數據特征,影響因素的選取也有限。大數據時代下的金融數據特征更為復雜多變,經典的計量方法預測精度不夠理想,對諸多非線性和不確定性因素更是無所適從,而且多數文獻主要關注股票價格與波動率預測,而以股指期貨為研究對象進行分析的文獻則很少,僅有的以股指期貨為對象的研究結果精度也不夠。深度學習的LSTM模型有強大的時序數據處理能力,對于處理多維度與高頻率數據信息的學習效率與速度、預測精度更優,并且在處理非線性數據時可以提取更為復雜的特征,對于兼備大規模、多維度、高頻率等數據特征的股指期貨市場及其波動性具有高度適用性。

因此,本文選取LSTM模型對CSIF 300的價格波動性進行預測,可能的創新之處有:

(1) 將深度學習中處理時序數據表現出色的LSTM模型引入到期貨市場進行價格預測,可以對新的決策范式下金融數據呈現的新規律和新特征有良好的擬合效果。

(2) 同時選用多維度與高頻率兩類樣本,從空間和時間兩個角度全方位挖掘數據特征。一是采用CSIF 300期貨日收盤價低頻數據,全面考慮造成其價格波動的影響因素,囊括五大維度,對應89個具體指標,突破了同類研究的最高水平;二是采用CSIF 300日內5分鐘收盤價高頻數據,選取影響更為直接的兩個維度、25個具體指標。并將多維度與高頻率相結合,提升了預測精度。

(3) 使用維度逐層刪減方法組合成多個預測模型,分析各類型指標對CSIF 300的預測能力。對多維度數據集劃分成高、中、低不同維度數據,設計多個模型進行預測;將高頻率數據進行不同頻率抽樣,劃分成不同頻率的等時間間隔數據再次對模型做預測。

三、研究設計

(一)理論模型

根據持有成本模型,股指期現貨價格之間的關系式可以使用持有成本描述。通常會將股指看成支付股息的投資資產,定義股指提供收益率為q的中間收入,無風險利率為r,則持有成本c就可以表示成:

c=r-q

(1)

股指期貨的遠期價格F0與當前價格S0的關系式為:

F0=S0ecT

(2)

綜合考慮同CSIF 300價格有關的影響因素,根據各因素由內而外的相關性依次確定為CSIF 300的自身行情、影響CSIF 300的內在因素、宏觀經濟形勢、關聯金融市場和偶發事件5個維度,選擇具體的指標進一步細化5個維度。

(二)LSTM模型

統計預測模型往往依賴于歷史交易數據,需要滿足一定的前提假設,還受到數據維度和頻率的多重限制。機器學習對于金融時序數據在維度和頻率的要求上有所放寬,但是CSIF 300價格的預測屬于監督學習的回歸,受到不同因素的影響面臨巨大不確定性,而深度學習對于該類回歸任務具有優勢。CSIF 300收盤價的時序問題,深度學習模型中的循環神經網絡(RNN)和長短期記憶網絡(LSTM)均能夠處理,但由于RNN同樣面臨著梯度消失和梯度爆炸的問題,即無法很好地發現其長期依賴關系,因此引入LSTM模型預測CSIF 300的價格。

在LSTM模型構建上,綜合金融大數據與互聯網交易高并發、多頻次、大流量等特征,展開了充分全面的考慮。第一,LSTM模型解決了循環神經網絡會存在的梯度消失和梯度爆炸問題,能夠更好地適應CSIF 300價格非平穩的數據特征;第二,CSIF 300價格具有長期依賴性,即先前的價格和指標均會對之后產生影響,而具備長短記憶性的LSTM模型在處理時間間隔較長或作用效果有延遲的數據上存在明顯優勢;第三,LSTM模型可以很好地總結非線性期貨價格的內在規律,并準確預測未來期貨價格的變動情況。

(三)樣本選取

CSIF 300合約最具代表性,流動性也比較強,因此樣本對象確定為中國金融期貨交易所CSIF 300合約。由于交割日規定比較特殊,相較下月及隨后兩個季月的合約價格來講,當月代表性更強,同時保證數據連貫性,確定采用CSIF 300主力連續合約價格。

樣本數據分為低頻和高頻數據兩類:上市首日漲跌幅無法計算,確定低頻數據的樣本時間區間為2010年4月19日,截至2018年12月28日,共計2 118個交易日;高頻數據樣本時間區間為2019年1月2日9時35分,截至2019年12月31日13時,共244個交易日,以5分鐘為抽樣頻率,每日4個小時交易時間,有48個5分鐘收益率,最終形成的樣本量為48×244 = 11 712。

(四)指標選擇

根據股指期貨理論定價和CSIF 300市場運行的實際,選取了CSIF 300的自身行情(27個),影響滬深300股指的內在因素(16個),宏觀經濟因素(26個),關聯金融市場,偶發事件因素(1個)5個維度共89個指標。

1.CSIF 300的自身行情因素(27個)

反映期貨市場自身行情的變動又分為基本交易指標、市場指標與技術指標三類。

(1)基本交易指標,包括開盤價、最高價、最低價、成交量、成交額、均價、價差、結算價、持倉量、未平倉量和剩余交易日共11個指標。需要特別說明的是,為使研究更為充分,設計了剩余交易日指標。期貨價格不僅會受到標的資產價格、交易量、未平倉合約數量等的影響,也會隨著期貨合約交割月份的逼近,逐漸收斂到標的資產的即期價格。事實上,處于交割月份中的期貨價格波動更為劇烈。

(2)市場指標選取滬深兩市的融資余額與融券余額2個指標。

(3)技術指標則選取K、D、J、OBV、CCI、DIF、DEA、MACD、RSI1(6日)、RSI2(12日)、RSI3(24日)、MA1(5日)、MA2(10日)、MA3(20日)14個關注度較高的技術指標。

2.影響滬深300股指的內在因素(16個)

(1) 根據理論公式,內在因素首選CSIF 300的標的資產為滬深300股指收盤價。

(2) 從外部看,滬深300股指會受滬深兩市的大盤漲跌影響,借助上證綜指和深證成指的收盤價2個指標反映股票市場的一般走勢。

(3) 從內部看,滬深300股指各樣本股的價格波動會對股指本身產生影響,進而影響股指期貨價格,因此考慮滬深兩市發行300只股票的上市公司的經營情況衡量CSI 300內在價值,這是影響CSIF 300的間接因素。包括①財務指標,最能反映標的資產估值,主要包括資產負債率、流動比率、凈資產收益率(ROE)、開發支出、每股稅后現金股利、股利分配率、主營業務收入、總股本數、在外流通股本數、平均市盈率、平均市凈率共計11個財務指標;②公司治理結構指標,包括前10股東占比和董、監、高比例2個指標。

3.宏觀經濟形勢因素(26個)

(1)主要選取經濟增長、物價水平和國際收支3個方面。其中,① 衡量經濟增長的指標包括GDP總量、GDP增長率、城鎮固定資產投資額、外商直接投資額、新增信貸額、制造業采購經理指數、非制造業采購經理指數共7個指標;② 度量物價水平的指標可以直接選取價格指數,包括CPI、PPI、新建房價指數、二手房價指數、企業商品價格指數,同時選取間接運行物價水平的指標,包括 M0、M1、M2、Shibor(隔夜)、存款準備金率、財政收入、稅收等12個指標;③ 國際收支平衡選用海關出口額和海關進口額2個指標。

(2) 度量宏觀走勢的預期指標,選用消費者信心指數、消費者滿意指數、消費者預期指數、企業景氣指數、企業家信心指數5個指標。

4.關聯金融市場因素(19個)

(1) 國內金融市場主要考慮債券和期貨市場:① 債券市場類指標選取政府債券發行量和金融債券發行量;② 期貨市場選用資金量相對充足的國債期貨和其他股指期貨收盤價,包括5年期國債期貨主連、10年期國債期貨主連、上證50股指期貨主連、中證500股指期貨主連共6個國內關聯金融市場指標。

(2) 海外金融市場中,涵蓋股票、期貨和外匯3個市場類型,具體包括:① 香港恒生指數、日經225指數、道瓊斯工業指數、COMEX黃金庫存量和COMEX白銀庫存量5個指標;② 迷你道瓊斯指數期貨、迷你納斯達克指數期貨、迷你標準普爾指數期貨3個股指期貨市場指標;③ COMEX黃金6月期貨合約、COMEX黃金期貨、NYME原油期貨和WTI原油期貨4個其他期貨市場指標;④ 人民幣對美元匯率這一外匯市場指標。各個期貨市場指標均選取主連合約的收盤價。

5.偶發事件因素(1個)

基于APT套利定價模型,期貨市場價格會受到突發事件或“黑天鵝”事件帶來的不確定性沖擊,市場參與者面對其做出的即時反應又會造成期貨市場的波動程度加劇,因此引入偶發事件作為一大類別因素輸入模型。筆者總結了自2010年4月至2018年12月期間發生的可能影響期貨市場的網絡熱點輿論事件41個,并根據偶發事件影響程度的大小進行了定量分析?;诖螐娛接行袌黾僬f,對足以對整個經濟運行狀況產生影響的重大事件偶發當天,判斷其正面或負面效應時分別給予+3和-3的賦值;而對于單個公司、某一領域有相對較小影響的事件則在偶發事件當天分別給予+1和-1的賦值(1)因篇幅所限,總結的2010—2018年41個偶發事件此處未詳列,如感興趣可聯系作者郵箱。。

四、數據處理

(一)數據來源及選擇

選取的數據來源于10個統計網站或數據庫,包括wind數據庫、雅虎財經、國泰安數據庫等(2)因篇幅所限,收集的原始數據此處省略,如需了解,可與作者聯系。。

輸出特征選取了中金所公開的2010年4月19日至2018年12月28日近9年CSIF 300日收盤價以及2019年1月2日至2019年12月31日一年間的CSIF 300日內5分鐘的收盤價作為原始數據。

輸入特征中,低頻日數據對應選取89個輸入指標, 5分鐘高頻數據對應選取25個輸入指標。此外,基于高頻數據的可獲得性、輸入特征的選取考慮3個方面原因:其一,影響CSI 300內在因素對于高頻數據的波動影響并不大。一天之內,上市公司的經營狀況、管理結構等并不會發生頻繁巨烈波動,往往是與經理人的長期經營決策相關。其二,宏觀因素指標一年內的變動已經不夠明顯,一天之內更是微乎其微,其影響主要是長期的。其三,偶發事件發生的具體日期可知但確切時間點難以界定,對日內分時價格的影響程度也無法合理判斷。基于此,高頻數據選取的25個輸入指標主要為日常交易數據、技術指標以及關聯金融市場,包括開盤價、最高價、最低價、成交量、成交額、未平倉量、K、D、J、OBV、CCI、DIF、DEA、MACD、RSI-1、RSI-2、RSI-3、MA5、MA10、MA20、WTI原油期貨主連、COMEX黃金期貨主連、迷你標普指數期貨主連、迷你道瓊斯指數期貨主連、迷你納斯達克指數期貨主連。

(二)數據預處理

訓練過程中,輸入數據的質量與預測精度息息相關。根據LSTM模型對輸入數據的要求,需要對原始數據進行預處理。數據的缺失值、標準化、混頻數據等都按常規方法處理(3)因篇幅所限,刪減的數據預處理內容未列舉,如有興趣可與作者聯系。。采集數據出現混頻是常見現象,處理需要分多種情況進行,比如:原始數據采集的時間間隔不一致、國內國外交易時間不同等等,往往需要結合經驗綜合判斷。

(1) 對于高頻數據,由于國內外存在時差,而且國內外期貨市場交易時間也不同,因此進行了超前滯后處理。海外市場前一日的交易情況往往會與國內市場當日的價格走勢有關聯,因此在高頻數據中對海外市場數據進行了超前處理,即使用前一日的開盤時間對應當日國內的開盤時間,而且海外市場一天的交易時間與國內不一致,因此對海外市場的數據進行了截取。

(2) 為提高模型的泛化能力和實用性,克服深度學習模型過擬合現象,將數據集劃分為訓練集、驗證集和測試集。在調試超參數階段,為保證模型精度足夠高,適當提高了驗證集的占比,將原始數據集劃分為8∶1.5∶0.5的訓練集、驗證集、測試集;在預測階段,對多維度數據和高頻率數據進行了不同處理,由于多維度數據不到10年,樣本個數僅有2 118個,因此取95%的數據輸入模型進行訓練,即將驗證集納入訓練集,剩余5%用來預測;而對于5分鐘的高頻率數據,數據量充足,一年的樣本個數已經達到11 712,因此取90%的數據輸入模型,剩余10%用來做測試集進行預測。

(三)橫縱向數據的遞階處理

1.多維度數據

多維度數據分別從五大類別的影響因素出發,共選取了89個具體指標,數據信息量豐富。為比較數據維度的不同是否會對模型預測結果的準確程度造成影響,分析不同類別的影響因素描述CSIF 300價格波動特征的優劣差異,使用逐層剝離的方法將日數據的數據維度不同程度地減少,設計成不同維度的數據分別構建9種CSIF 300預測模型,對LSTM模型的泛化能力進行檢驗以便做進一步的比較分析。

模型1選取全部89個指標;模型2去除影響CSI 300的內在因素,保留74個指標包括自身行情、宏觀經濟、關聯市場及偶發事件四大類影響因素;模型3去除關聯金融市場因素,保留70個指標即其余四大類影響因素;模型4去除宏觀經濟形勢因素指標,保留63個指標;模型5去除影響CSI 300的內在因素和關聯金融市場因素,保留55個指標包括自身行情、宏觀經濟及偶發事件三大類影響因素;模型6去除影響CSI 300的內在因素和宏觀經濟形勢因素,保留48個指標包括自身行情、關聯市場及偶發事件三大類影響因素;模型7去除宏觀經濟形勢因素和關聯金融市場因素,保留44個指標包括自身行情、股指本身及偶發事件三大類影響因素;模型8去除三大類別的影響因素,僅保留29個指標包括自身行情以及偶發事件因素兩大類;模型9僅剩余15個指標包括自身行情中的基本交易指標和偶發事件因素。

2.高頻率數據

高頻率數據選用的25個指標屬于自身行情和關聯市場兩個類別影響因素。對于CSIF 300日內5分鐘高頻數據進行等間隔抽樣,設計成5、10、15、20、30、60分鐘多種不同頻率的分時數據分別輸入預測模型,再次比較數據頻率的不同是否會對LSTM模型預測精度產生影響。各個不同頻率分時數據的樣本個數分別為11 712、5 856、3 904、2 928、1 952、976個。

五、實證研究

(一)實證過程

1.LSTM模型搭建

實證部分運用Tensorflow 2.0開源平臺,采用Python 3.7編寫程序,使用Keras搭建網絡結構,確定的深度學習模型結構由輸入層、LSTM隱藏層、輸出層組成。

損失函數使用均方誤差(MSE),訓練過程選Adam優化器進行優化。超參數設置為訓練時間步長t、批處理大小batch size,訓練次數epochs、隱藏層神經元個數n。通過反復訓練,最終確定超參數取值范圍分別為:多維度數據的步長t在1~120,高頻率數據的步長t在1~60; batch size為64;多維度數據的epochs為2 000次,高頻率數據的epochs為1 000次,n均為256個,激活函數均為tanh函數。另外,多次訓練確定隱藏層數,對于多維度的日數據,在t<15時,隱藏層選2層LSTM模型,在t≥15時,隱藏層選1層LSTM模型;對于高頻率數據,均選2層LSTM模型。

2.LSTM模型預測精度的評價

為便于和同類研究的模型預測效果比較,選取常用的3個預測精度評價指標,分別為均方誤差(MSE)、平均絕對百分比誤差(MAPE)、平均絕對誤差(MAE)。這3個定量評價指標的數值越小,則預測值與真實值偏離程度越低,即預測效果越理想。

(二)多維數據實證結果與分析

1.預測結果

使用LSTM模型分別對89、74、70、63、55、48、44、29、15個變量的2 118條日數據進行擬合。現有研究大多為追求更高的精度構建各種LSTM復合模型,注重各模型之間的比較,預測效果在不斷更新。與以往研究不同的是,針對不同維度的影響因素構建9種LSTM預測模型,并分別選擇步長為1、2、3、5、10、15、20、40、60、120個交易日構造訓練數據,輸入模型進行訓練,分析訓練時間步長對預測效果的影響。為了進一步比較不同維度的預測變量對預測的影響,將訓練時間步長為10~20細化至每一日,共形成9×18=162次不同的估計,然后預測未來一個交易日的收盤價,同時計算不同模型的預測精度,對比分析因素維度對模型預測效果產生的影響。模型的預測結果見表1。

表1 不同維度對應的9種模型預測精度(MAPE)比較

從預測精度的結果來看,模型1~模型9的MAPE均在1.0左右,表現出良好的預測效果。從整體來看,不同維度的變量之間存在的多重共線性,并不會對模型的預測精度造成較大影響,反而考慮的影響因素越全面,如模型1有89個特征變量,當步長為17個交易日時,MAPE值達到了最小,低至0.933 8。模型2有74個變量,僅僅是對影響滬深300股指的內在因素指標直接進行刪減,當步長為13個交易日時,預測的MAPE達到最小,但最小值反而高于模型1, MAPE值為0.965 6。觀察模型6的預測結果可以發現,當刪除影響CSI 300的內在因素指標和宏觀經濟形勢指標時,相對于模型1產生更高的預測精度,達到全局最小值,可能是數據集自身屬性對預測效果產生的影響,這有待進一步驗證。維度刪減最多的模型9僅有15個特征變量,當步長為16個交易日時出現MAPE最小值1.070 7,顯然模型1的預測精度要高于模型9。各模型的預測精度最小值集中在步長10至20個交易日之間,說明半個月到1個月的歷史交易日數據參考價值是最大的。

2.預測效果對比圖

選取各模型MAPE值最小的訓練時間步長進行了60個交易日的預測值與真實值的比較,并進行可視化,預測結果如圖1~圖9所示(4)為滿足清晰作圖要求,在預測值上手動添加500展示,特此說明。。

圖1 89個變量LSTM模型預測結果

圖2 74個變量LSTM模型預測結果

圖3 70個變量LSTM模型預測結果

圖4 63個變量LSTM模型預測結果

圖5 55個變量LSTM模型預測結果

圖6 48個變量LSTM模型預測結果

圖7 44個變量LSTM模型預測結果

圖8 29個變量LSTM模型預測結果

圖9 15個變量LSTM模型預測結果

3.結果解讀

(1) 從因素維度看,因素多少對預測精度有間接影響,但影響并不明顯。依賴短期數據預測時,影響因素維度越多,預測精度越高,基本面分析和技術分析相結合對提高LSTM模型的預測精度確實有效;依賴中長期數據預測時,因素維度的作用有所減弱。

① 使用短期數據即在步長處于10個交易日內時,模型1即五大類的89維的預測效果顯著優于另外8個模型。通過計算步長1~5的MAPE平均值可以發現,模型1的預測效果是最好的,MAPE均值為1.183 1,模型4次之。結果表明,短期數據支撐預測時納入的影響因素越全面,預測越精準。這說明基本分析與技術分析相結合在期貨價格預測比較有效,基本分析會提高期貨價格的預測效果,與陳標金等[12]的研究結論一致。影響滬深300股指的內在因素、宏觀經濟形勢因素、關聯金融市場因素同其價格在近5個交易日之內存在一定的關聯性,雖然這些因素對于價格的影響存在滯后期,但大數據時代的到來使投資者獲取信息的時效性明顯增強,應對更及時,滯后效果的反映等待期不超過5個交易日,各個方面的影響因素均會在5日內反映完全。

② 使用中期數據即達到1個月的歷史數據量時,通過計算步長10~20的MAPE平均值發現,除模型9,其他預測效果均明顯提升,相對較好的預測效果集中在模型1和模型6,這說明投資者考慮多個方面的因素與只考慮CSIF 300自身行情、關聯市場以及偶發事件三類因素得到的效果差不多,甚至后者表現更優,因素維度的作用不再像短期數據那么明顯。這與實際股指期貨交易、理論上的噪聲交易是相符的。歷史數據信息充足時,可以只考慮自身的交易行情與關聯市場的行情指標,不需要考慮過多龐雜因素,考慮過多反而可能由于信息冗雜對預測效果產生不利影響。模型9僅考慮了基本交易信息和偶發事件因素,雖然基本交易信息一定程度上可以反映價格波動,但想達到精準預測是遠遠不夠的,還需要將CSIF 300自身行情中的技術指標和關聯市場行情等方面考慮進去。原因有兩點:一是技術指標的計算本身就存在特定的周期性,忽視它就直接損失了其在中期數據預測時的有效性;二是半個月甚至1個月內關聯金融市場行情已經完全反映到股指期貨價格的變動上,過久的歷史數據反而會帶來負效應,使同股指期貨價格的關聯性出現明顯下降。

③ 使用長期數據即在訓練時間窗口逐漸拉長至120個交易日即半年時,除了模型4出現了輕微提升外,其他模型的預測精度均有所下降,這說明宏觀經濟形勢會對期貨價格產生持續性的影響,與Altavilla等[21]的研究結論存在一致性。但太早期的歷史數據無論是哪個類別對于分析價格波動規律都不起顯著作用,交易信息具有時效性。模型9的預測結果是最差的,說明長期數據預測僅考慮期貨市場的基本交易行情遠遠不夠,數據蘊含的信息量過少,數據深度不夠,深度學習無法有效挖掘到數據特征。

(2) 從訓練時間步長看,近期(舉個例子,預測4月1日應該用3月21日至3月31日的數據)10至20個交易日的歷史數據達到的預測效果最為理想。分析表1可知, MAPE最小值均出現在10~20個交易日。

① 使用短期數據即步長在10個交易日以內時, MAPE值較大,說明LSTM處理短期數據的表現略遜于中長期數據。

② 使用長期數據即步長超過20個交易日時,各模型的預測效果整體來看均出現了顯著下降,只有模型4出現了輕微提升。預測效果雖然受損,但并未出現嚴重偏離,只是存在信息冗余現象。這和經濟計量方法得出的結論是一致的。一般來講,數據越多,預測的精度會越高,但Hull[22]提出太老的歷史數據對于預測未來價格的波動性可能不太相干,一個折中的辦法是采用最近90~180天的日收盤價數據。

事實上,港人對此是不信任的,甚至是恐慌和無奈的,“浮城”的身份和夾縫的位置使得這座城市早早地喪失了發言權,香港無法自主表達內心的想法,它就像白粉圈里的小壽郎,雖是“當事人”卻也是最大的“旁觀者”。

③ 使用中期數據時,擬合歷史數據的步長甚至可以拉近至更短,使用最近10~20交易日的數據預測精度是最高的。這與尚玉皇等[17]的結論基本一致。具體來看,在步長為17時的模型1和6的預測精度提升得更為明顯,此時模型6的預測效果達到全局最優。這符合預期和期貨市場的實際投資情況,CSIF 300合約的交割日期在每個月第三周的周五,能夠對近三周的歷史數據最為有效這一結論做出合理解釋。

(3) 整體看,模型1~模型9的預測精度均在1.0左右波動,總體表現穩定。比較模型1和模型9在各步長的表現,模型1的預測精度要明顯高于模型9,證實了深度學習在處理多維度共線性的海量數據存在優勢,維度的增加會使得預測帶來一定提升,但提升程度相對有限,指標納入需要有一個合適的度。LSTM模型確實能夠避免長時依賴問題,對于短期和長期數據信息均適用,但效果略微有差別。

(三)高頻數據實證結果與分析

1.預測結果

使用2019年1月2日至2019年12月31日的CSIF 300 5分鐘高頻數據,將其進行等時間間隔抽樣成不同頻率的數據,分別選擇步長為1、2、3、6、12、18、24、30、36、42、60個時間間隔構造訓練數據,輸入LSTM模型進行訓練,分析步長對預測效果的影響,然后預測下一時間間隔的收盤價,預測結果見表2。步長的設計與數據采樣頻率相關,對于5分鐘的數據而言,不同步長分別對應的時間窗口是5分鐘、10分鐘、15分鐘、半小時、1小時、1個半小時、2小時、2個半小時、3小時、3個半小時、5小時。

從表2來看,對于不同頻率的數據, MAPE存在數量級差別,但相對日數據,其預測精度明顯更高。對于5分鐘數據,MAPE均在0.15左右,最小值0.138 2;10分鐘MAPE為0.2左右,最小值0.186 6;15分鐘MAPE為0.25左右,最小值0.222 1;20分鐘MAPE為0.3左右,最小值0.257 1; 30分鐘MAPE為0.4左右,最小值0.364 1;1小時MAPE為0.6左右,最小值0.493 7。不同頻率數據的模型MAPE最小值均出現在步長為24個時間間隔。

表2 不同頻率對應的模型預測精度(MAPE)比較

2.預測效果對比圖

同樣為了更為直觀地展示不同頻率數據的預測效果,類比日數據進行預測值與真實值的比較,并進行數據的可視化,預測結果如圖10~圖15所示(5)為滿足清晰作圖要求,在預測值上手動添加500展示,特此說明。。

圖10 5分鐘數據的預測結果

圖11 10分鐘數據的預測結果

圖12 15分鐘數據的預測結果

圖13 20分鐘數據的預測結果

圖14 30分鐘數據的預測結果

圖15 1小時數據的預測結果

圖10~圖15進行了不同頻率數據預測效果比較,通過對比數據量和變量維度個數相近的圖8和14可以看出,高頻數據的預測效果是明顯優于低頻數據的。

3.結果解讀

(1) 從數據頻率看,不同數據頻率的對模型預測效果產生了直接影響。由表2可以看出,數據頻率越高,預測精度越高。對于5分鐘數據的預測精度在0.15左右,間隔10分鐘的在0.2左右,間隔15分鐘的在0.25左右,間隔20分鐘的在0.3左右,間隔30分鐘的在0.4左右,間隔1小時的在0.6左右上下浮動,相較而言波動程度略大,可能是由于數據量過小導致預測不夠準確,部分原因是時間間隔過寬損失了交易數據中大量的有效信息。由此可見,數據深度與預測能力存在明顯關聯,數據頻率越高,LSTM模型對數據的挖掘越深層,就越能夠提取更多有用信息。鑒于此,高頻數據對于期貨市場預測更有效,且作用程度明顯。可能的原因是交易信息本身存在時效性,況且股指期貨是T+0交易機制,頻率較低的數據信息無法及時反映市場行情的變化。這與Silva等[23]觀點保持一致。早期Stoll等[19]也得出與之相吻合的研究結論,證實利用5分鐘的股指期貨高頻數據預測效果要優于10分鐘。

(2) 從模型的訓練時間步長看,考慮近期24個步長達到的預測效果最為理想。由表2可以看出,無論是高頻數據的頻率如何,模型均在24個步長表現最佳。對于5分鐘數據,投資者應考慮2個小時內或是接近2個小時(即半個交易日)的交易情況,半個交易日以外的數據對于當前的預測效果并不理想;對于間隔為10分鐘的數據,投資者應參考近一個交易日的數據,這樣信息的有用程度達到最大化,前一日的海外市場也會產生影響;對于間隔為15分鐘的數據,投資者考慮近1個半交易日的市場信息最為有效;對于間隔半小時的數據,投資者應考慮近3天的交易信息;對于間隔1小時的數據,近6天的數據為有效信息,而不同頻率的數據如果參考的范圍過小或過大,準確程度均會大大降低。尤其是間隔為1小時的數據,倘若考慮3個月的歷史信息反而會使得模型的預測效果呈斷崖式下降,這或許因為每個交易日CSIF 300的合約有4份,合約月份為當月、下月及隨后兩個季月,因此交易周期為1個季度,選取當季的信息預測是更為有效的。

(3) 總體看,對于不同頻率的數據,一方面,高頻數據相較于日交易數據,維度對模型預測的作用就相對較弱,主要是數據信息量不同導致預測結果有明顯差異,頻率越高,數據信息量越大,模型的預測精度越高,這也是深度學習對于海量數據處理存在優越性的具體體現;另一方面,結合表1與表2分析,可以得出模型預測效果的差異并不僅僅是因為數據量,時間間隔為30分鐘的收盤價數據與近10年的日收盤價數據同為2 000左右的樣本個數,選用表2中30分鐘的預測結果與表1中模型8的預測結果進行對比時,特征變量同為25維左右,MAPE數量級也存在顯著差別。30分鐘的數據MAPE在0.4上下浮動,而日收盤價MAPE在1.0上下浮動,這足以表明頻率對模型預測效果產生了影響,因為高頻部分影響因素的選取均為自身市場行情及關聯市場行情,排除了不同類別因素的性質對預測結果帶來的影響。此外,由于30分鐘數據和日數據的數據量差距并不大,也可以排除單單是LSTM模型自身特征發揮作用的原因。結果表明,30分鐘的數據頻率高于日收盤價數據,模型的預測精度得到了大幅度提高。

4.穩健性檢驗

為了提升實證結果的可靠程度,增強結果分析的說服力,通過把MAPE替換為MSE、MAE后,對LSTM模型預測結果的穩健性進行檢驗。檢驗結果(6)因篇幅所限,穩健性檢驗結果此處省略,如需了解,可與作者聯系。與前文的研究結論一致[24]。

六、結論及啟示

(一)主要結論

結合大數據和深度學習二者的優勢,利用CSIF 300自正式上市以來不同頻率的交易數據,通過構建LSTM模型重點研究了人工智能時代CSIF 300價格的新波動特征,進行科學有效的預測。結合實際情況篩選出89個預測變量,全面涵蓋CSIF 300的自身行情、影響滬深300股指的內在因素、宏觀經濟形勢、關聯金融市場行情及偶發事件因素五大類別,層層滲透,逐步深入對CSIF 300價格的波動特征進行挖掘,從變量維度和數據頻率兩個方面探究影響股指期貨價格預測精度的深層原因。主要結論如下:

第一,運用多維高頻數據與LSTM模型的有機融合建立金融預測模型,可以很好地刻畫、擬合和預測CSI 300價格波動的新特征,變量維度和數據頻率均會對LSTM模型的預測精度產生影響。

第二,因素的納入會對CSIF 300價格的預測產生間接影響。使用短期數據預測時,變量維度越多,預測精度越高;使用中長期數據預測時,變量維度的影響減弱,此時并非納入的因素越全面,預測精度越高。

第三,數據頻率的差別會對CSIF 300價格的預測產生直接影響。數據頻率越高,預測精度就越高。高頻數據信息包含的信息更為豐富,而頻率越低損失的有用信息越多,因此深度學習對于高頻數據中隱藏的深層信息可以提取出來,預測結果表現更為優良。

第四,變量維度的增加會使得LSTM模型的預測精度帶來一定程度的提升,但變量指標納入量需要有一個合適的度,數據頻率的提高對LSTM模型的預測精度提升效果十分明顯。

第五,LSTM模型的預測精度也會受到訓練時間窗口大小的影響。對于低頻的日交易數據,考慮近10個交易日至20個交易日的數據信息已經可以做出準確預測;對于高頻的分時交易數據,需要針對不同時間間隔數據損失的信息程度調整分析的時間范圍。

(二)政策啟示

基于實證研究結論,對CSIF 300市場參與各方的啟示如下:

就期貨交易所和監管部門而言,精準預測CSIF 300的波動特征有助于科學把握市場資金流向,進而精準監管整個期貨市場,細化市場交易規則,遏制倒填日期等違規交易行為。同時,可以構建地方金融數據中心,公布更多的期貨市場、金融市場的連續數據,充分發揮期貨市場價格發現功能。

就金融期貨產品的設計而言,股指期貨的標的資產在對波動性比較大或者退市的股票做定期樣本清理時,可以將頻率提高到半個月至1個月清理一次,使股指期貨的流通性進一步增強。在設計交割月份時,要綜合考慮標的公司經營狀況、宏觀經濟形勢等多個類別的影響因素,具體到第一交割通知日和最后交割日之間的時長是否可以考慮延長至1周左右,縮小投機者的套利空間。也可以引進迷你合約吸引小額度投資者,并適當縮小頭寸限額防止投機者給期貨市場造成不利影響。

就套期保值者及投資者而言,全面考慮大數據時代的各種可獲得數據信息來分析股指期貨是必要的,但過度的數據、過期的信息不利于其精準預測分析,尤其是套期保值者要關注期貨標的資產及宏觀經濟等綜合因素,以便達到優化資產配置規避風險的目的。

需要指出的是,本文雖然充分發揮了深度學習智能算法處理非線性、非平穩、大容量時序數據方面的優勢,也引入偶發事件這一具有非結構化特征的大數據源,但異構可變的數據在實際量化處理時仍是帶有主觀性和經驗判斷。此外,受到經典計量模型處理共線性海量數據的局限,數據的統計口徑和智能算法存在客觀差別,CSIF 300價格的預測結果并未和經典計量模型進行比較分析。相應地,這些不足提供了金融期貨價格波動問題的后續研究思路:將文本挖掘技術應用到偶發事件因素、宏觀經濟政策、投資者情緒等沒有量化的指標選取與量化上,進一步提高金融市場預測分析能力。

猜你喜歡
因素模型
一半模型
腹部脹氣的飲食因素
中老年保健(2022年5期)2022-08-24 02:36:04
四大因素致牛肉價小幅回落
今日農業(2021年17期)2021-11-26 23:38:44
食品安全的影響因素與保障措施探討
群眾路線是百年大黨成功之內核性制度因素的外在表達
當代陜西(2021年12期)2021-08-05 07:45:46
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
短道速滑運動員非智力因素的培養
冰雪運動(2016年4期)2016-04-16 05:54:56
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲精品国产首次亮相| 伊人色在线视频| 蜜臀AVWWW国产天堂| 永久免费无码成人网站| 精品国产成人国产在线| 97se亚洲综合在线| 国产综合色在线视频播放线视| 福利一区三区| 国产激情无码一区二区三区免费| 免费无码又爽又黄又刺激网站| 久久毛片网| 国产网友愉拍精品| 2020极品精品国产 | 一区二区三区成人| 色九九视频| 日韩午夜片| 九九香蕉视频| 91无码人妻精品一区二区蜜桃| 91亚洲精品国产自在现线| 欧美成人亚洲综合精品欧美激情| 毛片一区二区在线看| 国产欧美网站| 一级毛片免费高清视频| 国产成人一级| 成人一级免费视频| 亚洲永久精品ww47国产| 啦啦啦网站在线观看a毛片 | 天天躁日日躁狠狠躁中文字幕| 亚洲日韩图片专区第1页| 国产第一福利影院| 国产精品女熟高潮视频| 丝袜国产一区| 亚洲激情区| 国产69囗曝护士吞精在线视频| 天天爽免费视频| 中文字幕 日韩 欧美| 伊人久久精品亚洲午夜| 狠狠五月天中文字幕| 五月婷婷中文字幕| 黄色成年视频| 久久精品91麻豆| 欧美视频二区| 国产精品永久在线| 国产高潮流白浆视频| 制服丝袜在线视频香蕉| 免费激情网址| 99re在线免费视频| 日韩一区二区三免费高清| 国产一区二区三区在线精品专区| 色AV色 综合网站| 国产精品xxx| 国产福利一区视频| 欧美午夜在线播放| 国产在线观看高清不卡| 欧美日韩国产在线人| 在线视频亚洲欧美| 91网红精品在线观看| 毛片免费观看视频| 久久国产av麻豆| 国产毛片不卡| 中文成人在线| 亚洲最猛黑人xxxx黑人猛交| 五月天久久综合国产一区二区| 无码一区二区三区视频在线播放| 免费在线看黄网址| 成人亚洲视频| 国产高清免费午夜在线视频| 久久久久免费精品国产| 国产精品久久自在自2021| 热99精品视频| 日韩AV无码免费一二三区| 国产麻豆福利av在线播放| a级毛片视频免费观看| 97国产精品视频人人做人人爱| 亚洲熟妇AV日韩熟妇在线| 中文字幕亚洲精品2页| 欧美日韩另类国产| 亚洲中文精品人人永久免费| 狠狠色综合网| 亚洲成人播放| 国产精品xxx| 中日无码在线观看|