陳 彪,陳佳洛,呂子越,王 迪,周宇洋,趙永紅
(1.四川大學 數(shù)學學院,四川 成都 610065;2.四川大學 經(jīng)濟學院,四川 成都 610065)
石油作為一種重要的能源以及基礎型產(chǎn)品,參與到人類生活的方方面面,是當今世界舉足輕重、不可或缺的戰(zhàn)略物資,被譽為“黑色的金子”,參與全球原油貿(mào)易定價體系對我國國家發(fā)展是至關重要的。于2018年3月26日在上交所正式掛牌交易的上海原油期貨彌補了國際原油定價體系的缺口,增強中國和亞太地區(qū)的原油定價話語權。
在期貨市場上,成交量、持倉量、期貨價格波動是反映市場變化的三個重要指標,是市場參與者和監(jiān)管者最為關注的數(shù)據(jù)。通過研究價格波動和成交量、持倉量之間的關系,有助于增強對期貨市場內(nèi)部結構和信息傳播方式的了解,更好地幫助市場參與者進行投資和風險管理,并為市場監(jiān)管、投資分析、政策制定提供指導。
基于量價關系的重要意義,金融市場上成交量、持倉量與價格波動的關系受到國內(nèi)外學者的廣泛關注。早在1973年,Clark對棉花期貨的市場價格波動和成交量之間的聯(lián)系進行了實證研究,首次提出混合分布假說(MDH),將成交量作為信息到達的代理變量。隨后Epps和Cornel等也通過實證研究發(fā)現(xiàn)成交量和價格波動之間具有正相關關系。考慮到持倉量反映的是投資者對市場走勢的判斷,Bessembinder和Seguin較早地將持倉量納入研究范圍,發(fā)現(xiàn)持倉量和價格波動呈現(xiàn)負相關關系。國內(nèi)學術界對期貨市場的研究起步較晚,多基于Clark的混合分布假說理論下的量價關系以及因果檢驗。葉舟等全方位探究了中國銅鋁期貨市場交易量和收益率及其波動的關系。戴毓、李志斌、白東輝等分別探究了我國燃料油期貨市場、大豆類期貨市場、銅鋁期貨市場中成交量、持倉量與波動性的關系。近些年計算機在金融交易領域的應用使高頻數(shù)據(jù)的應用得到推廣,更多的學者利用高頻數(shù)據(jù)對股票市場和期貨市場的量價關系特征進行了研究。Avramov等研究發(fā)現(xiàn)利用已實現(xiàn)波動率估計實際波動率能為高頻數(shù)據(jù)帶來更穩(wěn)健的效果。但國內(nèi)基于高頻數(shù)據(jù)的量價關系研究大多集中于股票市場,原油期貨方面相關文獻較少,有很大研究空間。
在期貨價格預測方面,除了傳統(tǒng)計量的時間序列預測方法外,BP神經(jīng)網(wǎng)絡也得到了廣泛運用。胡純探討了在期貨價格的趨勢預測中應用BP神經(jīng)網(wǎng)絡的可行性以及實驗結果,發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡預測精度較高,能為期貨價格的預測提供依據(jù)。李婷婷在假定外圍市場環(huán)境比較穩(wěn)定的情況下,運用模糊BP神經(jīng)網(wǎng)絡建立了中石化股票的價格預測模型,預測效果良好。許興軍,顏鋼鋒基于BP神經(jīng)網(wǎng)絡對浦發(fā)銀行近一年的交易數(shù)據(jù)進行了訓練和學習,并發(fā)現(xiàn)當股價處于上升期或者下降期時預測能得到良好結果。王海軍,金濤等人在BP神經(jīng)網(wǎng)絡的基礎上,優(yōu)化調(diào)整了網(wǎng)絡結構和網(wǎng)絡參數(shù),提出了基于GRA-CS-BP算法的期貨價格預測方法,仿真結果表明新方法比單純BP神經(jīng)網(wǎng)絡模型具有更高的預測精度,具有較高的參考價值。
文章利用上海原油期貨高頻數(shù)據(jù),建立了基于成交量、持倉量與已實現(xiàn)波動率的ARIMA模型,考慮了各變量之間的交叉影響,進一步提出了BP神經(jīng)網(wǎng)絡非線性預測模型并進行了實證分析,為期貨市場的價格及走勢提供參考。
已實現(xiàn)波動率的概念由Andersen和Bollerselev首先提出,具有可靠的理論依據(jù)。因其不受模型形式限制、操作簡單、無參數(shù)且能更好度量真實波動率的優(yōu)勢,成為文章研究上海原油期貨價格波動時的更優(yōu)選擇。
在每日的期貨交易時段中平均選取M個觀察時間點,并定義已實現(xiàn)波動率為日內(nèi)高頻收益平方之和,即:

其中代表特定時段的收益率,角標代表交易日,角標代表時間段。但由于上海原油期貨停盤期間數(shù)據(jù)的缺失,期間的價格波動無法反映,故參考Hansen和Lunde的思路,利用尺度參數(shù)變換已實現(xiàn)波動率,使全天實際波動率能被更好地刻畫。優(yōu)化后第天已實現(xiàn)波動率定義為:

其中尺度參數(shù):

首先構建以下四個線性模型分別模擬日盤和夜盤中成交量、持倉量及其相對增量對已實現(xiàn)波動率的影響:

(1)

(2)

(3)

(4)
其中為前面定義的已實現(xiàn)波動率。和分別表示第個交易日上海原油期貨的對數(shù)形式的成交量和持倉量。和分別是上海原油期貨第個交易日上海原油期貨的成交相對增量和持倉相對增量,其定義分別為:=100×(--1),=100×(--1)。為了消除時間序列下容易出現(xiàn)強自相關性,文章利用Eviews單位根檢驗法結合AIC和SC準則,確定出在日盤和夜盤數(shù)據(jù)下價格波動關于成交量和持倉量、成交相對增量和持倉相對增量的滯后階數(shù)分別為3和4,并由此建立日盤模型(1)、(3)和夜盤模型(2)、(4)。
本研究采用人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)中運用最廣泛的反向傳播人工神經(jīng)網(wǎng)絡(簡稱BPNN)對上海原油期貨量價關系非線性模型問題進行研究。
基于線性回歸模型的結果,認為成交量、持倉量對原油期貨已實現(xiàn)波動率的影響與成交相對增量、持倉相對增量對該問題的影響具有基本相同的規(guī)律,故在做BPNN的非線性模型時,僅考慮成交相對增量、持倉相對增量對本研究問題的影響效應。同時,在線性模型基礎上,進一步提出將相對成交增量、相對持倉增量分為預期與非預期兩部分(考慮到外來信息會引起期貨市場價格的波動,而未來的信息是無法預期的,所以預期到的成交量和非預期成交量對價格波動的影響是不同的,對持倉量同樣如此)。因此為了更進一步探究上海原油期貨市場價格波動與成交量、持倉量各部分之間的關系,借鑒Bessembinder和Seguin的研究成果,將成交量和持倉量分別分解為可預期部分和非可預期部分,探究預期成交量和非預期成交量以及預期持倉量和非預期持倉量對價格波動的不同影響。為了消除成交量和持倉量的序列自相關,利用自回歸移動平均模型ARIMA(,)對成交量和持倉量進行回歸:

(5)

(6)
其中預期部分為通過ARIMA(,)模型計算出的擬合值,非預期部分是其實際值與擬合值之差。ARIMA模型中滯后項的選擇基于AIC準則和SC準則,確定最合適的和值。經(jīng)比較分析,對日盤成交量選擇 ARMA(7,0)模型,對日盤持倉量選擇 ARMA (1,1)模型。
BP算法原理。BP算法是常用的機器學習的核心算法,其信息處理單元是神經(jīng)元,神經(jīng)元的輸出信息是來自上一級神經(jīng)元的輸入信息的加權和,是信息整合的過程。一旦整合后的信息超過該神經(jīng)元的閾值水平,該神經(jīng)元就被激活,并通過轉(zhuǎn)移函數(shù),可輸出非線性信息。BPNN通常包括輸入層(P層)、隱藏層(H層)和輸出層(T層),其中H層無法直接進行觀察,可以根據(jù)需要設計為多層。BP神經(jīng)網(wǎng)絡包括輸入信號的正向傳遞和誤差信號的反向傳遞。
輸入信號的正向傳遞過程由輸入信號的加權求和與轉(zhuǎn)移輸出組成,其中P層與H層間、H層與T層間分別以輸入神經(jīng)元的權重、輸出神經(jīng)元的偏置以及激活函數(shù)Sigmoid函數(shù)連接,在網(wǎng)絡中信息以非線性形式傳遞。定義和分別為下一層神經(jīng)元的輸入和輸出值,為來自上一層神經(jīng)元的信號輸入值,為上一層到下一層的權重,為下一層神經(jīng)元的閾值或偏置值,轉(zhuǎn)移函數(shù)()為Sigmoid函數(shù)。其大體運作原理如下:

(7)

(8)

(9)
誤差信號的反向傳播是指將輸出層的實際輸出值與期望輸出值做比較,若有誤差,則將誤差信號反方向逐層傳導,將誤差看作關于權值和閾值的函數(shù),借助梯度下降算法,通過按梯度的負方向調(diào)整權值和閾值,經(jīng)多次迭代,使誤差最小化。
與傳統(tǒng)的回歸分析相比,BP神經(jīng)網(wǎng)絡增加了隱層,有助于更精準地模擬現(xiàn)實生活中復雜的非線性關系。BP神經(jīng)網(wǎng)絡也是目前應用最為廣泛的神經(jīng)網(wǎng)絡,在期貨預測中的應用有重要參考價值,具有精度高、泛化性能好等優(yōu)點。基于BP算法的前饋網(wǎng)絡可以以任意精度逼近任何非線性函數(shù),對短期價格預測效果良好。因此,仍利用上述數(shù)據(jù)采用BP神經(jīng)網(wǎng)絡對原油期貨的價格進行非線性擬合與預測。
文章選取上海原油期貨2018年3月27日至2019年12月30日的成交量、持倉量、收盤價的分鐘級數(shù)據(jù),剔除節(jié)假日和缺乏夜盤的交易日,共計419個交易日數(shù)據(jù),每日上午及下午的交易時間歸為日盤數(shù)據(jù),共計225個時間間隔;每日夜晚及次日凌晨的交易時間歸為夜盤數(shù)據(jù),共計330個時間間隔。同時考慮到日盤和夜盤的數(shù)據(jù)數(shù)量以及交易者活躍性的差異,選擇將其分別建模。根據(jù)前文模型建立中變量的定義,分別計算出有效日期的日盤與夜盤的日對數(shù)成交量、日對數(shù)持倉量以及日成交相對增量、日持倉相對增量和已實現(xiàn)波動率。
考慮到數(shù)據(jù)中可能存在對模型影響較大的異常值點,文章通過計算學生化外殘差并結合“3σ原則”去除離群點,后利用SPSS軟件計算出各數(shù)據(jù)的杠桿值以及庫克距離,指標數(shù)據(jù)均在正常值內(nèi),可以認為處理后的數(shù)據(jù)不具有強影響點,且具有平穩(wěn)性。
對模型自變量分別進行D-W檢驗和共線性診斷,確定數(shù)據(jù)不存在一階自相關性和多重共線性,從而建立模型時回歸系數(shù)具有統(tǒng)計學意義,奠定了量價關系模型的統(tǒng)計基礎。但在利用Eviews進行White檢驗過程中發(fā)現(xiàn)R-squared數(shù)據(jù)的p值 Prob.Chi-Square均小于0.05,具有異方差性。此時用傳統(tǒng)的最小二乘法估計模型,得到的參數(shù)估計量不是有效估計量,也不是漸進有效的估計量,無法對模型參數(shù)進行有關顯著性檢驗。故文章采用統(tǒng)計學中對存在異方差性的模型常用的加權最小二乘法進行模型構建。利用加權線性回歸得到上海原油期貨日盤與夜盤中量價關系線性模型,如表1所示。

表1 上海原油期貨量價關系基礎模型的估計結果
研究結果表明,量價關系規(guī)律在日盤與夜盤中相同。首先分析模型(1)、(2):系數(shù)在5%顯著性水平下顯著為正,說明對數(shù)成交量和已實現(xiàn)波動率有同向變化的趨勢,即成交量的增長會導致上海原油期貨的價格波動加大。系數(shù)在5%顯著性水平下顯著為負,說明對數(shù)持倉量和已實現(xiàn)波動率有反向變化的趨勢,即持倉量的增加會導致上海原油期貨的價格波動減緩。而對反映原油期貨市場價格波動與成交相對增量、持倉相對增量關系的模型(3)、(4),與模型(1)和(2)相比,顯著性水平和系數(shù)的正負均相似,故分析結果也相似,體現(xiàn)為成交量變化幅度的原油期貨價格波動幅度呈現(xiàn)同向變化趨勢,而持倉量變化幅度則與價格波動的變化呈現(xiàn)反向變化趨勢。
通過以下四個步驟構建關于上海原油期貨的BP神經(jīng)網(wǎng)絡非線性模型:第一,模型構建,根據(jù)研究目標與經(jīng)驗公式分別確定P、H和T層的神經(jīng)元數(shù)和學習速率等模型參數(shù);第二,訓練模型與測試,將樣本數(shù)據(jù)分為訓練組(train)、驗證組(validation)和測試組(test)三個組別,通過訓練組和驗證組的訓練,找到擬合效果最好的非線性模型;第三,仿真測試,將測試組中的輸入項(Input)輸入模型,隨后對比模型的仿真輸出值與目標值,并根據(jù)相關指標判斷模型精準度以及誤差大小與所定義的正確率;第四,權重估計,即計算該模型各輸入項的權重,結合有關信息綜合判斷成交量與持倉量對上海原油期貨已實現(xiàn)波動率的影響效應。
3.3.1 非線性模型構建過程
根據(jù)日盤與夜盤的數(shù)據(jù)建立兩個BP神經(jīng)網(wǎng)絡模型。說明如下:
第一,輸入層與輸出層的設計見表2。日盤模型已實現(xiàn)波動率滯后階為3階,夜盤滯后階為4階。所以可設日盤P層有七個神經(jīng)元,夜盤P層有八個神經(jīng)元。日盤與夜盤的T層都為一個神經(jīng)元:上海原油期貨已實現(xiàn)波動率。關于H層的設計,則根據(jù)常用的經(jīng)驗公式確定H層有兩層,其中日盤的H層分別為20和3個神經(jīng)元,夜盤的H層則分別為15和8個神經(jīng)元。

表2 BP輸入層和輸出層對應指標
第二,激活函數(shù)選擇。本研究選擇最經(jīng)典的Sigmoid函數(shù)。
第三,訓練集、驗證集以及測試集的劃分。訓練集依照MATLAB help中參考資料選定原數(shù)據(jù)集的70%,驗證集選定15%的數(shù)據(jù),因為算法產(chǎn)生的隨機性,需要驗證集合不斷調(diào)試出較優(yōu)的模型。同樣地,測試集選定15%,用于比較經(jīng)過篩選后的網(wǎng)絡所預測出的值與真實值的差距,以產(chǎn)生的MSE、R以及所定義的正確率來評判模型好壞。文章中提出正確率的定義如下: 正確率是兩個時間單位間數(shù)據(jù)仿真值與數(shù)據(jù)期望值的差值正負相同的數(shù)據(jù)所占比例。
第四,權重計算與判斷。根據(jù)上述步驟獲得指標較好的BP模型后,提取P層到H層的權重共720個,再通過以下公式分別計算輸入層各項神經(jīng)元信號值的權重,從列矩陣讀出結果。其中,代表神經(jīng)元信號值的權重,以此來分析各影響因素對已實現(xiàn)波動率的影響。

3.3.2 非線性模型結果
建立并使用訓練組數(shù)據(jù)訓練出較好神經(jīng)網(wǎng)絡模型。根據(jù)成交相對增量的預期部分、非預期部分和持倉相對增量的預期、非預期部分以及滯后的三階或四階,分別采用日盤與夜盤的訓練后模型,仿真日盤與夜盤的已實現(xiàn)波動率。得到訓練組的樣本仿真值與目標值擁有相似的總體變化趨勢,如圖1和圖2所示。

圖1 日盤BP模型訓練結果

圖2 夜盤BP模型訓練結果
圖1~圖2顯示,訓練后的模型能夠在一定標準上擬合已實現(xiàn)波動率目標值變化趨勢,亦體現(xiàn)了訓練樣本的基本特點。
通常應根據(jù)實際需要評估模型的精確度與好壞,各行業(yè)具體標準不一。如在生產(chǎn)領域,有的文獻對比模型的仿真計算值與產(chǎn)品標準件實際測量值的平均值,并依據(jù)一定的置信區(qū)間(如95%的置信區(qū)間),評估總體均值與抽樣誤差后進而判斷仿真結果的達標率。而對于文章的研究,由于為大樣本時間序列數(shù)據(jù),且研究對象為上海原油期貨,仍受新冠肺炎疫情的影響,故模型構建重點側(cè)重于成交量、持倉量對原油期貨價格波動的影響以及通過該模型對原油期貨價格變化趨勢的預測。所以文章通過模型的R值、MSE值以及提出的正確率三個指標進行判定。其中,數(shù)據(jù)R代表該模型的輸出與目標之間的相關性,MSE為均方誤差,正確率則大致刻畫了大體趨勢的準確程度。
將經(jīng)過訓練和驗證之后的模型用于測試組,最后獲得日盤和夜盤中兩個模型用于訓練集、驗證集、測試集以及所有樣本數(shù)據(jù)的擬合效果結果R、MSE以及正確率,見表3。日盤四個集合的R都大于0.6,夜盤的R都大于0.5,故認為該模型的R結果已相對理想。

表3 BP模型正確率及MSE
得到較為理想的BP模型后,根據(jù)模型數(shù)據(jù)分別計算出輸入層各神經(jīng)元信號值的權重W矩陣,數(shù)據(jù)如表4所示。指標的權重一定程度上說明了該指標的相對重要性與影響的大小(評價學原理),故W矩陣顯示了輸入神經(jīng)元信號值影響效應的相對大小。

表4 BP輸入層各神經(jīng)元權重
在日盤模型中,按照影響效應大小排序,依次是持倉相對增量非預期部分、持倉相對增量預期部分、成交相對增量預期部分、成交相對增量非預期部分。該結果一定程度上表明持倉量對日盤價格波動具有較大影響,且非預期部分相較預期部分影響更大;夜盤的影響效應從大到小依次是持倉相對增量預期部分、成交相對增量非預期部分、成交相對增量預期部分、持倉相對增量非預期部分。表明了夜盤成交量中,非預期部分對價格波動的影響更大,而夜盤的持倉量結果與日盤相反。
參考朱學紅認為非預期持倉量(成交量)代表投資者未來的信息,具有無法預料性,這些意料外的信息會引發(fā)期貨市場的價格波動。所以預期與非預期部分對價格波動的影響是很不同的,且一般來說非預期部分易造成更大影響,實證結果也詮釋了日盤中持倉量非預期部分影響更大,夜盤中成交量非預期部分亦影響更強。另外,期貨市場中知情交易者的比例可通過預期成交量(持倉量)顯示出,流動性交易者的比例則由非預期成交量(持倉量)反映,故該結果可表明,上海原油期貨市場中流動性交易者占比較大,契合市場流動性理論。
文章采用以一分鐘為采集頻率的高頻數(shù)據(jù),探究上海原油期貨市場中的量價關系問題:在日盤、夜盤中成交量、持倉量對價格波動分別具有哪些影響。基于諸多國內(nèi)外學者的研究分析,文章將交易日的日盤和夜盤數(shù)據(jù)分離分別建模,采用已實現(xiàn)波動率作為價格波動的有效度量,探究成交量、成交相對增量、持倉量、持倉相對增量對價格波動的影響。線性回歸結果表明,成交量對價格波動的影響表現(xiàn)為正向,即成交量增多價格上漲;持倉量對價格波動的影響與成交量相反,表現(xiàn)為負向影響,即持倉量增多價格反而會下跌;成交相對增量和持倉相對增量對價格波動的影響也分別體現(xiàn)為顯著的正相關和負相關關系。
在線性回歸的基礎上,進一步細化解釋變量即成交量、持倉量,利用成交相對增量的預期、非預期部分與持倉相對增量的預期、非預期部分持倉相對增量、已實現(xiàn)波動率的數(shù)據(jù),進一步運用BP神經(jīng)網(wǎng)絡構建非線性量價關系模型,獲得了更為準確的模型結果。其訓練權重信息補充了線性回歸結果:日盤與夜盤的價格波動影響因素具有一定差別,持倉量的非預期部分對日盤價格波動影響最大;而持倉量的預期部分對夜盤價格波動影響最大。在構建的日盤模型中,持倉量非預期部分對價格波動的影響大于持倉量預期部分;而在夜盤模型中,對價格波動的影響為成交量的非預期部分大于預期部分。
文章實證所得的上海原油期貨市場中成交量、持倉量對價格波動的影響以及日盤與夜盤差異化、非預期部分與預期部分的不同影響等結果,一定程度上有助于投資者判定其市場走勢、價格變化,從而合理地進行投資和規(guī)避風險。同時也為該期貨市場的監(jiān)管者提供了有效信息,保證市場合理運作。