方軍 李星野
摘 要 現有的統計套利策略大多建立在協整理論和GARCH模型的基礎上.離散Fourier變換(DFT)的思想可以挖掘價差序列周期性、非線性的特征,保證其在擬合和預測中的精確度.利用滬銅期貨合約的收盤價數據進行實證分析,研究結果表明:在高頻數據下,新模型對數據的擬合和預測效果要明顯優于傳統的套利模型,在相同的交易規則下,新模型的套利成功率和收益率都高于傳統的統計套利模型.
關鍵詞 數量經濟學;統計套利;協整理論; GARCH模型;離散Fourier變換
中圖分類號 F224.0?????????? 文獻標識碼 A
Statistical Arbitrage Research of DFTGARCH
Model Based on Cointegration Theory
FANG Jun,LI Xingye
(College of Management, University of Shanghai for Science and Technology, Shanghai 200093, China)
Abstract Most of the existing statistical arbitrage strategies are based on the cointegration theory and the GARCH model. The idea of discrete Fourier transform (DFT) can exploit the periodic and nonlinear characteristics of the spread sequence to ensure its accuracy in fitting and prediction. Using the closing price data of copper futures contract in the Shanghai futures exchanges for empirical analysis, the results show that under the high-frequency data, the new model fits and predicts the data better than the traditional arbitrage model. Under the same trading rules, the arbitrage success rate and yield of the new model are higher than the traditional one.
Key words statistical arbitrage; cointegration theory; GARCH model; discrete Fourier transformation
1 引 言
統計套利策略作為期貨市場最為常見的投資方式,一直是人們研究的熱點.其核心思想是通過數理統計方法捕捉兩種或多種資產組合之間的定價關系來構建多頭和/或空頭組合,通過設定合理的套利閾值進行程序化交易[1].統計套利的關鍵假設是歷史會重演,即資產組合間的內部偏差能夠得到快速修正,這需要在實際交易中找到合適的資產組合.
目前,國內外已有大量關于統計套利的研究文獻.國外較早文獻研究的是資產組合間是否存在套利機會.為提高套利機會與收益,研究者們逐漸將視線放在高頻交易上,如Hanson和Hall(2012)[2]探討不同頻率下高頻交易對統計套利盈利能力的影響,給出了高頻交易的3個趨勢,其實驗結果表明,高頻交易增加了相關性和波動性,對統計套利交易策略產生了直接的影響.最近的文獻則大多是圍繞探索許多新的統計套利模型展開,例如Krauss等(2016)[3]應用深度神經網絡(deep neural networks)、梯度樹提升(gradientboosted trees)和隨機森林(random forests)的方法研究標準普爾500指數的統計套利.由于國內金融市場的不成熟和做空機制的不完善等原因,國內關于統計套利的研究起步較晚.在國外學者研究的基礎上,我國學者也開始研究中國金融市場是否存在套利機會.仇中群和程希駿(2008)[4]將基于協整理論的統計套利策略運用在滬深300股指期貨的仿真交易上,證明了統計套利策略在中國期貨市場上是可行的.大量學者驗證了我國金融市場上不同套利組合之間確實存在一定的套利機會.如常宗琪(2008)[5]將同樣的套利策略應用于鄭州期貨交易所白糖期貨合約,韓廣哲和陳守東(2007)[6]基于上證50指數成分股的數據檢驗了統計套利模型的可行性.在此基礎上,孫維(2009)[7]和趙莉(2012)[8]研究發現滬深股票市場具有異方差的波動特征,GARCH模型族具有更加優異的擬合效果.何樹紅等(2013)[9]基于GARCH統計套利模型,并利用置信度確定的套利閾值來進行跨期套利.隨著統計套利理論的成熟,新的套利模型不斷涌現.梁斌等(2011)[10]采用LARSLasso方法研究了滬深300仿真交易的期現套利,發現滬深300的仿真交易中存在比較大的套利空間.劉陽等(2016)[11]將神經網絡與動態GARCH模型結合,使得模型能夠更及時發現波動性的變動.張波和劉曉倩(2017)[12]基于EGACH-M模型對滬深300股指期貨進行跨期套利研究,實證結果表明新模型能夠更好的刻畫協整關系從而獲得更多的收益.還有部分學者驗證并完善了統計套利策略,如雷井生和林莎(2013)[13]運用6個不同頻率的數據論證了數據頻率對套利結果的影響.覃良文等(2016)[14]通過窮舉法求得統計套利的最優閾值,以此確定了最優的套利策略,實證研究表明這種方法相較于根據置信度來確定套利閾值的套利策略能獲得更多的收益.
縱觀國內外的相關研究,大多數學者對統計套利的交易資產組合及套利模型越來越關注,以期獲得更高的收益率和套利成功率.在前人研究的基礎上,通過加入離散Fourier變換的思想擬合并預測價差序列,從而構建新的統計套利模型可能是可行的.利用滬銅期貨的收盤價數據建立傳統的協整GARCH和新的基于協整理論的DFTGARCH兩種統計套利模型,在相同的交易規則下進行實證研究,通過對兩種模型的套利結果進行比較得出新模型的優劣.
2 研究方法
2.1 協整理論
大多數金融時間序列是非平穩的,但可以通過多次差分使其成為平穩序列.假如一個時間序列經過d次差分后變成平穩序列,則稱原序列是d階單整序列,記為I(d).協整理論就是為了說明兩個同階單整序列之間的長期均衡關系.
協整理論可以用公式(1)來表示.
其中時間序列X,Y為同階單整序列,非均衡誤差μt為平穩白噪聲序列.
2.2 GARCH模型
為了說明金融時間序列的集群波動現象,引入GARCH模型,標準的GARCH(1,1)模型由以下公式描述.
均值方程:yt=c0+cxt+εt,(2)
條件方差方程:σ2t=α0+αε2t-1+βσ2t-1,(3)
標準化殘差序列:rt=εtσ2t.(4)
2.3 離散Fourier變換(DFT)
通過Fourier變換,三角函數能夠以任意的精度去逼近有間斷點的函數ft.金融時間序列可以看成離散數列xn;n=0,1,…,N-1,它是根據取樣定理對連續函數ft按時間間隔TN進行采樣得到的,采樣點數為N,則稱
Xk=∑N-1n=0xne-i2πnk/N,k=0,1,…,N-1(5)
為xn的離散Fourier變換(DFT).稱
xn=1N∑N-1k=0Xkei2πnk/N,n=0,1,…,N-1(6)
為Xk的離散Fourier逆變換(IDFT).
由Fourier變換的性質可以得到頻率kN對應的實周期序列xm如式(7)所示.
x(m)=1N[X(k)ej2πNkm+X(N-k)ej2πN(N-k)m]
=1N[X(k)ej2πNkm+X(k)e-j2πNkm]
=1N∑N-1n=0x(n)cos [2πNk(m-n)]. (7)
2.4 周期延拓
通過離散Fourier變換可以得到對序列xn;n=0,1,…,N-1影響較大的周期序列,即Fourier變換后得到的頻譜Xk中模值較大的頻率所對應的周期序列,將這些周期序列簡單疊加可以得到原序列的主要趨勢序列.而周期延拓就是將這些周期序列按其周期分別進行復制延拓,延拓后的序列疊加在一起就是預測的原序列的趨勢序列.
若xm的周期為M,則xm的周期延拓如式(8)所示.
(m)=∑∞a=-∞x(m+aM).(8)
如圖1所示,細線是周期序列,粗線是周期延拓序列.
時間/5分鐘
圖1 周期延拓
2.5 統計套利交易策略
為比較基于協整理論的DFTGARCH統計套利模型與常用的協整-GARCH統計套利模型的優劣,對兩種模型采用同一種交易策略,即根據統計套利理論,以GARCH模型殘差項rt=μt/σ2t來確定套利區間,進行套利交易.
為了簡化交易流程,要求開倉后未平倉不得再開倉.具體交易策略是:當rt>δ1δ1>0時,牛市建倉,此時買入主力合約CU0,賣空次主力合約CU1,平倉條件有兩種:若rt≤δ20≤δ2<δ1則止盈平倉,若rt≥δ30≤δ2<δ1<δ3則止損平倉;當rt<-δ1δ1>0時開始熊市建倉,此時買入次主力合約CU1,賣空主力合約CU0,平倉條件類似.
3 實證研究
3.1 數據選取
為比較兩種統計套利模型的優劣,對上海期貨交易所陰極銅期貨Cu1708和Cu1709的5分鐘收盤價數據分別建立相應的統計套利模型,在相同的交易規則下進行實證分析.
取2017年7月27日至2017年8月3日共6個交易日558個5分鐘收盤價數據為樣本內數據建立套利模型,以2017年8月4日至2017年8月7日共兩個交易日186個5分鐘收盤價數據為樣本外數據驗證模型的實際盈利效果.數據源于萬德數據庫.
3.2 協整關系
基于統計套利的歷史重演假設,選取的套利資產組合之間必須有良好的相關性.首先,將滬銅期貨Cu1708和Cu1709合約的價格序列分別記為主力合約Cu0與次主力合約Cu1,經計算兩序列的相關性系數為0.99,從而可以認定統計套利的假設得到滿足.
接著對兩價格序列進行ADF單位根檢驗,結果表明兩序列均為一階單整序列,由最小二乘估計(OLS)得其協整關系如式(9)所示.
Cu1=-621.819+1.015Cu0+μt.(9)
最后對價差序列μt也進行ADF檢驗,得出μt是平穩的,說明Cu0與Cu1之間存在協整關系.
3.3 建立GARCH模型
用MATLAB對價差序列μt進行ARCH檢驗,發現其存在ARCH效應,所以考慮對序列μt運用GARCH(1,1)模型,擬合后得到的模型如式(8)所示.
σ2t=39.447+0.635ε2t-1+0.309σ2t-1.(10)
t值= (4.458)? (17.491)??? (7.057)
由括號中各系數的t統計量值可以看出,模型的擬合效果很理想.
3.4 建立DFTGARCH模型
3.4.1 提取主要趨勢序列
對價差序列μt進行離散Fourier變換(DFT),根據其幅值譜提取價差序列的主要趨勢.一般來說,僅選取幅值最大的3個頻率點對應的周期序列,將其疊加得到主要趨勢序列.這是因為選取的個數越多,雖然樣本內數據擬合效果會越好,但樣本外預測的誤差也會越大,從而統計套利模型的穩定性與實際盈利效果越差.
幅值最大的頻率點所對應的周期序列如圖1所示,細線是周期序列,粗線是周期延拓序列.圖2(a)與圖2(b)分別是幅值第二大和第三大的頻率點所對應的周期與周期延拓序列.圖3是這些周期序列疊加后得到的主要趨勢序列x(n),細線是主要趨勢序列,粗線是預測趨勢序列.
3.4.2 價差的殘差序列
價差序列μt與提取的主要趨勢序列x(n)之間的差值稱之為價差的殘差序列,記為S.
3.4.3 建立GARCH模型
對價差的殘差序列S進行ARCH檢驗,發現其存在ARCH效應,所以考慮對序列S運用GARCH(1,1)模型,擬合后得到的模型如式(12)所示.
各系數的t統計量值表明GARCH模型的擬合效果很好.
3.5 累計收益率
以樣本內、外的累計收益率為標準判斷模型的優劣.為簡化計算,假定一手滬銅期貨主力合約的價格為X,次主力合約的價格為Y,其中Xi1、Yi1是第i次套利時兩合約的開倉價格,Xi2、Yi2是第i次套利時兩合約的平倉價格,交易手續費率為C%,則第i次牛市開倉的收益率如式(13)所示.
同理,第j次熊市開倉的收益率如式(14)所示.
假定在套利過程中一共完成了n次交易,其中牛市開倉有n1次,熊市建倉有n2次,并且n=n1+n2,于是累計收益率如式(15)所示.
3.6 套利交易
3.6.1 套利閾值
對于不同大小的套利閾值,統計套利模型的損益也有所差異.為了減小套利閾值對模型結果的影響,采用以下方式確定套利閾值.
止損閾值:在實際的統計套利過程中,δ3的取值一般由投資者根據自身的風險偏好以及需求來確定.為排除主觀因素對套利結果的影響,根據風險價值理論選取置信度為99%的VaR值(δ3=2.33)為止損閾值.
平倉閾值:為簡化交易流程,根據統計套利的歷史重演假定,將兩種模型的平倉閾值都設為0δ2=0,即認為當價差序列偏離了長期均衡關系后,在短期內仍能夠得到修正.
開倉閾值:采用窮舉法遍歷所有的開倉閾值,以一定的步長將區間δ2,δ3=(0,2.33)內的值一一賦予δ1,以樣本內的累計收益率為標準,最大累計收益率對應的開倉閾值δ*1為模型的最優開倉閾值.
3.6.2 樣本內套利結果分析
根據交易所數據確定交易手續費率為0.05‰,經過MATLAB程序計算,可以得出兩種模型在樣本內的最優開倉閾值以及對應的最大累計收益率,結果見表1.
由表1可知,在相同的交易規則下,對樣本內數據使用新模型進行統計套利能獲得更好的收益.因為新模型在確保套利成功率的前提下,大幅提升了套利次數,從而累計收益率得到提升.
為了排除最優開倉閾值對兩種模型累計收益率的影響,在相同的交易規則下,計算出所有滿足條件的開倉閾值相對應的累計收益率,如圖5所示.實線與虛線分別表示DFTGARCH模型累計收益率、GARCH模型累計收益率與開倉閾值之間的關系.
由圖5可以看出,在相同的交易規則下,當選取相同的開倉閾值進行統計套利時,基于協整理論的DFTGARCH統計套利模型在樣本內的累計收益率一般要高于基于協整理論的GARCH統計套利模型,說明該模型相較于傳統的套利模型對樣本內的數據有更好的擬合效果.
3.6.3 樣本外數據回測
為了評價模型的穩定性及實際盈利效果,以2017年8月4日至2017年8月7日5分鐘收盤價數據為樣本外數據進行回測.在相同的交易規則下,以樣本內數據確定的最優開倉閾值對樣本外數據進行統計套利,套利結果見表2.
由表2可知,兩種套利模型在樣本外套利的總次數都差不多, 但GARCH統計套利模型在樣本外的套利成功率較低,因為GARCH模型對樣本外數據的預測效果較差,而DFTGARCH模型基于離散Fourier變換理論提取和預測了價差序列的主要趨勢,無論是套利成功率還是平均單次收益率都得到了保證,從而在樣本外獲得了更好的盈利.
me-font:minor-fareast; mso-bidi-font-family:宋體;mso-ansi-language:EN-US;mso-fareast-language:ZH-CN; mso-bidi-language:AR-SA'>效應,所以考慮對序列S運用GARCH(1,1)模型,擬合后得到的模型如式(12)所示.
4 結 論
與傳統的協整GARCH統計套利模型不同,新模型在協整理論求得價差序列的基礎上,利用離散Fourier變換提取和預測了價差序列的主要趨勢,在相同的交易規則下求得樣本內的最優開倉閾值和累計收益率,并由此計算出樣本外的累計收益率.
在相同的交易規則下,通過對兩種統計套利模型的交易結果進行比較可以看出以下兩點.(1)在樣本內,基于協整理論的DFTGARCH統計套利模型能夠更好的擬合樣本內的數據,抓住價差序列非線性、周期性的特點,捕捉到更優的套利時機.(2)在樣本外,基于離散Fourier變換理論的新模型能夠更好的預測價差序列的波動,確保了統計套利模型的穩定性,具有更加優異的實際盈利效果.
新模型在使用過程中,需要不定期的更新數據.而根據Fourier變換的性質,樣本內的數據變動不僅會影響模型參數,還會影響預測的樣本外價差序列,所以需要確定最優的樣本內區間長度以及樣本外多步向前預測的步數.
參考文獻
[1] 朱麗蓉,蘇辛,周勇.基于我國期貨市場的統計套利研究[J].數理統計與管理,2015,34(4):730-740.
[2] HANSON T A,HALL J. Statistical Arbitrage Trading Strategies and High Frequency Trading[J]. Social Science Electronic Publishing, 2012, 49(2):177-202.
[3] KRAUSS C, DO? X A, HUCK? N. Deep neural networks, gradientboosted trees, random forests: Statistical arbitrage on the S&P 500[J]. European Journal of Operational Research, 2016, 259(2) :689-702.
[4] 仇中群,程希駿. 基于協整的股指期貨跨期套利策略模型[J]. 系統工程, 2008, 26(12):26-29.
[5] 常宗琪. 白糖統計套利理論模式研究及實例分析[J]. 經濟師, 2008, 2008(11):30-31.
[6] 韓廣哲,陳守東. 統計套利模型研究——基于上證50指數成份股的檢驗[J]. 數理統計與管理, 2007, 26(5):908-916.
[7] 孫維. 對深圳股票市場有效性的實證研究[J]. 經濟研究導刊, 2009(18):73-73.
[8] 趙莉. 基于GARCH模型的滬深300指數收益率波動性分析[D]. 成都:成都理工大學管理科學學院, 2012.
[9] 何樹紅,張月秋,張文. 基于GARCH模型的股指期貨協整跨期套利實證研究[J]. 數學的實踐與認識, 2013, 43(20):274-279.
[10]梁斌,陳敏,繆柏其,黃意球,陳釗. 基于LARSLasso的指數跟蹤及其在股指期貨套利策略中的應用[J]. 數理統計與管理, 2011, 30(6):1104-1113.
[11]劉陽,李艷麗,陸貴斌. 基于信息更新NNGARCH模型的統計套利研究[J]. 統計與決策, 2016(2):169-171.
[12]張波,劉曉倩. 基于EGARCHM模型的滬深300股指期貨跨期套利研究——一種修正的協整關系[J]. 統計與信息論壇, 2017, 32(4):34-40.
[13]雷井生,林莎. 基于高頻數據的統計套利策略及實證研究[J]. 科研管理, 2013, 34(6):138-145.
[14]覃良文,唐國強,林靜. 基于協整GARCH模型最優閾值統計套利研究[J]. 桂林理工大學學報, 2016, 36(3):625-631.