王丹妮,蘇梽芳,李氣芳
(1.華僑大學 經濟與金融學院,福建 泉州 362000;2.閩南師范大學 數學與統計學院,福州 漳州 36300)
配對交易作為一種能有效抵御風險的中性投資策略,被廣泛應用于金融市場統計套利領域。其基本原理是:對于市場中價格關系長期穩定的資產組合,當兩者價差偏離一定閾值時,對相對高估和相對低估的資產分別采取做空和買入操作, 待價差回復歷史均值結束交易,以此獲得價差收益。國內外學者研究發現,合理運用配對交易策略能推動市場良性發展,幫助更多投資者實現盈利(柳楠等,2014;周志中和徐杰,2020)[1][2]。其中,如何篩選配對資產組合和確定交易最優閾值成為統計套利的關鍵因素。
文獻中常用篩選配對資產組合的方法包括:相關系數法、最小距離法以及隨機價差法。但上述方法在回歸時可能存在偽回歸錯誤,且不適用于非平穩性的金融時間序列。Vidyamurthy(2004)提出將協整理論應用到股票市場配對交易中,利用均值回復的特點進行套利,不僅彌補了上述方法的不足,并且能減少交易成本使利潤最大化。此后,基于協整模型的配對交易法逐漸被應用到金融市場統計套利中(Huck and Afawubo ,2015;畢秀春等,2019)[3][4]。
隨著我國股指期貨的推出和發展,仇中群和程希駿(2008)[5]、朱麗蓉(2015)[6]等學者將協整配對交易策略應用到期貨市場,皆發現無論市場如何波動均能獲得較穩定的套利收益。但是,Madden(2012)指出以往文獻中大多使用低頻數據,難以準確描述實際觀測數據的潛在隨機過程,而隨著數據頻率的提高,傳統研究方式、使用模型都應加以修正[7]。相比之下,Ramsay和Dalzell(1991)提出的函數型數據分析方法(FDA)更適用于數據結構繁雜的金融統計數據[8]。
函數型數據分析法能將頻率混雜、不等間隔的日內高頻離散觀測值看作一條連續光滑的樣本曲線,將無窮維特征向量轉化為有限維得分向量(Dauxois et al.,1982)[9]。在分析時能夠準確描述數據的潛在規律性,減少信息損失,使得分析結果更加穩健可信(Tsay,2016)。但現有文獻一般假設函數型數據服從獨立同分布條件,而大部分高頻金融數據間是相互記憶互相關聯的,諸如股指期貨、股票指數等。因此本文考慮了金融市場數據的相依性特征,借鑒Hormann et al. (2010)、Horváth et al.(2012)提出的相依函數型數據分析法,利用長期協方差統計量來修正函數型數據,矯正估計偏差。
本文在高頻數據背景下,對傳統配對交易法進行擴展,引入基于相依函數型協整模型的配對交易法,對滬深300股指期貨展開跨期套利,并檢驗模型收益。具體而言,本文考慮了高頻股指期貨數據的相依性特征,利用長期協方差估計統計量代替獨立同分布條件下的短期協方差,對離散觀測數據進行函數重構。緊接著構建相依函數型協整模型,利用相依函數型平穩性檢驗篩選出具有協整關系的合約對。進一步地,結合股指期貨交易制度,確定交易階段的信號機制和閾值,捕捉日內有效交易機會。最后將本文構造的相依函數型協整模型與函數型協整、傳統協整模型進行配對交易套利收益對比。實證結果表明,本文構建的交易模型在股指期貨跨期套利中存在顯著優勢,收益表現最佳。
構建配對交易策略的首要任務是對資產組合進行篩選。為過濾原始數據噪聲,本文基于函數的視角將離散數據重構擬合成光滑連續的函數曲線。并且針對金融領域中具有相依性的函數型數據,利用長期協方差函數代替獨立同分布條件下的短期協方差矯正統計偏差。進一步將傳統協整模型拓展到相依函數型協整模型,篩選出具有長期穩定關系的可配對交易資產組合。
Ramsay (1991)提出的函數型數據分析在處理高維數據方面有顯著的優勢,但其模型主要建立在獨立同分布假設條件下。然而,股票、期貨等相關領域中的高頻數據,諸如日內成交價、逐筆交易數據等不僅是天然的函數型數據,同時數據間還具有較強相依性。針對此類不滿足獨立同分布條件的相依函數型數據,本文利用長期協方差函數代替i.i.d.條件下短期協方差,對離散數據進行重構擬合。進一步為避免選擇核函數和最優窗寬的人為因素,創新性地提出基于無截斷Bartlett核的長期協方差估計統計量。具體過程如下:
長期協方差定義為:
(1)
其中Γh(s,t)和Γ-h(s,t)為h階自協方差函數,有:
Γh(s,t)=cov[Xi(s),Xi+h(t)]=E{[Xi(s)-
μ(s)][Xi+h(t)-μ(t)]},
Γ-h(s,t)=cov[Xi(s),Xi-h(t)]=E{[Xi(s)-
μ(s)][Xi-h(t)-μ(t)]}
(2)
且h=0時,Γ0(s,t)為獨立同分布條件下協方差函數。
收集到離散觀測數據后,可利用核函數法對長期協方差函數進行估計:
(3)
一般選用核函數:K(x)=1-|x|,x|≤1,也有學者選擇Newey-West估計式或Flat top核(Kokoszka,2017;Politis et al.,1996)。但是,上述長期協方差函數估計法,都面臨核函數和最優窗寬的選擇問題,若選擇不恰當會產生較大的誤差。因此,本文構建基于無截斷Bartlett核的長期協方差估計統計量,避免了選擇核函數和最優窗寬的人為因素。
改進的Bartlett核長期協方差具體表達式如下:
(4)
得到長期協方差估計統計量如下:
(5)
選取兩個時點自變量s和t,將(5)式轉換為:
(6)
兩變量間樣本長期協方差估計式為:
(7)
(8)
函數展開式可表示如下:
(9)
結合上式,本文可得到基于Bartlett核長期協方差的相依函數型變量。從理論上講,該統計量無需人為選擇核函數和窗寬,比文獻中長期協方差核函數估計法更簡便更合理,比傳統函數型數據估計法更精確。

在對資產組合進行配對篩選的過程中,無論是傳統時間序列還是函數型時間序列,平穩性檢驗都是必不可少的步驟。因此首先需要對重構后的原函數序列和函數一階差分序列進行相依函數型平穩性檢驗,以篩選出具有同階單整的資產組合。由于嚴格平穩過程在實際應用中較難滿足,本文參考Horvath et al(2014),設立原假設序列平穩且滿足Lk-m-approximability弱相依關系,等價于函數為均值不變的平穩序列即:
H0∶μ1(t)=μ2(t)=…=μN(t)
針對結構突變點,備選假設為:
H1∶Xi(t)=μ(t)+δ(t)I{i>k*}+ηi(t),I≤i≤N
其中,結構突變點表示在第k*條曲線發生結構改變,均值函數變為μ(t)+δ(t),δ(t)表示L2(0,1)非零變化跳躍函數。構造統計量:
(10)
若原假設H0成立,則下式成立:
(11)
若針對結構突變點的備選假設成立:
(12)

(13)
當N→∞原假設H0成立,且誤差序列滿足Lk-m-approximability弱相依條件時,檢驗統計量分布收斂為(1)證明過程可查閱Horvath et al.(2014)。:
(14)
其中Bj為相互獨立的布朗橋。緊接著,利用蒙特卡洛模擬獲得臨界值,可判斷相依函數型序列是否平穩。將篩選后的具有同階單整的資產組合用于下一步相依函數型協整檢驗。本文基于E-G兩步法思路構建相依函數型協整檢驗模型,利用相依函數型協整回歸獲得殘差序列,通過檢驗其殘差序列的平穩性可判斷變量間是否存在協整關系。需要注意的是,只有當兩個變量為同階單整時才能進行協整檢驗。具體檢驗過程如下:
第二步,使用相依函數型平穩性檢驗驗證非均衡誤差函數ei(t)的單整性。若ei(t)為平穩序列,則認為變量Xi(t),Yi(t)為一階協整;相反的,認為相依函數型變量Xi(t),Yi(t)間不存在協整關系。
本文的動態交易過程為:首先利用相依函數型數據分析方法從離散交易價格中重構函數曲線,并找出具有協整關系的同階單整配對資產,其次設定交易周期、進出場信號機制及交易參數,最后以獲得最優收益為目標,評估協整配對交易策略是否適配于中國股指期貨市場。
配對交易周期分為配對期和交易期,截選股指期貨市場240天的交易數據作為樣本。其中前T=120個交易日作為配對期,以其后的T+1個交易日作為交易期。在整個交易周期中,從配對期內篩選出具有相依函數型協整關系的資產組合對,估計得到回歸函數的各類參數,降維處理后作為交易期的資產對沖權重比例,并預測下一交易日的價格,從而求得預測的殘差函數序列,作為交易期是否正常進行交易的判斷依據。并以此類推直到最后一個交易日,結束配對周期。
在修正最短距離法的基礎上,圍繞如何度量價差偏離和回歸程度,以及如何分配做空做多資產組合倉位等規則設定進出場機制。具體設定如下:
第一步:建倉——選擇延遲開倉,即當價差突破建倉閥值后再次回復到歷史閥值時才建倉,避免第一次觸發開倉條件后價差出現單邊走勢造成損失。
第二步:平倉——選擇價差回落到平倉線時再進行平倉,加入止損機制。當價差沒有及時回復均值反而不斷擴大時,對所持的股票強制平倉退場,降低交易風險。
第三步:止損信號——如果在整個交易期內出現配對資產組合建倉后多次觸發建倉閾值的情況,則清空頭寸等待下一輪交易信號。如果在整個交易期內配對資產只出現建倉信號,無平倉信號或止損信號,則對該資產組合進行強制平倉,降低交易風險。
(15)
(16)
為適應我國股指期貨市場特殊的T+0交易制度,本文對交易信號設置為建倉、平倉后均可在同一交易日內再進行交易。具體進出場機制設定為:
空頭價差開倉線:Spread1>μ+γσ,多頭價差開倉線:Spread1<μ+γσ;
空頭價差平倉線:Spread2<μ+γσ,多頭價差平倉線:Spread2>μ-γσ;
空頭價差止損線:Spread3>μ+fσ,多頭價差止損線:Spread3>μ+fσ。
傳統文獻中通常依據經驗設定固定因子值,例如文獻中以2倍殘差標準差γ=2作為建倉線,以0.5倍殘差標準差λ=0.5作為平倉線。一般來說,不同樣本數據采用統一經驗設置參數有可能產生統計錯誤。本文參考績效評估策略,通過遍歷尋優法依據歷史數據設定最優閥值。設置建倉、平倉以及止損因子分別為γ、λ和f。選擇前120個交易日樣本內最優收益作為評估指標,以0.1步長遍歷建倉因子γ(0.5,1)、平倉因子λ(0.1,0.4)以及止損因子f(2,2.5)。交易參數每隔30天重新估計。
利用每筆交易中兩對資產組合的對沖比例可以獲得逐筆交易收益。首先將滾動回歸得到的二元回歸系數β(t)轉換為單維度系數函數:
(17)
由上式可得到分配比例的取值結果,假設兩個配對資產組合X∶Y對沖比例為β∶1。在[t1,t2]時間段,Y資產組合對X資產組合回歸后的相依函數型殘差序列觸發交易建倉線閾值完成一筆多頭建倉,隨著交易進行再觸發平倉線完成該筆交易。則在不考慮交易成本的情況下該筆交易收益可表示為:
(18)
同理,若以空頭價差建倉后平倉交易收益可表示為:
(19)
本文從銳思數據庫(RESSET)選取滬深300股指期貨(HS300)不同交割月合約指數(當月、下月、當季、下季)日內5分鐘高頻收盤價作為樣本數據,以檢驗套利模型收益水平。樣本范圍為2020年4月1日至2021年3月26日共240個交易日,每個交易日包含48個收盤價數據。
首先,利用粗糙懲罰法對不同交割月合約價格進行平滑處理,將高頻觀測數據轉變為相依函數型數據。其次估計其均值函數、長期協方差函數和主成分得分等相關要素,由累積方差95%確定主成分個數,最后利用K-L展開式對函數曲線進行擬合重構,將原始離散數據轉化為240條函數曲線組成的相依函數型數據集。
進一步,利用基于相同標的指數的兩個或三個不同交割月份的合約之間的價差偏離進行配對交易跨期套利。在5%顯著水平下,檢驗四個不同交割月合約指數(設定當月00、下月01、當季02、下季03)相依函數型變量的單整性,對四個原函數序列及其一階差分序列進行相依函數型平穩性檢驗。如表1所示,滬深300股指期貨四個不同交割月的原函數序列均拒絕原假設,但一階差分后樣本序列接受原假設,因此相依函數型時間序列為平穩序列。

表1 滬深300股指期貨不同到期月合約平穩性檢驗
利用平穩性檢驗結果,可將HS300股指期貨四個不同的交割月相依函數型變量以兩個變量為一組分為不同合約對進行協整檢驗:當月下月(00-01)、當月當季(00-02)、當月下季(00-03)、下月當季(01-02)、下月下季(01-03)和當季下季(02-03)共六對。對同階單整的不同組合進行全函數線性協整回歸,得到協整回歸系數顯著性檢驗如圖1所示。

對殘差函數序列分別進行平穩性檢驗。由表2可得,HS300股指期貨當月下月(00-01)、當月當季(00-02)、當月下季(00-03)、下月當季(01-02)、下月下季(01-03)和當季下季(02-03)六組跨期組合對數價格序列均為一階單整,且回歸方程的殘差序列沒有單位根,因此變量間存在協整關系。進一步對上述具有長期協整關系的協整對進行配對交易統計套利。

表2 相依函數型協整回歸殘差平穩性檢驗
為了更直觀地了解相依函數型協整模型配對交易方法的具體表現,本文在上述六對具有協整關系的跨期資產組合中選取一組近期(當月)合約和遠期(當季)合約作為配對資產,構建函數型協整和傳統協整模型的配對法作為對照,依照相同交易規則進行交易,分別從交易因子取值估計、每筆交易收益情況、在整個交易期總收益情況等多個角度進行套利績效對比。
經檢驗,基于函數型數據協整模型和傳統協整模型下的HS300不同交割月月原始價格序列為非平穩序列,一階差分后樣本序列檢驗平穩且回歸方程的殘差序列沒有單位根,因此近遠期合約價格序列存在協整關系,可進行配對交易統計套利。在整個配對交易過程中,取120天作為首個配對期用來估計交易參數,每隔30個交易日重新估計交易參數。表3-表5為協整配對交易在四次參數估計區間(2)第五次參數估計區間不滿120天不計入考慮范圍。樣本內最優閾值選擇與收益情況。
將表3與表4、表5對比可以看出,不同參數估計階段通過遍歷尋優法對因子的取值和樣本收益均存在較大差距,相依函數型和函數型協整模型收益近似,而傳統協整收益總體水平明顯低于函數類協整模型收益。

表3 相依函數型協整配對交易參數估計各區間樣本內收益

表4 傳統協整配對交易參數估計各區間樣本內收益

表5 函數型協整配對交易參數估計各區間樣本內收益
如圖2為相依函數型協整模型在整個交易期的交易走勢圖。其中,虛線劃分的四個區間為重新估計交易參數的區間,圈點為用來判斷是否觸發交易閾值的5760個交易點組成的殘差序列,圖中曲線由上到下依次表示觸發跨期套利機制的止損線、建倉線以及平倉線,下半部分對應相反。當圈點觸發建倉線則進場準備交易,賣出HS300股指期貨近期合約,買入對應數量的HS300股指期貨遠期合約;待圈點回歸平倉線采取相反策略,準備出場進行平倉止盈,買入HS300股指期貨近期合約,賣出對應數量的HS300股指期貨遠期合約。若圈點進一步上升或下降達到止損線時,則立即平倉止損。經對比可得,函數類協整回歸后的殘差序列走勢具有較為明顯的均值回歸特性,且交易頻率較高。而傳統協整配對模型交易頻數最少,交易頻率最低。
在配對期尋優得到交易參數后可進入交易期進行樣本外交易,收益為樣本外收益。共有5760個可交易時點。對比三種模型下跨期協整配對樣本外交易分布情況,以正負收益為界將收益水平分為八個區間。X軸表示交易金額,Y軸表示在該區間內的交易筆數占總筆數的比例。從圖3樣本外交易期收益圖我們發現:第一,相依函數型協整模型正負收益平均各占50%。其中交易頻率最高區間為(0,500),約占總收益的26.3%,占正收益的52.6%;相反的,頻率最低區間為(2000,3000),約占總收益的2.6%,占負收益的5.2%。,第二,函數型協整模型正收益占比51.28%,負收益占比48.7%。交易頻率最高區間為(0,500),約占總收益的28.2%。第三,傳統協整模型正收益區間為(0,500),占比88.5%,負收益區間為(-500,0),占比11.5%。在其余區間上交易次數為零??傮w而言,相依函數型協整和函數型協整交易分布基本類似,總收益情況相較于傳統協整模型收益表現良好。
綜合對比三種模型下跨期協整配對交易期收益情況可以看出,在整個交易期內:(1)相依函數型協整和函數型協整模型相較于傳統協整模型交易頻率高,對應持倉天數較短。(2)從綜合平均收益、最大最小及標準差收益來看,相依函數型平均收益最高,為1004.241,傳統協整模型平均收益僅為0.2258。相依函數型和函數型協整模型正負收益占比較為平均;而傳統協整模型勝率最高。(3)由于在三種模型下交易成本與交易手續費相同,對比總收益,相依函數型配對交易樣本總收益為38161.16,函數型配對總收益為36396.61,傳統配對收益為5.87,因此基于長期協方差的相依函數型協整模型和函數型協整配對模型在跨期統計套利中收益表現優于傳統協整模型。其中使用相依函數型協整模型的擬合度最好,在股指期貨跨期套利中收益表現最優。

表6 HS300跨期套利協整配對交易收益
本文以滬深300股指期貨日內高頻數據作為樣本對象,構建了一種新的基于相依函數型協整模型的配對交易策略,以檢驗股指期貨市場跨期套利收益情況。具體而言,在數據預處理階段,該模型考慮了高頻數據的相依性特征,采用基于無截斷Bartlett核的長期協方差估計統計量重構相依函數型變量,是獨立同分布假設條件下函數型的進一步拓展。配對階段,在傳統E-G協整檢驗基礎上,以相依函數型數據分析為框架,通過相依函數型時間序列平穩性檢驗尋找同階單整的資產組合,再利用相依函數型協整兩步法篩選出協整合約對。協整檢驗客觀分析了不同交割月合約的價格序列具有長期穩定的協整關系。交易階段,結合股指期貨交易制度設定交易信號機制和閾值,將滾動回歸后的系數函數維度化處理后作為股指對沖比例,當價差背離均衡價格一定程度時觸發交易,當價差回復歷史均值進行反向操作,捕捉日內有效交易機會。最后基于平穩性檢驗、協整檢驗和價差分布,選用股指期貨長短期合約組合進行跨期套利實證研究,并與函數型、傳統協整配對交易模型進行績效對比。
實證結果證明,基于協整的高頻配對交易模型在套利策略中皆發揮了一定作用,突破了傳統統計方法對高頻數據處理的局限性,也能更好把握建倉平倉時機,不僅提高了信息挖掘的深度和有效性,也提高了配對交易收益水平。其中,本文構建的基于無截斷Bartlett核長期協方差構造的相依函數協整配對交易模型較其他估計法而言,無論是在樣本內還是樣本外區間,皆出現多次套利機會并取得了良好的套利效果,且能夠對配對樣本資產對沖比例進行合理的動態化調整,具有明顯的優越性。
總體而言,在不同套利方法中,傳統協整配對交易模型勝率高且收益波動小,更適用于追求穩健、風險接受度小的投資者;而相依函數型協整配對交易模型正負收益波動較大,但總收益最高,更適合于積極且對風險接受度高的投資者。