章涵
(復旦大學經濟學院 上海 200433)
近半個世紀以來,隨著計算機科學、機器學習方法、概率論學科、計量經濟學的高速發展,證券投資領域的量化分析方法與程序化交易在全球金融市場獲得一席之地。量化投資最顯著的優勢是可以實現投資決策最大程度與投資人主觀分離,通過對一、二級市場信息的整合,做出優秀的二級市場交易決策。在理論均衡市場和實際交易市場中,常常有可識別的較大套利空間。然而,隨著計算機算力的飛速提高和人工智能、機器學習理論的進一步完善,量化投資存在過于依賴機器學習的問題。知網數據顯示,近年來應用于量化投資的機器學習模型與策略數量快速上升。
利用機器學習通常能夠實現對訓練集(即歷史數據)的最好擬合,但仍會帶來一定的問題:(1)容易出現過擬合,在測試集中效果不佳。(2)模型過于黑盒,脫離經濟學原理,遭遇特殊事件時抗風險能力差。(3)機器學習對算力和時間要求高,限制了交易頻率與交易即時性。(4)學習方法大同小異,容易出現量化策略雷同、交易算法近似、邏輯通道重疊,在有利行情下可預估的市場利潤被過度瓜分,市場策略的競賽變為硬件設備的競賽,現有的穩定性與利潤空間受到較大制約。市場對非學習性的交易策略有日益提高的需求。
均值回歸在量化投資策略中占有重要地位,均值回歸效應一般指當觀察的目標量偏離其價值中樞(或均值)較遠時,有較大概率向價值中樞回歸的趨勢。廣義均值回歸的目標量形式多樣,包括單標的的資產價格、雙標的的價格差值、一攬子投資組合的價格或差值等形式;均值回歸的方式也十分多樣,既包括基本面基本不變的短期內價格回歸,又包含基本面本身圍繞事物客觀發展規律上下波動的長期趨勢。
本文試圖從創新的角度,以均值回歸理論為底層邏輯,尋找合適的權重指數,構造符合客觀事實的超額價差模型,設計包含帶有移動權重的量化交易策略。首先,在實證分析環節,通過對某一標的(本文選取商品期貨-螺紋鋼rb)2013—2020年的歷史數據進行測算,計算其使收益率最優化的參數,并對參數進行橫向比較以檢驗其穩健性。其次,以該參數構建具體化的交易策略,投入2013—2020年的歷史數據進行回測計算,并對結果進行分析。最后,在不改變參數的前提下,模擬其在2021年內的收益情況,并進一步評價策略的可行性。
為避免模型的過擬合和策略的失效,本文依次在各個階段采取了一定的措施。在初步設計模型階段,從理論出發而非從統計數據出發,在無監督環境下構建模型架構。在獲取計算螺紋鋼品種的最優參數時,利用Matlab計量工具,通過循環算法以較小或連續的步長計算最優解,通過梯度下降算法并加入噪音模擬其生成過程;通過可視化手段,盡量保證取得參數是全階段最優而非全局最優(即參數在所有歷史階段原則上不會出現調整傾向)。在歷史回測過程中,模擬真實情景,加入一定的滑點和適度的交易失敗概率。在真實模擬中,利用開源交易平臺,在不改變參數的前提下模擬實際交易,避免理論不可知信息的誤用。
經濟學家通過對不同經濟領域的實證研究發現了一定程度的均值回歸現象,并依據此提出了有效可行的均值回歸交易策略。
Gailliot和Henry(1970) 通過對1900—1904年和1963—1967年主要資本主義國家的匯率實證研究中發現并驗證,匯率在長期中存在趨穩的特征。但是隨后關于匯率均值回歸與購買力平價的實證分析受到了質疑。隨著計量經濟學的發展,Box、George和Jenkins(1990) 通過對非平穩序列的匯率與利率數據進行一次差分后,得到相對穩定的均值和方差,從側面印證了貨幣領域的均值回歸特征,由此衍生了一系列的外匯CTA策略,出現了許多以中短線交易套利的對沖基金組織,其中包括Winton、Man AHL等知名基金。
Malliaropulos和Priestley(1999)在對以東南亞七個國家或地區的股票市場為主的證券交易市場進行回歸分析后發現,其價格指數與收益率存在顯著的均值回歸現象。Groppdu (2004) 對美國納斯達克、紐約等交易所的收盤數據進行分析后,得出了相似的結論。基于均值回歸理論,投資員開發了和傳統布林線動量策略相反的布林線均值回歸策略(通過不同的參數和止盈止損條件)。此外,衍生出了收益更有說服力且風險更低的同板塊價差均值回歸策略、綜合三因子模型的大小股市值股價差均值回歸策略。
商品期貨市場的均值回歸似乎是顯而易見的:現貨價格圍繞市場價值均值回歸,期、貨現貨價格互相均值回歸,品類間遠近期價差圍繞0上下波動。由于有較強的邏輯依據,學術界圍繞期貨市場的均值回歸實證研究并不多,但是有較多的衍生策略,其中包括雙均線策略(Joseph E.Granville,1962)、反向菲阿里四價策略、網格交易策略、R Breaker回轉策略等。商品期貨市場由于其市場深度大、兼具標的基本面信息和技術面信息、允許T+0交易和賣空交易(特指國內)等原因,成為各類量化交易策略的實驗田。基于技術性原因和法律合規性原因,本文在策略的實證與回測階段將主要基于我國期貨市場進行。
均值回歸經典邏輯為,當構造標的價格遠高于或遠低于其價值中樞時,有較大概率發生向價值中樞回歸的事件,基本模型為:

其中:D為該標的在期的價格;為均值回歸因子參數,為參數。
該式也可寫為:

因此,可以理解為,*為價值中樞,(1-)*D為不完全回歸部分價格。當均值回歸因子>2時,具有過回歸趨勢,下期價格通常突破價值中樞壓力,且價格不具有收斂趨勢;當2>>1時,具有過回歸趨勢,也通常突破但是收斂于價值中樞;當均值回歸因子α取1時,期價格D完全回歸至價值中樞*,并保持穩定;當均值回歸因子取0時,D=D,價格穩定偏離其價值中樞;當取負值時,均值回歸趨勢不成立,價格遠離價值中樞。
迄今為止,主要針對A股、中國期貨市場、美股、美國期貨市場的實證分析中,或其等價含義的回歸因子主要分布于0~1,且顯著性水平較高,說明在現實市場中確實存在一定的回歸現象。
經典價差回歸標的選取為:

本文選取兩資產帶移動權重的超額價差作為回歸標的:

其中:D為標的;P為主資產在期價格;P為次資產在期價格;P為主資產在-1期價格;P為次資產在-1期價格。
本文對原有模型做出了權重的修改嘗試,原本的價差均值回歸模型經濟含義為價差自身的均值回歸,兩資產完全等權重且為1;在修改之后,引入上一期價格作為當期權重,經濟含義演變為動態增長的均值回歸。
進行移動的賦權之后,模型表層的經濟意義減弱了,價差從直觀可視的資產價差變成沒有直接意義的價差,但是模型的系統性經濟意義增強了,原有價差在一定程度上無視兩者資產本身屬性的差異,弱化了價格較低資產的變動幅度;修改后適用范圍得到擴寬,原本回歸標的通常只能用于期貨單一品種的價差跨期套利,或一籃子商品的組合跨期套利,現在可以在同類標的不同品種間,甚至是不同品類間實踐運用。
從統計學意義來說,帶移動權重的價差回歸標的更易分布在0的兩側,從而具有更高的平穩性;從實際操作來說,操作難度提高了,為了滿足其對應的交易策略,次資產的數量仍然需要和最小交易單位達成最小公倍數,從而對賬戶的容量、交易手數、市場深度提出了新要求。
移動權重的超額價差均值回歸模型的邏輯圖如圖1所示。

圖1
圖中,P表示價格;w表示前一期價格以權重形式介入下一期的D中;表示之間存在以為回歸因子的相關關系;ols ·表示在經過一階差分后進行最小二乘OLS回歸,得到α估計值。

表1
此外,建立適用于交易判斷的超額價差套利收益解釋模型:

其中,等號左側的R為資產組合在期的收益,如果在-1期做多1份主資產,做空P/P份次資產,將在第期獲得的損益。實際回歸中,參數的選取取決于ADF檢驗中lag order的參數返回。為理論上的收益截距,在長期市場中,均值為0。
由于該模型完全以指導策略開發為目的進行設計,因此等號左側需要嚴格保持實際損益水平,且若進行差分,需要實際交易所考慮的殘差項、截距項等信息會被忽略,因此縱使該式被解釋變量與解釋變量均為不平穩,也不進行一階差分。模型中,假設的交易體量為做多(做空)1單位主資產,同時做空(做多)P/P單位次資產。
根據平穩性分析結果,考慮以較大的lag order值9作為回歸的值,即以D至D為獨立的自變量,對第期的實際收益(等號左側)進行多項OLS回歸,若能得到顯著性水平較高的D項,則可據此開發相應的策略。除了顯著性之外,并不關心^2和常數項的顯著性水平。
超額價差套利收益模型回歸結果符合預期:中高頻交易數據中,歷史超額價差信息對交易結果具有很顯著的負相關關系,中低頻交易收益結果對歷史超額價差信息同樣呈負相關關系。
前文顯示,可以構建有效的超額價差均值回歸套利模型,利用主次合約進行跨期、跨品種、跨幣種套利。其中的邏輯是,由于前一期超額價差的系數顯著為負,故將在構建量化投資策略時,考慮以前一期帶移動權重的超額價差信號做反向操作,且利用顯著性次之的前2~5期做協助構建交易信號,進行交易信號的增強或適當抵消。
通過上一部分引入的超額價差均值回歸理論,在實際應用中有著復雜的約束條件。首先,融資約束,在我國能夠進行合規的賣空操作僅有期貨期權交易與融券。其次,交易流動性,融券的長期性和二級市場缺乏顯然不適用量化,因此本文將從期貨出發進行策略構建和回測展示。最后,交易體量,在理想的交易模型中,交易體量為:

其中,為交易的手數,但是實際上大部分交易不是無限可分的,因此交易體量可等價變為最小公約數下的整數手:

其中,代表最小公倍數,由于現實中資金量的限制和交易深度的限制,將交易手數進一步萎縮為:

式中,[ ]為向下取整符號,為交易金額,觸發交易的條件為:

其中:μ為品種交易中為了穩健或降低手續費的阻尼常數;*為交易調整后的目標倉位(手);*為交易時的資產總額;為持倉比例,有=W*;,和為非對稱的參數;為每手價格;依舊服從于:

基于此策略邏輯,對目標資產螺紋鋼期貨進行驗算,選定參數(,,)與超參數()。選定參數過程中,在追求收益最大化的基礎上,為避免選取的過擬合,遵循三個原則:
(1)參數簡單,盡量避免追求歷史收益而過擬合。
(2)模型簡單,盡量選取使模型結構對稱的參數。
(3)全局最優,不僅關注參數的歷史總收益最高,還盡量選取全程相對最優。
最終,根據2013—2020年的歷史高頻(5min)與低頻(1day)數據,選定最終交易策略為:

結果最優的模型中,阻尼常數萎縮,歷史權重趨同于1/3,在不具有額外效用假設下,最優幾何均值的持倉比例趨向1。策略的文字性描述為,逐期測算前三期的超額價差的平均數,并根據當期的超額價差與其大小關系,若當期大于前三期平均,則做空主資產(螺紋鋼主力合約),持有次資產(螺紋鋼次主力合約);若當期小于前三期平均,則持有主資產,做空次資產,幾乎不存在空倉位情況。
本文對模型的實證分析與回測將從螺紋鋼期貨rb的主力合約與次主力合約出發,分別研究其中高頻與中低頻的模擬交易。
期貨數據由上海期貨交易所給出,以主力合約作為主資產,以次主力合約作為次資產。中高頻數據選擇2013年1月4日09:05—2021年10月15日15:00所有的五分鐘數據,取每個五分鐘bar內收盤價作為價格,取買一價賣一價均值作為統一價格。盡管涉及休日與隔夜,但出于對實際交易策略指導的目的,不對隔夜價格進行前后復權操作,即對隔夜數據當做連續數據處理。2014年12月26日及其后上期所螺紋鋼品種增設夜市,同樣按照連續數據處理;法定節假日閉市,缺省值直接剔除處理。中低頻數據選擇2013年1月4日—2021年10月15日所有開盤的日數據,不考慮夜盤,取每日14:59收盤價買一價與賣一價均值作為價格,同樣將法定節假日直接跳過。此外,由于期貨存在主次合約交替的問題,因此根據每日持倉量與交易量(以上期所公布數據為準)滾動選取主合約與次合約,當主次合約發生交替時直接銜接,不做前后賦權處理。
整個實證與回測分為兩部分組成,歷史回測部分采用2013—2020年數據,不考慮交易是否能被市場深度吸納,采用統一價,不考慮買賣價差;真實回測部分采用2021年內數據,利用AutoTrader回測平臺,抓取模擬真實交易場景下客觀存在的可交易對手掛單價(并非成交價)與掛單量,具有更強的現實意義。但是由于真實回測數據點較少,不進行中低頻的日頻回測,且全程不調整系數。如表2所示。

表2
歷史回測過程采用Matlab自編寫的回測程序進行。
針對現實交易中的摩擦現象,本文采用跳點形式進行模擬,分別引入0跳點、0.5跳點、1跳點、1.5跳點、2跳點進行穩健性測試。為了應對現實中較高的交易摩擦,選擇在交易間引入一定的step區間,即程序判定的交易周期,以降低發生交易的頻率。區間分別考慮10倍運算周期(50min)、20倍運算周期(100min)、50倍交易周期(250min)、100倍交易周期(500min)。歷史回測結果如圖2所示。
由圖2可以看出,當市場摩擦較小,深度充足的情況下,較短的交易周期有著明顯更好的收益情況,而較長的交易周期在大部分情況下都表現出較好的穩定性。

圖2
針對交易周期250、1跳的回測進行描述性分析,如表3所示。

表3
結果顯示,勝率69.48%并不算特別優秀(明顯低于一些機器學習的結果),但是夏普比率、年化收益率、最大回撤相對可觀。因此傳達的信息是,在該策略下,并不能非常準確地識別交易方向,但是可以有效地把握交易時機,通過“贏大輸小”賺取穩健的利潤。
真實回測階段,利用AutoTrader回測平臺進行可執行的交易模擬。由于在模擬過程中采用了市場中可得的賣一價與買一價、賣一量與買一量進行計算,此時的策略模型有一定修改,交易量由于受到深度影響,將根據主次合約中可得的交易量更小的一方決定目標倉位。雖然已經包含實際數據,但是為了模擬在交易過程中可能出現的網絡延遲情況,出于穩健考量,依然引入2個跳點進行模擬。歷史回測結果如圖3所示。

圖3
且有交易指,如表4所示。

表4
沒有統計勝率是由于在交易中,由于價差套利的性質,平臺給出的勝率數據包含了一多一空的組合,幾乎處于50%。通過觀察發現,該策略與市場走向關系極小,不受大宗商品整體市場的漲跌制約,同時適合在波動市場與單邊行情采用。模擬結果顯示,在真實回測中,相比歷史回測有著明顯更優的收益情況,可能是由于歷史回測相對高估了交易的摩擦與損失(對滑點做了單邊假設);回撤數據明顯差于歷史回測,僅在一年中就超過了原有的最大回撤1%,說明該策略值得在更長的時間段進行真實回測的檢驗。
隨著學習類策略的大量采用,機構的量化決策者逐漸重新重視“先決知識少、欠擬合”的簡單模型策略。本文在此訴求的基礎上,試圖通過表層的市場規律進行一次量化策略設計。
為了最大程度地達到避免巴菲特說的“看著后視鏡開車”過多后驗信息介入模型建立,本文做出了許多努力,這些努力也為最終模型的效果做出了貢獻:
(1)根據歷史數據選定簡單、穩定的超參數。
(2)復雜模型到簡單策略的萎縮過程中盡量采用對稱參數。
(3)選取參數盡量關注全局曲線而非最終值。
(4)采用較大的模擬跳點。
(5)在復雜的真實回測中采用可得的交易數量與價格,而非簡單采用統一價。
此外,由于策略“一多一空”的架構設計,極少會面對極端風險,但是仍需要對可能出現的單邊爆倉做出一定的風險管理。由于交易的連續性質和出于節省手續費考慮,可以視本策略為連續策略,而不像一般日內策略需要在收盤時平空倉位。
值得一提的是,由于合規的需要,本文策略的回測建立在螺紋鋼期貨的基礎上,但是并不代表該策略有這方面的局限。讀者在復現或付諸實踐的過程中,可以考慮將該策略嫁接于外匯交易、虛擬貨幣交易等領域內:
(1)外匯交易具有可分割性強的特點,能更好地執行移動權重下倉位控制的策略優勢。
(2)外匯交易中貨幣間的價值量由第三方的隱含匯率確定,因而在這種主次資產真實價值懸殊的市場中,更能發揮本策略權重靈活的優勢。
(3)外匯與虛擬貨幣市場深度遠超期貨市場,目標價格更可得,交易摩擦更小。
(4)虛擬貨幣市場還具有連續性好的特點,且對量化交易者等交易量大的還有較大的費率優惠。
本策略在研發過程中,在外匯與虛擬貨幣的歷史回測、真實回測、實盤交易中均取得了較好的效果,在回撤極小的情況下,構建增長迅速且平穩的收益曲線。