白 祥 張金良 靳慧娜
河南科技大學數學與統計學院
期權[2]作為一種非線性金融衍生品,可以用來構建多種對沖組合來進行資產配置與風險管理。現代概念下的期權市場在歐美已經有了40 年的發展,但國內期權市場僅有8 年的歷史。上證50ETF是中國證券市場上規模最大、流動性最好的交易型開放式指數基金之一,上證50ETF 期權[3]以上證50ETF 為標的資產自然也吸引了很多投資者的關注。作為國內首只期權產品,上證50ETF 期權的上市交易標志著中國衍生品市場的發展正式進入期權時代,極大地豐富和完善了我國的金融市場,經過市場的培育和發展,上證50ETF 期權的定價效率正逐步提升,市場流動性明顯改善,期權產品在風險管理、價格發現和金融創新方面的功能日益凸顯。因此,研究50ETF 期權的價格規律具有重要的理論價值和現實意義。
隱含波動率是通過市場觀察到的期權價格結合其他已知參數(標的價格、執行價、剩余期限、利率)代入Black-Scholes 模型后通過數值方法計算出的波動率的值[4]。期權價格和隱含波動率呈正相關,隱含波動率作為衡量市場對于未來股價波動性預期的一種指標,對它的準確度量與精確預測方面的研究一方面有助于我們認識中國期權市場的現實特征,明確其期限結構與微笑結構,既可以幫助市場交易者構建更加合理有效的交易策略,也有利于監管機構進一步明確期權市場風險,維持金融市場平穩良性發展;另一方面還有助于完善中國衍生品市場定價合理化機制,更好發揮期權市場價格發現的作用,開發更多完善的金融產品,推動二級市場甚至整個金融市場的未來發展,在促進建立有效金融體系方面具有較強的理論與實踐意義[5]。
隱含波動率曲面蘊含了許多市場信息,是對隱含波動率研究的優良載體[3-4]。目前國內已有部分學者對上證50ETF 隱含波動率曲面進行了研究,但是已有的研究中使用的數據大都是從BS 模型出發尋找相關變量,很少對無套利條件進行約束[3-7];此外,由于國內期權市場起步較晚,數據量較少,深度學習方法在國內期權市場的應用[8-9]較少,并且已有的研究中深度學習模型超參數的選取也比較常規,因此深度學習方法在國內期權市場的應用仍有廣闊的發展空間。
Zheng 等人從開發一個與現有金融市場經驗和金融理論一致的可解釋的機器學習模型的角度出發,提出了一個將數據驅動的機器學習算法與相關金融理論集成在一起的研究框架,并構造了一個集成門控前饋神經網絡來預測標準普爾500指數的期權隱含波動率曲面,通過實證分析發現了提出的神經網絡模型具有較高的精度,此外,經過實證檢驗,該模型滿足了一系列金融條件。
受Zheng 等人工作的啟發,以構建基于國內金融市場的可解釋機器學習模型為目的,嘗試使用可解釋機器學習模型對上證50ETF 期權的隱含波動率曲面進行研究。基于Zheng 等人的研究框架,提出一種集成GRU 神經網絡模型,對上證50ETF 期權的隱含波動率曲面進行預測;在實證分析中,使用8 年的上證50ETF 期權數據驗證了所提出的模型,與國內現有的研究相比,實驗過程中,放寬了數據清洗時的條件,提高了模型的魯棒性和泛化能力;此外,本模型在訓練集和測試集上的平均百分比誤差都優于金融數學中最廣泛使用的SSVI模型[10]和集成門控前饋神經網絡模型[1],同時也滿足了納入的先驗金融知識,使得構造出的模型與現有的經驗證據和隱含波動率曲面理論相關的金融數學理論相吻合,是可解釋機器學習的重要一步。
研究主要涉及金融數學和機器學習這兩個領域,對于前者,主要介紹期權定價和波動率建模的基本概念和相關研究;對于后者,闡述了機器學習方法在金融領域的發展,側重于其在期權定價和波動率建模方面的應用。
1973 年Black、Scholes[2]為基于金融資產的歐式看漲期權提出了一個封閉定價公式,被稱為Black-Scholes 模型(簡稱為:BS 模型),在該模型中,基礎金融資產的價格由包含漂移和波動的幾何布朗運動驅動決定[11],模型中的波動率衡量的是標的資產價格在固定時間窗口內的波動幅度。BS 模型為期權交易的繁榮產生了顯著的助推效應,也打開了研究金融數學的大門。但是BS 模型也存在缺陷,它假設波動率是固定不變的常數。學者們指出波動率是高度可變的,隨著波動率的隨機變量性質被逐漸證實,如何正確有效地估計波動率顯得尤為重要,對波動率的研究從此開始流行[12]。
目前研究期權的波動率模型有兩種方法[13],第一種為間接法,間接法的原理是首先構造最能反映標的資產價格和波動率行為特征的隨機過程,隨后代入BS 模型,然后用市場觀察到的期權價格去校準模型參數。比如局部波動率模型[14]、隨機波動率模型[15]和levy 模型[16],這些模型在數學意義上表現得很完美,但在市場中往往較難應用,因為其中包含時間相關的參數,大大增加了模型校準的計算時間和優化難度。第二種為直接法,直接法的隱含波動率是明確指定的值,直接法也可以分為兩種類型,第一類是指定隱含波動率曲面的動態,并假設它隨時間不斷變化,利用類似利率期限結構的動態建模的HJM 框架,刻畫整個隱含波動率曲面的隨機過程,從而推導其應滿足的無套利條件并決定曲面形態[4,17];第二類側重隱含波動率曲面的靜態表示,使用參數或非參數方法擬合隱含波動率曲面,然后進行預測。比如半參數因子模型[18]、SVI 及其改進模型[10]等。
機器學習方法應用于資產定價和波動率預測的研究最早可以追溯到20 世紀80 年代末或90 年代初,在早期階段,單層神經網絡被用于估計期權價格[19]和預測標準普爾100 指數的波動率[20];后來又有各種機器學習算法被應用于金融領域,包括集成方法[21-22]、內核積[23]、高斯過程[24],以及混合神經網絡[25]、門控神經網絡[26]、循環神經網絡[27]等深度學習模型;除了傳統的金融數據外,近年來的一些研究還開發了使用情緒、社會信息的模型[28-30]。
令Π(K,τ)表示剩余期限τ>0且K≥0的看漲期權的市場價格,假設初始股票價格為S,利率r和股息收益率δ為常數,用C( )· 表示Black-Scholes公式,那么有:
其中,N( · )表示標準正態分布累計密度函數,σ代表標的資產的波動率,且
則隱含波動率σ( )
k,τ>0由以下方程給出:
其中,遠期對數在值程度k= log(K Se(r-δ)τ),那么隱含波動率曲面為σ(k,τ),對任意k∈R且τ>0。
靜態套利是一種靜態交易策略,其初始值為零,之后始終大于或等于零,并且未來具有嚴格正值的非零概率。換句話說,套利不需要任何成本,只提供上行潛力,也就是說,在考慮交易成本后,它代表了一種無風險的投資。在經濟主體是理性的假設下,任何這樣的機會都應該被立即利用,直到市場沒有套利。因此,期權定價模型是這樣設計的:它們的看漲期權價格曲面Π()K,τ沒有提供實施這種策略的可能性[31]。第二節已經提到隱含波動率是期權定價的逆向工程,無套利條件轉化為看漲期權價格曲面Π()K,τ的約束,這反過來又可以表示為隱含波動率曲面σ( )k,τ必須滿足以下定理:
定理1:設S>0,r=δ= 0,有k= log(K S),則
其中,m= -k,v(m,τ)代表σ(k,τ),n( · )表示標準正態分布的密度函數,N( · )表示n( · )的累計函數,隱含波動率v需要滿足以下條件:
1)(非負性)對任意的(m,τ)∈R×R+,v(m,τ)>0。
2)(平滑性)對任意的τ>0,m→v(m,τ)在R上二次可微。
4)(消除碟式套利)對任意的(m,τ) ∈R×R+,有
5)(極限)如果τ>0,則
6)(右邊界)如果m≥0,則
7)(左邊界)如果m<0,則
8)(漸進斜率)如果τ>0,則
定理1 的條件1 至條件5 為無套利條件[32],條件6、7 為邊界條件[33],條件8 是漸進斜率[34]。除了滿足無套利條件外,隱含波動率還有一個重要的特征被稱為波動率微笑[4],后面將結合以上金融條件建立神經網絡模型。
圖1 展示了集成GRU 神經網絡模型的網絡架構。該神經網絡接收輸入對數遠期在值程度m和年化剩余期限τ,輸出隱含波動率v,它由兩種結構的幾個子網絡構成,一種是幾個單獨預測隱含波動率的GRU神經網絡,另一種是權重神經網絡。每個GRU 神經網絡輸出預測的隱含波動率v,權重神經網絡計算每個GRU 神經網絡預測結果占最終結果的比重。

圖1 集成GRU神經網絡架構,由一系列單個GRU神經網絡和一個計算它們權重的權重神經網絡組成
圖2 、圖3 展示了GRU 神經網絡[35]的神經元結構,GRU 接收t時刻的輸入xt和t- 1 時刻的隱藏層狀態ht-1,ht-1包含了之前節點的相關信息,輸出t時刻隱藏節點的輸出yt和傳遞給下一個節點的隱狀態ht。

圖2 GRU單元結構

圖3 GRU單元內部結構
通過在接收m的神經元中使用Smile 激活函數的方式融入波動率微笑,
其中,tanh( · )是雙曲正切函數,?是一個保證數值穩定性的足夠小的數。
通過在神經網絡訓練過程中使用融入金融先驗知識的損失函數的方式融入無套利條件,
其中,l0表示數據在訓練過程中的損失,使用MLE和MSPE 結合的聯合損失函數刻畫,l1至l4是對應定理1 中剩余條件的損失函數,l5是一個避免過擬合的正則化項。l1到l4中的m和τ的值可以從訓練數據中采樣,但是當模型預測時給定的m和τ不在訓練數據的范圍時,訓練后的神經網絡可能無法滿足l1到l4條件,因為訓練數據中輸入的實際市場數據有限,所以需要從訓練數據的樣本域中采樣來創建合成數據以提高模型泛化能力。
實驗中使用的上證50ETF 期權數據為2015 年2月9日至2023年3月31日共計2 221個交易日的252 580 條交易數據,同時選取SHIBOR(上海銀行間同業拆放利率)作為無風險利率。
數據篩選參考了以往研究的經驗[36-37],刪除了剩余期限小于2 天的合約、日交易量小于10 以及收盤價小于0.001 的合約。以往的研究通常沒有研究到期日小于7 天或者大于1 年的合約,但是近些年來很流行這些短期期權(比如周指數期權),分析這些短期期權要求模型具有高魯棒性,這樣處理數據在順應時代潮流的同時也對模型性能提出了更高的要求。
接下來計算了隱含波動率v、期權遠期價格Ft、對數遠期在值程度m以及年化后的剩余期限τ。最后得到模型接收的數據分布如圖4、圖5。

圖4 剩余期限分布圖

圖5 在值程度分布圖
實驗中使用的模型匯總在表1,除了3.2節構造的集成GRU 神經網絡,還有SSVI 模型和集成門控前饋神經網絡,集成門控前饋神經網絡和集成GRU神經網絡有相同的架構,由幾個只有一個隱藏層的前饋神經網絡和一個權重神經網絡構成。和通過與SSVI模型的比較來研究集成GRU 神經網絡是否比傳統方法有更好的預測性能,與集成門控前饋神經網絡的比較來研究改進后的神經網絡是否可以提高預測能力。實驗的基準模型分別為單個GRU神經網絡和單個門控前饋神經網絡。同時,如3.2中提到的,嵌入無套利條件l1,l2,l3,l4需要合成數據,參照圖4、圖5 數據清洗后的對數遠期在值程度m和年化剩余期限τ確定合成數據的采樣區間,最終對數遠期在值程度m在[-0.4, 0 ]∪[0, 0.5 ]中采樣,剩余期限τ在[0.002, 0.7 ]采樣。

表1 模型及模型簡介
實驗中使用的神經網絡的部分參數設置如表2,模型使用Adam 作為優化器進行隨機優化。為了避免模型架構對模型性能評估的影響,在訓練過程中,有相同架構的神經網絡的網絡結構和超參數的選取保持相同。最后,選取平均絕對百分比誤差(MAPE)和R 方(R-squared)作為模型的性能評估指標。

表2 模型參數設置
圖6 至圖9 展示了訓練過程中損失函數值的變化可以發現,集成模型訓練過程中的損失函數值明顯小于基準模型,基準模型訓練過程中訓練集上的損失函數值收斂于0.2,測試集上的損失函數值收斂于0.12,集成模型訓練過程中訓練集上的損失函數值收斂于0.1,測試集上的損失函數值收斂于0.07。

圖6 門控前饋神經網絡Loss值

圖8 GRU神經網絡Loss值

圖9 集成GRU神經網絡Loss值
表3 統計匯總了模型的各項評價指標,分別是模型在訓練集(TR)和測試集(TE)上的平均絕對百分比誤差MAPE 的平均值和標準差,以及各模型的R方值,對比表3的各項指標有以下結論:

表3 模型性能評估指標匯總
首先,金融數學中最常用的SSVI模型的表現明顯遜色于數據驅動的神經網絡模型,由此可見,與傳統的金融數學相比,數據驅動的深度學習模型顯示出了強大的預測能力,但是需要耗費時間不斷調整模型架構和超參數的設置。
其次,集成GRU 神經網絡模型在訓練集和測試集上都是表現最好的模型,表明提出的基于集成門控前饋神經網絡的改進是有效的。在神經網絡模型中嵌入金融先驗知識確保與現有的金融數學理論和假設一致,從理論上增加了模型的可解釋性。
最后,圖10 和圖11 分別展示了2022 年6 月14日的隱含波動率曲面和集成GRU 神經網絡預測的當天的隱含波動率曲面。

圖10 2022/06/14隱含波動率曲面

圖11 預測的2022/06/14隱含波動率曲面
基于Zheng 等人的研究框架,提出了一個預測上證50ETF 期權無套利隱含波動率曲面的集成GRU 神經網絡,在神經網絡的設計和訓練中納入了波動率微笑和無套利條件,這是可解釋機器學習的重要一步,增加了模型的可解釋性。實證分析顯示,集成GRU 神經網絡模型的預測精度優于金融數學中最廣泛使用的SSVI 模型以及其他基準神經網絡模型,并且也滿足了傳統金融數學定理和市場經驗。