孫有發 ,邱梓杰 ,姚宇航 ,劉彩燕
(廣東工業大學a.經濟與貿易學院;b.管理學院,廣州 510520)
行為資產定價模型(Behavioral Asset Pricing Model,BAPM)是理性交易者和有限理性交易者交互的必然產物,是行為金融理論的核心,近年來受到眾多學者的關注[1-3]。在BAPM 中,理性交易者遵循市場有效性假說,被預設為具有良好認知與專業技術、均值方差偏好者;有限理性交易者則秉承行為金融學精髓,被預設為僅具有限認知、有限控制力和有限自利[4-6]。BAPM 在解釋金融資產價格異象方面獲得極大成功[7]。如針對中國A 股市場經常表現出“個股同漲落以及股指走勢脫離基本面實際狀況”等異象,行為金融學認為這是因為中國A 股市場受政策因素影響極大,投資者面臨相同的政策變化,容易做出趨同性的投資行為調整,這種趨同性又在自激勵反饋作用下往往導致股價暴漲暴跌[8-11]。
盡管BAPM 相關研究已經取得豐富的成果,但是到目前為止,BAPM 下的期權定價相關研究卻不多見[13-16],遠未匯成系統化的研究成果。從現有文獻可歸納出,當前行為期權定價有兩個主要研究分支:其一,標的資產行為價格模型下的期權定價研究,著眼于標的風險資產的行為價格建模,依據期權定價理論,推導出相應的期權定價公式或給出數值定價結果[11-18]。其二,基于投資者心理和行為的期權交易價格研究,假設期權市場交易者遵從行為金融學說中的有限理性、有限認知、有限控制力以及有限自利等,依據期權市場交易機制,推理、推導或計算相應的期權價格。如期權市場上的追漲殺跌現象,上漲時投資者追入認購期權,推高認購期權的隱含波動率;下跌時瘋狂追入認沽期權,造成認沽期權的隱含波動率的非理性上升[14,16,19]。也有從期權市場的流動性直接推導期權價格[13]等。
本文沿襲第1個研究分支,在前期已有基礎上,應用深度學習算法,給出行為期權的數值定價。考慮到投資者的有限理性預期、羊群效應以及投資者類型自適應遷移等因素,孫有發[11]構建了一類行為資產定價模型,推導出該模型下的歐式期權定價偏微分方程。遺憾的是,限于技術手段,文獻[11]中暫未得到期權價格的解析表達式。
針對文獻[11]中推導出的期權定價偏微分方程,盡管傳統數值方法,如有限差分法、有限元法等,都可得到期權的數值定價結果;但對于高維資產情形的期權定價,偏微分方程的計算時間和記憶容量隨著資產數量的增加呈指數級增長,使得這些數值方法并未表現出特別的優勢。應用蒙特卡羅方法對高維資產情形下的期權進行定價是一個活躍且不斷發展的研究領域。Gestel等[20]提出了基于迭代的共軛梯度(CG)法來解決維數大規模問題。盡管蒙特卡羅方法能夠最終有效地逼近理論值,然而,隨著資產數量的增加,其所需時間也急劇增加,這也限制了它在高維情景中的應用。
近年來,機器學習方法在金融領域得到了廣泛應用。由此建立了一種算法模型,可通過輸入經濟變量后預測期權價格,輸入和輸出之間的復雜關系由算法本身對大量數據的學習得到。在這類模型的運用方面,Yang 等[21]通過對基礎神經網絡結構的不斷改進,最終提出了一種含門控單元的神經網絡方法對歐式看漲期權進行定價,使模型對期權價格的預測更加精確、穩健。在行為期權價格預測方面,林焰等[22]提出了一種考慮投資者情緒的基于改進粒子群算法優化的BP 神經網絡,結合GARCH 模型用于預測歐式期權價格,并將其作為改進神經網絡模型的輸入變量之一,模型最終輸出期權價格的估計值。普通的機器學習算法在高維期權定價方面的運用相對較少,對現實市場中存在高維資產的情況,如場外期權,這些方法很難得到運用。
作為機器學習的重要組成部分,深度學習方法比傳統機器學習方法更加適應高維、非線性的復雜數據。由于深度學習近幾年才興起且算法本身極為復雜,從已有文獻來看,深度學習在金融領域的應用研究文獻還很少,尤其是高維行為資產定價方面,更多是運用在對指數、期貨價格的預測。關于期權定價方面,Culkin等[23]訓練了一個全連接的前饋深度學習神經網絡,準確地重現了Black-Scholes期權定價公式的結果,并分析了在期權定價模型上運用深度學習方法的可行性,提出了可利用深度學習方法來學習真實市場期權定價模型的建議,但其并未將深度學習運用到具體的期權定價中。Weinan等[24]提出了一種求解拋物型偏微分方程和后向高維隨機微分方程的算法,通過深度學習中的神經網絡逼近策略函數,構建網絡并求解Allen-Cahn 方程等問題。其雖然沒有對期權定價方面進行深入研究,但提出的方法證明了深度學習求解高維偏微分方程的有效性。基于上述文獻成果,本文將深度學習方法運用在行為資產模型期權定價,解決行為資產模型高維復雜偏微分方程“無法求解解析式”的難題。
為了解決高維復雜BAPM 期權定價方面的難題,首先基于費曼卡茲公式推導出行為期權價格的迭代方程,然后用神經網絡來逼近迭代方程中的期權價格關于標的模型空間變量的梯度,最后通過深度神經網絡參數尋優得到期權價格。數值實驗可用于測試該深度學習方法在BAPM 期權定價的精度和性能,與傳統的蒙特卡洛方法進行比較,證明了該方法的有效性及其運用價值。本研究可望為現實金融市場上高維標的資產的期權定價提供模型和方法層面上的參考。
為使本文內容自洽、便于理解,本節對文獻[11]中有關行為資產定價模型構建的過程進行概述。
1.1.1 市場微觀結構 假設市場上投資者數量N(N∈Z+)在考察期內基本保持不變,且在tk(k=1,2,…)時刻的理性投資者數量為,有限理性和非理性投資者數量合計為,進而假設有限理性和非理性投資者合計占比為χk,即χk=
假設在tk+1時刻,χk+1僅有3種取值狀態,分別對應3 種情形:①一個理性投資者轉變為有限理性(或非理性)投資者;②投資者類型不發生任何變化;③一個有限理性(或非理性)投資者轉變為理性投資者。情形①、③分別假設轉變概率為:

式中:a為投資者結構趨于穩定時有限理性(和非理性)投資者占比;b為投資者結構趨于穩定的速度;c為羊群效應程度;N(1-χ)和Nχ分別表示理性投資者和非理性投資者在獨立決策后的成效;和b(1-a)分別為在時間段內相應的轉變概率和分別為有限理性(及非理性)和理性投資者釋放的羊群效應。為使概率空間完備,情形②將ρ(χk+1=概率假設為適當值。
1.1.2 投資者需求 假設所有投資者在tk+1時刻的超額需求函數在形式上統一表達為

1.1.3 投資者預期收益 進一步,假設理性投資者與有限理性(及非理性)投資者對tk+1時刻的資產未來收益有如下預期形式:

式中:γ為非理性(情緒)程度,γ∈[0,1];μk表示投資者的理性預期部分。
文獻[11]中依據市場出清條件以及極限定理,在前面假設基礎上,推導出行為資產價格模型,即

式中:χt為有限理性和非理性投資者合計占總投資者的比例;a為投資者結構趨于穩定時有限理性(和非理性)投資者占比;b為投資者結構趨于穩定的速度;c為羊群效應程度;γ為非理性(情緒)程度,γ∈[0,1]與為獨立的布朗運動,且相關系數為ρ。
行為資產價格模型式(5)雖不同于一般Heston類模型,但卻具有Heston類模型的核心優點——能夠較好地捕獲真實金融市場中資產對數收益率分布具有的某些重要統計特征。圖1 所示為行為資產價格模型式(5)隨機輸出的一個對數收益率時間序列,表現出了收益率的“波動聚集性”。圖2 中的統計量表明,該對數收益率的統計分布呈現出顯著的“尖峰”“厚尾”“有偏”等特征。

圖1 模型輸出的對數收益序列

圖2 對數收益率分布的統計特性
此外,模型式(5)表明,資產價格隨機過程受制于另一隨機過程,即有限理性和非理性投資者在投資者總體中的比例為。即式(5)中的資產價格波動項被隨機放大了倍。這意味著市場中有限理性和非理性投資者比例無須大范圍變化,就可驅動資產價格大幅度波動,因此,式(5)較好地刻畫了“真實市場上的投資者類型在短期內具有相對剛性,但資產價格可以變化很大”的事實。由于模型的這一特點,使其能反映真實市場的情況,故研究此模型具有現實意義。
令xt=lnSt,風險中性測度下的行為資產價格模型式(5)轉變為:

式中:r為無風險利率與為獨立的布朗運動,且相關系數為ρ。應用Feynman-Kac定理到隨機波動方程式(6),可知特征函數?X(ω,T;t0,x0,χ0)是如下偏微分方程的解:

其帶初值條件:G(0,x,χ;ω)=1。
注意到,方程式(7)是一個(狀態依賴的)時變系數偏微分方程。到目前為止,從現有的偏微分方程解析方法工具書中還沒有找到有效的解決辦法,因此也就得不到標的資產到期收益率的密度函數。這意味著,對于一個執行價為K、到期日為T的歐式看漲期權,直接由期權價格定義

是無法計算得到期權價格的。而根據經典的蒙特卡羅定價表達式

可以得到期權的估計值。其中,N為總模擬次數,為第i次模擬期末時刻的資產價格對數。雖然該方法可能有效,但是由于蒙特卡羅方法本質上屬于數值解方法,當模擬次數N較小時,得到的定價結果方差較大,故通常需要模擬次數N足夠大才能使得接近理論值。然而,對于一個高維標的資產的期權,需要模擬資產的大量路徑,導致運行時間、內存消耗急劇增加。
鑒于蒙特卡羅方法的缺陷,本文在Weinan等[24]的基礎上,提出一種基于深度學習數值解的期權定價方法。該方法的核心思路是以期權的期末支付價格為最終網絡輸出,通過深度學習進行參數尋優,進而得到初始時刻的期權價格。
為搭建深度神經網絡總體構架,下文分別針對單個行為資產模型和多個行為資產模型,推導其基于深度神經網絡算法的期權價格遞推形式。
2.1.1 單資產期權價格的深度學習迭代方程 應用伊藤引理,推導出期權價格的隨機微分方程(SDE)形式:

根據費曼卡茲公式,可得期權價格滿足的偏微分方程(PDE)形式:

分別對式(10)、(11)求時間上的積分,再經過簡單運算,可得

最后,通過離散化和化簡可得期權價格的迭代方程:

由于xt和χt的梯度項和無法得出精確的表達式,故采用神經網絡的方法逼近梯度值,在此基礎上構建深度學習網絡框架,優化網絡以獲得期權價格估計值。
2.1.2 高維資產期權價格的深度學習迭代方程 現實市場中同樣存在多個資產的情形,本文將從低維資產拓展到高維資產。同樣對高維資產情形下行為資產價格模型的期權定價進行探討。考慮一個標的為多資產的期權,不同資產的價格過程均滿足隨機波動率形式。假設在風險中性測度下,多資產價格模型為:

式中:r為無風險利率;j=1,2,…,M,M為資產數量,同個資產間相關性,不同資產間。參考單資產標的期權推導式(10)~(13),可以得到多資產標的期權價格的迭代方程:

式中,dW x、dWχ、x、χ、和為M維列向量,分別為:

w=[w1,w2,…,wM]T為不同資產的權重。
同理,采用神經網絡的方法,每個神經網絡單元以不同對數資產的價格和有限理性者占總體投資者的占比作為輸入,輸出對數資產價格和有限理性者占總體投資者的占比的梯度項。
神經網絡結構如圖3所示。

圖3 一個簡單的神經網絡結構
這是一個簡單的4層網絡結構圖,包含輸入層(input layer)、中間隱藏層(hidden layer)和輸出層(output layer),通過神經元全連接的方式構建起網絡框架,其中隱藏層和輸出層含有激活函數(本文運用relu函數)。神經網絡通過非線性的方式連接各個結構單元,運用反向傳播和梯度下降的方法自動調整參數值以優化目標函數,目前已在各個領域得到了廣泛運用。本文將基于該網絡單元構建深度神經網絡框架,實現期權價格估計的功能。
本文以t時刻的對數資產價格和有限理性者占總體投資者的占比作為網絡單元的輸入項,以t時刻對數資產價格和有限理性者占總體投資者的占比的梯度項作為網絡的輸出項。如本文實驗部分,在單一資產情形下,輸入層神經元個數為2,隱藏層神經元個數為12,輸出層相應的神經元個數為2。相對于單資產的情況,高維資產情形下深度神經網絡的框架沒有發生較大變化。在t時刻網絡輸入的數據為M個資產對應的xt和χt,輸入層的神經元個數為2M。在50個資產的情形下,設置隱藏層神經元個數為110,相應的t時刻網絡單元的輸出是xt和χt的梯度項和,輸出層的神經元個數也是100。
假設在初始時刻x0、χ0,通過式(6)或式(14)可仿真生成(單資產或多資產)每一時刻的對數資產價格xt和有限理性者占總體投資者的占比χt,通過神經網絡單元去逼近每一個時刻xt和χt的梯度項。通過上述說明,在每一時刻均有一個對應的相同結構的網絡單元來逼近梯度項,并以此作為深度網絡框架的基本單元。進而,神經網絡單元通過式(13)或式(15)(單資產或多資產)將每一時刻的網絡單元連接起來,構成深度神經網絡的最終框架,使得網絡的最終輸出為T時刻的期權價格。最后,通過輸出的期權價格和支付價格進行對比和梯度反向傳播,優化網絡。整體的深度神經網絡框架如圖4所示。

圖4 深度神經網絡整體結構
在T和dt確定的情況下,本文整體網絡由T-1個結構相同的神經網絡單元構建(t=0,t=T時刻的f(tT)不需要訓練和。在理論上,期末時刻的期末價格應該等于支付價格。據此,可構建單個資產模型及多資產情形下神經網絡的損失函數分別為:

式中,wj為第j個資產對應的權重。在實驗中,為簡便起見,參考亞式期權定義,采取等權重處理。
大體網絡框架構建完成后,令初始時刻的期權價格為神經網絡的一個參數(隨機初始化),通過反向傳播對神經網絡整體權重進行優化,在最小化損失函數的同時,可得初始時刻的期權價格理論估計值。
在參數優化過程中,采用Adam 梯度優化算法,該算法不僅具有自適應學習率的特點,同時能夠使迭代過程更具有動量特點,可以跳出局部最優點,因而在參數尋優過程中得到廣泛運用。為了對輸入數據進行無量綱化、避免反向傳播時神經網絡出現梯度消失,在輸入層及每一層數據輸入激活函數之前,需對數據進行批標準化處理,該方法已經被證明其有效性和重要性[25]。
(1)考察深度神經網絡方法在高維資產期權定價上的性能。當仿真路徑數趨于無窮大時,蒙特卡洛的估計值趨于理論值,故選取500 000條仿真路徑數下的蒙特卡羅估計值作為基準。為了檢驗深度學習方法能否在精度和效率上優于蒙特卡羅方法,本文保持不同方法采用相同的模型參數,設計如下實驗:
①在單資產情形下,選取一個資產作為標的,基于相同的10 000條仿真路徑數,分別采用蒙特卡洛方法和深度網絡估計期權價格。重復實驗10次,記錄兩種方法每次的估計值。
②在多個資產情形下,選取50個資產作為標的,為了簡化計算,設定每個資產在組合中的權重相同,對每個資產的路徑分別模擬10 000次;再分別采用蒙特卡洛方法和深度網絡估計期權價格。重復實驗10次,記錄兩種方法每次的估計值。
③為了考察深度神經網絡在不同資產維度上的表現,實驗從單資產情形過渡到多個資產情形,分別選取5個、10個直至50個資產,分別記錄蒙特卡洛方法(500 000 條路徑)與深度神經網絡(10 000條路徑)下每次的估計值和運行時間。
(2)考察行為因子(投資者微觀結構趨于穩定速度、羊群效應和投資者非理性程度)對不同成熟度市場上的期權價格的影響。基于表1中的參數集1、2(參數集1、2分別反映的是有限理性和非理性投資者在總體投資者中占絕對優勢比例的市場(如中國股票市場)和相對較為成熟的股票市場),考察模型式(5)中相關變量或參數對期權價格的影響。

表1 參數表
本文所有數值實驗,均在google colab提供的內存25.51 GB(RAM)、Tensorflow 2.3.0、python 3.6環境下運行。
3.2.1 單資產情形 設置深度神經網絡學習率為3×10-4,批量數據(batch)大小為128,驗證集大小為256,仿真10 000條路徑。基于表1(a)中關于深度神經網絡的參數數據,在單資產情形下,利用式(13)構建如圖4所示的神經網絡框架,最小化損失函數式(16),最終得到期權價格。
為了直觀地展示深度學習的收斂過程,繪制其中一次運行結果,如圖5所示。通過500 000條路徑進行蒙特卡洛求解期權的近似理論價格為3.271 9,深度網絡進行3 000 次迭代后,期權價格收斂于3.288 0,損失函數值也收斂,而相同路徑下蒙特卡洛估計值為3.181 1。

圖5 單資產深度神經網絡優化結果
為了比較蒙特卡洛方法和深度神經網絡在定價方面的表現,本文另外做了10次不同路徑(10 000條)的獨立實驗,記錄蒙特卡洛方法和深度神經網絡在相同路徑下的估計值,實驗結果如表2所示。

表2 單資產不同路徑實驗結果(Benchmark=3.271 9)
數據進行可視化如圖6 所示。在低維(單資產)情形下,深度學習的計算效率低于蒙特卡羅方法,但深度網絡的估計值相對于蒙特卡洛更接近于期權價格的理論值,而且估計方差低于蒙特卡洛方法。分析可知,當仿真次數較少時,資產價格路徑的隨機性較強,蒙特卡羅方法受到的影響較大。深度神經網絡的輸入數據采用相同的路徑,因此也在一定程度上受到同方向的影響(即深度網絡的估計值和蒙特卡洛有類似偏向)。

圖6 單資產不同路徑下蒙特卡洛期權價格估計與深度神經網絡期權價格估計
3.2.2 多資產情形 考察50個標的資產。通過隨機生成S0和χ0取值范圍內均勻分布數,獲得初始x0和χ0的值(見表3),選取表1(b)中一組模型參數進行仿真。對于神經網絡結構的設置,批量數據(batch)大小為128,驗證大小為256,學習率為3×10-4,在10 000條仿真路徑的情況下進行試驗。

表3 50個資產的初始數據
為了展示深度神經網絡的優化效果,同樣繪制一次運行結果如圖7 所示。期權的理論價格為0.396 9,由于初始化參數的隨機性,深度神經網絡進行600次迭代(不同初始值迭代次數不同)后,期權的估計價格收斂于0.396 6,損失函數值也收斂,而蒙特卡洛估計值為0.401 1。

圖7 多資產深度神經網絡優化結果
獨立運行實驗10次,記錄蒙特卡洛方法和深度神經網絡在相同路徑下的估計值,實驗結果如表4所示。

表4 50個資產不同路徑實驗結果(Benchmark=0.396 9)
在50個資產情形下,深度學習的計算效率和精度,高于相同路徑下的蒙特卡羅方法,估計方差低于蒙特卡羅方法。分析可知,在仿真次數較少的情況下,每個資產價格路徑的隨機性疊加,對蒙特卡羅方法的影響進一步加大。為了降低估計方差和逼近理論價格,需要進行大量的蒙特卡洛模擬,隨之帶來的問題是時間的消耗和內存的占用。本文的實驗均在google colab提供的環境下進行,分配的運行內存為25.51 GB。在分別模擬50個資產的500 000條路徑時,RAM 占用最高達到了9.51 GB(其中0.93 GB為其他占用),時間達到154.141 s。在更高的維度、更長的到期時間時,若為了追求精度,需要更大的成本,這是普通個人電腦所不支持的。而運行10 000條路徑的深度神經網絡時的運行內存只有1.68 GB,且運行時長為71.384 s,其估計精度也較高。為了得到較為接近參考值的期權價格估計值,可以通過少量路徑在深度神經網絡上估計的方式,避免使用大量路徑帶來的時間和內存上的消耗。
通過對表4數據的可視化(見圖8),可以清晰地觀察到相同路徑下蒙特卡洛方法和深度神經網絡在期權價格估價方面的表現。

圖8 50個資產不同路徑下蒙特卡洛期權價格估計與深度神經網絡期權價格估計
3.2.3 從單資產到多資產的情形 利用表3中的初始化數據,分別選取前5,10,…,50個資產進行分析,記錄神經網絡損失函數收斂時期權價格估計值以及運行時間,如表5所示。

表5 不同資產數量下蒙特卡洛與深度神經網絡期權價估計效果
隨著資產數量的增加,蒙特卡羅的運行時間呈線性增長,深度學習的運行時間變化不大,且估計值和500 000條仿真數據估計值相近,進一步論證了少量數據在深度神經網絡上進行期權價格估價的有效性和穩定性。
綜上實驗結果表明,在單資產情形下,10 000條仿真路徑時蒙特卡洛估計方法的隨機性較大,深度神經網絡估計方法的隨機性相對較小,然而,深度神經網絡由于網絡框架的構建導致其運行時間相對較長。在高維度情形下,為了獲得更準確的估計結果,蒙特卡洛估計方法需要的路徑數較多,其占用內存、運行的時間(見圖9)也隨之發生了很大變化。此時,在保證估計精度的條件下,少量路徑在深度學習框架上運行,其估計值接近500 000條仿真路徑的蒙特卡洛估計方法,而運行時間沒有發生較大變化,這體現了深度神經網絡在高維期權定價方面的優勢。

圖9 不同資產數量下蒙特卡洛與深度神經網絡期權價估計時的運行時間
為考察行為資產價格模型式(5)中“具有現實意義的參數”的動態變化對期權價格的影響,設計如下實驗方案:分別以參數集為基準,每次實驗只改變感興趣的某個參數、而保持剩余參數值不變,考察模型特征參數如何影響期權價格變化。利用參數集1和參數集2,在控制變量的條件下,進行10 000條仿真路徑的深度學習期權定價。其中,γ的變動范圍為[0.1,0.9],a為[0.1,1.0],b為[0.1,4.0],c為[0.1,2.0]。參數集1和參數集2的情形分別如圖10、11所示。
通過對比圖10、11,可以清晰地看到,行為資產價格模型式(5)中行為因子是如何影響期權價格的。
概括地說,市場中理性投資者長期穩定占比(1-a)越高,期權價格越低(見圖10(a)和圖11(a));而市場中有限理性和非理性投資者的情緒程度越嚴重,期權價格越高(見圖10(d)和圖11(d)),且這種相關關系不受市場成熟度的影響。
然而,股市微觀結構調整速度和羊群效應對期權價格的影響,因市場成熟度的不同而不同。在不成熟市場上(對應的是參數集1),投資者結構回復長期均衡速度越快(見圖10(b)),投資者的羊群效應越嚴重(見圖10(c)),期權價格越高;而對于成熟市場(對應的是參數集2),投資者結構回復長期均衡速度(見圖11(b))以及投資者的羊群效應(見圖11(c)),均起到穩定期權價格的作用。不同市場、相同因素作用效果存在差異的原因在于:在不成熟市場,非理性是吸引子,股市投資者均衡結構調整和羊群效應都朝向了非理性這一面;而在成熟市場,理性是吸引子,因而股市微觀結構調整順暢和羊群效應加速了市場回歸理性。這一點又可直接從數學角度分析模型式(5)得出。

圖10 行為資產價格模型中特征參數對期權價格的影響:配置參數1

圖11 行為資產價格模型中特征參數對期權價格的影響:配置參數2
本文針對一類考慮了投資者微觀結構隨機變遷、投資者行為存在羊群效應以及非理性情緒的高維行為資產價格模型,構建了基于深度學習算法的行為期權定價方法。用神經網絡逼近迭代方程中的期權價格關于標的模型空間變量的梯度函數,通過深度神經網絡參數尋優得到期權價格,是該定價方法的亮點。這種非線性尋優的定價性能,顯著優于傳統的蒙特卡洛方法的“蠻力求均值”定價性能。此外,研究還發現,投資者的行為因素對于不同成熟度市場上的期權價格的影響,存在異質性。這是因為不同成熟度市場的吸引子存在差異。本研究可望為現實行為金融市場上高維標的資產的行為期權定價提供一類模型和方法層面的參考。