瞿 慧,沈 微
(南京大學工程管理學院,江蘇 南京 210093)
傳統金融理論假設信息獲取并無成本,然而,Kahneman[1]認為人的時間和精力有限,對某一事件的關注會犧牲對其他事件的關注。這可能會使投資者不能及時獲取某類信息,做出錯誤判斷,引起資產價格的波動。學者們常用成交量、廣告支出等變量來衡量投資者關注,但這些間接指標受到多種因素影響[2]。
隨著時代的發展,網絡搜索成為信息獲取的主要渠道。搜索不是瀏覽,一旦投資者搜索某類信息,表明了他們對該類信息的主動關注,因此網絡搜索量可被用來衡量主動性投資者關注。Da等[2]首先提出用谷歌搜索指數衡量投資者關注,并應用羅素3000股票進行實證,發現谷歌搜索指數不能被異常收益等已有的投資者關注代理變量完全解釋,包含一定的特質信息,同時他們還認為谷歌搜索指數更多衡量了個體投資者關注。Aouadi等[3]應用法國CAC-40指數和其中的27只成分股實證指出,谷歌搜索指數衡量的投資者關注與法國股票市場的交易量密切相關,且顯著影響股票流動性和波動性。Goddard等[4]同樣使用谷歌搜索指數代理投資者關注,研究發現投資者關注與同期外匯市場股票波動正相關,并且能預測下期波動。Peltom?ki等[5]使用谷歌搜索指數和新興市場指數的研究發現,投資者關注對新興市場的股價波動有較好的解釋能力。Dzieliński等[6]采用美國個股的實證則進一步指出,投資者關注的非對稱性一定程度上解釋了波動的非對稱性。
中國市場上,個體投資者群體龐大,股民和網民兩大群體存在高度耦合[7],同時相比于機構投資者,個體投資者的異質信念更能影響A股價格變化[8]。百度作為中國目前最大的網絡搜索引擎,市場份額高達70%,同時也提供百度指數對搜索量進行反映,能夠很好地代理國內個體投資者關注。俞慶進和張兵[9]將百度指數作為投資者有限關注的代理變量,使用深圳證券交易所創業板股票進行實證,發現百度指數會顯著影響市場交易活動,給當期股票價格帶來正向壓力,隨后發生反轉。張繼德等[10]將上證180指數中的114只成分股作為研究對象,用百度指數衡量投資者關注,研究發現投資者關注對市場流動性和當期股票收益有顯著的正向影響。目前,百度指數將搜索來源分為電腦端和移動端。區分不同來源百度指數的研究不多,且以往集中在旅游分析領域,最近金融領域也有所涉及,如Wang Xiaolin等[11]用百度指數代理投資者情緒,研究其對中國股指期貨市場的影響,發現電腦端搜索會影響交易量和期貨收益,而移動端搜索只會影響交易量。
盡管已有多項研究[3-6]實證了投資者關注對股市波動的影響,但鮮少有將投資者關注變量應用于波動率預測模型,僅有Dimpfl和Jank[12]和Afkhami等[13]將用谷歌搜索指數衡量的投資者關注線性引入波動率模型,并實證了模型預測能力的改進。我們認為,投資者關注的增強和減弱,對投資者交易行為和股票價格波動的影響可能有所不同,因此考慮投資者關注的非線性引入。具體的,我們提出將百度指數作為邏輯平滑轉移(Logistic Smooth Transition,LST)[14]結構的轉移變量,引入波動率模型。LST結構采用單調遞增的轉移函數,在轉移速率趨于無窮時退化為門限自回歸模型,可以更為靈活地刻畫不同機制之間的轉換,在不少非線性建模研究[15-16]中得到運用。
傳統波動率模型如廣義自回歸條件異方差模型和隨機波動率模型,將波動率視作不可觀測的隱變量,對收益條件方差進行建模。由于低頻日度收益率包含的信息有限,不能完全反映資產價格的日內實際變動,依據其計算的波動率存在較大的測量誤差。隨著計算機技術的發展和高頻數據獲取難度的降低,Andersen和Bollerslev[17]提出了以日內高頻收益平方和計算的已實現波動(Realized Volatility,RV),將金融波動率由隱變量轉變為可直接觀測和建模的顯變量。考慮到RV易受市場微觀結構噪聲影響,Barndorff-Nielsen等[18]提出了對市場微觀結構噪聲穩健的已實現核(Realized Kernel,RK)作為真實波動率的估計,利用核函數平滑日內收益率序列來達到降噪效果。進一步的研究發現波動率可以區分為具有不同統計特性的連續波動和跳躍波動。Andersen等[19]采用局部自適應的門限值,構建在有限樣本下對跳躍具穩健性的已實現中值波動(Median Realized Volatility,MedRV)作為連續波動的無偏估計量。在此基礎上,可利用BNS方法[20]識別顯著跳躍。在已實現波動的預測模型構建方面,Corsi[21]基于Müller的異質市場假說,提出了由不同時間尺度的已實現波動構成的異質自回歸(Heterogeneous Autoregressive,HAR)模型。Andersen等[22]在其基礎上進一步提出區分連續波動和跳躍波動對波動預測貢獻的HAR-RV-J模型和HAR-RV-CJ模型。由于上述HAR類模型可用最小二乘法估計,且能較好地刻畫波動的長記憶性并較準確地預測波動,此后得到了較多拓展和應用[23-25]。因此,本文也將這三個模型作為基準的波動率預測模型。
綜上所述,鑒于HAR類模型能直接對已實現波動建模,有較強的波動率預測能力且具備較好的經濟詮釋,邏輯平滑轉移結構能靈活刻畫外生變量的非線性影響,本文在HAR-RV、HAR-RV-J和HAR-RV-CJ模型的基礎上,引入以百度指數為轉移變量的邏輯平滑轉移結構,來刻畫投資者關注的強弱變化對市場未來波動的影響,構建LSTHAR-SVI類模型,實證檢驗其預測性能,并進一步區分和比較不同來源百度指數對波動預測的貢獻。
令M為日內采樣間隔數,T為觀測的總天數,lnpt,i為t日的第i個采樣間隔末的對數價格,t=1,2,…,T。那么,在t日的第i個采樣間隔內的對數收益率為rt,i=100lnpt,i-100lnpt,i-1,i=1,2,…,M,t日的已實現核估計量[18]為:
(1)

高頻收益在日內連續時間內可能出現突然性的大幅變動,即跳躍。采用Andersen等[19]的已實現中值波動對連續波動進行估計:
(2)
采用Barndorff-Nielsen和Shephard[20]的BNS方法,構建Z統計量來識別顯著跳躍:
(3)
其中MedRQt是積分四次冪的一致估計,形式如下:
(4)
BNS-Z統計量在大樣本條件下服從漸近正態分布,可根據其是否顯著來判斷t日是否存在顯著跳躍。用J表示跳躍波動,C表示連續波動,α是顯著性水平,Φα是標準正態分布的α臨界值,則有Jt=I(Zt>Φα)(RKt-MedRVt),Ct=RKt-Jt。
百度指數刻畫了特定關鍵詞的每日網絡搜索量情況。本文參考Da等[2]的異常谷歌搜索指數構建方法處理原始百度指數以刻畫搜索量的變化,構建SVI指數:
SVIt=ln(BIt+1)
-ln(median(BIt-1,…,BIt-40)+1)
(5)
其中BIt表示t日以選定關鍵詞得到的原始百度指數,Med(BIt-1,…,BIt-40)表示第t-40天到t-1天的日百度指數中位數,反映了投資者關注的正常水平。當SVIt為正時,表明t日投資者關注水平高于正常水平,投資者關注增強;當SVIt為負時,表明t日投資者關注水平低于正常水平,投資者關注減弱。
基于異質市場假說的HAR-RV模型[21],形式如下:
(6)

在HAR-RV模型基礎上進行拓展的HAR-RV-J模型和HAR-RV-CJ模型[22],形式如下:
HAR-RV-J模型:
(7)
HAR-RV-CJ模型:
(8)

本文提出在HAR類模型的基礎上引入將百度指數作為轉移變量的LST結構G(γ,c;SVIt)=[1+exp(-γ(SVIt-c))]-1,構建LSTHAR-SVI類模型,以靈活刻畫投資者關注的變化對未來波動率的非線性影響。具體形式如下:
LSTHAR-RV-SVI模型:
G(γ,c;SVIt)+εt+1
(9)
LSTHAR-J-SVI模型:
G(γ,c;SVIt)+εt+1
(10)
LSTHAR-CJ-SVI模型:
G(γ,c;SVIt)+εt+1
(11)
其中SVIt是轉移變量。γ是平滑參數,表示狀態轉移的速率,應該大于零。c是位置參數,用來確定機制轉移的位置,應該在轉移變量的取值范圍之內。G(·)是轉移變量SVIt的單調增函數,在0到1之間取值。當γ→∞時,G(·)成為示性函數,SVIt
使用基于網格搜索的非線性最小二乘法對LSTHAR-SVI類模型進行估計。具體步驟如下:首先,運用網格搜索法找到便于迭代的位置參數c和平滑參數γ的初始值。具體的,在0到150范圍內,以5作為步長選擇平滑參數γ,同時在轉移變量SVIt的取值范圍內,以0.05作為步長選擇位置參數c,從而構造約900個網格點。根據各網格點的參數取值,通過非線性最小二乘法估計其余參數并計算殘差平方和,選擇殘差平方和最小時的c和γ作為二者的初始值。然后,在模型參數初始值設定的前提下,運用非線性最小二乘法得到模型估計結果。
軟件方面,使用Eviews6.0進行模型估計。三類LSTHAR-SVI模型中,LSTHAR-CJ-SVI類模型的估計用時相對較長,但耗時可控,程序整體效率較高。
采用華夏上證50ETF(510050)的5分鐘高頻數據和以“50ETF”為關鍵詞的百度指數數據進行實證。華夏上證50ETF是中國境內首只交易型開放式指數基金,它緊密跟蹤上證50指數,追求實現與上證50指數類似的風險與收益特征。而上證50指數挑選了上海證券市場規模大、流動性好的最具代表性的50只股票組成樣本股,綜合反映了上海證券市場最具市場影響力的一批優質大盤企業的整體狀況,是上海證券市場具有代表性的藍籌指數。隨著50ETF期權的推出,以上證50指數為標的的金融產品趨于完善,市場套利機會不斷增多,相關產品愈發吸引廣大投資者的關注。數據顯示,50ETF日交易量高于180ETF、300ETF和綜指ETF,具有更高的活躍度。樣本區間為2014年1月2日到2017年11月30日,剔除因為熔斷導致日內沒有完整交易的2016年1月4日和2016年1月7日,共剩余954個交易日。根據公式(5)構建SVI指數時,需要考慮前40天的百度指數,故應用2014年3月6日到2017年11月30日共計914個交易日的數據進行后續實證。對于原始百度指數考慮三種情況:總體指數(電腦端與移動端百度指數之和)、電腦端指數和移動端指數,分別用BI1、BI2和BI3表示,處理后的百度指數分別用SVI1、SVI2和SVI3表示。所用數據來自wind數據庫和百度。
表1為全樣本段內主要變量的描述性統計。BI2的均值為328.495,BI3的均值為295.689,說明目前“50ETF”的電腦端搜索量高于移動端。在1%的水平上,ADF統計量均顯著,說明各變量序列平穩,可以直接進行建模。

表1 變量描述性統計
根據采用的HAR類基礎模型,將所有模型分成3個組別,各組內有HAR-RV/HAR-RV-J/HAR-RV-CJ模型中的1個,以及在其基礎上分別引入SVI1、SVI2和SVI3的3個LSTHAR-SVI類模型。表2中給出各組模型在全樣本段的部分參數估計結果和擬合性能指標。
在各組內,相較于該組基礎模型(HAR-RV、HAR-RV-J、HAR-RV-CJ),3個LSTHAR-SVI類模型的調整后R2和log L值都明顯更大,AIC值和SIC值都明顯更小,且LR檢驗在1%的水平上都顯著,說明考慮百度指數的LSTHAR-SVI類模型的全樣本段擬合效果都顯著優于相應的HAR類基礎模型,即百度指數包含50ETF波動預測的有益信息。另外,引入SVI1、SVI2和SVI3的LSTHAR-SVI類模型在擬合性能上有所差異。各組內比較中,LSTHAR-SVI2類模型都有最大的調整后R2值和log L值,最小的AIC值和SIC值,表明考慮電腦端百度指數的LSTHAR-SVI2類模型在全樣本段擬合上表現最優,即電腦端百度指數代表的投資者關注對市場波動有更大的影響。此外,9個LSTHAR-SVI類模型的位置參數c的取值基本顯著為正,說明LSTHAR-SVI類模型的機制轉換并非完全以投資者關注的增強和減弱劃分,還與變化的程度有關;在投資者關注的增強達到一定程度時,其對未來波動率的影響會明顯加大,明顯改變未來波動率對過去日、周、月波動率的敏感性。

表2 模型全樣本段擬合結果
模型的樣本外預測性能是衡量預測模型好壞的重要標準。本文將2016年1月6日到2017年11月30日共464個交易日用作模型的樣本外預測性能比較。具體地,以450個交易日作為估計窗長,采用一步向前滾動預測法,即先以2014年3月6日到2016年1月5日的450個交易日為估計窗,預測2016年1月6日的波動率,接著以2014年3月7日到2016年1月6日的450個交易日為估計窗,預測2016年1月8日的波動率,以此類推。

(12)
(13)
(14)
(15)
(16)
(17)
表3報告了3組共計12個模型的損失函數均值,其中各組內各損失函數均值的最小值已加粗表示。各組模型內,LSTHAR-SVI2類模型的6個損失函數均值都最小,其次是LSTHAR-SVI3類模型,再是LSTHAR-SVI1類模型,HAR類基礎模型的損失函數均值則最大。比如HAR-RV模型所在組1內的MSE損失函數下,LSTHAR-RV-SVI2模型的損失函數均值為2.264,LSTHAR-RV-SVI3模型的損失函數均值為2.275,LSTHAR-RV-SVI1模型的損失函數均值為2.374,HAR-RV模型的損失函數均值為2.383。三種LSTHAR-SVI類模型的損失函數均值表現全部優于對應的HAR類基礎模型,說明考慮百度指數的LSTHAR-SVI類模型具有較HAR類基礎模型更強的波動預測能力,本研究對投資者關注的非線性引入可以改進波動預測。其中考慮電腦端百度指數的LSTHAR-SVI2類模型在各組內均表現最佳,說明電腦端百度指數所代表的投資者關注對波動預測有更大影響。上述結論與表2的樣本內擬合結果一致。

表3 模型損失函數均值
僅憑損失函數均值判斷模型預測性能并不準確,一方面是因為損失函數均值極易受某些極端值影響,另一方面則是損失函數均值無法判斷模型預測性能差異的顯著性。進一步,本文運用Diebold和Mariano[26]的DM檢驗判斷LSTHAR-SVI類模型樣本外預測性能改進的顯著性。單邊DM檢驗的原假設是基準模型的預測能力不弱于被比較的模型,原假設被拒絕時,表示被比較模型的預測能力顯著強于基準模型。表4報告了以HAR類基礎模型為基準的DM檢驗結果。可以看到,考慮電腦端百度指數的LSTHAR-SVI2類模型的DM統計量均在1%的水平上顯著,考慮移動端百度指數的LSTHAR-SVI3類模型的DM統計量除一個值外均在10%的水平上顯著,考慮總體百度指數的LSTHAR-SVI1類模型也有半數以上的DM統計量在10%的水平上顯著,說明考慮百度指數的LSTHAR-SVI類模型的預測能力顯著強于對應的HAR類基礎模型。

表4 DM檢驗(以HAR類基礎模型為基準)
進一步采用模型置信集(Model Confidence Set, MCS)檢驗[27],對多個模型同時進行比較,以挑選預測性能顯著最優的模型。該檢驗無須指定基準模型,通過等價檢驗TM和剔除規則EM對一系列模型進行比較,選出一定置信度下表現最好的一個或多個模型形成模型置信集。等價檢驗TM的原假設是當前模型集中的任意兩個候選模型預測能力相同。如果在顯著水平α下原假設被拒絕,則采用剔除規則EM來剔除當前模型集中表現最差的模型。接著在新的模型集中重復等價檢驗,直至“接受”原假設,此時留下的模型即構成了置信水平1-α下的模型置信集。檢驗統計量有多種形式,本文選擇范圍統計量:
(18)




表5 分組MCS檢驗
引入不同來源百度指數的LSTHAR-SVI類模型的預測性能差異,可能與不同客戶端用戶的搜索特性差異有關。近年來,隨著智能手機的推出、移動網絡的完善和WIFI熱點的普及,移動端應用逐漸占領人們的日常生活和工作,移動搜索成為網絡搜索的重要分支。相比于電腦搜索,移動搜索有明顯不同的特性:首先,移動搜索由于其便利性可以做到隨需隨搜,相比于電腦搜索的計劃性,它更多地反映了投資者的即時想法,有一定的突發性和偶然性,因而無法具體暗示投資者之后的交易行為。其次,移動搜索有移動端設備界面大小、輸入鍵盤設置等限制,使投資者在信息獲取上并不十分清晰、全面和方便,這種信息的非充分性和操作的不友好性可能使投資者的情緒和決策受到影響,因而降低移動搜索對投資者之后交易行為的指示意義。再加上本實證區間正好包含了中國股市異常波動的2015年,此時市場各類信息層出不窮,投資者情緒緊張焦慮,更會放大移動搜索的不可控性,使移動搜索數據異于往常,對交易行為的指示意義下降。所以,相比引入移動端百度指數,引入電腦端百度指數對波動預測的貢獻更大。當然,隨著移動智能的進一步發展和人們行為方式的轉變,投資者利用移動端進行搜索和交易的行為會日漸成熟,進而移動端百度指數的波動預測作用可能會越來越大。至于結合了二者的總體百度指數,可能因為將不同特性的兩類搜索指數直接相加,間接失去了衡量特定投資者行為的含義,使其對波動預測的貢獻相對較小。


圖1 總體MCS檢驗(p值)
為使結果更具一般性,選用以“上證綜指”為關鍵詞的百度指數數據和富國上證綜指ETF(510210)的5分鐘高頻價格進行穩健性檢驗。受限于wind數據庫只能獲取綜指ETF 最近3年的高頻價格數據,本次檢驗區間無法與上文實證區間完全吻合。為保證一定的數據量,樣本區間選為2015年8月20日到2018年8月17日,剔除因為熔斷導致日內沒有完整交易的2016年1月4日和2016年1月7日,共剩余729個交易日。構建用作回歸量的月已實現波動時,需要考慮前21天的日已實現波動,故實際采用2015年9月22日到2018年8月17日共計708個交易日的數據進行后續實證。在樣本外預測時,與上文一致使用450個交易日作為估計窗長,采用一步向前滾動預測法,將2017年8月1日到2018年8月17日共258個交易日用作樣本外預測區間。我們也嘗試了以2017年8月1日到2017年11月30日的83個交易日作為樣本外預測區間,即采用和50ETF一致的預測窗終止日期,取得了基本一致的結論,由于篇幅限制不再匯報。
各組模型在全樣本段的部分參數估計結果和擬合性能指標如表6所示。可以看到,在各組內,相較于該組基礎模型(HAR-RV、HAR-RV-J、HAR-RV-CJ),3個LSTHAR-SVI類模型的調整后R2值和log L值都明顯更大,AIC值都明顯更小,且LR檢驗在1%的水平上都顯著,說明考慮百度指數的LSTHAR-SVI類模型的全樣本段擬合效果都顯著優于相應的HAR類基礎模型,即百度指數包含綜指ETF波動預測的有益信息。另外,引入SVI1、SVI2和SVI3的LSTHAR-SVI類模型在擬合性能上有所差異。各組內比較中,LSTHAR-SVI2類模型都有最大的調整后R2值和log L值,最小的AIC值和SIC值,表明考慮電腦端百度指數的LSTHAR-SVI2類模型在全樣本段擬合上表現最優,即電腦端百度指數代表的投資者關注對綜指ETF波動有更大的影響。以上結論與采用50ETF進行全樣本段擬合獲得的結論(表2)一致。

表6 模型全樣本段擬合結果(綜指ETF)

續表6 模型全樣本段擬合結果(綜指ETF)
各模型樣本外預測的損失函數均值和DM檢驗結果如表7和表8所示。由于富國上證綜指ETF的交易量近幾年維持在較低水平,市場活躍度不足,實證區間內出現已實現波動為0(無交易)的情況,因此未計算MSELN和MAELN損失函數。由表7可知,在各組模型中,LSTHAR-SVI類模型的損失函數均值絕大多數情況下都小于對應的HAR類基礎模型,表明考慮百度指數的LSTHAR-SVI類模型具有較HAR類基礎模型更強的綜指ETF波動預測能力。其中,LSTHAR-SVI2類模型在各組內的損失函數均值基本最小,說明電腦端百度指數所代表的投資者關注對綜指ETF波動預測有更大影響。由表8可知,在MSE損失函數下,LSTHAR-SVI類模型的DM統計量大多為正,但不顯著,在MAE、MSESD和MAESD損失函數下,LSTHAR-SVI類模型的預測能力大多顯著強于對應的HAR類基礎模型,表明本研究對投資者關注的非線性引入可以有效改進對綜指ETF的波動預測。上述結論與采用50ETF獲得的結論(表3、表4)一致。

表7 模型損失函數均值(綜指ETF)

表8 DM檢驗(以HAR類基礎模型為基準)(綜指ETF)


圖2 總體MCS檢驗(p值)(綜指ETF)
本文采用2014年1月2日到2017年11月30日的華夏上證50ETF高頻價格和百度指數數據,以及2015年8月20日到2018年8月17日的富國上證綜指ETF高頻價格和相應百度指數數據,運用異質自回歸類模型和邏輯平滑轉移結構,研究百度指數代表的投資者關注對未來市場波動的影響,同時還區分不同來源百度指數對波動預測的貢獻。
實證結果表明:(1)百度指數對波動預測有顯著貢獻。相較于對應的HAR類基礎模型,本文新提出的LSTHAR-SVI類模型有顯著更優的擬合效果和顯著更強的預測性能,揭示了投資者關注所引導的交易行為對市場波動的影響,肯定了考慮投資者心理和投資者行為對股市研究的重要意義。而對模型參數的分析顯示,投資者關注對市場波動的影響并非完全以關注的增強和減弱劃分,還與關注變化的程度有關;在投資者關注的增強達到一定程度時,其對市場波動率的影響會明顯加大,明顯改變日、周、月波動率對未來波動率的貢獻,即明顯改變不同頻率投資者的交易行為對未來波動率的影響。(2)不同來源百度指數對波動預測的影響情況不同。考慮電腦端百度指數的LSTHAR-SVI2類模型的預測表現顯著更優,也一定程度上說明雖然移動端占比在日益增加,但在目前的金融投資領域,有計劃性的電腦端搜索對資產價格未來波動的影響更大。(3)引入電腦端百度指數帶來的預測性能改進效果超越了HAR類基礎模型形式對波動預測的影響。在對所有12個波動率預測模型的比較中,考慮電腦端百度指數的LSTHAR-RV-SVI2模型、LSTHAR-J-SVI2模型和LSTHAR-CJ-SVI2模型的預測性能都具有顯著優勢,并沒有因為HAR類基礎模型的選擇不同而出現明顯差異,說明了電腦端百度指數是構建中國股市波動率預測模型時值得納入的重要變量。
本文充分利用市場上的日內可用信息和投資者關注信息,實現了對市場波動率的更精準預測,其結果對風險管理、資產定價和投資組合構建等實務應用都有指導意義。后續研究還將考慮百度指數在多資產協方差預測模型中的引入,并將其應用于期貨的動態套期保值、最小方差投資組合的構建等實務場景。