歐陽資生,楊希特,張 寧
(1.湖南商學院財政金融學院,湖南 長沙 410205;2.湖南師范大學數學與統計學院,湖南 長沙 410006)
自21世紀以來,互聯網技術迅速發展,給我們在獲取信息方式上提供了便捷,也深刻地變革了人類社會的生存狀態和政治經濟社會的既定規則。截至2018年12月,我國的網民規模已達8.29億人,互聯網普及率為59.6%。其中搜索引擎用戶規模達6.4億人,涵蓋了82.8%的網民。有大量的研究表明,雖然互聯網帶來了信息量的劇增,但每個經濟主體的注意力卻成了一種稀缺的資源。一方面是浩瀚如煙的信息海洋;另一方面是有限的投資者關注度。在這種背景下,投資者在股市上的關注度成了行為金融學的一個重要研究方向,學者們開始研究投資者關注度對股市的表現情況、波動性等方面的影響。這為解釋金融異象提供了強有力的工具。
本文基于百度指數的搜索量來衡量投資者的投資關注度,以上證指數和深證指數的5分鐘高頻交易數據作為研究對象構建已實現波動率作為股市波動性代理變量,從搜索引擎數據視角進一步揭示普通投資者信息反應機制對股票市場的影響。然而,投資者在不同期間對信息的關注程度不同,對股市波動性的影響也會不同,本文深入研究了當期和滯后期的普通投資者關注對股市波動率之間的動態關系,并將以搜索量度量的投資者關注度引入已有的波動率模型,檢驗投資者關注度指標的有效性以及它對股市波動率變動的預測能力。
投資者關注度與市場之間存在著一種動態關系,投資者關注度直接影響到市場穩定性,同時投資者能否獲利與股票市場的穩定也密切相關,從某種程度上股市的變化情況可以從投資者關注度中反映出來,因此尋找合適的投資者關注度度量指標來預測金融市場變化情況是非常重要的。
關于投資者關注度的度量指標方面的研究,Da等(2011)用Google搜索頻率(SVI)作為投資者關注度度量指標,結果發現SVI與投資者關注度確實存在關聯,并且能夠很好地抓住投資者的關注點。俞慶進和張兵(2012)以百度指數為指標進行了投資者關注度的實證研究,作者認為因為百度指數能得到逐日的數據,因此也受到了投資者的大力關注。趙龍凱等(2013)則利用百度搜索量數據來衡量股票受關注的程度,結果發現投資者的關注度并不能被股票收益率的變量完全包含。張繼德等(2014)以百度指數用戶關注度為指標研究了普通投資者關注對股票流動和收益的影響機制。劉海飛等(2017)基于信息關注度、信賴度、更新頻率三層維度構建社交網絡微博信息質量指標體系,研究表明上市公司社交網絡微博平臺對股價同步性有較強影響力。孫書娜和孫謙(2018)利用雪球社區用戶的自選股信息構建了日度超額雪球關注度指標,發現投資者關注會在短期內對市場價格形成壓力并使交易量劇增。
從大量的文獻資料中我們可以看出,盡管度量投資者關注度的指標很多,但是目前應用最廣泛的仍然是互聯網搜索數據,因為互聯網能給我們提供比較準確及時的信息,更能吸引投資者的注意力。目前使用較多的網絡搜索數據主要是百度和Google以及其他的一些股票交易平臺。Vozlyublennaia(2014)以Google搜索頻率為指標研究了市場投資和投資者關注度之間的關系,結果發現可以通過互聯網搜索數據提高投資者的關注度,從而提高市場的效率。Ding 和Hou(2014)以Google搜索頻率指數為指標,研究了投資者與股市流動性的關系,結果發現Google搜索頻率指數能夠明顯地擴大股票的持有率從而提高股市的流動性。Liu 和Chen(2014)采用復合檢索指數為度量指標,對網絡搜索數據進行前處理然后進行股票趨勢的預測,結果發現用這種方法得到的預測模型比單一的檢索指標得到的結果更有效。Andrei和Hasler(2014)利用Google搜索數據發現,股票收益率的方差和風險溢價隨著注意的增加呈二次增長。Takeda和Wakao(2015)以Google在線搜索頻率為指標研究了日本股市收益率和投資者交易行為的關系,結果顯示在線搜索率與交易量和市場收益率成正相關,但是交易量提高股票價格的可能性并不高。Hamid和Heiden(2015)利用網絡搜索數據建立相關模型研究Google趨勢對投資風險的預測能力,結果表明該模型在價值和風險預測中有突出的優勢,特別是小額投資的風險評價其效果更明顯。Thomas和Stephan(2015)以網絡搜索數據為依據研究了股票市場穩定性與投資者關注度的關系,結果證明網絡搜索能夠預測股市動態變化尤其在股市處于高速變化階段預測結果更準確。Afkhami和Cormack(2017)利用Google搜索數據建立能源商品市場上注意力的衡量指標,研究證實了Google搜索數據的效用是波動性的重要預測因素,表明它們在預測能源大宗商品價格波動方面具有超越傳統GARCH模型的增量預測能力。Kim和Neri(2018)利用Google搜索數據預測奧斯陸證券交易所上市公司的未來異常收益、交易量和波動性,研究結果表明谷歌搜索量的增加預示著波動性和交易量的增加,谷歌搜索與未來的關系比當前的交易活動更密切。
總體上看,不同學者選取不同指標作為投資者關注度代理變量研究投資關注度和股市波動性之間的關系。鑒于此,本文通過構建投資者關注度與股市波動性的VaR模型,研究投資者關注度與股市波動性之間的動態變化關系,并將研究結果應用到以VaR為度量的風險管理實踐當中。
在百度指數關鍵詞的選取上,我們通過比較“上證指數”、“上證綜合指數”、“上證180”、“深證指數”、“深證成指”等多個關鍵詞,從搜索量大小以及代表性的角度我們選取搜索關鍵詞“上證指數”、“深證指數”分別作為滬深兩市關注度的代表,分別記為SQSHt和SQSZt。時間跨度從2015年1月5日至2018年8月16日,樣本數為1770個。為了使數據能夠更加平滑,我們將數據取對數處理。“上證指數”和“深證指數”取對數之后的搜索量分別記為LogSQSHt和LogSQSZt。
由于高頻數據包含了豐富的日內信息,本文選取基于高頻數據構建的已實現波動率作為股市波動性的代理變量。已實現波動率(Realized Volatility)的概念首先由Anderson和Bollerslev(1998)提出。這種波動率的計算基于高頻交易數據,每日已實現波動率就是對日內收益平方求和再開方。在這里簡要介紹一下已實現波動率的計算過程。假設在s期某金融資產的對數價格服從下面的伊藤過程:
dlnP(s)=μ(s)ds+σ2(s)dW(s)
其中,μ(s)表示漂移項,σ2(s)表示瞬時波動率,W(s)服從布朗運動。因此在t時期lnP(s)的真實波動率定義為:

由于這是瞬時波動率的σ2(s)的積分,通常稱作積分波動率(integrated volatility)。又假設該金融資產在第t個交易日內能夠觀測到的n個日內收益率{rt(1),rt(2),…,rt(n)},Anderson和Bollerslev (1998)提出的RV為這些日內收益率的平方和:
其中rt(i)表示第t期中第i個觀測時間段的日內收益率(i=1,2,…,n;t=1,2,…,T)。根據二次變差理論,當n→∞時,
換句話說只要日內收益的抽樣頻率足夠高,RV可作為真實波動率的一致估計量。
原始的高頻數據是從Wind高頻金融數據庫獲取的5分鐘數據。通過收盤價計算對數收益率,因為每日有48個數據,所以總共有84960個收益率數據。再計算出每日的波動率。我們以上證綜合指數的日波動率度量滬市的波動性,以深證成指的日波動率度量深市的波動性。這里我們將上證綜指和深證成指的日波動率分別記為RVSHt、RVSZt。它們的對數形式分別記為LogRVSHt、LogRVSZt。
表1記錄了上證綜指和深證成指的波動率的基本統計量。從表1中可以看出RVSHt和RVSZt的峰度都大于3,偏度都大于0。表明上證綜指和深證成指的波動率都不是正態分布的,且具有尖峰厚尾的特征。經過取對數處理之后,數據明顯變得平滑了許多。
表1上證綜指和深證成指日波動率基本統計特征

均值最大值最小值標準差偏度峰度RVSHt0.0116750.0918320.0027410.0970502.92712.466RVSZt0.0133180.0756050.0034730.0100432.352 7.271LogRVSHt-2.030917-1.037006-2.5621310.2744990.660 0.046LogRVSZt-1.964799-1.121452-2.4593270.2659370.538-0.213
為了考察股市波動率和投資者關注度之間的相關關系,首先計算它們之間的Person線性相關系數和Kendall秩相關系數矩陣,具體結果如表2、表3所示。從表2可以看出,無論是滬市還是深市,投資者關注度與股市波動率之間存在著很強的線性相關性。就數值而言,RVSHt與LogSQSHt之間的相關性要大于RVSZt和LogSQSZt。從表3 Kendall秩相關系數角度來看,它們之間數值雖然不如線性相關系數大,但相關性也很顯著,表明投資者關注度和股市波動率之間存在變化趨勢的一致性。

表2股市波動率與搜索量之間Person相關系數矩陣

表3 股市波動率與搜索量之間Kendall秩相關系數矩陣
為建立模型方便,對變量進行Granger因果關系檢驗。其中最優的滯后階數由AIC信息準則確定。檢驗結果如表4所示。從表4中可以得出,滬深股市的波動性與其投資者關注度互為Granger因果關系,即投資者關注度的提高帶來股市波動率的上升,反過來股市波動率的上升也伴隨著投資者關注度的上升。

表4 RVSHt和LogSQSHt,RVSZt和LogSQSZt的Granger因果檢驗結果
為研究投資者關注度與股市波動率之間的動態關系,我們將建立兩者之間的向量自回歸模型(Vector Autoregression, VaR)。在建立模型之前,必須先要確立模型合適的滯后階數。一方面,我們希望滯后階數p足夠大,以便能充分反映所構造模型的動態特征。但另一方面,滯后階數越大,所需要估計的參數就越多,模型的自由度也將減少。所以在進行選擇時,我們需要綜合考慮。對于滯后階數的選擇,文獻中已提供了一系列的判斷方法,包括LR似然比檢驗,AIC信息準則和SC準則。這里就不一一介紹,根據這些準則,綜合考慮后選擇最優的滯后階數為3階。類似于Thomas和Stephan (2011)的研究,建立如下的VaR模型:
(1)
(2)
其中LogSQt和LogRVt分別表示對數搜索量和對數的股市波動率。c1、c2為固定常數。
我們分別對LogRVSHt和LogSQSHt,LogRVSZt和LogSQSZt建立VaR(3)模型。估計結果如表5所示。這里我們僅列出以波動率為因變量的估計結果。從估計結果可以看出,對數波動率序列本身存在很強的自回歸性。投資者關注度對波動率的影響效果隨著滯后階數的愈后而愈微弱,說明股市波動性對投資者關注度的影響的反應迅速,并且這種影響衰減得也十分迅速。注意到滬深兩市VaR模型中LogSQSHt-2和LogSQSZt-2的系數均為負,說明帶來的影響并不總是正的。反映了我國金融市場的投資者懼怕風險。在股市波動性較大時,采取觀望的策略。
表5VaR模型參數估計結果

c1α11α12α13β11β12β13滬市-1.59060.22400.3622 0.15890.8169-0.93750.3262c2α21α22α23β21β22β23深市-0.69740.36170.2632 0.21410.5318-0.56790.1453
下面我們對建立的VaR(3)模型進行脈沖響應函數分析(Impulse response function, IRF),結果如圖1、圖2所示。其中橫軸表示新息影響的階數,縱軸表示因變量對沖擊的響應程度,兩側的虛線是響應函數兩倍標準差的置信區間。每個圖又包含(a)、(b)、(c)、(d)4個小圖形。圖1(c)、圖2(c)顯示的是波動率對搜索量的一個標準差響應函數圖。在當期給搜索量一個標準差的沖擊后,將在接下來的時期持續減緩的趨勢正向作用于股市波動率。圖1(b)、圖2(b)顯示的是搜索量對股市波動率的一個標準差響應函數圖。無論滬市還是深市,彎折的曲線表明波動率對搜索量的作用具有反復性。不同的是深市的響應函數是先增長、再下降,然后又略微增長而趨于穩定,在第四期之后接近于零。而滬市的函數是前3期很小的正向作用,從第4期開始給波動率帶來負向的影響。這表明滬市和深市波動率在受到外部沖擊時,會給搜索量表示的投資者關注度帶來正負交替的影響,并且滬市的傳導路徑更加復雜多變。圖1(a)、圖1(d)分別為上證指數對數波動率和對數搜索量對其本身的一個標準差響應函數圖,而圖2(a)、圖2(d)分別為深證成指對數波動率和對數搜索量對其本身的一個標準差響應函數圖。

圖1LogRVSHt與LogSQSH脈沖響應函數圖

圖2 LogRVSZt與LogSQSZt脈沖響應函數圖
前面我們分析了投資者關注度和股市波動性之間的關系,發現兩者之間存在很強的相關性。既然存在這么強烈的相互影響(互為Granger因果關系),那么前一期的投資者關注度將會對股市的波動造成一定的影響。這啟發我們是否能將以搜索量度量的投資者關注度引入已有的波動率模型,提升波動率模型的預測效果。下面我們將通過對比各種模型探討搜索量包含的信息在預測波動率時能否為預測增加精度。
考慮到選取的波動率是基于高頻數據構建的已實現波動率,這里我們建立最為常見的AR時間序列模型,以及Corsi(2009)提出的異質自回歸“已實現”波動模型(heterogeneous autoregressive, HAR)。Corsi認為潛在的日波動率與三種頻率的“已實現”波動率存在如下關系:
(3)

(4)
將(4)式代入(3)式,可得:
(5)

顯然,式(5)采用的是非常簡單的自回歸結構,并且考慮了不同時間尺度的已實現波動。因此將之稱為異質自回歸已實現波動模型。如果每周有5個交易日,每月有22個交易日,則HAR可以具體化為:
(6)
式中,
RVt,t+h=h-1(RVt+1+RVt+2+…+RVt+h),h=1,2,…
(7)
當h=1時,有RVt,t+1≡RVt+1。
本文在參考Hamid和Heiden (2015)的基礎上,將搜索量的滯后一階加入上述模型當中去。建立如下模型:
(8)
(9)
其中LogSQt-1為滯后一階的對數搜索量。將上述兩個模型分別記為AR-SQ、HAR-SQ。經過反復測試,我們確定使用階數p=3。同時將未被修改過的AR、HAR模型作為對比。綜上所述,我們建立四個波動率的預測模型,分別記為AR、AR-SQ、HAR、HAR-SQ,重新將模型的表達式展示如下:

(10)

(11)

(12)

(13)
下面我們比較模型AR、AR-SQ、HAR、HAR-SQ模型的預測效果。采用方法分為兩種,分別是樣本內預測和樣本外預測。在樣本內的預測方面,我們以1770個樣本全部用來建模,然后預測2017年度樣本共244個數據。在樣本外的預測方面,我們將數據劃分為2017年全年,2018年全年兩個區間,以前一個區間數據建立模型,以后一個區間為預測區間。在評價指標方面,我們參照Thomas和Stephan (2011)[13],選取以如式(14)、式(15)所定義的均方誤差(Mean squared error, MSE)和損失函數(Quasi-likelihood loss function, QLIKE):
(14)
(15)

樣本內預測各模型的指標如表6所示。從橫向來看,滬市的波動率模型各項指標基本要比深市小,說明對滬市的波動率的估計值相對更接近于真實水平。從縱向對比各個模型,我們發現AR模型和HAR模型間沒有明顯的差異。但是加入搜索量之后的AR-SQ、HAR-SQ模型的指標值卻比相應的AR模型和HAR模型小很多,這表明歷史的關注度信息將有助于預測股市的波動性。而其中的HAR-SQ模型因為MSE和QLIKE這兩項指標值都是最小,相對來說是一個比較好的預測模型。
表6樣本內預測評價指標值

模型滬市深市MSEQLIKEMSEQLIKEAR1.001.001.001.00AR-SQ0.510.660.760.82HAR1.021.240.930.99HAR-SQ0.420.560.500.55
注:表中數值以AR模型為基準,取比值所得
表7樣本外預測評價指標值

模型滬市深市MSEQLIKEMSEQLIKEAR1.001.001.001.00AR-SQ0.560.750.880.78HAR0.970.971.051.01HAR-SQ0.440.570.680.66
注:表中數值以AR模型為基準,取比值所得
樣本外預測各個模型的評價指標值如表7所示。從橫向來看,滬市的波動率模型各項指標仍然要比深市的模型小,說明對滬市波動率的預測水平更為理想。從縱向來看AR-SQ模型的值小于AR模型的值,HAR-SQ模型的值小于HAR模型的值,進一步說明了投資者關注度所包含的信息將有助于提高波動率模型的預測效果。與樣本內預測類似,樣本外預測的最佳模型為HAR-SQ,各項指標值均為所有模型中的最小。
現在我們將探討投資者關注度與風險價值之間的關系。在前文建立波動率模型估計下一期的波動率的基礎上,我們依據如下的公式計算VaR:
(16)

上證指數VaR與其對應的百度指數,深證成指VaR與其對應的百度指數分別如圖3、圖4所示(其中百度指數與VaR均做了歸一化處理)。從兩圖中可以看出,百度指數與VaR存在聯動趨勢的一致性:較高的投資者關注度伴隨著較大的股市波動率,同樣也帶來了較大的風險值。

圖3 上證指數VaR與其對應的百度指數

圖4 深證成指VaR與其對應的百度指數
為了考察以百度指數為代理變量的投資者關注度與VaR之間的相關關系,我們計算出它們相互之間的Pearson線性相關系數和Spearman秩相關系數,結果如表8、表9所示。從兩表中可以看出,滬深兩市的百度指數和VaR之間的線性相關系數都大于0.6,表明投資者關注度與股市風險值存在較強的線性相關性。然而從秩相關系數來看,滬深兩市的取值分別為0.6939、0.6375,從數值上看要比線性相關系數大,從P值來看都是顯著的,表明投資者關注度與股市風險值存在著運動的一致性。這一點是圖3、圖4反映出的情況的一個印證。另外值得注意的一點是從兩市VaR的相關系數來看,它們之間存在極強的相關性,表明滬深股市存在很強的聯動關系。

表8 百度指數與VaR之間Pearson線性相關系數矩陣

表9 百度指數與VaR之間Spearman秩相關系數矩陣
本文通過構建投資者關注度與股市波動率之間的VaR模型,采用百度指數作為投資者關注度的替代變量,并將投資者關注度引入波動率預測模型,對投資者關注度與股市波動之間關系進行了實證研究,實證結果發現:
第一,投資者關注度和股市波動率之間存在著很強的相關性和聯動的一致性,投資者關注度的提高伴隨著股市波動性的加劇,股市波動性的加劇也將對投資者關注度產生正向的影響。第二,當期關注度的提高,將對股市波動性造成持續的正向的影響,而當股市波動性在當期受到外部沖擊時,對關注度的作用效果隨著時期的不同而不同,具有反復性和復雜性。第三,在波動率的預測方面,利用以百度指數為代理變量的歷史投資者關注度信息有助于提升預測精度,提升模型的整體預測效果,也提高了VaR的度量精度,同時,百度指數與VaR之間存在較強的相關關系,這也進一步表明了投資者關注度和股市波動率以及風險之間存在著很強的相關性和聯動的一致性。