許天陽
(上海交通大學 安泰經濟與管理學院,上海 200030)
本文基于互聯網大數據視角,利用爬蟲技術獲取新浪股吧中帖子信息及新浪財經多空調查數據,通過文本分析和機器學習的方法構建投資者情緒指標,并以上證指數為例,研究投資者情緒與證券市場之間的相互影響及預測作用。
行為金融學自20世紀90年代興起迅速發展至今,已有很多學者嘗試用各種手段,從不同角度定義并衡量投資者情緒指標,并發現其會對證券市場價格及波動產生重要影響。
投資者情緒最先受到人們關注是Black(1986)在就任美國金融學會主席的演講中全面闡述了噪聲交易者的概念,他指出噪聲交易是金融市場存在的基礎,但同時也提到了噪聲交易者的問題[1]。De, Shleifer, Summers and Waldman(1990)首次提出DSSW噪聲交易者模型,將投資者情緒引入證券市場,指出如果投資者情緒相互影響,噪音交易者可以獲得正的預期收益,套利者將無法消除非理性行為導致的錯誤定價,投資者情緒因而會成為影響金融資產均衡價格的系統性風險[2]。Barberis(1998)基于心理學實驗,發現投資者傾向于過度重視公司近期財務數據的變化,而無法及時修正自己的預測模型,從而解釋了投資者為何會對信息反應不足或反應過度[3]。Brown and Cliff(2004)認為投資者情緒即投資者的投機傾向,或是對股票市場總體的樂觀、悲觀態度[4]。
對于投資者情緒的測度方法,目前學術界主要分為直接指標和間接指標。間接指標是指從金融市場中選擇能夠間接反映投資者情緒的變量。Neal(1998)采用封閉式基金折價率、零股買賣比率及共同基金贖回率三個指標作為投資者情緒的代理指標,發現其有助于預測股市的收益率,尤其是對于個人投資者持股比例較高的股票[5]。Kumar and Lee(2004)根據交易所提供的散戶交易記錄構建情緒指標,發現低價股、小盤股及機構投資者持股比例較低的股票往往有較高的超額收益率,且對投資者情緒變化較為敏感[6]。Baker and Stein(2004)利用換手率作為投資者情緒代理指標,指出投資者在樂觀時會提高股票交易的需求,使得換手率上升,而股價會在這個過程中被高估[7]。Baker and Wurgler(2006)在前人的基礎上,選取了股票換手率、封閉式基金折價率、IPO首日溢價率、IPO發行數量、股權融資比例及股利溢價等6個指標,運用主成分分析的方法構建了一個綜合投資者情緒指標,并發現情緒值對于小盤股、高成長性、非營利性、不分紅及波動較高的股票影響更大[8]。國內也有不少學者借鑒了BW方法,如易志高和茅寧(2009)添加了適合中國股市特色的指標,如新增投資者開戶數等,研究了投資者情緒與中國股票市場之間的關系[9]。
間接指標通常來源于金融市場信息,數據簡單易得,具有較強的客觀性,但其缺陷在于作為投資者情緒的代理指標,不可避免地會存在較大誤差和滯后性。直接指標則是通過調查問卷等形式獲得投資者對于股票市場的信息,或以政府機構發布的投資者信心調查指數作為直接參考依據。Fisher and Statman(2000)根據投資者智慧將投資者情緒分為三類:個人投資者指數(AAII)、財經新聞作者情緒指數、華爾街分析師情緒指數,并發現前者與后兩者并不相關,且三種指數都與股票未來走勢負向相關[10]。Lee(2002)采用IISI指數作為投資者情緒指標,通過與同期的NASDAQ、DJIA和S&P500指數進行實證分析,發現其與三種指數收益率都存在正向相關性,得出了投資者情緒對于大盤股和小盤股均具有影響的結論[11]。國內也有類似指標,例如央視看盤指數、好淡指數,以及統計局發布的中國消費者信心指數、企業景氣指數等。王美今、孫建軍(2004)以央視看盤指數作為投資者情緒指標來源,發現投資者情緒的變化會顯著影響滬深兩市收益,并反向修正滬深兩市收益波動,指出滬深兩市均未達到弱勢有效[12]。程坤、劉仁和(2005)將好淡指數作為投資者情緒指標,研究發現投資者中期情緒指標對股市收益率波動的影響要強于投資者短期情緒指標[13]。
隨著web2.0時代的到來,互聯網及社交媒體在人們生活中被廣泛應用,基于互聯網大數據的社會經濟行為預測已經逐漸成為各領域學者研究的熱點。
Wysocki(1999)通過搜集Yahoo! Finance股票論壇上的帖子信息,發現過去一段時間擁有高回報、高PE或財務表現良好的公司通常發帖數更多,并運用橫截面分析和時間序列分析的方法證明了在線股評數量可以預測次日股市的成交量和收益率[14]。Antweiler(2004)分析了Yahoo! Finance和Raging Bull論壇上的股評信息,并采用了樸素貝葉斯分類器將150萬條股評分為看多、看空、持平三類,研究發現在線股評信息能預測股市波動率,并對收益率產生統計學上的顯著影響,但影響不大[15]。Sehgal(2007) 在分析論壇數據時引入了發帖者可信度作為情緒值的權重,發現情緒指數與股票市場表現具有相關性。Bollen, Mao and Zeng(2011)最早通過Twitter信息研究互聯網公眾情感與股市表現,他們利用OpinionFinder和GPOMS工具對有關道瓊斯指數的微博進行文本分析并提煉出不同維度的情感指標,結果發現平靜維度的情感在滯后三期后與道瓊斯工業指數顯著相關。
國內學者基于互聯網信息與文本挖掘視角分析投資者情緒與股市關系的研究起步較晚。饒育蕾和王攀(2010)選取了246只首次公開發行的股票作為樣本,以百度指數作為媒體關注度的衡量指標,并指出媒體關注度通過影響投資者情緒,從而正向影響新股短期超額收益,但對長期收益會產生負面影響。俞慶進和張兵(2012)采用百度指數作為投資者關注的代理變量,考察創業板股票市場的波動,發現短期內的投資者關注對創業板股票具有正向驅動作用,但這種作用很快會發生反轉。程琬蕓和林杰(2013)利用認證機構用戶的新浪微博數據,對社交媒體中投資者情緒對證券市場的動態影響進行了分析,發現兩者存在正相關,但投資者情緒對于股市的預測效果僅短期內顯著。孟雪井(2016)對知網CSSCI期刊與新浪微博信息進行了文本分析,采用時差相關系數法、隨機森林算法對搜索關鍵詞的百度指數進行篩選,最終利用因子分析法構建了投資者情緒指數。
綜上,國內外已有不少學者針對投資者情緒與股市之間的關系展開了相關研究,但主要都是從傳統金融指標出發來構建投資者情緒。隨著互聯網大數據時代的到來,國外學者率先開始嘗試從Web2.0數據中挖掘有價值信息,但大多是基于英語文本信息及歐美發達證券市場進行實證分析。由于中文語言結構與英語存在較大差異,且中國證券市場還處于發展階段,這方面研究相對還比較匱乏。目前,國內學者在互聯網社交媒體及互聯網搜索角度來挖掘投資者情緒方面已經做出了有益的嘗試,但是由于數據來源各不相同,情感分析方法相對較為粗糙,導致投資者情緒指標的構建不夠準確,得出的結論也無法統一,說服力不強。
本文通過網絡爬蟲技術爬取新浪股吧及新浪財經多空調查的數據,嘗試利用機器學習的方法,提出較為科學嚴謹的文本分析及情感分類方法,從而構建一個更為準確的互聯網投資者情緒指標,對中國證券市場和投資者情緒之間的關系做出進一步的驗證。
本文主要基于互聯網社交媒體中在線股評信息及網絡投票數據進行投資者情緒的挖掘和提煉。目前,我國各大門戶網站如新浪、搜狐的財經板塊都開設了股票論壇,東方財富網、和訊網、雪球網等財經類網站也都提供了股票論壇(股吧)供投資者交流討論。基于日均游客訪問量、發帖量及數據時間跨度等綜合因素,本文最終選擇新浪財經股吧作為網絡社交媒體數據來源并從中提取投資者情緒指標。
本文通過Python爬蟲程序,從新浪財經的上證指數股吧抓取了2015年12月14日—2017年3月23日共465天的股市評論信息,除了帖子文本信息之外,還包括了點擊量、回復量、發帖人及發帖時間等信息,累計291 777條記錄。從抓取的數據來看,新浪上證指數股吧日均發帖量627條,交易日的日均發帖量更是超過800條,每天帖子的點擊量超過5萬次。由此可見,新浪股吧流量巨大,帖子信息能夠較為真實地反映網上投資者的情緒。
其次,自2008年起,新浪財經還聯合《中國證券報》共同發布每日的股市多空調查。所有網民均可通過互聯網參與投票,投票內容包括下一交易日大盤走勢判斷及倉位狀況調查等信息。該調查日均參與人數超過5 000人,具有一定代表性,能在一定程度上反映網上個人投資者對目前及未來大盤走勢的看法和情緒。本文同樣利用Python爬蟲程序,抓取了同一時間段內的調查結果,由于數據量較大,所有股吧和多空調查數據均采用SQLite數據庫存儲以便后期處理。
另外,本文以上證指數作為我國證券市場的代表進行研究,數據包含同一時間跨度內每日收盤價、成交量及漲跌幅,剔除節假日及雙休日后共311個交易日,證券市場數據均來源于Wind數據庫。
隨著人工智能技術的發展,自然語言處理(NLP)成為目前學術界研究的熱點,如何將非結構化的文本信息轉變為計算機能讀懂的結構化信息,對于從股評信息中提取投資者情緒非常重要。
目前,文本情感分析主要有兩種方法,一是基于情感詞典的情感極性分類,即根據事先編纂好的情感極性詞典,通過匹配文本信息中有多少積極情緒詞和消極情緒詞,從而判斷文檔整體的情感傾向。這一方法操作簡單,受到許多學者的青睞,之前國內相關的文獻大多采用此方法構建情緒指標。但這一方法存在如下缺陷:1.我國文本分析起步較晚,尚沒有形成一個非常完善的情感辭典。目前較為流行的有知網整理發布的Hownet辭典及臺灣大學發布的NTUSD辭典,但是由于金融領域尤其是股票市場特有的專業術語眾多,普通的情緒辭典無法涵蓋這些術語。2.由于中文語法與英語存在較大差異,以及一些否定詞、反問句的運用,會使得整個句子情感傾向發生巨大變化。基于上述原因,單純使用情感辭典來判斷股評信息的情感傾向存在著較大誤差。
另一種情感分析方法是基于機器學習的算法,該方法目前已應用在電影書籍、商品信息、餐廳酒店的評論中,并取得了良好的分類效果。其中,分類表現較好的有SVM、Na?ve Bayesian、kNN等算法。實驗證明,機器學習算法得出的分類結果通常要優于情感詞典方法。因此,本文在前人的研究基礎上,采取機器學習算法并選用SVM分類器,嘗試建立一個更準確的情感極性計算方法,從而為構建情緒指數打下堅實的基礎。
在構建情緒指數前,需要對每一條帖子進行情感傾向的分類,具體步驟與方法如下:
1.數據預處理:對爬取的29萬條股吧評論按日期分類匯總,考慮到每天股市的開盤時間為9:30—15:00,我們認為t-1日15:00到t日15:00之間發布的帖子信息反映了t日投資者的情緒。在剔除與股市信息無關的水貼如廣告、營銷信息后,最終剩下218 548條帖子記錄。
2.文本分詞:由于中文語句不像英語中每個詞之間有空格隔開,故需要對每條帖子進行中文分詞處理。本文通過Python中Jieba分詞第三方包,對清理后的帖子文本進行分詞。另外,由于中文句子中存在大量輔助語意表達的停用詞,如“的、是、了”等,它們對于情感分類算法沒有作用,故在特征選擇之前先刪去此類停用詞。本文采用哈工大自然語言處理實驗室提供的停用詞表,共1 208個常用停用詞。
3.人工標注訓練數據集:從近22萬條股評帖子中隨機選擇2 000條進行人工情感極性標注,作為訓練數據樣本。為避免個人主觀因素的影響,本研究邀請3名志愿者對文本的情感傾向進行標注,分為樂觀、悲觀兩類情緒,取3人的眾數作為分類結果。
4.特征表示:為了使計算機能夠識別文本,在進行文本分析之前必須將文本表示成計算機可以識別的形式。本文采用目前學術界最常用的向量空間模型(VSM),又稱詞袋模型(BOW),作為文本表示方法。經過分詞之后,帖子中每一個出現的詞都成為向量空間中的一個維度,每個維度的權值采用tf-idf算法得出,該方法用來評估某個詞語對于一個文檔的重要程度:
其中,n為所有特征的個數,nk為含有特征tk的文檔數,tf為詞頻,idf為逆向文檔頻率,N為訓練數據中文檔總數,freqitk為在文檔di中包含tk的個數。
5.特征選擇:經統計,出現在帖子中的詞有近10萬個,如此龐大的維數必然會嚴重降低算法的分類效率。因此,在進行機器學習之前,先要提取出對情感分類有價值的特征,進行降維處理。本文首先剔除詞頻率低于3次及tf-idf值低于閾值的特征,刪去后VSM向量空間內的維度下降了近60%。其次,本文采取效果較好的信息增益法(IG)進一步進行特征選擇,最終篩選出與投資者情緒表達最相關的2 500個詞,即2 500個維度。
6.運用機器學習算法訓練實驗數據:本文采用 10 折交叉驗證方法,將實驗數據集分成10份,輪流將其中9份作為訓練數據,1份作為測試數據,進行訓練測試。借助MATLAB中的LibSVM平臺,本文利用SVM分類算法,最終得到的分類結果如表1所示。可以看出,基于機器學習算法得到的分類準確率和召回率都達到了80%左右,高于一般的情感詞典方法。

表1 基于機器學習的文本情感分類評價結果
在上一節中已經得到了每條帖子的情感傾向,用1代表樂觀情緒的帖子,-1代表悲觀情緒的帖子。在將股評信息按日期分類匯總之后,可以統計出每天表達樂觀、悲觀情緒的帖子數量,分別記作Npos和Nneg。
對于新浪財經—《中國證券報》聯合發起的多空調查數據,我們將第t期看漲指數Vote_BSIt定義為看漲人數比例/(看漲+看跌人數比例),在雙休日的處理上同新浪股吧的方法。
由此,我們得到了兩種基于互聯網信息挖掘的投資者情緒的時間序列,分別是互聯網社交媒體中反映的投資者情緒Guba_BSI和網絡投票所反映的投資者情緒Vote_BSI。另外,我們還從Wind數據庫導出了上證指數漲跌幅R_SH和成交量Vol_SH的時間序列數據。
互聯網上投資者在受到證券市場交易活動影響的同時,他們針對股市當前和未來走勢所發表的言論也會影響到網絡環境中其他參與者的投資決策行為。由于投資者瀏覽閱讀信息和進行投資決策行為的時間并不相同,所以股票走勢和互聯網上投資者所表現的情緒可能在當期和未來幾期都存在著相互影響。
因此,本文采用向量自回歸模型(VAR)來檢驗網絡社交媒體及網絡投票所反映的投資者情緒與證券市場漲跌幅、成交量之間的動態關系及時滯關系。VAR模型的原理是把系統中每一個內生變量作為所有內生變量滯后項的函數來構造模型,從而將單變量自回歸模型推廣到由多元時間序列變量組成的向量自回歸模型。

表2 變量描述性統計
表2給出了所有變量的描述性統計信息。在2015年12月14日到2017年3月23日這個時間跨度內,我國證券市場經歷了2015年年底的一波急速下跌,隨后在2016年3月逐漸企穩,到2017年3月間一直延續著震蕩反彈的格局。從兩種互聯網投資者的情緒指標來看,平均值均大于0.5,說明這一時間窗口內投資者情緒總體較為樂觀,這與股市的走勢基本相符。
通過變量相關系數表(表3)可以發現,新浪股吧中反映的投資者情緒與上證指數日收益率呈58.5%的正相關性;網絡投票中反映的看漲指數與上證指數日漲跌幅呈43.9%正相關性,相關性稍弱于股吧情緒指數。另外,互聯網投資者情緒與證券市場成交量之間同樣存在正相關關系,相關性分別為19.5%與17.4%,相關性不及上證指數收益率。

表3 變量相關系數表
VAR模型以及Granger因果檢驗都要求數據具有平穩的時間序列,否則可能會出現偽回歸問題。因此,對投資者情緒指標及證券市場變量進行ADF平穩性檢驗。通過表4發現,各變量均在1%的顯著性水平上拒絕了存在一個單位根的原假設,說明所有時間序列都是平穩的。

表4 平穩性檢驗結果

表5 VAR模型最優滯后階數選擇結果
*indicates lag order selected by the criterion
表5顯示,根據VAR模型滯后階數的確定準則,FPE、AIC、SC及HQ準則都指向了滯后一階,因此,認為該時間序列的最優滯后階數為1階,后續分析均以VAR(1)模型進行討論。通過VAR模型的AR根檢驗可以發現,所有單位根都落在單位圓內,說明VAR模型是穩定的,可以對其進行一個標準差的脈沖響應函數分析。
本文利用Granger因果檢驗對互聯網投資者情緒與證券市場收益率及成交量之間的相互作用關系做進一步分析。如表6所示,在滯后一階的情況下可以發現:1. Guba_BSI和Vote_BSI不是上證指數收益率的Granger原因均在1%的顯著性水平下被拒絕,而上證指數收益率不是兩種投資者情緒指標的Granger原因則均被接受;2. Guba_BSI在5%的顯著水平下是成交量的Granger原因,反之則不成立。同樣,對于Vote_BSI來說,在10%顯著水平下是成交量的Granger原因,反之則不成立。
由此可見,在中國證券市場上,互聯網投資者情緒對股票市場收益率和成交量具有顯著影響,正確把握投資者情緒對于預測股票市場走勢是有幫助的。

表6 Granger因果關系檢驗結果
Granger因果關系檢驗僅說明一個變量是否有助于解釋另一個變量,但不能判斷變量之間作用的方向及影響時間。而脈沖響應函數是通過在一個擾動項上施加一個單位殘差的沖擊,用以研究對系統內生變量當前和未來值帶來的影響。因此,本文進一步通過脈沖響應函數考察互聯網投資者情緒與證券市場之間的關系。圖1中橫軸為脈沖響應的追蹤期數,縱軸為對一個單位殘差的影響程度,實線表示脈沖響應函數,虛線表示正負兩個標準差的置信區間。

圖1 脈沖響應函數結果
研究發現,當受到股吧投資者情緒指數的一個正向沖擊,即股吧中投資者表達的言論較為積極時,證券市場收益率會在下一期迅速提升,但這一現象僅能持續一天,隨即便會回落,在第三第四期上下震蕩后逐漸趨于0。新浪財經多空調查中的投資者看漲指數同樣具有類似效果,即前一天投資者對于下一交易日股票走勢較為樂觀時,收益率會在下一期產生明顯的正響應,隨即便迅速回落,作為對前一期的修正,并在第五期后趨于0。這說明互聯網投資者情緒對證券市場指數的收益具有短期正向影響,且主要集中在5個交易日內。
其次,當受到新浪股吧和新浪財經多空調查中投資者情緒一個正向沖擊時,成交量在當期無明顯響應,但在第二期開始產生正向響應,到第三期達到最大值后逐漸減弱,其成交量的響應時間通常超過10期,明顯長于對收益率的影響時間。
為了進一步分析互聯網投資者情緒是否會影響股市漲跌,本文利用學術界較主流的FF三因子模型并加以擴展來對中國股票市場進行檢驗。1993年,Fama和French通過研究美國股票市場中決定不同股票組合回報率差異的風險因素,發現上市公司的市值(ME)、賬面市值比(BE/ME)等因素可以解釋這一差異。
本文選取了上證50組合作為檢驗的投資組合。首先,采用傳統的FF三因子模型對50支股票組成的投資組合收益率進行擬合。此后,引入投資者情緒變量形成擴展的FF四因子模型,觀察網絡投資者情緒是否會對投資組合超額收益率產生影響。FF三因子數據來源于國泰安數據庫(CSMAR),投資者情緒數據采用本文計算所得的Guba_BSI數據。兩個模型的計量表達式分別如下:
Rit-Rft=αi+βi*(Rmt-Rft)+si*SMBt+hi*HMLt+εit
(1)
Rit-Rft=αi+βi*(Rmt-Rft)+si*SMBt+hi*HMLt+γi*Sentimentt+εit
(2)
研究發現,傳統FF三因子模型的擬合效果AdjustedR2達到90%以上,可以較好地解釋投資組合的收益率,但對于部分股市上漲或下跌期內的擬合仍存在不同幅度的偏差。而引入投資者情緒之后的擴展FF四因子模型相比而言擁有更強的解釋力(見表7),模型在1%的置信水平下通過F檢驗,AdjustedR2提高到了95.1%,情緒變量Sentiment在1%的置信水平下顯著且系數為正,進一步驗證了投資者情緒對于中國股市收益率存在正向影響。

表7 FF四因子模型回歸結果
本文基于新浪股吧的在線股評信息,以及新浪財經每日多空調查數據,運用文本分析、機器學習等技術構建了一個較為嚴謹的互聯網投資者情緒指標體系,并通過VAR模型、Granger因果檢驗及FF四因子模型等方法,研究了互聯網社交媒體及網絡投票中投資者情緒與上證指數日漲跌幅及成交量之間的動態關系,得出以下結論:
1.用機器學習分類方法得出的文本情感分類準確性要優于之前國內學者普遍采用的基于情感詞典的分類方法。
2.互聯網社交媒體中的投資者情緒是證券市場收益率Granger原因,即當新浪股吧中發表的帖子情緒較為樂觀(悲觀)時,上證指數下一期的收益率會上漲(下跌),但隨后又快速回落。新浪財經多空調查中的看漲指數具有類似的效果,可見投資者情緒的預測效果僅在短期內有效。這與國內外一些學者得出的結論是一致的,也驗證了我國股市存在“羊群效應”,說明個人投資者容易受到社交媒體輿論和其他投資者情緒的影響,而盲目追漲殺跌。雖然在短期內投資者情緒對股市有一定的預測作用,但證券市場走勢很快便會反轉回落。
3.互聯網投資者情緒是證券市場成交量的Granger原因,且市場成交量受投資者情緒影響的時間超過10天,長于對收益率的影響。即當投資者情緒高漲(低落)時,股票市場后續的交易活動也會隨之活躍(低迷),這與實際情況也是相符的。
4.網絡投資者情緒的FF四因子模型對中國股票市場收益率的解釋效果要優于傳統的FF三因子模型,進一步說明了我國股市仍未達到弱勢有效,網絡輿論對股市漲跌的預測仍具有一定的指引作用。
隨著中國證券市場制度的日益完善,以及我國投資者與網民素質的不斷提高,未來互聯網社交媒體與在線股評有望包含更多對股市有價值的信息,而文本分析和情感傾向分類技術的發展對于更準確地提取網絡投資者情緒也起到了重要作用。本文的實證結論對投資者情緒與股市之間的相互影響提供了重要參考。但由于時間精力因素的局限,本文只爬取了新浪股吧作為互聯網社交媒體的代表,后續研究可以加入其他權威財經網站如雪球網股民評論信息,另外在時間跨度上若能包含牛市、熊市和震蕩市的數據,將進一步驗證和完善本文的結論。