●胡 婧 葉建木
基于微博信息的股票交易預測研究
●胡 婧 葉建木
本文利用微博信息對股票市場交易進行預測是大數(shù)據(jù)時代的研究熱點,具有明顯的現(xiàn)實意義。本文選取我國股票市場上中證100指數(shù)成分股的微博數(shù)據(jù)作為樣本,研究了微博數(shù)據(jù)指標與股票交易量、交易金額的相關性,并利用BP神經(jīng)網(wǎng)絡模型訓練了微博數(shù)據(jù)指標與股票交易指標并對個股的交易量和交易金額進行了預測。結(jié)果表明,與傳統(tǒng)的基于歷史數(shù)據(jù)預測方法相比,基于微博數(shù)據(jù)指標的預測模型穩(wěn)定性更高,預測結(jié)果與實際交易量和交易金額更接近,具有一定的應用價值。
微博 股票 相關性 BP神經(jīng)網(wǎng)絡 預測
微博(也稱新浪微博)是一款為網(wǎng)民提供娛樂、休閑、生活等服務的信息分享和交流平臺,其所具備的私信、評論、轉(zhuǎn)發(fā)、點贊等功能,極大地便捷了用戶間的交流。截至2016年3月底,微博月活躍用戶2.61億,日活躍用戶達1.2億,其中包括大量政府機構(gòu)、企業(yè)、公職人員和其他個人的認證賬號。開放的傳播機制使新浪微博成為中國的“公共議事廳”。微博時效性強、大眾參與度高,可以比較準確和實時地反映社會整體的心理和行為,研究者也能夠利用網(wǎng)絡爬蟲技術從微博獲取與股市密切相關的政策、企業(yè)信息和投資者情緒等信息,為股票市場預測的研究提供了一個新的方向和途徑。
Bollen等 (2010)最早利用微博(Twitter)研究公眾情感與股票市場的關系,采用OpinionFinder和GPOMS兩種情緒追蹤工具對微博進行情感分類,研究發(fā)現(xiàn)“冷靜”維度的情緒指數(shù)與三天后的道瓊斯工業(yè)指數(shù)顯著相關。此后的研究者做了大量探討微博與股票市場指數(shù)關系的工作。Zhang等(2011)使用Twitter測量投資者的希望和恐懼程度,得出情緒指數(shù)與股指呈負相關,但與市場波動指數(shù)(Volatility Index,VIX)呈正相關的結(jié)論。Arafat等(2013)建立了一個基于云計算的算法系統(tǒng),驗證了公眾情緒與公司市場活力之間的比例關系。國內(nèi)學者的研究主要借鑒了國外的相關經(jīng)驗,同時結(jié)合中國實際情況進行實證分析。多數(shù)研究成果,如王美今和孫建軍(2004),韓立巖和伍燕然(2007),劉麗文和王鎮(zhèn)(2016)等人的研究都支持投資者情緒與市場收益率存在相關關系。
現(xiàn)有的利用微博對不同國家金融市場預測的研究,主要是通過情感分析方法和數(shù)據(jù)挖掘技術來進行的。情感分析主要依托于詞庫,然而漢語復雜多變,且詞庫的更新速度遠不及網(wǎng)絡語言與情緒的發(fā)展速度,詞語傾向性很難把握,因此,在研究我國股票市場預測時,利用情感分析建立基于微博等網(wǎng)絡平臺的投資者情緒指數(shù)的研究存在較大的誤差和改進余地。基于此,本文研究微博上股票投資者的行為,不使用情感分析,而是通過建立微博指標,尋找其與股票交易信息之間存在的聯(lián)系。
滬深300指數(shù)是由滬深證券交易所于2005年聯(lián)合發(fā)布的,從滬深證券市場中選取300只規(guī)模較大、流動性較強的A股作為樣本編制而成的成分股指數(shù),總市值約占滬深市場的60%。中證100指數(shù)是由滬深300指數(shù)樣本股中規(guī)模最大的100只股票組成的成分股指數(shù),具有市場影響力突出、社會討論廣泛、引導作用明顯的特點。本文以中證100指數(shù)的成分股為依據(jù),使用集搜客GOOSEEKER網(wǎng)頁抓取工具抓取了2016年1月至6月這100只股票的相關微博總量,并選取該區(qū)間內(nèi)微博討論量最多的若干只個股作為樣本進行研究。經(jīng)過測試,為了達到排除無關或干擾信息的目的,將爬取關鍵詞設定為“股票代碼+股票名稱”,以得到較為精準的個股微博數(shù)據(jù)。
利用集搜客爬取到的數(shù)據(jù)以Excel電子表格形式儲存,刪去重復微博并整理計算后可以獲得個股每日微博數(shù)據(jù)指標,如表1所示。

表1 個股每日微博數(shù)據(jù)指標
(一)微博數(shù)據(jù)與當日股票指標的相關性
為了驗證個股微博信息是否能夠預測股票走勢,首先需要確認微博指標與股票指標是否存在相關性。
本文選取開盤價、最高價、收盤價、最低價、交易量、交易金額、漲幅等七項指標,并從上交所和深交所各選取了一只代表性個股(300104樂視網(wǎng)和000002萬科A)與表1中的五項指標分別進行相關性檢驗。表2和表3給出了樂視網(wǎng)和萬科A在2016年6月和2016年8月股票交易日內(nèi)的微博指標與股票指標的相關系數(shù)。
綜合表2和表3中的數(shù)據(jù)可以看出,交易日當日的微博數(shù)據(jù)指標和其股票表現(xiàn)情況均存在一定的相關性:盡管微博指標與股票價格(開盤價、收盤價、最高價、最低價)的相關性存在個股差異,但是就樂視網(wǎng)和萬科A這兩只股票而言,微博數(shù)、互動數(shù)、轉(zhuǎn)發(fā)數(shù)與股票交易量、交易金額的相關系數(shù)均高于0.5,處于較高水平。這說明在社交媒體討論該只個股的人數(shù)越多、范圍越廣,則該股的成交量和成交金額越大,符合基于常識的預期。值得一提的是,顯著的負相關性對研究也是有意義的,利用反向指標進行預測同樣具有可行性。

表2 2016年6月樂視網(wǎng)(300104)微博指標與股票指標相關系數(shù)

表3 2016年8月萬科A(000002)微博指標與股票指標相關系數(shù)
近年來,大量的研究顯示,與傳統(tǒng)媒介相比,社交網(wǎng)絡(如微博)作為新興投資者信息交流平臺,能夠更加實時、準確、迅速地反映上市公司重大信息披露對公眾造成的影響。
2016年6月,樂視網(wǎng)微博數(shù)大體上較為平穩(wěn),但是3日和30日呈現(xiàn)井噴態(tài)勢,分別超過當月均值的10倍及4倍。樂視網(wǎng)2015年12月5日停牌籌劃重大事項,直到2016年6月3日復牌,復牌當日引發(fā)熱議,然而表現(xiàn)不佳當日跌停,后續(xù)微博討論驟減;6月30日樂視網(wǎng)漲停,或與樂視成為酷派股東且正積極籌備樂視金融有關,也引發(fā)了較大規(guī)模討論。同樣,2016年8月,萬科A微博討論數(shù)量在4、5兩日達到最高值。8月4日,萬科A股票漲停,媒體稱恒大買入萬科股票,比例或超過2%,引發(fā)投資者熱議并發(fā)酵至次日。這些都驗證了前人的研究結(jié)果,作為國內(nèi)主流社交網(wǎng)絡,微博是網(wǎng)絡信息傳遞的重要途徑,能夠?qū)崟r體現(xiàn)社會公眾的行為表現(xiàn),具有反映人們行為及后果的意義。
(二)微博數(shù)據(jù)與次日股票指標的相關性
個股數(shù)據(jù)與其微博內(nèi)容體現(xiàn)的社會特征在同一天的相關性并不能起到預測功能。因此,本文同樣檢驗了樂視網(wǎng)和萬科A在2016年6月和2016年8月的微博指標與次日股票指標的相關性,見表4、表5。可以看出,與表2、表3相比,相關系數(shù)有所降低,但是投資者的交易行為與前一日的社會行為之間仍然存在著一定聯(lián)系。交易量、交易金額與微博數(shù)、互動總數(shù)、轉(zhuǎn)發(fā)數(shù)的相關系數(shù)都保持在0.3以上,對股票交易數(shù)據(jù)進行預測仍然具有可行性。

表4 2016年6月樂視網(wǎng) (300104)微博指標與次日股票指標相關系數(shù)

表5 2016年8月萬科A(000002)微博指標與次日股票指標相關系數(shù)
上一節(jié)的研究結(jié)果顯示,(T-1)日的投資者微博行為與T日的股票交易行為存在相關性,因此可以利用這一結(jié)論來預測投資者的行為,以及該行為其對股票交易價格和成交量變化的作用。
然而,由于股票市場參與者眾多,容易受到多方因素的影響,是一個非線性、大規(guī)模的復雜系統(tǒng),傳統(tǒng)的利用財務指標進行線性模型預測的方法并不適用。而BP神經(jīng)網(wǎng)絡可以進行大規(guī)模并行處理,具有很強的非線性逼近能力及自學習、自適應能力,符合預測的要求。因此本文利用MATLAB R2012b中BP神經(jīng)網(wǎng)絡算法進行股票預測研究,構(gòu)建四層BP神經(jīng)網(wǎng)絡預測模型,其結(jié)構(gòu)如圖1所示。

圖1 本文BP神經(jīng)網(wǎng)絡結(jié)構(gòu)
(一)微博指標對股票交易的預測
將表1中的五個微博指標,即微博數(shù)、互動參與率、互動總數(shù)、互動均值和轉(zhuǎn)發(fā)數(shù)設定為輸入向量,股票交易量和交易金額設定為輸出向量。經(jīng)過多次試驗,確定隱層第一層和隱層第二層節(jié)點數(shù)分別為8個和22個。
將最近30個自然日的數(shù)據(jù)作為訓練樣本。為了避免輸入、輸出變量之間數(shù)量級差異造成的誤差,對全部樣本進行了歸一化處理。學習率設定為0.05,目標為0.0000001,設定輸入數(shù)據(jù)的20%為測試數(shù)據(jù)、20%為變化數(shù)據(jù)、60%為訓練數(shù)據(jù),隨后進行10000次訓練,最后對樣本數(shù)據(jù)反歸一化。訓練結(jié)果如圖2所示。由此即得到本文所需的神經(jīng)網(wǎng)絡預測系統(tǒng)Ⅰ。在系統(tǒng)中輸入五項個股微博指標,即可對下一交易日的股票交易量及交易金額;進行預測。

圖2 萬科A2016年8月微博指標訓練結(jié)果
(二)歷史交易數(shù)據(jù)對股票交易的預測
為了驗證該系統(tǒng)的準確性,本文同樣建立了基于萬科A股票歷史數(shù)據(jù)對股票交易量及金額的BP神經(jīng)網(wǎng)絡預測系統(tǒng)Ⅱ。該系統(tǒng)采取相同的研究方法,五個輸入變量分別為(T-1)日、(T-2)日、(T-3)日交易量和(T-1)日、(T-2)日交易金額,兩個輸出變量為T日的股票交易量和交易金額。同樣,將最近30個自然日的數(shù)據(jù)作為訓練樣本,其他參數(shù)設置與系統(tǒng)Ⅰ一致。訓練結(jié)果如圖3。

圖3 萬科A2016年8月歷史交易數(shù)據(jù)訓練結(jié)果
(三)股票交易預測偏差的比較分析
利用神經(jīng)網(wǎng)絡預測系統(tǒng)Ⅰ和系統(tǒng)Ⅱ,分別對萬科A的交易數(shù)據(jù)進行預測。將預測結(jié)果與實際股票交易數(shù)據(jù)進行比較,偏差結(jié)果如圖4、圖5。

圖4 兩個預測系統(tǒng)對萬科A2016年9月交易量預測偏差對比

圖5兩個預測系統(tǒng)對萬科A2016年9月交易金額預測偏差對比
圖4 、圖5中,百分比表示通過微博指標預測和基于歷史數(shù)據(jù)預測水平與實際交易水平的偏差。0.0%即表示萬科A實際成交水平。
觀察預測偏差的絕對值,與微博指標預測相比,基于股票歷史數(shù)據(jù)的預測總體上偏差更大,預測結(jié)果僅有兩天低于實際交易量或交易金額。
微博指標預測偏差較小且比較平穩(wěn),預測結(jié)果始終在實際交易情況附近變化,偏差幅度絕對值基本不超過100%;基于股票歷史數(shù)據(jù)的預測結(jié)果偏差較大且波動明顯,偏差最大值甚至分別超過500%和600%。基于微博指標的預測遠遠好于基于歷史數(shù)據(jù)的預測。
本文在對相關文獻進行梳理的基礎上,通過數(shù)據(jù)挖掘技術分析微博(weibo.com)上投資者的社會行為,尋求個股微博指標與個股交易信息之間的相關關系,最后使用BP神經(jīng)網(wǎng)絡展開預測,構(gòu)建股票交易情況預測模型。
研究發(fā)現(xiàn),股票的微博指數(shù)與其當日及次日的股票信息都具有相關關系,特別是與股票交易量、交易金額之間的相關性較強,投資者股票交易行為和微博體現(xiàn)的社會行為之間有具有一定聯(lián)系。借助本文構(gòu)建的神經(jīng)網(wǎng)絡預測模型,可以利用微博指標對股票交易量及交易金額進行預測,效果遠好于以股票歷史數(shù)據(jù)為基礎的預測。
因此,本文具有一定的現(xiàn)實意義,對股票市場成交量的變化能起到一定的預測作用,對市場投資者和監(jiān)管層均有較好的啟示意義。然而,基于BP神經(jīng)網(wǎng)絡的預測方法仍然非常粗糙,有待進一步改進,以提高預測準確性,增加實際運用價值。
(作者單位:武漢理工大學管理學院)
[1]韓立巖,伍燕然.投資者情緒與IPOs之謎——抑價或者溢價[J].管理世界,2007,(03).
[2]胡軍,王甄.微博、特質(zhì)性信息披露與股價同步性[J].金融研究,2015,(11).
[3]劉麗文,王鎮(zhèn).投資者情緒對不同類型股票收益影響的實證研究[J].金融理論與實踐,2016,(02).
[4]宋彧婕.基于網(wǎng)絡信息的金融市場預測研究[D].電子科技大學,2015.
[5]湯姚楠,劉亞臣.基于大數(shù)據(jù)的城市經(jīng)濟學研究方法思考[J].建筑經(jīng)濟,2015,(12).
[6]王美今,孫建軍.中國股市收益、收益波動與投資者情緒[J].經(jīng)濟研究,2004,(10).
[7]許興軍,顏鋼鋒.基于BP神經(jīng)網(wǎng)絡的股價趨勢分析[J].浙江金融,2011,(11).
[8]余志紅.投資者情緒對個股收益的預測——來自微博大數(shù)據(jù)挖掘的證據(jù)[D].中南大學,2013.
[9]張?zhí)m廷.大數(shù)據(jù)的社會價值與戰(zhàn)略選擇[D].中共中央黨校, 2014.
[10]Arafat J.Analyzing Public Emotion and Predicting Stock Market Using,Social Media[J].American Journal of Engineering Research,2013,(02).
[11]Bollen J,Mao H,Zeng X.Twitter mood predicts the stock market[J].Journal of Computational Science,2010,(02).
[12]Zhang X,Fuehres H,Gloor P A,et al.Predicting Stock Market Indicators Through Twitter“I hope it is not as bad as I fear”[J].Procedia-Social and Behavioral Sciences,2011,(26).