王彥博 郭永勝 曾渡 楊璇

科技手段極大地解放了人力,助力金融機構為客戶提供更為及時、便捷、智能的金融服務,然而,金融領域中的投資研究工作的自動化和智能化發展仍有研發提升空間。實際上,人工智能技術在投資研究領域具有很大的應用價值。一方面,針對結構性數據,以RPA(機器人流程自動化)為代表的智能技術能夠對數據進行自動化處理,從而減少基礎的重復性工作,并提升對數據存取、調用、加工、分析等數據處理的效率和準確性;另一方面,針對非結構性數據,以NLP(自然語言處理)為代表的智能技術能夠在更加廣泛的金融投資信息來源上,更好地處理規模龐雜但極具價值的非結構性及多模態信息。鑒于大多數與金融投資相關的信息常以文本的形式發布,運用文本挖掘及NLP將相關文本信息轉化為金融投資建議頗具前景。當前,NLP相關技術被較為廣泛地運用于語音識別、機器翻譯、輿情分析、智能客服等領域。本文通過運用NLP中的情緒識別技術對于“股吧”評論的文本信息進行分析,生成與金融投資相關的情緒變量,探索對股指期貨定價理論值與實際值之間偏差的解釋。
股指期貨定價與自然語言處理研究發展
投資者情緒是股指期貨定價偏差的重要影響因素
根據《中金所年度市場概況》,2020年滬深300指數期貨累計成交量達到39.4萬億元,占全部金融期貨交易的34.12%。理論上期貨價格可由現貨價格和無風險利率直接計算得出,由于金融期貨不需要進行實物交割,所以金融期貨市場交易價格與理論值之間原則上應偏差不大。然而實證分析顯示,根據期貨定價公式得到的期貨價值理論值和實際值之間往往不一致,其中的差值一方面來自交易成本和市場機制,另一方面則來自由投資者情緒生成的非理性市場因素。
投資者面對復雜的市場環境,無法做出完美的理性決策;同時,由于情緒、偏見、固有思維模式等因素,投資者的選擇有可能來自某種非理性的行為模式,這可能造成期貨交易價格會長時間的偏離理論價格。隨著行為金融領域研究的發展深入,非理性投資者的噪聲交易行為會對市場價格產生顯著并且持續的影響,該觀點已經在學術上得到論證。有學者利用上證50指數建立VAR模型,從理論和實證的角度均證明噪聲與股票市場波動存在因果關系。隨著衍生品市場的興起,期權期貨等產品中投資者情緒的影響也開始受到研究者的關注,研究人員通過實證分析發現,滬深300股票指數和股指期貨都受到投資者關注的單向溢出影響。從目前的學術研究來看,相關實證分析中大多采用間接觀測的角度來得到投資者情緒指標,或者是通過尋找代理變量來支持發現情緒與資產價值的相關性。由于對于投資者的情緒缺乏較為準確的直接度量指標,相關的研究成果難以有效應用到現實的金融投資和資產管理業務中。目前,對于投資者情緒的測度大多采用簡易指標做代理變量的方法,用一些受到投資者情緒影響的可度量變量來進行分析,例如交易量、換手率、封閉式基金折價率等。總體來說,這些代理指標的缺陷在于直接性、準確性和時效性,故本文嘗試通過對于投資者言論的輿情分析直接構建可量化的情緒指標值,以支持相關研究。
NLP技術發展
NLP領域常用的算法模型有文本分詞、TF-IDF方法、POS詞性標注、句法分析、主題提取、余弦文本相似性計算、文本摘要、命名實體識別等。2018年,Google推出BERT預訓練模型,在多項NLP任務上都取得了極佳的應用效果;不少學者也從學術角度論證了BERT模型的優越性。有學者通過實證分析發現,BERT模型在輿情文本分類任務上相對于傳統模型具有顯著優勢;也有學者對銅品種的行情預測文本構建期貨市場投資者情緒指數,發現BERT模型相對于經典分類算法在各項評價指標上有10%左右的提升。從目前的研究來看,大多數研究更多聚焦于BERT模型本身的精準性、召回率等評價指標,本文嘗試通過BERT模型構建情緒因子,觀察情緒因子在投資模型中的表現,從而為進一步開展量化投資打下基礎,探索拓寬NLP相關技術應用視野。
基于自然語言處理技術的期貨定價實證研究
本文選取2016年1月11日至2021年3月3日數據,以期貨定價偏差作為研究對象,基于“股吧”App評論數據,采用BERT和LSTM模型分別構建出兩個投資者情緒因子,通過回歸模型觀測兩個情緒因子對于期貨定價偏差的解釋力度。其中,期貨價格、總成交量、指數收盤價、成分股交易量、無風險利率等金融指標均取自Tushare財經數據庫,投資者評論數據從App公開網站上獲取。
根據無套利原理構建期貨理論價格
其中,St為現貨價格,Ft為期貨價格,r為連續時間無風險利率,d為股息支付率,T為到期時間。在對滬深300股指期貨的實證研究中,期貨價格和實際價格之間并不完全一致;同時,在不同的時間段其差額有所不同。為了便于后續計量分析,本文采用相對指標,用滬深300股指期貨定價偏差除以當日滬深300指數用以作為被解釋變量。
無風險利率的選取
無風險利率的選取有多種方法,國外研究通常選取不同期限國庫券收益率與同業拆借利率作為無風險利率。在國內研究中,往往采用二級市場上國債的收益率、同業拆借利率、大額存單利率等。本文選取上海銀行同業拆借利率(Shibor)作為無風險利率。
情緒因子構建
不少研究會采用交易量、交易頻率等指標來度量市場情緒,本文除了這些因素外,還通過股評的文本信息直接構建投資者情緒因子用以解釋定價偏差。本文從相關股吧中收集了滬深300指數區的評論數據,并采用BERT和LSTM兩種方法分別計算得到具體某一條評論的情緒值。該情緒指標值趨近零時意味著消極負向,而趨近1時則意味著積極正向。
關于進一步分析處理,本文主要匯總了每一個交易日評論的數量(num),用以度量討論的參與情況;以當日所有評論的情緒指數求平均值(emotion),用以度量當日投資者整體情緒情況;計算出評論中較為極端的評論數量占比(index),用以度量當日情緒的強烈程度。
搭建回歸模型
考慮到交易量和情緒因子,本文構建的回歸模型如下:
其中,vol是滬深300股指的交易量,vol_futures是期貨的交易量,回歸分析結果見表1。
實證分析結果
首先,投資者情緒對期貨理論價格與實際價格之間的偏差存在較為顯著的影響。BERT和LSTM模型的擬合優度R2分別是0.640和0.629,投資者情緒對于期貨定價偏差具有解釋力度。其中,代表投資者極端評論的情緒指標在BERT和LSTM兩個模型中表現均較為顯著。
其次,從模型對比來看,BERT模型構建的情緒因子效果更佳。在相同的回歸模型中,采用BERT模型構建出的情緒因子相較于LSTM模型構建出的情緒因子解釋力度更強,同時模型的整體解釋力度(R2)也有所提高,并且交易量的解釋力度(P值)也得到提升,這說明BERT模型在測量投資者情緒方面具有較好表現。
結語
本文通過將NLP技術運用于期貨定價領域,采用實證研究的方法,一方面印證了行為金融學理論中投資者情緒對于定價偏差的影響;另一方面,通過生成量化策略中的情緒因子,有助于構建更為完備的策略以應用于其他標準化大類資產的投資中。未來,筆者將進一步深入對該領域的研究,拓寬文本信息的來源、種類等,將多平臺、多模態以及新聞輿情等信息納入研究。
(龍盈智達〔北京〕科技有限公司陳生、宮雅菲、王一多、喬新惠對本文亦有貢獻)
(作者單位:龍盈智達〔北京〕科技有限公司)