——基于文本數據挖掘視角"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?楊寧 史晨陽 喬英(通訊作者)
(1.南京證券股份有限公司寧夏分公司 寧夏銀川 750001;2.北方民族大學數學與信息科學學院 寧夏銀川 750021;3.寧夏智能信息與大數據處理重點實驗室 寧夏銀川 750021)
隨著大數據時代的來臨,互聯網不僅成為投資者發布和獲取投資消息的平臺,還為研究投資者關注和情緒提供了一條嶄新的道路,越來越多的研究者開始從互聯網文本大數據的角度衡量投資者的關注和情緒。我國股票市場是典型的散戶化市場,相對有大量的投資經驗和專業投資分析能力的機構投資者,個人投資者更多的是通過社交網站等平臺獲取信息,并做出投資決策。
基于此,本文試圖從網絡大數據中挖掘有效信息,構建投資者關注和投資者情緒指數,研究它們與開放式基金收益率之間的動態變化。
本文選取網絡評論文本,直接度量投資者的關注和情緒。使用的基金論壇網絡評論數據來自東方財富旗下的“天天基金網基金吧”,通過Python語言編寫的網絡爬蟲程序獲取招商中證白酒指數(LOF)A(以下稱白酒基金)吧中的網絡評論和所評論的閱讀數量、評論數量等。樣本研究區間設定在2018年1月1日—2022年6月30日。
首先,刪除了新聞帖、基金公司的公告網絡評論和基金吧網站自身的網絡評論;其次,將一些不包含中文文本卻有用的字符進行替換,以便保留 有用信息;最后,刪除了文本中包含“半導體”“新能源”和“醫藥”等其他行業關鍵詞。最終留下了58萬多條有效網絡評論,每條網絡評論平均閱讀670.44次,平均回復1.63次。
1.3.1 投資者關注指數
選取白酒基金吧在t 月的網絡評論量取自然對數作為投資者關注指數,即:
式(1)中:A ttt為基金在t 月的投資者關注指數;Attentiont為白酒基金在t 月的網絡評論量。
1.3.2 投資者情緒指數
將網絡評論分為“積極的“”中立的”和“消極的”三類。從已經標注的13000條網絡評論每個類別中分別隨機抽取約3333條網絡評論,一共10000條網絡評論作為本文的標簽集,并將這10000條已經標好類別標簽的網絡評論按照8:2的比例分別作為訓練集和測試集。
采用隨機森林、樸素貝葉斯、支持向量機和TextCNN四種分類模型進行對比訓練,得出每條數據分類的結果,并與測試集人工分類的結果進行對比,計算分類正確率,分類結果如表1所示。
表1結果顯示,TextCNN分類模型在本文使用的四種模型中正確率是最高的,達到80.70%。因此,本文確定TextCNN模型為最終的分類模型。

表1 分類模型正確率
用該方法對全部58萬條天天基金網網絡評論內容按其所體現的投資者情緒積極程度類型分成三類,用以構建本文的情緒指數,參考Antweiler和Frank(2004)的方法,計算公式如下:
式(2)中:S ent為基金在t 月的投資者情緒指數;positivet為t 月網絡評論為積極情緒的網絡評論數量;negativet為t 月網絡評論為消極情緒的網絡評論數量。
1.3.3 基金收益率
基金收益率的定義如下:
式(3)中:Pt和 Pt-1分別表示白酒基金在第t 月和第t- 1月的收盤價。
1.3.4 控制變量
百度指數(BI)是百度發布的統計數據,用于反映關鍵詞的搜索頻率。本文選擇的關鍵詞是“招商中證白酒”,并對其取自然對數,公式如下:
式(4)中:tBI 為第t 月內關鍵詞搜索次數之和。
式(5)中:A0= (α0, β0,γ0)T為常量向量為滯后內生變量的系數矩陣;C = (δi,ηi,φi)T為滯后外生變量的系數矩陣;是高斯白噪聲序列;p 為滯后階數。
建立三元向量自回歸模型進行實證研究,模型回歸結果如表2所示。
由表2可知,當以投資者情緒指數為解釋變量時,在置信水平為95%的情況下,基金收益率的一階滯后變量的估計系數為正,而投資者關注指數的一階滯后變量的系數并不顯著,意味著基金收益率的變化對投資者情緒具有正向影響,而投資者關注并未對投資者情緒產生影響。

表2 模型回歸估計結果
當誤差項改變或模型受到某種影響時,系統的動態變化可以用脈沖響應函數來展示,通過研究脈沖響應函數來了解變量之間的影響程度。
由圖1可以看出,總體脈沖響應影響的期數大都在4期左右,即投資者關注、投資者情緒和基金收益率之間都是短期影響,其原因是市場變化迅速,投資者會很快遺忘市場前段時間發生的變化,進而考慮到當下市場行情中來。其中,投資者情緒對基金收益率的影響為正向影響,并在滯后2期時影響效果達到最大,然后在滯后5期左右時衰減到0。投資者情緒的變化會帶動市場的變化,在短期內吸引更多資金,引起基金凈值的變化。

圖1 脈沖響應結果
本文在構建Sen指數的基礎上,構建了第二種投資者情緒計算方法來保證穩健性,參考李巖和金德環(2018)的方法,計算公式如下:
式(6)中:S enNewt為基金在t 月的新投資者情緒指數,p ositivet為t 月網絡評論為積極情緒的網絡評論數量,negativet為t 月網絡評論為消極情緒的網絡評論數量。
在通過了一系列模型穩定性檢驗之后,新投資者情緒指數格蘭杰因果檢驗結果與原投資者情緒指數一致,且脈沖響應分析如圖2所示,即構建的第二種投資者情緒指數在上述場景中仍然適用,說明本文構建的指數和研究的內容具有較強的穩健性。

圖2 脈沖響應結果
本文將投資者情緒和投資者關注統一在同一個分析框架下研究它們對金融市場的影響,具體通過建立向量自回歸(VAR)模型探究投資者情緒指數、投資者關注指數及白酒基金收益率之間的領先-滯后關系。結果顯示,基金收益率領先于投資者情緒,投資者情緒領先于投資者關注。基金收益率越高,投資者的情緒越高昂;基金收益率越低,投資者的情緒也越低迷。
基于研究結論,本文提出以下三個建議:
(1)利用網絡論壇大數據構建的投資者關注和情緒指數與基金收益率的變化有一定的聯系,投資者關注和情緒都會對短期內的收益率有正向的脈沖響應,因此投資者可將投資者情緒應用于實際投資行為中,從而進一步提高投資決策能力。
(2)基金管理者可通過分析投資者的關注和情緒,了解投資者的喜好,預測投資者的行為,及時調整投資策略,進而擴大基金的資金流入。
(3)市場監管者應了解不同的投資者關注和情緒產生的原因、傳播的途徑及未來的發展方向等,從而做到加強投資者教育,提升投資者服務,建立更加有效、全面的市場監管機制,保護投資者權益,維持市場穩定,促進我國金融市場健康有序地發展。