



一、引言
互聯網的發展對社會進步產生了巨大推動,一方面提高了生產效率,豐富了人們的娛樂、購物、學習等方式,卻也產生了一些負面影響。網絡信息質量參差不齊,例如垃圾郵件、購物虛假評論、微博水軍評論、網絡謠言等都給人們的生活帶來了困擾。隨著互聯網金融的發展,股票資訊平臺擁有大量的投資者用戶,每天產生大量的股票評論,背后衍生出的問題和購物平臺類似,即存在著一些引導人們觀點的評論,對于股吧中的這些評論我們定義為“導向性股評”。
目前,我國股票投資者類型以中小投資者為主。中小投資者投資風格具有過度交易、重倉交易、輕信等特點,容易被股評消息—特別是被一些導向型較強的股評所影響。本文通過對導向性股評的統計測度研究,可以幫助投資者對股吧評論有一個更清晰的參考,供中小投資者理性參考。同時,可以幫助相關互聯網平臺識別優質股評,更好地為用戶精準推送優質內容。
二、敘述內容
(一)文獻綜述
通過對國內外相關文獻的閱讀,對于導向性股評的識別主要從語言特征的檢測和非語言特征的檢測兩個方面入手:
1.基于語言特征的導向性股評檢測。語言特征其實就是從評論中提取的文本特征。提取文本的特征是以往識別虛假評論的關鍵步驟,機器學習和深度學習方法都被廣泛應用于評論文本特征識別。在深度學習技術成熟之前,評論文本識別任務大多使用機器學習技術來完成,包括無監督聚類運算算法和監督學習的分類器方法等。張玉瑩(2023)等學者提出基于機器學習和自然語言處理的方法來識別虛假評論。
2.基于非語言特征的評論檢測。由于股吧用戶眾多,股吧的評論形式存在多樣性,所以語言特征和文本特征在一定程度上會導致分類器出現偏差,因此,需要挖掘其他有效特征來進一步提高檢測準確率。劉美玲,尚玥(2023)等人側重于研究基于用戶行為的虛假評論識別,并提出了一種基于評論者行為模式的方法,通過分析評論者在評論中的表現方式、評論頻率和與其他評論者的互動等行為特征,識別虛假評論。張文宇(2018)等基于用戶行為證據融合構建D-S證據理論模型,對虛假評論者的識別準確率達到了87%。
(二)數據采集與預處理
1.數據來源。本文選取了A股10個行業的10只行業巨頭股票作為研究目標,分別是科大訊飛、比亞迪、牧原股份、中信證券、三一重工、招商銀行、山東黃金、三安光電、中遠??睾唾F州茅臺,利用Python爬蟲技術爬取了這些股票在某股吧2018年1月到2023年4月的評論。
2.數據爬取及預處理。利用python在某股吧爬取了這10只股票共計3,565,636條股票評論,每條文本內容都包含發帖人ID、發帖月份、標題、評論數和閱讀數、帖子類型等標簽。之后剔除了文本信息為空的股評,剔除了資訊類信息和重復評論數據。
3.導向性關鍵詞詞典的構建與擴展。首先人工構建專業詞匯詞典,運用Python中Jieba庫對清洗后的數據進行分詞處理。之后構建導向性股評詞典。詞典的構建分為以下3個步驟:
第一步:人工構建導向性基礎詞庫。目前學界還沒有權威的導向性股評的基礎詞典。由于股評的文字形式多變,且呈現口語化的特征,我們首先需要構建一個基礎詞典語料庫,初步人工構建一個股市常用導向性詞匯基礎庫。
第二步:通過word2vec工具構建詞向量。計算基礎詞和股評詞語的余弦相似度,即通過計算詞向量間的夾角大小,來判斷詞語之間的文本相似度,夾角越小代表兩個詞語越相似,反之則越不相似。余弦相似度的計算公式如下:
其中,表示導向性基礎詞和股評詞語的余弦相似度,A代表基礎詞,B代表股評中的詞匯。本文選取基礎庫中每個詞語余弦相似度前100的詞語作為擴展詞。
第三步:人工處理關鍵詞庫。對word2vec擴展的詞語進行人工處理,剔除其中重復的和明顯不合邏輯的詞語,并補充一些遺漏的詞語作為最終的導向性股評關鍵詞庫,一共得到434個詞語。
4.特征指標構建及數據標注。指標構建:初步選取四大類型的指標。一是閱讀指標,包括閱讀量、評論數量;二是用戶行為指標,初步選取了同ID周發帖頻數作為一個指標;三是股票的量價指標,包括發帖時的股價和成交量相對于過去48周股價和成交量的相對高低位;四是文本特性指標,導向性詞匯占比PEW,公式如下:
人工數據標注:首先,對10只股票進行均勻分布采樣。每只股票抽樣12000條股評作為測試樣本,然后選取2位金融學專業研究生進行人工標注非理性預測股評,每人標注6000條。對于標注結果不一樣的帖子,再邀請第3位研究生進行標注,采取少數服從多數的原則確定最終標注結果。
(三)實證研究
1.特征選擇與預處理。首先,考慮到被標注為“無法確認”的數據可能成為模型訓練過程中的噪聲項,因此先剔除掉標注數據集中的被標注為“無法確認”的數據,只保留已確認為“導向性評論”和“非導向性評論”的數據,從而使模型簡化為一個“二分類”問題。最終保留的標注數據為10236條。其次,由于部分指標可能與標注人員對于導向性股評的判斷相獨立,因此使用Filter過濾法剔除不影響標注結果的特征指標,以提高模型訓練的準確度和減少訓練時間。本文參考武曉丹(2022),使用卡方檢驗對不影響標注結果的特征量予以剔除,其中剔除的標準為特征指標的p_value大于或等于0.05。
最終選擇同一ID周發帖頻數、導向性詞語占比、股評閱讀量和股評詞語總數四個特征指標進行模型訓練。
2.評價指標。使用準確率指標(Accuracy)來評價各個模型測試結果。準確率指標公式如下:
其中,TP為實際導向性評論且模型預測為導向性評論的個數,FN為實際導向性評論,但模型預測為非導向評論的個數,FP為實際非導向性評論,但模型預測為導向性評論的個數,TN為實際非導向性評論且模型預測為非導向性評論的個數。模型預測越準確,則模型測試得到的準確率指標越高。
3.模型比較。對于已經處理好的10236條數據進行了標準化,并采用2:1的比例劃分為訓練集和測試集。使用Python 編程語言sklearn庫中的五個主流機器學習模型進行了測試。
MLP神經網絡模型擁有更高的準確率且在數次測試中保持穩定,決策樹則準確率較低。這可能源于決策樹模型不適合處理離散型變量。K近鄰模型和支持向量機模型呈現了較好的測試準確率,但在考慮到本文數據標注過程是基于一套較為模糊和復雜的規則,因而最終選擇使用MLP神經網絡模型。
三、基于用戶ID下的導向性股評文本模式分析
使用訓練好的MLP神經網絡模型對于全部股評數據共3080343條進行二分類預測,再根據不同用戶ID對預測完的數據進行分組統計。導向性股評占股評總數比例大的賬戶,其背后的用戶行為更傾向于引導投資者做出某種投資決定而非客觀地評價市場,以下對該類賬戶簡稱為“導向性賬戶”。
(一)導向性賬戶的定位
首先,對賬戶活躍程度加以區分。本文認為應以發帖總量500作為區分賬戶活躍程度的閾值,即在假設賬戶從2018年關注該股票且每周大約發帖一次,經篩選后,從95790個賬戶中選擇55個賬戶作為活躍賬戶。其次,通過賬戶導向性評論占比情況,把賬戶區分為導向性賬戶、非導向性活躍賬戶和其他活躍賬戶。最后,將活躍賬戶中導向性評論占比高于91%的定義為導向性賬戶,導向性評論占比低于18%的定義為非導向性活躍賬戶。
(二)導向性賬戶的股評數值特征分析
發帖閱讀量。從表3可以看出,導向性賬戶股評閱讀量低于非導向性活躍賬戶。這可能因為用戶會主動辨別導向性賬戶昵稱,從而減少對于導向性賬戶發布股評的閱覽量。從另一方面來說,導向性股評比較激進,投資參考價值不大,用戶也會主動減少此類“垃圾”信息的閱讀,從而降低了導向性賬戶股評的閱讀量。
同一ID周發帖頻數與股評詞語總數。從圖1和表4可以看出,導向性賬戶周發帖頻數明顯高于非導向性活躍用戶,而導向性賬戶股評詞語總數則較非導向性活躍用戶低。導向性賬戶為實現“刷屏”目的,往往需要一周發表80-100篇股評,隨之而來的是評論質量的下降。其中比較明顯的指標是評論詞語總數較少。
總結來看,導向性賬戶的語言措辭更為極端且簡練,意圖在于引導其他用戶在某一方向上進行操作;而非導向性活躍賬戶在語言上更加注重數據引用和客觀事實陳述,情感上會受到市場波動影響。從周發帖頻率上看,導向性用戶的周發帖頻率遠高于非導向性活躍用戶,日均發帖10篇以上,以上兩個現象皆與導向性賬戶引導用戶做出投資決策的目的相匹配。
四、結語
本文通過對某股吧10只股票的股評數據進行研究發現MLP神經網絡擁有最高的測試準確率。然后進一步使用MLP神經網絡模型對全數據進行二分類預測,區分并研究該股票股吧導向性賬戶的特征。最后研究發現,導向性賬戶股評措辭較為極端且片面,文本長度略低且發帖頻率較高。導向性賬戶發布帖子的閱讀量和評論數較低,說明股吧用戶對導向性股評和賬戶有一定的辨識能力和規避趨勢。
上述研究方法和導向性賬戶的特點,可以幫助投資者理性辨識各大互聯網平臺上關于股票的導向性評論。同時互聯網平臺也可以利用以上的研究思路,識別非導向性優質評論推送給用戶,精細推送算法。最后,對金融監管部門更好地監管市場、維護金融市場秩序具有一定參考意義。
參考文獻:
[1]張玉瑩,朱廣麗,張友強,孫爭艷,張順香.基于情感信息預處理和Bi-GRU的虛假評論識別模型[J].廣西科學,2023,30(01):169-176.DOI:10.13656.
[2]劉美玲,尚玥,趙鐵軍,周繼云.基于代價敏感學習的不平衡虛假評論處理模型[J/OL].數據分析與知識發現:1-13[2023-05-26].
[3]張文宇,岳昆,張彬彬.基于D-S證據理論的電子商務虛假評論者檢測[J].小型微型計算機系統,2018,39(11):2428-2435.
[4]武曉丹.基于特征選擇的微博水軍識別研究[J].電子測試,2022,36(24):47-49+69.DOI:10.16520/j.cnki.1000
-8519.2022.24.008.
基金項目:陜西省自然科學基金項目,項目編號:2022
JQ-738;陜西省社會科學界聯合會研究項目,項目編號:2022HZ1824。
作者單位:西安外國語大學經濟金融學院