李燕
【摘要】巨量投資者情緒詞語義標注是構建金融輿情情緒詞典的一個難點問題,論文將互聯網眾包這一分布式解決復雜問題的新模式引入到大規模金融情緒語料標注及金融情緒詞典構建當中,以人類群體智慧與計算機技術相結合的方式來解決大規模語料標注的難題,建立完善、標準的金融情緒語料人工標注資源,為投資者情緒理論研究提供基礎性支撐,彌補目前對互聯網投資者輿情文本信息進行分析處理時所存在的標注語料資源匱乏的問題。
【關鍵詞】投資者情緒? 情緒詞典? 眾包
一、引言
社會化媒體中的文本情感量化分析為行為金融學領域很多關鍵性問題提供了愈加重要的研究方式和內容,成為投資者情緒研究領域中新的研究點(Graziano,2011;Rees,2012;Chen,2013;Loughran 2013;Huang,2013;C Fu,2015;D Perez-Liston,2016;A Frugier, 2016;D Bathia,2016)。但金融文本是非結構化信息,挖掘其中的情緒傾向及強度需要面向機器的情緒詞典的支持,因此構建金融情緒詞典是進行金融文本情緒分析的一項相當基礎且重要的工作。近年來,情緒詞典的構建及擴展研究受到國內外大量研究機構及學者的重視,而專業領域情緒詞典的構建工作是當前該領域較新的研究點。目前,國內對金融領域情緒詞典的相關研究還較為匱乏。情緒詞典的構建需要完成對巨量語料的標注,這是困擾研究人員的一個難點問題。近幾年,互聯網眾包這一分布式解決復雜問題的新模式逐漸興起,眾包迅速改變了海量數據的收集與處理模式,在海量數據語義標注領域得到日益廣泛的應用(Kittur,2008;Russel,2008;Sayeed,2011;Muhammadi,2015;NR Asheghi,2016;J Hu,2016)。
二、文獻綜述
近年來,隨著文本量化分析技術的快速發展,社會化媒體文本情感量化分析為行為金融領域很多關鍵性問題提供了愈加重要的研究方式和內容。上市公司信息披露領域文本情感分析的代表性研究:Feldman 等(2008)、Henry 等(2009)、Li(2006,2010)、Demers 等(2011)、Ferris 等(2013)。關于媒體文章或報道的文本情感分析文獻:Tetlock(2007)、Engelberg(2008)、Tetlock(2008)、Sinha(2010)、Carretta(2011)、Rees 和Twedt(2012)、Loughran(2013)、H.Ishijima 等(2015)。互聯網金融文本情緒分析文獻:Antweiler(2004), Das 和Chen(2007),Chen和Hwang(2013),Ferguson 等(2015),B Dickinson 等(2015),SWK Chan等(2016),Shapiro(2017)。目前,文本情感分析的方法大致有兩種:基于情緒詞典和機器學習方法。基于機器學習方法的文本情感研究有:樸素貝葉斯(林江豪,2012;陽愛民,2013)、支持向量機(任勇,2011)、最大信息嫡(Jung,2012)和感知器分類法等。但在實際應用中若有高質量的領域情緒詞典可用,使用簡單快速的算法就能獲得很好的分析效果(張克亮等,2016;王新宇,2016;肖江等,2015)。在國外很多金融學者使用GI(General Inquirer)詞典來研究投資者情緒,包括:Feldman(2008)、Tetloclc (2008)、 Henry 和Leone (2009)、Doran 等(2010)、Carretta(2011)、Engelberg(2012)、Maks(2012)、Ferris(2013)、B.Dickinson(2015)等。在國內,朱浩然(2013)構造了基于Entropy (TF-IDF-L)關鍵詞的情緒詞典構建算法,然后對金融領域微博文本的情感進行了研究。朱艷輝等(2011)基于基礎情緒詞典構建了文本情感特征抽取算法。孟雪井等(2106)構建了我國投資者行為的關鍵詞詞庫,利用因子分析法構建了滬市投資者情緒指數。總體而言,與國外相比我國在金融情緒詞典建設方面的基礎性研究不足,制約了我國在金融文本情感量化方面的研究。
三、基于眾包標注的金融情緒詞典構建方法
(一)金融領域情緒語料庫建設的研究思路
金融領域情緒語料庫的建設是金融情緒詞典構建的基礎,可以使用互聯網文本抓爬軟件、開發Python語言互聯網文本自動獲取程序及中文分詞軟件(中科院開發的ICTCLAS、哈工大的自然語言處理平臺IRLAS及N-gram 分詞模型)構建金融情緒語料庫。使用互聯網文本抓爬軟件、Python語言文本程序開發,獲取互聯網金融博客、財經網站(新浪、騰訊、搜狐、網易、和訊、鳳凰網等)專欄評論文章及財經新聞評論、上市公司信息披露評論文章,中國證券報、上海證券報和證券時報等媒體的金融文本作為金融情緒語料庫建設的原始來源。金融博客、專欄評論文章及財經新聞評論一般由具有豐富投資經驗和扎實理論基礎的專業投資者、股評分析家、行業領域專家所撰寫和發布,文本用語規范,對這類金融文本可以采用中科院開發的ICTCLAS 及哈工大的自然語言處理平臺LTP 進行分詞處理,獲得基礎金融情緒語料庫。投資者在網絡論壇上發布的帖子及回帖文本,用語不規范、多存在歧義性,詞序語序自由度比較高,通常會構造一些網絡流行金融情緒詞語,分詞技術處理此類Web 金融文本存在一定困難,可采用N-gram 模型,設置一個大小為N 的滑動窗口,以字節流對文本進行劃分,獲得字節片段序列gram,進一步對字節片段gram 進行頻率統計,設置閾值,將小于閾值的字節片段gram 過濾掉,剩下的生成gram 列表。將切分后的結果作為基本的特征項,采用二維滑動窗口將近鄰特征項合并,構成新的特征項,從而將更多金融情感詞和一些流行的網絡詞匯擴展到情感語料庫中。將切分后的結果作為基本的特征項,采用二維滑動窗口將近鄰特征項合并,構成新的特征項,從而將更多金融情感詞和一些流行的網絡詞匯擴展到情感語料庫中。
(二)金融情緒語料眾包標注的任務管理模型構建
眾包標注雖具有成本低、效率高的特點,但由于參與眾包標注的工作者為數量巨大的非特定互聯網人員,受標注者專業背景、工作能力、工作態度及工作動機等因素影響,導致收集到的標注結果可能存在噪聲甚至錯誤。因此對眾包標注質量的控制是一個關鍵問題,具體包括如下幾個方面:
(1)眾包標注工作者的動態選擇方法。眾包標注工作者的選擇方法是否恰當直接關系到情緒語料眾包標注過程的可靠性,也直接影響到眾包標注結果的質量,因此是眾包實施和評估階段需要解決的核心問題,構建噪聲數據的識別方法,建立噪聲度量指標,提出噪聲過濾機制,實現對高噪聲數據地自動過濾。研究金融情緒語料眾包標注的實施過程,結合海量語料眾包標注的眾包情境,分析眾包工作者的動態篩選過程,并提出工作者篩選機制,設計相應的算法。
(2)眾包標注者可信度統計測量模型構建。統計眾包標注工作者在眾包測試環節中的表現,給出量化的可信度值,檢測標注者是否具備金融領域情緒語料標注的專業能力。
(3)眾包標注質量評估模型研究。構建多眾包標注者間標注結果的一致性檢驗模型,計算不同類型標注者之間情緒語料標注結果的一致性,檢測出一致類型惡意眾包標注者的標注結果。對多眾包標注者的標注結果構建期望最大值算法,計算語料情緒期望強度值及各標注者的誤差率,誤差率用于檢測眾包標注者工作的認真程度,有效識別出隨機類型惡意眾包工作者(雖然具備專業能力,但工作不負責)。
(4)構建基于標注任務特征的半監督式眾包學習算法。對標注任務特征和眾包標注結果這兩類資源進行聚類分析,對眾包標注者的學習過程進行建模,構建基于標注任務特征的半監督式眾包學習算法。基于任務特征的半監督式眾包學習算法可以監測眾包標注者的標注質量,工作表現及經驗增長等方面的因素,反映眾包標注者的客觀標注能力。
(三)構建多標注主體情緒語料眾包標注結果的融合模型
根據金融情緒語料HIE 標注任務包的特征對任務包進行聚類分析,形成HIT 任務包簇。利用學習算法學習到各眾包標注者在各HIT 任務包簇上的標注能力、經驗知識及標注結果歷史表現,確定各眾包標注者在各任務包簇上的標注結果融合權重值,構造多標注主體情緒語料標注結果融合模型,對多標注者的標注結果進行融合,得出情緒語料二元標注數據(情緒極性,情緒強度值),情緒詞典的存儲格式采用語料庫常用的xml標記格式進行存儲。
(四)金融情緒語料眾包標注的質量管理模型構建方案
(1)眾包標注工作者的動態選擇及評估方法。基本研究思路是采用分階段動態評估的方法,動態監測出不合格的眾包標注工作者,提升標注結果的整體質量。此部分分為兩個方面:一是標注的質量評估;二是工作者的選擇與評估。首先分別建立兩個不同狀態的標注任務集合(待標注微任務集;已標注微任務集),每個任務的目標值是未知的;建立眾包工作者池,初始狀態時每個標注者的能力是未知的,都可以參與眾包任務分配。然后根據參與眾包任務的眾包工作者的標注情況提取出兩個列表:一個是專家列表,他們能夠提供良好的金融情緒語料標注結果;另一個是淘汰列表,提供低質量的標注結果的眾包工作者,將阻止在下個階段分配給其標注任務。對上述眾包標注工作者的動態選擇及評估方法研究中涉及的算法,主要采用算法仿真的手段實現,考慮采用Matlab 或者R語音等工具進行編程和實現。
(2)標注者可信度統計測量模型構建方案。每個HIE 金融情緒語料標注任務包包含待標注語料(實際需要標注者標注的語料)和黃金測試標注語料(已經由金融領域專家標注的語料)。將新眾包標注結果存放在“標注結果表”中,黃金庫語料標注結果存放在“測試結果表”中。將眾包標注獲得的黃金語料的標注結果存放在“篩選標準表”中,用于同金融領域專家的測試標注結果進行一致性檢測,假若眾包標注者的篩選標注結果與測試標注結果的一致性較低(低于設置的閾值),則視該眾包標注者的金融情緒語料標注結果不可信,將其標注結果舍去,從而保證眾包標注的質量。設置此項檢測能夠檢驗標注者是否有相應專業能力勝任金融情緒語料標注工作,對可靠性較差的標注者停止提供眾包任務,這樣既控制眾包標注成本、提高標注效率,同時也排除了部分眾包標注結果噪聲、提升標注質量。
(3)設計眾包標注質量評估模型研究方案。針對眾包標注結果的質量控制策略及質量評估方法,設計如下三種方法:設計隨機類型惡意標注者及一致類型惡意標注者的判斷標準;構建多眾包標注者間標注結果的一致性檢驗模型,計算不同類型標注者之間情緒語料標注結果的一致性。對多眾包標注者的標注結果使用期望最大值算法(EM 算法)估計出語料情緒強度值及各標注者的誤差率。誤差率用于檢測眾包標注者工作的認真程度,有效識別出惡意眾包工作者(雖然具備專業能力,但工作不負責)。質量控制與評價機制既能檢測出惡意眾包工作者的標注結果,同時也能夠阻止惡意眾包工作者繼續參與標注任務的分配。
參考文獻:
[1]高大良, 劉志峰, 楊曉光. 投資者情緒、平均相關性與股市收益[J].中國管理科學,2015,23(2): 10-20.
[2]俞紅海, 李心丹, 耿子揚. 投資者情緒、意見分歧與中國股市IPO 之謎[J]. 管理科學學報, 2015(03): 78-89.
[3]邵新建, 何明燕, 江萍, 薛熠, 廖靜池. 媒體公關、投資者情緒與證券發行定價[J].金融研究,2015(09):190-206.
[4]宋作艷, 趙青青, 亢世勇. 漢語復合名詞語義信息標注詞庫:基于生成詞庫理論[J].中文信息學報,2015(03): 27-33.
[5]賈君枝,王醒. 基于微數據的語義標注應用研究[J]. 情報理論與實踐, 2016(02):58-62.
基金項目:教育部人文社會科學基金青年項目(16YJC790052)、湖南省哲學社會科學基金項目(14YBA306)資助。