李燕
【摘要】近幾年,互聯網金融文本情緒極性及強度分析成為投資者輿情研究領域較新的研究點。但金融文本信息是非結構化信息,挖掘其中的輿情傾向及強度需要金融情緒詞典的支撐,因此構建金融輿情情緒詞典是進行互聯網金融文本輿情分析的一項相當基礎且重要的工作。將互聯網眾包這一分布式解決復雜問題的新模式引入到金融輿情語料標注及輿情詞典構建當中,在此基礎上構建了基于隸屬度函數特征參數相似度的金融情緒詞情感強度模糊推理方法,構建模糊規則,進行模糊推理。對投資者群體行為意向預測、投資者輿情模糊計算及情感模糊推理等問題的研究提供研究基礎。
【關鍵詞】投資者情緒? 金融情緒詞典? 模糊推理
一、研究背景
隨著互聯網步入Web 3.0 時代,多種新興社會化媒體(如:博客、微博、論壇)興起,投資者可以通過這些平臺表達及傳播觀點,互聯網中充斥著海量具有鮮明情緒傾向性的文本信息。社會化媒體中的文本情緒量化分析為行為金融學領域很多關鍵性問題提供了愈加重要的研究方式和內容,成為投資者情緒研究領域中新的研究點(Graziano,2011;Rees,2012;Chen,2013;Loughran 2013;Huang,2013;C Fu,2015;D Perez-Liston,2016;A Frugier, 2016;D Bathia,2016;T Renault,2107;E Kele?,2018)。但金融文本是非結構化信息,挖掘其中的情緒傾向及強度需要面向機器的情緒詞典的支持,因此構建金融情緒詞典是進行金融文本情緒分析的一項相當基礎且重要的工作。近年來,情緒詞典的構建及擴展研究受到國內外大量研究機構及學者的重視,而專業領域情緒詞典的構建工作是當前該領域較新的研究點。在構建情緒詞典的工作中,情緒詞的情感極性判定相對容易,而其情感強度量化是最近幾年文本情感分析領域的一個熱點和難點問題。
對巨量語料的標注,這是一個難點問題。自動化標注需要成熟語義知識庫及大規模語料庫的支持,而目前金融專業領域并沒有成熟公認的語義知識庫及語料庫。近幾年,互聯網眾包這一分布式解決復雜問題的新模式逐漸興起,眾包迅速改變了海量數據的收集與處理模式,在海量數據語義標注領域得到日益廣泛的應用(Kittur,2008;Russel,2008;Sayeed,2011;Muhammadi,2015;NR Asheghi,2016;J Hu,2016;R Meng,2017;S Bougrine,2017)。論文探討了將互聯網眾包這一分布式解決復雜問題的新模式引入到大規模金融情緒情感強度量化標注,以人類群體智慧與計算機技術相結合的方式來解決大規模情緒詞情感強度標注的難題。每個個體即使是領域專家,都會在知識及認知能力上存在不足,再加上情緒詞情感語義強度的模糊本質,給每個情緒詞給出精確的情感強度值既不可行也不科學,會丟失情感強度本身的大量信息。引入眾包技術到金融情緒詞情感量化標注的研究中工作中,進行技術方法創新,通過眾包可以利用群體知識來解決情感強度量化,獲得大量金融情緒詞情感強度的標注數據,這些數據蘊含著金融情緒詞情感強度的知識信息,這些數據信息對金融情緒詞情感強度量化研究具有重大價值。
二、文獻綜述
眾包是指公司或機構把過去由員工或少數專家執行的工作任務,以自由自愿或有償服務的形式外包給非特定的大眾網絡的做法(JeffHowe,2006)。近年來,在《MIS Quarterly》、《Decision Support Systems》等國際重要期刊上相繼有相關的論文發表。眾包數據管理成為國際數據庫與數據挖掘領域新近發展起來的一個研究熱點(Kazemi L,2012;To H,2016;童詠昕,2017).近年來,已有一些研究人員在國際數據庫與數據挖掘的頂級期刊和會議上對眾包數據管理技術的相關研究進行了總結(Doan A,2011;Chen L,2015;Li GL,2016;Garcia-Molina H,2016;Chittilappilly AI,2016)。伴隨著web3.0 技術的出現,各類網絡媒體產生的海量數據中蘊含著巨大的經濟和社會價值,海量數據的采集、分析和使用已成為信息服務與科學研究的主要領域,尤其是語料標注作為海量數據分析與利用的基礎性工作。通過對原始數據作標注(文字的或符號的),使其不僅可以使人理解,也可以使機器理解。常見的語料標注主要涵蓋詞義區分、內容分類、情緒極性、含義注釋、相關性判斷和信息抽取、圖像標注等工作(戚欣,2011;宋鴻彥,2010;張玉芳,2011;陳昊等,2015)。丁宇等(2013)采用眾包方法構建漢語語義相關性詞典。趙江華等(2017),對于半結構化或非結構化的大規模科學數據,難以通過計算機實現自動化處理,眾包成為有效處理手段。See L(2013)在提供有更多訓練或評價反饋的情況下,眾包得到的數據結果比專家結果更高。童詠昕等(2017)眾包為傳統數據管理提供了一種通過匯聚群體智慧求解問題的新模式,并成為當前數據庫領域的研究熱點之一。眾包方式迅速改變了海量數據的收集與處理方式,也為訓練機器學習算法提供了更好的訓練樣本,在海量數據語料標注領域得到了日益廣泛的應用(Sayeed,2011;Brew,2010;Kittur,2008; Russel,2008;Muhammadi,2015;NR Asheghi,2016;J Hu,2016;R Meng,2017;S Bougrine,2017)。
三、金融情緒詞情感強度模糊量化及模糊推理的一個分析框架
(1)金融領域情緒詞庫建設。以金融博客、財經網站專欄評論文章,財經新聞、上市公司信息披露的評論文章,中國證券報、上海證券報和證券時報等媒體的金融文本信息作為金融情緒語料的原始來源。采用互聯網文本抓爬軟件、開發Python語言互聯網文本自動獲取程序,在抓爬完成之后,對文本進行建模,采取基于Lucene建模。中文分詞軟件采用中科院開發的ICTCLAS、哈工大的自然語言處理平臺IRLAS及N-gram 分詞模型。股票的價格會影響到投資者情緒,從網上獲取股價數據,對股票價格數據進行符號化處理,將定量的股票價格數據轉換為不同市場行情的定性數據,將不同市場行情與文本進行匹配,進行金融情緒詞情緒極性分類。
(2)金融情緒詞情感強度模糊量化及情感強度模糊計算算法。當前對文本情緒分析大多使用經典數學(清晰數學)的方法進行量化計算,這種量化方法雖然計算方便,但忽視了自然語言的模糊本質,及更人類情感和心理的模糊本質屬性。依據模糊集合理論及模糊邏輯作為金融情緒詞情感強度眾包標注的數學基礎。首先結合現有的金融情緒分類和金融評論的情緒語義特點,構建投資者多情緒表達的分類體系,并通過互聯網眾包獲得海量情緒詞情感強度標注數據,在此基礎上構建金融情緒詞匯模糊本體庫,對金融情緒詞情感強度采用模糊隸屬函數的度量方法。之后使用多情緒模糊計算算法,基于模糊集理論中的修飾詞含糊語言算子,構建金融情緒詞多情感模糊計算算法。針對不同類型的情緒詞,分類設計相應的情緒詞極性強度量化方法。把金融情緒詞分成:基礎金融情緒詞,即不含程度修飾詞、頻度修飾詞、否定詞且字數不超過兩個的情緒詞。復合金融情緒詞,即包含修飾詞或否定詞的情緒詞或字數超過兩個的情緒詞。引入高斯分布與隨機函數,盡管每個眾包工作者標注得出的情感強度值可能不同,但存在一個最可能的區間,修正了僅依賴統計方法得出精確情感強度值所產生的誤差及情感強度值信息的丟失,使金融情緒情感強度標注結果值體現了情緒詞語義情感模糊性的本質。復合金融情緒詞的結構較復雜,一般由基礎金融情緒詞、程度或頻度修飾詞、否定詞等多類詞匯組合而成。情感強度量化工作有一定難度,基本思想是利用Sigmoid 函數的反函數,將基礎金融情緒詞的情感強度值映射為一個極大值,分析修飾詞或否定詞的對其情感強度的影響,使用極大值完成復合金融情緒詞的情感強度量化。最后再使用Sigmoid 函數將此極大值映射到原來的金融情緒詞情感強度值區間[-1,1]上。
(3)基于隸屬度函數特征參數相似度的金融情緒詞情感強度模糊推理方法。從隸屬函數特征參數相似性的視角出發,使用一組離散的特征節點數據集刻畫各眾包標注者所提供的金融情緒詞情感強度隸屬函數的主要圖形特征,構建確定特征節數據的原則。依據各模糊集的隸屬度函數的特征數據節點和模糊推理理論構造金融情緒詞情感強度模糊推理方法。推理規則是前件模糊隸屬函數與通過眾包標注獲取的隸屬函數數據具有相同的特征節點數據集則所對應分割點的隸屬函數具有相似的圖形。當各眾包標注者給出的金融情緒詞情感強度的模糊隸屬度函數為三角形隸屬度函數,則可以取其左右端點及峰點,用這三個節點信息刻畫其主要圖形特征。當各眾包標注者給出的金融情緒詞情感強度的模糊隸屬度函數為梯形隸屬度函數時,可以取其左右端點及峰點的上、下確界,用這三個節點信息刻畫其主要特征。當各眾包標注者給出的金融情緒詞情感強度的模糊隸屬度函數不是同一類型或者隸屬函數圖形沒有明顯特征時,可以把隸屬度函數峰點的上、下確界及支集的上、下確界,分別進行有限分割,把眾包標注者所提供的金融情緒詞情感強度的模糊隸屬度函數在各自的兩個區間上具有相同的分割點個數。這些通過眾包標注所獲得的承載著金融情緒詞情感強度值隸屬度函數關鍵信息的分割點構成了最終金融情緒詞情感強度值隸屬函數的一組特征節點。在此基礎上便可以構造出所求金融情緒詞情感強度的模糊隸屬度函數特征節點數據為未知數的方程組,便可以得出所求所求金融情緒詞情感強度的模糊隸屬度函數的一組特征數據點集。最后使用折線或者光滑曲線各特征數據點連接起來,就可求出所求金融情緒詞情感強度的模糊隸屬度函數。
(4)金融情緒詞情感強度眾包標注的質量管理模型研究。參與金融情緒詞情感強度眾包標注的工作者為數量巨大的非特定互聯網人員,受標注者專業背景、工作能力、工作態度及工作動機等因素影響,導致收集到的標注結果可能存在噪聲甚至錯誤,使用金融情緒詞情感強度模糊量化標注方法,并不需要眾包標注者給出精確的值,可以允許有一定標注誤差,但標注噪音還是需要控制,噪音會使金融情緒詞情感強度模糊推理出錯誤結果,因此對標注質量的控制是一個關鍵問題,構建金融情緒詞情感強度眾包標注的任務管理模型:①標注工作者的動態選擇方法;②標注者可信度統計測量模型構建。統計金融情緒詞情感強度眾包標注工作者在眾包測試環節中的表現,給出量化的可信度值,檢測標注者是否具備金融領域情緒語料標注的專業能力。③標注質量評估模型。構建金融情緒詞情感強度眾包標注者間情感強度標注結果的一致性檢驗模型,計算不同類型標注者之間情感強度標注結果的一致性,檢測出一致類型惡意金融情緒詞情感強度眾包標注者的標注結果。
參考文獻:
[1]伍燕然, 韓立巖.不完全理性、投資者情緒與封閉式基金之謎[J]. 經濟研究,2007(03): 117-129.
[2]徐琳宏,林鴻飛,楊志豪. 基于語義理解的文本傾向性識別機制[J].中文信息學報,2007(1):96-100.
[3]陳其安, 朱敏,賴琴云. 基于投資者情緒的投資組合模型研究[J].中國管理科學,2012(06):47-56.
[4]丁宇,車萬翔,劉挺,張梅山. 基于眾包的詞匯聯想網絡的獲取和分析[J].中文信息學報, 2013(05): 100-106.
[5]高大良, 劉志峰, 楊曉光. 投資者情緒、平均相關性與股市收益[J].中國管理科學,2015,23(2): 10-20.
基金項目:教育部人文社會科學基金青年項目(16YJC790052)、湖南省哲學社會科學基金項目(14YBA306)資助。