999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于眾包標注的互聯網金融輿情情緒詞典構建方法

2020-05-18 02:39:38李燕
商情 2020年18期

李燕

【摘要】巨量投資者情緒詞語義標注是構建金融輿情情緒詞典的一個難點問題,論文將互聯網眾包這一分布式解決復雜問題的新模式引入到大規模金融情緒語料標注及金融情緒詞典構建當中,以人類群體智慧與計算機技術相結合的方式來解決大規模語料標注的難題,建立完善、標準的金融情緒語料人工標注資源,為投資者情緒理論研究提供基礎性支撐,彌補目前對互聯網投資者輿情文本信息進行分析處理時所存在的標注語料資源匱乏的問題。

【關鍵詞】投資者情緒? 情緒詞典? 眾包

一、引言

社會化媒體中的文本情感量化分析為行為金融學領域很多關鍵性問題提供了愈加重要的研究方式和內容,成為投資者情緒研究領域中新的研究點(Graziano,2011;Rees,2012;Chen,2013;Loughran 2013;Huang,2013;C Fu,2015;D Perez-Liston,2016;A Frugier, 2016;D Bathia,2016)。但金融文本是非結構化信息,挖掘其中的情緒傾向及強度需要面向機器的情緒詞典的支持,因此構建金融情緒詞典是進行金融文本情緒分析的一項相當基礎且重要的工作。近年來,情緒詞典的構建及擴展研究受到國內外大量研究機構及學者的重視,而專業領域情緒詞典的構建工作是當前該領域較新的研究點。目前,國內對金融領域情緒詞典的相關研究還較為匱乏。情緒詞典的構建需要完成對巨量語料的標注,這是困擾研究人員的一個難點問題。近幾年,互聯網眾包這一分布式解決復雜問題的新模式逐漸興起,眾包迅速改變了海量數據的收集與處理模式,在海量數據語義標注領域得到日益廣泛的應用(Kittur,2008;Russel,2008;Sayeed,2011;Muhammadi,2015;NR Asheghi,2016;J Hu,2016)。

二、文獻綜述

近年來,隨著文本量化分析技術的快速發展,社會化媒體文本情感量化分析為行為金融領域很多關鍵性問題提供了愈加重要的研究方式和內容。上市公司信息披露領域文本情感分析的代表性研究:Feldman 等(2008)、Henry 等(2009)、Li(2006,2010)、Demers 等(2011)、Ferris 等(2013)。關于媒體文章或報道的文本情感分析文獻:Tetlock(2007)、Engelberg(2008)、Tetlock(2008)、Sinha(2010)、Carretta(2011)、Rees 和Twedt(2012)、Loughran(2013)、H.Ishijima 等(2015)。互聯網金融文本情緒分析文獻:Antweiler(2004), Das 和Chen(2007),Chen和Hwang(2013),Ferguson 等(2015),B Dickinson 等(2015),SWK Chan等(2016),Shapiro(2017)。目前,文本情感分析的方法大致有兩種:基于情緒詞典和機器學習方法。基于機器學習方法的文本情感研究有:樸素貝葉斯(林江豪,2012;陽愛民,2013)、支持向量機(任勇,2011)、最大信息嫡(Jung,2012)和感知器分類法等。但在實際應用中若有高質量的領域情緒詞典可用,使用簡單快速的算法就能獲得很好的分析效果(張克亮等,2016;王新宇,2016;肖江等,2015)。在國外很多金融學者使用GI(General Inquirer)詞典來研究投資者情緒,包括:Feldman(2008)、Tetloclc (2008)、 Henry 和Leone (2009)、Doran 等(2010)、Carretta(2011)、Engelberg(2012)、Maks(2012)、Ferris(2013)、B.Dickinson(2015)等。在國內,朱浩然(2013)構造了基于Entropy (TF-IDF-L)關鍵詞的情緒詞典構建算法,然后對金融領域微博文本的情感進行了研究。朱艷輝等(2011)基于基礎情緒詞典構建了文本情感特征抽取算法。孟雪井等(2106)構建了我國投資者行為的關鍵詞詞庫,利用因子分析法構建了滬市投資者情緒指數。總體而言,與國外相比我國在金融情緒詞典建設方面的基礎性研究不足,制約了我國在金融文本情感量化方面的研究。

三、基于眾包標注的金融情緒詞典構建方法

(一)金融領域情緒語料庫建設的研究思路

金融領域情緒語料庫的建設是金融情緒詞典構建的基礎,可以使用互聯網文本抓爬軟件、開發Python語言互聯網文本自動獲取程序及中文分詞軟件(中科院開發的ICTCLAS、哈工大的自然語言處理平臺IRLAS及N-gram 分詞模型)構建金融情緒語料庫。使用互聯網文本抓爬軟件、Python語言文本程序開發,獲取互聯網金融博客、財經網站(新浪、騰訊、搜狐、網易、和訊、鳳凰網等)專欄評論文章及財經新聞評論、上市公司信息披露評論文章,中國證券報、上海證券報和證券時報等媒體的金融文本作為金融情緒語料庫建設的原始來源。金融博客、專欄評論文章及財經新聞評論一般由具有豐富投資經驗和扎實理論基礎的專業投資者、股評分析家、行業領域專家所撰寫和發布,文本用語規范,對這類金融文本可以采用中科院開發的ICTCLAS 及哈工大的自然語言處理平臺LTP 進行分詞處理,獲得基礎金融情緒語料庫。投資者在網絡論壇上發布的帖子及回帖文本,用語不規范、多存在歧義性,詞序語序自由度比較高,通常會構造一些網絡流行金融情緒詞語,分詞技術處理此類Web 金融文本存在一定困難,可采用N-gram 模型,設置一個大小為N 的滑動窗口,以字節流對文本進行劃分,獲得字節片段序列gram,進一步對字節片段gram 進行頻率統計,設置閾值,將小于閾值的字節片段gram 過濾掉,剩下的生成gram 列表。將切分后的結果作為基本的特征項,采用二維滑動窗口將近鄰特征項合并,構成新的特征項,從而將更多金融情感詞和一些流行的網絡詞匯擴展到情感語料庫中。將切分后的結果作為基本的特征項,采用二維滑動窗口將近鄰特征項合并,構成新的特征項,從而將更多金融情感詞和一些流行的網絡詞匯擴展到情感語料庫中。

(二)金融情緒語料眾包標注的任務管理模型構建

眾包標注雖具有成本低、效率高的特點,但由于參與眾包標注的工作者為數量巨大的非特定互聯網人員,受標注者專業背景、工作能力、工作態度及工作動機等因素影響,導致收集到的標注結果可能存在噪聲甚至錯誤。因此對眾包標注質量的控制是一個關鍵問題,具體包括如下幾個方面:

(1)眾包標注工作者的動態選擇方法。眾包標注工作者的選擇方法是否恰當直接關系到情緒語料眾包標注過程的可靠性,也直接影響到眾包標注結果的質量,因此是眾包實施和評估階段需要解決的核心問題,構建噪聲數據的識別方法,建立噪聲度量指標,提出噪聲過濾機制,實現對高噪聲數據地自動過濾。研究金融情緒語料眾包標注的實施過程,結合海量語料眾包標注的眾包情境,分析眾包工作者的動態篩選過程,并提出工作者篩選機制,設計相應的算法。

(2)眾包標注者可信度統計測量模型構建。統計眾包標注工作者在眾包測試環節中的表現,給出量化的可信度值,檢測標注者是否具備金融領域情緒語料標注的專業能力。

(3)眾包標注質量評估模型研究。構建多眾包標注者間標注結果的一致性檢驗模型,計算不同類型標注者之間情緒語料標注結果的一致性,檢測出一致類型惡意眾包標注者的標注結果。對多眾包標注者的標注結果構建期望最大值算法,計算語料情緒期望強度值及各標注者的誤差率,誤差率用于檢測眾包標注者工作的認真程度,有效識別出隨機類型惡意眾包工作者(雖然具備專業能力,但工作不負責)。

(4)構建基于標注任務特征的半監督式眾包學習算法。對標注任務特征和眾包標注結果這兩類資源進行聚類分析,對眾包標注者的學習過程進行建模,構建基于標注任務特征的半監督式眾包學習算法。基于任務特征的半監督式眾包學習算法可以監測眾包標注者的標注質量,工作表現及經驗增長等方面的因素,反映眾包標注者的客觀標注能力。

(三)構建多標注主體情緒語料眾包標注結果的融合模型

根據金融情緒語料HIE 標注任務包的特征對任務包進行聚類分析,形成HIT 任務包簇。利用學習算法學習到各眾包標注者在各HIT 任務包簇上的標注能力、經驗知識及標注結果歷史表現,確定各眾包標注者在各任務包簇上的標注結果融合權重值,構造多標注主體情緒語料標注結果融合模型,對多標注者的標注結果進行融合,得出情緒語料二元標注數據(情緒極性,情緒強度值),情緒詞典的存儲格式采用語料庫常用的xml標記格式進行存儲。

(四)金融情緒語料眾包標注的質量管理模型構建方案

(1)眾包標注工作者的動態選擇及評估方法。基本研究思路是采用分階段動態評估的方法,動態監測出不合格的眾包標注工作者,提升標注結果的整體質量。此部分分為兩個方面:一是標注的質量評估;二是工作者的選擇與評估。首先分別建立兩個不同狀態的標注任務集合(待標注微任務集;已標注微任務集),每個任務的目標值是未知的;建立眾包工作者池,初始狀態時每個標注者的能力是未知的,都可以參與眾包任務分配。然后根據參與眾包任務的眾包工作者的標注情況提取出兩個列表:一個是專家列表,他們能夠提供良好的金融情緒語料標注結果;另一個是淘汰列表,提供低質量的標注結果的眾包工作者,將阻止在下個階段分配給其標注任務。對上述眾包標注工作者的動態選擇及評估方法研究中涉及的算法,主要采用算法仿真的手段實現,考慮采用Matlab 或者R語音等工具進行編程和實現。

(2)標注者可信度統計測量模型構建方案。每個HIE 金融情緒語料標注任務包包含待標注語料(實際需要標注者標注的語料)和黃金測試標注語料(已經由金融領域專家標注的語料)。將新眾包標注結果存放在“標注結果表”中,黃金庫語料標注結果存放在“測試結果表”中。將眾包標注獲得的黃金語料的標注結果存放在“篩選標準表”中,用于同金融領域專家的測試標注結果進行一致性檢測,假若眾包標注者的篩選標注結果與測試標注結果的一致性較低(低于設置的閾值),則視該眾包標注者的金融情緒語料標注結果不可信,將其標注結果舍去,從而保證眾包標注的質量。設置此項檢測能夠檢驗標注者是否有相應專業能力勝任金融情緒語料標注工作,對可靠性較差的標注者停止提供眾包任務,這樣既控制眾包標注成本、提高標注效率,同時也排除了部分眾包標注結果噪聲、提升標注質量。

(3)設計眾包標注質量評估模型研究方案。針對眾包標注結果的質量控制策略及質量評估方法,設計如下三種方法:設計隨機類型惡意標注者及一致類型惡意標注者的判斷標準;構建多眾包標注者間標注結果的一致性檢驗模型,計算不同類型標注者之間情緒語料標注結果的一致性。對多眾包標注者的標注結果使用期望最大值算法(EM 算法)估計出語料情緒強度值及各標注者的誤差率。誤差率用于檢測眾包標注者工作的認真程度,有效識別出惡意眾包工作者(雖然具備專業能力,但工作不負責)。質量控制與評價機制既能檢測出惡意眾包工作者的標注結果,同時也能夠阻止惡意眾包工作者繼續參與標注任務的分配。

參考文獻:

[1]高大良, 劉志峰, 楊曉光. 投資者情緒、平均相關性與股市收益[J].中國管理科學,2015,23(2): 10-20.

[2]俞紅海, 李心丹, 耿子揚. 投資者情緒、意見分歧與中國股市IPO 之謎[J]. 管理科學學報, 2015(03): 78-89.

[3]邵新建, 何明燕, 江萍, 薛熠, 廖靜池. 媒體公關、投資者情緒與證券發行定價[J].金融研究,2015(09):190-206.

[4]宋作艷, 趙青青, 亢世勇. 漢語復合名詞語義信息標注詞庫:基于生成詞庫理論[J].中文信息學報,2015(03): 27-33.

[5]賈君枝,王醒. 基于微數據的語義標注應用研究[J]. 情報理論與實踐, 2016(02):58-62.

基金項目:教育部人文社會科學基金青年項目(16YJC790052)、湖南省哲學社會科學基金項目(14YBA306)資助。

主站蜘蛛池模板: 高清久久精品亚洲日韩Av| 亚洲免费毛片| 国产美女91呻吟求| 欧美激情福利| 一级毛片在线直接观看| 国产免费精彩视频| 99久久精品免费视频| 99热最新网址| 亚洲中文久久精品无玛| 欧美精品在线看| 免费国产小视频在线观看| 欧美成人精品一区二区| 97超级碰碰碰碰精品| 国产午夜无码专区喷水| 日韩高清中文字幕| 午夜高清国产拍精品| 夜夜操国产| 无码专区国产精品第一页| 永久免费av网站可以直接看的 | 欧美中文字幕一区| 日本人妻丰满熟妇区| 性欧美精品xxxx| 亚洲精品国产自在现线最新| 国产在线观看一区二区三区| 精品久久蜜桃| 国产最爽的乱婬视频国语对白| 99精品一区二区免费视频| 久久综合伊人77777| 亚洲中文无码h在线观看| 日韩精品欧美国产在线| 九色在线视频导航91| 免费看的一级毛片| 国产xxxxx免费视频| 丁香综合在线| 国产精品成人免费综合| 国产福利免费在线观看| 亚洲—日韩aV在线| 国产免费羞羞视频| 欧美色图久久| 99无码中文字幕视频| 亚洲精品国产首次亮相| 亚洲 欧美 偷自乱 图片| 免费看美女毛片| a级毛片免费网站| 女同国产精品一区二区| 午夜一级做a爰片久久毛片| 亚洲成aⅴ人片在线影院八| 亚洲人在线| 少妇精品网站| 欧美成人区| 91香蕉视频下载网站| 国产色婷婷视频在线观看| 99久久亚洲综合精品TS| 黄色网在线| 亚洲天堂伊人| 亚洲中文精品人人永久免费| 一级毛片免费观看不卡视频| 精品国产91爱| 国产麻豆福利av在线播放 | 日本久久网站| 亚洲丝袜第一页| 国产成人毛片| 国产成人1024精品| 在线观看国产网址你懂的| 亚洲综合久久一本伊一区| 国产自在自线午夜精品视频| 一级在线毛片| 国产美女视频黄a视频全免费网站| 亚洲国产精品久久久久秋霞影院 | 国产一区二区三区日韩精品| 亚洲va在线观看| 自拍偷拍欧美日韩| 国产九九精品视频| 成人精品免费视频| 全部毛片免费看| 亚洲欧洲美色一区二区三区| 狼友视频国产精品首页| 黄色三级网站免费| 国产精品久久久久无码网站| 美女无遮挡免费视频网站| 国产精品永久不卡免费视频| 97久久人人超碰国产精品|