基于機器學習的外匯新聞情感分析

2020-06-12 09:18:08戚天梅王吉祥王志宏

計算機工程與設計 2020年6期

戚天梅，過弋,2+，王吉祥，王志宏，成舟

(1.華東理工大學信息科學與工程學院，上海 200237；2.大數據流通與交易技術國家工程實驗室商業智能與可視化技術研究中心，上海 200237；3.中匯信息技術(上海)有限公司開發三部，上海 201203)

0 引言

互聯網中的海量數據傳達了重要信息[1]，因此分析文本情感、挖掘意見觀點越來越重要[2,3]。目前大多數的情感分析是針對電商評論數據，缺乏對外匯新聞的意見挖掘。外匯新聞的情感分析尚處在初級階段[4]，仍有許多難題需要解決，如：①外匯新聞覆蓋范圍廣，不僅有貨幣對如“人民幣/美元”的形式，還有原材料如“原油”，國家政策如“三農”等因素，影響著外匯市場的交易。②外匯新聞中影響情感強度的詞形式不一，種類繁多，例如“美聯儲講話后，黃金漲幅擴大至1.36%，上漲逾18美元，刷新日高至1344.85美元?！庇绊懬楦袕姸鹊脑~可以是1.36%、18、1344.85等數值形式，還可以是表示程度的“擴大”，表示機構影響力的“美聯儲”等形式。

為有效挖掘外匯新聞的情感，提出了融合情感詞權重的方法分析情感傾向；提取外匯新聞的特征，研究情感強度。

1 相關工作

情感分析在實際應用中發揮了重要作用。從粒度上，情感分析可以分為粗粒度和細粒度[5]。本文基于細粒度情感分析，研究外匯新聞的情感傾向和情感強度?，F有的情感分析研究，為文本意見挖掘提供了重要的基石。

1.1 情感傾向研究

情感傾向是細粒度情感分析非常重要的一步。張仰森等[6]通過構建情感詞典和表情符號詞典，利用級聯方式，計算情感傾向的二級分類方法，再利用樸素貝葉斯設計三級分類方法，使得分類結果取得了較好的效果。江騰蛟等[4]針對不同詞性和在句子中擔任不同成分的情感詞，構成(評價對象，情感詞)對，但還需要考慮沒有情感詞的句子。Xu等[7]構建了一個擴展詞典，結合Hownet和NTUSD以及從新浪微博和豆瓣獲取的網絡流行詞構建詞典，并設計了情感極性的計算規則研究文本情感。Chen等[8]提出了一種結合卷積神經網絡和區域注意力機制的分析模型，將一個句子以評價目標為中心，向左右兩邊擴展一定長度，切割句子，利用SemEval2016的餐館、筆記本電腦數據集和汽車領域的數據集來分析情感。

Maia等[9]采用NLP技術對金融領域的輿情進行分析，將一個復雜的句子依照句法形式簡化為較短的句子，然后根據極性和遠距離的監督來分析情感傾向。Lu等[10]使用影評數據，提出了結合詞典的注意力機制，分析情感。Lu等在計算情感詞注意力值時，設計了Consultation Vector用于檢驗注意力值分配的合理性，從而達到更好的分類效果。李陽輝等[11]采用的是降噪自編碼器來對文本進行無標記特征學習并進行情感分類，分析實驗獲得最佳的參數設置。對有噪聲數據的處理效果高于SVM和ME。Kamal等[12]提出了基于時間的情感分析，并實現自動提取和處理文本數據，得到數據中的情感信息。

1.2 情感強度研究

情感強度一般基于統計學或人工標注的方法。吳江等[13]在情感強度分析方面對實驗結果和專家標注值進行差值平均，取得了較好的結果。張雪英等[14]通過嚴謹的實驗獲得情感強度的數據集，并對數據集進行分析，證明了情感強度的合理性。王秀芳等[15]挖掘微博話題與時間的關系，提出了結合時間序列和情感詞分析情感。Li等[16]提出了3層CRF模型，融合了程度詞、情感詞、語氣詞以及詞性，分析商品評論數據的情感傾向和強度。

從以上研究可以發現，情感分析已經引起了學者們的廣泛關注，但大多數是基于電商評論、微博評論等方面，還未廣泛應用于外匯領域。Wan等[17]指出基于情感詞典的情感傾向分析，情感詞典的完善程度影響情感傾向分析的結果。另一方面，機器學習能夠學習知識提高自身性能，且已經廣泛應用于諸多領域。因此，本文使用機器學習結合情感詞典的方法對文本進行細粒度情感傾向分析；在分析情感強度方面，大多數文獻只考慮了情感詞或者程度詞，缺乏領域的特點。因此，本文將充分考慮新聞中多種影響情感強度的詞，如機構的權威性、重要會議、百分數、基點等。

為了更加準確地分析出每個情感所表達的對象，本文采用了細粒度的方式分析情感。最后，形成基于機器學習的外匯新聞細粒度情感分析模型。

2 細粒度情感分析

本節構建了基于外匯新聞的細粒度情感分析框架，對比了4種機器學習方法在情感傾向方面的分類效果。另一方面，根據外匯新聞的特點，提取影響情感強度的特征，分析情感強度。

2.1 模型架構

本文的情感分析模型主要分為以下幾個步驟：①數據采集與處理；②評價對象和屬性提?。虎矍楦性~典的構建和情感傾向分析；④情感強度分析。最后得出情感分析元組(評價對象，屬性，情感強度)。其中情感強度是一個包含情感傾向的值(正或負)，正值代表正向情感的強度，負值代表負向情感的強度。情感分析模型總體框架如圖1所示。

圖1 情感分析模型框架

2.2 數據采集與處理

本文利用Python爬蟲技術獲取華爾街見聞(https://wallstreetcn.com)的外匯新聞數據，并對獲取的數據進行處理。利用結巴分詞工具對新聞進行分詞和詞性標注。

2.3 評價對象和屬性提取

在細粒度情感分析方面，需要識別評價對象和屬性[18,19]。評價對象是指情感描述的對象。例如：“黃金價格上漲5%”，其中的評價對象是“黃金”，屬性是“價格”。本文在評價對象識別方面建立了基于專家經驗詞匯的評價對象和屬性詞典，評價對象包含了美元指數、黃金、滬指等；屬性有價格、收益率、成交量等詞匯。

2.4 情感詞典的構建和情感傾向分析

情感傾向很大程度上依賴于情感詞匯，一個良好的情感詞典會使情感分析達到事半功倍的效果。建立情感詞典的方法有很多種，例如臺灣大學中文情感極性詞典(NTUSD)、清華大學李軍中文褒貶義詞典(TSING)、知網情感詞典(HOWNET)[20]。本文在知網情感詞典的基礎上加入了外匯領域情感詞，建立情感詞典，為情感傾向分析得到更好的實驗效果做準備。

本文在情感傾向分析實驗中，分析了兩種情況下使用樸素貝葉斯(NB)、邏輯回歸(LR)、隨機森林(RF)和支持向量機(SVM)4種方法的實驗結果。兩種情況為：①對文本向量化(T_vec)，分析情感傾向；②在文本向量化的基礎上，融合情感詞權重(FW_vec)。本文使用詞向量模型對文本進行向量化處理。其中，融合情感詞權重的方法，如式(1)所示

TxtVector=

(1)

其中，wordi表示句子中的情感詞，vword表示某個詞的向量化結果，W表示給情感詞設置的權重，最后得到具有情感詞權重的詞向量化結果TxtVector。

融合情感詞權重的情感傾向分析算法設計如下：

(1)輸入標注好的新聞文本news和詞典。

(2)對新聞內容進行分詞words。

(3)利用word2vec模型和情感詞典對分詞words進行向量化處理。

(4)利用NB、LR、RF、SVM對處理好的數據進行訓練。

(5)分析模型的性能。

(6)輸出情感傾向分析模型。

根據上述得到的情感傾向分析模型，選擇NB、LR、RF、SVM這4種方法中分類效果最好的方法，用于情感強度分析。

2.5 情感強度分析

情感強度是指新聞中情感傾向的強度。外匯新聞中可以用來分析情感強度的詞本文分成3種類別：第一類是術語詞，如機構名(美聯儲)、有影響力的人(央行行長)、重要會議(中央經濟工作會議)等；第二類是程度詞，根據Hownet詞典將其分為6種類別；第三類是新聞中的百分數、基點的數值形式。對于第一類本文采用了外匯領域專家經驗詞匯，分為高影響詞、中影響詞、低影響詞3種。第二類程度詞，本文根據Hownet程度詞典的劃分方法，將程度詞分為6種子類別，分別是“及其”、“超”、“很”、“較”、“稍”、“欠”，并結合Hownet程度詞典和外匯新聞詞匯構建程度詞典。第三類百分數、基點形式從新聞本文中獲取。表1給出了部分3種類別的詞。

表1 3類影響情感強度的詞

本文用HIV表示高影響詞、MIV表示中影響詞、LIV表示低影響詞。DV1、DV2、DV3、DV4、DV5和DV6分別表示6種類別的程度詞。

通過上述分析，設計了兩組實驗對比分析新聞的情感強度。實驗一分析了基于程度詞情況下的情感強度，并采用了冉楊帆等[21]的程度詞權重，見表2。

表2 程度詞權重

考慮到程度詞并不會存在每一條新聞中，所以本文設計了一個基本的權重值(BV)。實驗一設計表示為式(2)

(2)

其中，SAIi表示第i條新聞的情感強度，Pi表示第i條新聞的情感傾向，W程度詞表示程度詞的權重。

SAIi=Pi*W程度詞*W術語詞*Ri

(3)

其中，W術語詞表示第一類詞的權重，Ri表示從第i條新聞中抽取出的第三類詞。

3 實驗評測方法

3.1 實驗數據集

實驗數據來自華爾街見聞網站的新聞。本文利用Python技術爬取了70 000條新聞數據。為了使標注數據的合理性，本文針對每個評價對象選取100條新聞，由于有些評價對象出現的次數不足100條，最后得到標注數據2800條。我們邀請了兩位外匯領域專家標注新聞的情感傾向和情感強度。其中情感傾向包含兩種(-1、1)，-1代表負向情感、1代表正向情感。情感強度標注為離散的值。

標注結束后，對標注結果進行一致性分，得到情感傾向的一致性為91.4%?？梢钥闯鰞烧邔ν鈪R新聞的情感傾向的一致度較高。實驗數據選取情感傾向標注一致的數據，并在此基礎上計算兩者情感強度的均值作為情感強度的標注結果。根據以上標注結果最后選取實驗數據見表3。

表3 實驗數據集

3.2 情感傾向評測方法

本文在情感傾向評測中選擇了查準率(Pre)、查全率(Rec)和F值(F1)這3個指標。查準率能夠反應分類器對類別的區分能力，查全率反映了分類器的泛化能力，F值是查準率和查全率的調和均值，能夠綜合考慮分類器的性能[13]。

為了進一步分析分類器效果，本文使用混淆矩陣來觀察分類器在各個類的分類情況。混淆矩陣中的每行之和代表該類的樣本數，每列的各個值代表被分到該類的值，可表示為式(4)

(4)

其中，n代表類別數，Dij代表第i類被分到第j類的樣本數，即第i行第j列的值，Si代表第i類樣本的總數，即第i行的和。

本文以比率的形式顯示混淆矩陣中各個類的預測結果?；煜仃囍忻總€值的計算方法為式(5)

percentageij=Dij/Si

(5)

其中，Dij表示第i行第j列的值，Si表示第i行的和。percentageij表示為第i類被預測到第j類的概率。

3.3 情感強度評測方法

在情感強度評測方面，本文將實驗得到的情感強度SAIi與專家標注的情感強度Ei進行差值平均，如式(6)所示

(6)

由式(6)可知，Y越小說明實驗得到的情感強度與專家標注的情感強度越接近，越大則越偏離專家標注的情感強度[13]。因此，可較好分析實驗的結果。

4 實驗結果分析

4.1 情感傾向實驗結果分析

本節對比分析了NB、LR、RF和SVM這4種方法在①文本向量化；②在文本向量化的基礎上融合情感詞權重，兩種情況下的實驗結果，如表4和圖2所示。

表4 情感傾向實驗結果

由表4可以看出，NB在FW_vec情況下的-1和1分類的F1值比T_vec情況下的F1值分別高0.1和0.08；LR在FW_vec情況下的-1和1分類的F1值比T_vec情況下的F1值分別高0.08和0.09；RF在FW_vec情況下的-1和1分類的F1值比T_vec情況下的F1值分別高0.1和0.11；SVM在FW_vec情況下的-1和1分類的F1值比T_vec情況下的F1值分別高0.08和0.07。同理，可以分析出Pre和Rec的對比結果。

圖2顯示了4種方法在T_vec和FW_vec兩種情況下的混淆矩陣，進一步分析實驗的預測結果。其中，第一行4個混淆矩陣代表在T_vec情況下NB、LR、RF和SVM的分類結果；第二行4個混淆矩陣代表在FW_vec情況下的分類結果。混淆矩陣主對角線的值代表了被正確預測的概率，NB從T_vec的(0.44,0.83)提升到了FW_vec的(0.51,0.94)；同理LR從(0.87,0.84)提升到了(0.92,0.95)；RF從(0.84,0.78)提高到了(0.93，0.90)；SVM從(0.81,0.90)提高到了(0.93,0.94)。通過對比混淆矩陣可以看出，FW_vec的實驗結果，主對角線的數值相較于T_vec的高，副對角線的數值比T_vec的低。說明融合情感詞權重能夠提高預測的準確性，降低錯誤分類。

圖2 混淆矩陣對比

通過表4和圖2的分析可知，融合情感詞權重的實驗結果優于文本向量化的實驗結果。因為情感詞在情感傾向分析中具有重要位置，因此融合情感詞權重能達到更好的分類結果。

圖3給出了4種方法在兩種情況F1值的對比折線圖，展示了負向分類和正向分類。

圖3 T_vec和FW_vec的F1對比

圖3中負向分類和正向分類的實線總是位于虛線上方，進一步說明了融合情感詞權重的效果優于文本向量化。

基于圖3的FW_vec，NB的分類效果在4個方法中的分類能力較低；其次是RF；SVM略低于LR。通過分析算法的實現原理可知，NB在特征假設方面具有較強的獨立性，靈活性不高，從而限制了分類效果。RF是通過多個決策樹的結果來分類進行決策；由于在構建決策樹時可能存在多個相同的決策樹，導致決策結果不準確；另一方面可能是由于數據不充分。LR在特征假設方面具有較強的靈活性，即使特征之間沒有相關，邏輯回歸也可以找到最優參數。SVM使用支持向量，即和分類最相關的一些點來學習分類器。

通過圖3以及表4和圖2的分析，這里選擇了LR用于后續情感強度實驗。

4.2 情感強度實驗結果分析

由情感傾向實驗結果可知，LR的分類效果在4種機器學習方法中表現較好，因此在情感強度分析部分，使用LR預測情感傾向。根據情感強度設計的計算規則，實驗結果見表5。

在實驗二中通過網格搜索方法搜索術語詞的最佳權重為1.9、1.6、1.5(分別對應HIV、MIV、LIV)。從表5可知實驗二的Y值比實驗一的Y值小，說明實驗二的分析結果更接近專家標注的情感強度。另一方面說明，將外匯新聞的特點融合到情感強度計算中比僅考慮程度詞的結果更理想。圖4給出了部分實驗結果。

表5 情感強度實驗結果

圖4中橫軸代表新聞，縱軸代表情感強度，數據顯示了實驗二的情感強度比實驗一的情感強度更接近專家標注值。

圖4 情感強度實驗對比結果

最后，本文綜合上述對外匯新聞情感傾向和情感強度的分析，得出外匯新聞的細粒度情感分析元組，見表6。

表6 情感分析元組

表6中情感元組的第一列代表新聞中的評價對象，第二列代表評價對象的屬性，第三列代表情感強度(正負表示情感傾向)。

5 結束語

本文基于機器學習的方法研究外匯新聞的情感傾向和情感強度。在情感傾向方面，利用樸素貝葉斯、邏輯回歸、隨機森林和支持向量機挖掘外匯新聞情感。通過分析文本向量化和融合情感詞權重兩種情況下的實驗結果，并結合混淆矩陣，得出融合情感詞的分類效果優于文本向量化的分類效果。在情感強度分析方面，設置了兩個對比實驗，實驗結果表明，情感強度結合新聞中的程度詞和外匯領域的特征詞更接近專家標注的情感強度。本文對外匯新聞情感傾向和情感強度的分析，為外匯領域資產定價、風險評估和匯率預測提供了參考價值。

由于本文的情感強度是針對外匯新聞，對其它領域的適用性有待提高。如何構建更高效，可擴展性強的情感強度分析方法，是未來工作的一個研究重點。