采用生成對抗網(wǎng)絡的金融文本情感分類方法

2019-12-21 02:45:48沈翠芝

福州大學學報(自然科學版) 2019年6期

沈翠芝

(福建師范大學協(xié)和學院,福建福州 350117)

0 引言

隨著互聯(lián)網(wǎng)和金融產(chǎn)業(yè)的迅速發(fā)展，網(wǎng)絡中的金融信息日益豐富，用戶對金融信息的需求也不斷增長[1]，因此，對海量金融數(shù)據(jù)進行挖掘和研究，學習金融文本的情感傾向已成為一個重要課題.但是，目前金融領域有標注的文本語料極為匱乏，難以直接用于訓練模型.跨領域情感分類(cross-domain sentiment classification)[2]，旨在利用源領域與目標領域的有用知識，對目標領域的文本進行情感分析，從而有效解決目標領域標注資源匱乏的問題.跨領域情感分類在消費者意見反饋[3]、金融風險監(jiān)控[4]和金融股票推薦[5]等典型場景，具有重要研究和應用價值.

目前將跨領域情感分類的研究分為兩大類.第一類為基于特征選擇的跨領域情感分類，該方法主要是應用源領域和目標領域之間的不變特征構(gòu)建共享特征空間，并在此基礎上進行情感傾向性分析.文獻[6]為了更高效挑選樞軸特征結(jié)合源領域標簽的互信息，通過將不同領域和樞軸特征的相關性進行建模,實現(xiàn)特征間對應關系的識別.文獻[7]構(gòu)建一個將結(jié)構(gòu)對應學習和自編碼器結(jié)合的三層神經(jīng)網(wǎng)絡模型，該方法有效提升了情感分類性能.第二類為基于特征表示學習的跨領域情感分類，該方法通過采用遷移學習的方法來學習領域適應的共享特征空間,減少領域之間的特征差異.文獻[8]建立一個邊緣堆疊降噪自編碼器模型，通過大量無標注數(shù)據(jù)得到魯棒的特征表示，該模型具有計算量少和高維數(shù)據(jù)可擴展性的優(yōu)勢.文獻[9]提出領域?qū)咕W(wǎng)絡，通過梯度反轉(zhuǎn)模塊讓情感標簽分類器和域分類器進行對抗學習，從而學習領域適應的特征表示.

鑒于此，本研究提出一種基于生成對抗網(wǎng)絡的跨領域情感分類方法，將生成網(wǎng)絡中產(chǎn)生的隨機噪聲和文本表示向量進行結(jié)合，并利用判別網(wǎng)絡模塊來區(qū)分真實源領域樣本、生成樣本和情感傾向性，進而學習領域適應的特征表示.

1 基于生成對抗網(wǎng)絡的跨領域情感分類

1.1 基于生成對抗網(wǎng)絡的跨領域情感分類模型

在跨領域文本情感分類任務中，生成對抗網(wǎng)絡學習到源領域和目標領域共享的特征表示，若模型無法對樣本數(shù)據(jù)隸屬于哪個領域做出判別，那么可認為該模型學習到了兩個領域共享的特征表示，利用該特征表示來構(gòu)建情感分類器，提高跨領域情感分類器的性能.受文獻[10]啟發(fā)，本節(jié)提出的基于生成對抗網(wǎng)絡的跨領域情感分類模型主要由4個部分構(gòu)成：表示學習網(wǎng)絡Nf、情感標簽分類器Ny、生成網(wǎng)絡Ng以及判別網(wǎng)絡Nd，如圖1所示.

圖1 基于生成對抗網(wǎng)絡的跨領域文本情感分類模型Fig.1 Cross-domain sentiment classification model based on generative adversarial network

1.1.1表示學習網(wǎng)絡Nf模塊

該模塊將輸入樣本x進行一個線性變換，映射成一個D維度的文本特征向量，即：

Nf(x)=ReLU(Wfx+bf)

(1)

其中：激活函數(shù)ReLU為修正線性單元；Wf為權(quán)值，bf為偏置值，二者均為模型需要學習的參數(shù).

1.1.2情感標簽分類器Ny模塊

該模塊是將從表示學習網(wǎng)絡Nf模塊得到的文本特征向量作為輸入，進行線性變換后，通過Softmax函數(shù)計算Nf對不同極性標簽的概率，即：

Ny(Nf(x))=Softmax(WyNf(x)+by)

(2)

其中：Wy為權(quán)值，by為偏置值，二者均為模型需要學習的參數(shù).

1.1.3生成網(wǎng)絡Ng模塊

在本研究所提模型中為了能夠更充分地利用文本上下文信息，讓生成的樣本更加接近真實樣本，通過長短時記憶網(wǎng)絡[11-12]來得到一個新生成的文本表示：

(3)

(4)

(5)

(6)

1.1.4判別網(wǎng)絡Nd模塊

該模塊旨在判斷出真實樣本和生成樣本，在該模塊中設計了兩個輸出，其中一個是判斷樣本是否為源領域的真實樣本，另一個是判斷樣本的情感傾向性.該模塊主要實現(xiàn)方式如下：

(7)

(8)

(9)

1.2 損失函數(shù)

在模型優(yōu)化階段，本研究是通過交替的方式更新模型各個模塊的參數(shù).利用生成網(wǎng)絡和判別網(wǎng)絡的對抗學習生成與源領域數(shù)據(jù)分布相似的樣本，通過這種方式來優(yōu)化特征表示學習.

① 判別網(wǎng)絡Nd的優(yōu)化目標是最大化k個兩兩樣本的判別損失總和Ed,如下式所示：

（2）隨著社會經(jīng)濟與科學技術的發(fā)展，海洋的利用率也越來越高，轄區(qū)各類航標的數(shù)量也越來越多，但一些淺灘和暗礁水域設置的航標，巡檢船舶難以靠近，給航標的巡檢工作帶來比較多的困難；

(10)

(11)

(12)

(13)

② 生成網(wǎng)絡Ng優(yōu)化目標為Eg：

(14)

③ 表示學習網(wǎng)絡Nf和情感標簽分類器Ny的優(yōu)化目標為Ef,c：

(15)

(16)

(17)

(18)

(19)

2 實驗及結(jié)果分析

2.1 實驗數(shù)據(jù)集

表1 Amazon數(shù)據(jù)集的統(tǒng)計信息Tab.1 Amazon dataset statistics

本研究采用亞馬遜數(shù)據(jù)集，包括四種不同類型的產(chǎn)品評論：Book(B)、DVD(D)、Electronics(E)、Kitchen(K).具體情況如表1所示.

2.2 基準實驗

為了證明該模型的有效性，本研究采用如下幾種基準實驗.

1)No-DA[7].該方法未進行領域適應，使用源領域標注數(shù)據(jù)構(gòu)建情感分類器，并將其應用于目標領域測試數(shù)據(jù)集進行情感分類.

2)mSDA[8].邊緣堆疊降噪自編碼器對源領域標注數(shù)據(jù)和目標領域未標注數(shù)據(jù)的所有特征統(tǒng)一進行邊緣化降噪處理，將獲得的隱層特征和原始數(shù)據(jù)作為特征空間，然后在此特征空間上構(gòu)建分類器，對目標領域特征表示進行情感分類.

3)mSDA-DANN[9].將由邊緣堆疊去噪自動編碼器(mSDA)生成的特征表示應用到領域?qū)股窠?jīng)網(wǎng)絡(DANN)中.每個例子都被編碼為30 000維的向量.

4)AE-SCL-SR[7].使用word2vec預訓練的詞向量作為模型的輸入，將自編碼器與結(jié)構(gòu)對應學習相結(jié)合，獲得低緯度的樞軸特征表示，并應用于目標領域的情感分類.

2.3 參數(shù)設置

表2 生成對抗網(wǎng)絡模型的主要參數(shù)設置Tab.2 Main parameter settings for generating adversarial network model

本研究聯(lián)合生成對抗四個組建網(wǎng)絡共同進行模型參數(shù)訓練，以交替的方式進行參數(shù)更新，以期獲得具有最好分類性能的模型，主要參數(shù)設置如表2所示.

2.4 實驗結(jié)果及分析

為了驗證本研究方法(記為GAN)在跨領域情感分類任務上的有效性，在亞馬遜四個領域數(shù)據(jù)集中進行了12組實驗，并將該方法與前述的基準實驗進行對比.以準確率作為評價指標，本研究方法與基準方法在測試集上的預測準確率計算結(jié)果如表3所示.

表3 跨領域情感分類實驗結(jié)果Tab.3 Cross-domain sentiment classification experiment results

從表3中可以看出，本研究方法在大部分的實驗組上均取得了最好的結(jié)果，特別在D→B及E→D兩組實驗上均提高了2.00%以上，總體平均精度上提高了1.00%.分析原因如下：本研究方法與基準方法相比，更注重噪聲特征對于文本表示的影響，該方法首先應用邊緣堆疊降噪自編碼器(mSDA)生成更具有魯棒性的特征表示作為輸入，初步降低了噪聲對于實驗性能的影響，在生成對抗學習網(wǎng)絡中，進一步加入隨機噪聲向量，強化共享特征，減少了領域間數(shù)據(jù)分布的差異.由此可見本研究提出的生成對抗網(wǎng)絡對文本表示中的噪聲特征進行優(yōu)化，有助于提高跨領域情感分類的預測精度.

2.5 金融領域應用分析

本研究方法在金融領域進行了拓展，收集了SemEval-2017任務5中StockTwits信息，該消息由微博消息構(gòu)成，主要關注股票市場事件以及投資者和交易者的評估.使用StockTwits信息共計2 500條，其中2 000條為無標記數(shù)據(jù)，500為標注數(shù)據(jù).結(jié)合亞馬遜4個領域數(shù)據(jù)集進行了4組拓展實驗，實驗結(jié)果如表4所示.

實驗結(jié)果表明，通過將源領域的標注數(shù)據(jù)和目標領域未標注數(shù)據(jù)相結(jié)合，可以構(gòu)建較好的情感分類模型應用于目標領域的情感分析.在金融領域的拓展實驗，也有相對較好的情感準確率，根據(jù)分析提升該金融領域分類準確率存在以下幾方面挑戰(zhàn).

表5 各領域數(shù)據(jù)集統(tǒng)計信息Tab.5 Dataset statistics for each domain

1)StockTwits消息組成的Microblog數(shù)據(jù)集，屬于短文本，如表5所示，與亞馬遜4個領域數(shù)據(jù)集相比，最長文本長度和平均文本長度均遠小于后者，這樣提取的共享特征較少，進而影響文本的分類性能.

2)金融領域相關的文本，其特定領域特征相對于其他領域而言，更具獨有性，與其他領域進行聯(lián)合訓練領域適應特征時，相對不易訓練出較好的共享特征，從而影響情感分類器分類性能.例如：flop would just get everyone running to the fences.該文本整體情感傾向為負面，而文中翻牌(flop)一詞，在其他領域相對較少出現(xiàn)，且情感傾向往往與金融領域表示不一致.

在金融領域的文本情感分類，有助于用戶時刻了解某只股票或者公司的相關信息，這樣有助于用戶采取相應的措施，同樣地，企業(yè)也可采取相應的公關策略.

3 結(jié)論

在面向金融領域的文本情感分類研究中，針對跨領域情感分析未能充分考慮文本表示中的噪聲特征的問題，提出一種基于生成對抗網(wǎng)絡的跨領域文本情感分類方法.首先將源領域和目標領域無標注數(shù)據(jù)集應用邊緣堆疊降噪自編碼器生成特征表示；然后在生成對抗的跨領域情感分類中，通過在文本表示向量中加入噪聲向量生成新樣本，利用判別網(wǎng)絡與生成網(wǎng)絡的對抗學習優(yōu)化文本表示.在亞馬遜4個領域數(shù)據(jù)集上進行的實驗結(jié)果表明，本研究提出的方法可以有效的提高跨領域文本情感分類性能.