沈翠芝
(福建師范大學協(xié)和學院,福建 福州 350117)
隨著互聯(lián)網(wǎng)和金融產(chǎn)業(yè)的迅速發(fā)展,網(wǎng)絡中的金融信息日益豐富,用戶對金融信息的需求也不斷增長[1],因此,對海量金融數(shù)據(jù)進行挖掘和研究,學習金融文本的情感傾向已成為一個重要課題.但是,目前金融領域有標注的文本語料極為匱乏,難以直接用于訓練模型.跨領域情感分類(cross-domain sentiment classification)[2],旨在利用源領域與目標領域的有用知識,對目標領域的文本進行情感分析,從而有效解決目標領域標注資源匱乏的問題.跨領域情感分類在消費者意見反饋[3]、金融風險監(jiān)控[4]和金融股票推薦[5]等典型場景,具有重要研究和應用價值.
目前將跨領域情感分類的研究分為兩大類.第一類為基于特征選擇的跨領域情感分類,該方法主要是應用源領域和目標領域之間的不變特征構(gòu)建共享特征空間,并在此基礎上進行情感傾向性分析.文獻[6]為了更高效挑選樞軸特征結(jié)合源領域標簽的互信息,通過將不同領域和樞軸特征的相關性進行建模,實現(xiàn)特征間對應關系的識別.文獻[7]構(gòu)建一個將結(jié)構(gòu)對應學習和自編碼器結(jié)合的三層神經(jīng)網(wǎng)絡模型,該方法有效提升了情感分類性能.第二類為基于特征表示學習的跨領域情感分類,該方法通過采用遷移學習的方法來學習領域適應的共享特征空間,減少領域之間的特征差異.文獻[8]建立一個邊緣堆疊降噪自編碼器模型,通過大量無標注數(shù)據(jù)得到魯棒的特征表示,該模型具有計算量少和高維數(shù)據(jù)可擴展性的優(yōu)勢.文獻[9]提出領域?qū)咕W(wǎng)絡,通過梯度反轉(zhuǎn)模塊讓情感標簽分類器和域分類器進行對抗學習,從而學習領域適應的特征表示.
鑒于此,本研究提出一種基于生成對抗網(wǎng)絡的跨領域情感分類方法,將生成網(wǎng)絡中產(chǎn)生的隨機噪聲和文本表示向量進行結(jié)合,并利用判別網(wǎng)絡模塊來區(qū)分真實源領域樣本、生成樣本和情感傾向性,進而學習領域適應的特征表示.
在跨領域文本情感分類任務中,生成對抗網(wǎng)絡學習到源領域和目標領域共享的特征表示,若模型無法對樣本數(shù)據(jù)隸屬于哪個領域做出判別,那么可認為該模型學習到了兩個領域共享的特征表示,利用該特征表示來構(gòu)建情感分類器,提高跨領域情感分類器的性能.受文獻[10]啟發(fā),本節(jié)提出的基于生成對抗網(wǎng)絡的跨領域情感分類模型主要由4個部分構(gòu)成:表示學習網(wǎng)絡Nf、情感標簽分類器Ny、生成網(wǎng)絡Ng以及判別網(wǎng)絡Nd,如圖1所示.

圖1 基于生成對抗網(wǎng)絡的跨領域文本情感分類模型Fig.1 Cross-domain sentiment classification model based on generative adversarial network
1.1.1表示學習網(wǎng)絡Nf模塊
該模塊將輸入樣本x進行一個線性變換,映射成一個D維度的文本特征向量,即:
Nf(x)=ReLU(Wfx+bf)
(1)
其中:激活函數(shù)ReLU為修正線性單元;Wf為權(quán)值,bf為偏置值,二者均為模型需要學習的參數(shù).
1.1.2情感標簽分類器Ny模塊
該模塊是將從表示學習網(wǎng)絡Nf模塊得到的文本特征向量作為輸入,進行線性變換后,通過Softmax函數(shù)計算Nf對不同極性標簽的概率,即:
Ny(Nf(x))=Softmax(WyNf(x)+by)
(2)
其中:Wy為權(quán)值,by為偏置值,二者均為模型需要學習的參數(shù).
1.1.3生成網(wǎng)絡Ng模塊
在本研究所提模型中為了能夠更充分地利用文本上下文信息,讓生成的樣本更加接近真實樣本,通過長短時記憶網(wǎng)絡[11-12]來得到一個新生成的文本表示:

(3)

(4)

(5)

(6)

1.1.4判別網(wǎng)絡Nd模塊
該模塊旨在判斷出真實樣本和生成樣本,在該模塊中設計了兩個輸出,其中一個是判斷樣本是否為源領域的真實樣本,另一個是判斷樣本的情感傾向性.該模塊主要實現(xiàn)方式如下:

(7)

(8)

(9)

在模型優(yōu)化階段,本研究是通過交替的方式更新模型各個模塊的參數(shù).利用生成網(wǎng)絡和判別網(wǎng)絡的對抗學習生成與源領域數(shù)據(jù)分布相似的樣本,通過這種方式來優(yōu)化特征表示學習.
① 判別網(wǎng)絡Nd的優(yōu)化目標是最大化k個兩兩樣本的判別損失總和Ed,如下式所示:
(2)隨著社會經(jīng)濟與科學技術的發(fā)展,海洋的利用率也越來越高,轄區(qū)各類航標的數(shù)量也越來越多,但一些淺灘和暗礁水域設置的航標,巡檢船舶難以靠近,給航標的巡檢工作帶來比較多的困難;

(10)

(11)

(12)

(13)

② 生成網(wǎng)絡Ng優(yōu)化目標為Eg:

(14)
③ 表示學習網(wǎng)絡Nf和情感標簽分類器Ny的優(yōu)化目標為Ef,c:
(15)

(16)

(17)

(18)



(19)

表1 Amazon數(shù)據(jù)集的統(tǒng)計信息Tab.1 Amazon dataset statistics
本研究采用亞馬遜數(shù)據(jù)集,包括四種不同類型的產(chǎn)品評論:Book(B)、DVD(D)、Electronics(E)、Kitchen(K).具體情況如表1所示.
為了證明該模型的有效性,本研究采用如下幾種基準實驗.
1)No-DA[7].該方法未進行領域適應,使用源領域標注數(shù)據(jù)構(gòu)建情感分類器,并將其應用于目標領域測試數(shù)據(jù)集進行情感分類.
2)mSDA[8].邊緣堆疊降噪自編碼器對源領域標注數(shù)據(jù)和目標領域未標注數(shù)據(jù)的所有特征統(tǒng)一進行邊緣化降噪處理,將獲得的隱層特征和原始數(shù)據(jù)作為特征空間,然后在此特征空間上構(gòu)建分類器,對目標領域特征表示進行情感分類.
3)mSDA-DANN[9].將由邊緣堆疊去噪自動編碼器(mSDA)生成的特征表示應用到領域?qū)股窠?jīng)網(wǎng)絡(DANN)中.每個例子都被編碼為30 000維的向量.
4)AE-SCL-SR[7].使用word2vec預訓練的詞向量作為模型的輸入,將自編碼器與結(jié)構(gòu)對應學習相結(jié)合,獲得低緯度的樞軸特征表示,并應用于目標領域的情感分類.

表2 生成對抗網(wǎng)絡模型的主要參數(shù)設置Tab.2 Main parameter settings for generating adversarial network model
本研究聯(lián)合生成對抗四個組建網(wǎng)絡共同進行模型參數(shù)訓練,以交替的方式進行參數(shù)更新,以期獲得具有最好分類性能的模型,主要參數(shù)設置如表2所示.
為了驗證本研究方法(記為GAN)在跨領域情感分類任務上的有效性,在亞馬遜四個領域數(shù)據(jù)集中進行了12組實驗,并將該方法與前述的基準實驗進行對比.以準確率作為評價指標,本研究方法與基準方法在測試集上的預測準確率計算結(jié)果如表3所示.

表3 跨領域情感分類實驗結(jié)果Tab.3 Cross-domain sentiment classification experiment results
從表3中可以看出,本研究方法在大部分的實驗組上均取得了最好的結(jié)果,特別在D→B及E→D兩組實驗上均提高了2.00%以上,總體平均精度上提高了1.00%.分析原因如下:本研究方法與基準方法相比,更注重噪聲特征對于文本表示的影響,該方法首先應用邊緣堆疊降噪自編碼器(mSDA)生成更具有魯棒性的特征表示作為輸入,初步降低了噪聲對于實驗性能的影響,在生成對抗學習網(wǎng)絡中,進一步加入隨機噪聲向量,強化共享特征,減少了領域間數(shù)據(jù)分布的差異.由此可見本研究提出的生成對抗網(wǎng)絡對文本表示中的噪聲特征進行優(yōu)化,有助于提高跨領域情感分類的預測精度.
本研究方法在金融領域進行了拓展,收集了SemEval-2017任務5中StockTwits信息,該消息由微博消息構(gòu)成,主要關注股票市場事件以及投資者和交易者的評估.使用StockTwits信息共計2 500條,其中2 000條為無標記數(shù)據(jù),500為標注數(shù)據(jù).結(jié)合亞馬遜4個領域數(shù)據(jù)集進行了4組拓展實驗,實驗結(jié)果如表4所示.
實驗結(jié)果表明,通過將源領域的標注數(shù)據(jù)和目標領域未標注數(shù)據(jù)相結(jié)合,可以構(gòu)建較好的情感分類模型應用于目標領域的情感分析.在金融領域的拓展實驗,也有相對較好的情感準確率,根據(jù)分析提升該金融領域分類準確率存在以下幾方面挑戰(zhàn).

表5 各領域數(shù)據(jù)集統(tǒng)計信息Tab.5 Dataset statistics for each domain
1)StockTwits消息組成的Microblog數(shù)據(jù)集,屬于短文本,如表5所示,與亞馬遜4個領域數(shù)據(jù)集相比,最長文本長度和平均文本長度均遠小于后者,這樣提取的共享特征較少,進而影響文本的分類性能.
2)金融領域相關的文本,其特定領域特征相對于其他領域而言,更具獨有性,與其他領域進行聯(lián)合訓練領域適應特征時,相對不易訓練出較好的共享特征,從而影響情感分類器分類性能.例如:flop would just get everyone running to the fences.該文本整體情感傾向為負面,而文中翻牌(flop)一詞,在其他領域相對較少出現(xiàn),且情感傾向往往與金融領域表示不一致.
在金融領域的文本情感分類,有助于用戶時刻了解某只股票或者公司的相關信息,這樣有助于用戶采取相應的措施,同樣地,企業(yè)也可采取相應的公關策略.
在面向金融領域的文本情感分類研究中,針對跨領域情感分析未能充分考慮文本表示中的噪聲特征的問題,提出一種基于生成對抗網(wǎng)絡的跨領域文本情感分類方法.首先將源領域和目標領域無標注數(shù)據(jù)集應用邊緣堆疊降噪自編碼器生成特征表示;然后在生成對抗的跨領域情感分類中,通過在文本表示向量中加入噪聲向量生成新樣本,利用判別網(wǎng)絡與生成網(wǎng)絡的對抗學習優(yōu)化文本表示.在亞馬遜4個領域數(shù)據(jù)集上進行的實驗結(jié)果表明,本研究提出的方法可以有效的提高跨領域文本情感分類性能.