趙傳君 , 王素格 , 李德玉
1(山西財經大學 信息學院,山西 太原 030006)2(山西大學 計算機與信息技術學院,山西 太原 030006)3(計算智能與中文信息處理教育部重點實驗室(山西大學),山西 太原 030006)
根據中國互聯網絡信息中心(CNNIC)發布的第44 次《中國互聯網絡發展狀況統計報告》,截至2019 年6月,我國網絡購物用戶規模達6.39 億,而社交軟件“微信”的全球月活躍用戶數首次突破10 億大關.隨著諸如在線評論、微博、微信和論壇社區等社會媒體(social media)的蓬勃發展,網絡上呈現出海量帶有情感的主觀性文本數據[1,2].文本情感分析專家Liu 教授將文本中的情感(sentiment)定義為“描述觀點中所蘊含的褒義或貶義的情感傾向”[3].在本文中,情感特指情感極性(傾向),是個體用戶對于產品、服務或者社會輿論等的情感認知與評價的具體體現[4].傾向性文本中的情感具有多極性,即正面(positive)、中性(neutral)或者負面(negative).按照文本情感類別的細粒度,還可以分為1~5 個星級,即強烈正面傾向、正面傾向、中性、負面傾向和強烈負面傾向.
2015 年,Hirschberg 教授指出了開展識別社會媒體中產品評價和服務中隱含的情感(sentiment)和情緒(emotion)研究的重要性[5].同年,LeCun 教授指出,深度學習在情感分析的各項任務中均取得了非常好的效果[6].社會媒體中,文本數據的大幅增加可為現有的深度學習(deep learning)模型提供豐富的數據支持[7].社會媒體中的主觀性文本蘊含著豐富的情感信息,通過挖掘這些文本的情感類別信息,可為產品推薦、客戶管理、口碑分析、新聞評論分析和股票推薦等應用提供技術支持.
遷移學習(transfer learning)自1995 年起受到了廣泛的關注和研究,亦稱作知識遷移(knowledge transfer).2005 年,美國Defense Advanced Research Projects Agency(DARPA)信息處理技術辦公室發布通告,定義遷移學習為“系統識別和應用之前任務的知識和技能到新任務的能力”.文獻[10]于2010 年將遷移學習定義為:利用數據、任務或模型間的相似性,將在舊領域學習的模型應用于新領域的一種學習過程.一般情況下,有標注數據的原始領域稱為源領域(source domain),待測試的新領域稱為目標領域(target domain).傳統的文本情感分類研究假設用于訓練和測試的領域間數據是獨立同分布的(independent and identical distributions,簡稱I.I.D.),然而,現實條件下不同領域間存在分布差異,在源領域訓練的分類器很難直接用于目標領域的情感分類任務.
在面對特定領域的情感分類任務時,往往缺乏大量的帶標簽數據,而標注需要消耗大量的人力物力,有時還需要語言學專家的支持.已有的研究積累了部分領域的帶標簽情感數據,完全丟棄這些數據是非常可惜的[8].因此,將現有的機器學習模型用于特定領域文本情感分類任務時,解決問題的思路之一是:有效利用其他領域的帶標簽數據,以擺脫對該領域標注樣本的過度依賴,提升模型的泛化能力[9].跨領域文本情感分類任務存在以下3個特點.
· 第1 個特點是數據量的不對稱性.源領域中往往帶有大量的帶標簽數據,有時還可能存在多個源領域.而目標領域標注樣本往往很稀少,這些寶貴的目標領域帶標簽信息可以為構建目標領域分類器提供有效的指導信息;
· 第2 個特點是跨領域統計的異構性.源領域和目標領域的特征分布差異性大,源領域訓練的分類器不能直接應用于目標領域任務,需要執行特定的情感遷移策略;
· 第3 個特點是領域情感的可移植性.不同領域間存在領域通用的情感特征,可以作為領域遷移的橋梁,因此核心問題就是尋找領域不變性要素.
針對跨領域異構問題,遷移學習利用源領域中帶標簽的訓練樣本建立一個可靠的模型,對具有不同數據分布的目標領域不帶標簽樣本進行預測.Yang 等人提到遷移學習可以減少跨領域情感分類的標注工作量,在某些產品上訓練的分類模型,通過遷移可以幫助建立其他產品的分類模型[10].已有的大量研究工作表明:遷移學習是解決跨領域文本情感分類的有效手段之一,主要的研究思路包括實例遷移方法、特征遷移方法、模型遷移方法、基于詞典的方法、聯合情感主題方法和圖模型方法等.
隨著卷積神經網絡(convolutional neural networks,簡稱CNN)和循環神經網絡(recurrent neural networks,簡稱RNN)等深度學習技術在自然語言處理中廣泛使用,其中詞語的分布式表示(distributed representation)和多層網絡架構具有強大的擬合和學習能力,已成為現階段自然語言處理的主流技術方案[11].深度學習在面對文本情感分類任務時往往面臨特定領域缺少大規模標注數據的問題.隨著深度遷移學習(deep transfer learning)方法在解決領域適應(domain adaption)問題取得成功,很多研究者探索采用深度遷移學習機制解決跨領域文本情感分類問題[12].
跨領域文本情感分類(cross-domain text sentiment classification)作為自然語言處理任務中的重要問題之一,一直是產業界和學術界關注的研究熱點和難點[13].國務院發布的2017 年《新一代人工智能發展規劃》提出,要實現“多風格多語言多領域的自然語言智能理解和自動生成”,跨領域文本情感分類可作為完成此任務的有效手段之一.跨領域文本情感分類涉及機器學習、知識工程、人工智能以及相關的語言學研究等[14].關于跨領域文本情感分類,年度的數據挖掘和自然語言處理頂級會議以及學術期刊已有相當多的研究報道,例如國際會議ACL,AAAI,COLING,EMNLP,ICML,NeurIPS 以及ICDM 等,重要期刊IEEE TKDE、IEEE TASLP、Knowledgebased Systems、Expert Systems with Applications、Computer Speech and Language、《軟件學報》以及《計算機研究與發展》等.
本文首先介紹了跨領域文本情感分類相關的背景知識.隨后,分別從目標領域中有無帶標簽數據、情感遷移策略和可用源領域個數這3 個角度對已有工作進行了總結.由于深度遷移學習的興起,我們還重點介紹了其在跨領域情感文本分類中的應用.我們進一步分析了跨領域文本情感分類面臨的研究挑戰和未來可能的突破方向.最后,我們對全文進行了總結.
在文本分析中,領域(domain)通常指文本內容所涉及的現實生活中的相似主題,如電子產品、酒店服務、電影評論和音樂評論等,亦可指微博、論壇等某種形式的社會媒體平臺中文本的集合.社會媒體中的主觀性文本所屬領域具有多樣性、數據來源具有多源性.表1 是4 個領域中部分正面和負面評論的例子,由表1 中的評論可以發現:不同的領域中用戶傾向于使用不同的情感詞表達情感特征,例如電影評論領域的詞“無聊”和酒店評論領域的詞“舒服”,Books 領域的詞“thin”(薄)和DVDs 領域的詞“stuck(卡住)”等.另外,同一個情感詞或者短語在不同領域中的情感極性可能是不同的甚至是相反的.例如:酒店評論領域的“軟”表達了正面的情感傾向,而電影評論領域的“軟”則表達了負面的情感傾向.因此,當源領域訓練的分類器轉移到另一個新的領域時,由于源領域和目標領域不滿足數據獨立同分布假設,分類效率和精度會出現明顯下降[15].

Table 1 Eight examples of positive and negative sentiment reviews from four domains in Chinese and English表1 中文和英文4 個領域中8 個正面和負面情感傾向評論例子
數據驅動的分類模型的性能需要滿足兩個基本假設:一是用于學習的訓練樣本與新的測試樣本滿足獨立同分布;另一方面是必須有足夠多的訓練樣本才能得到一個好的分類模型[16].我們看到:跨領域文本情感分類放寬了這兩個基本假設,它被定義為通過遷移源領域和源領域任務的情感信息到目標領域,利用由源領域帶標簽數據學習的一個精確情感分類器,實現對目標領域的情感極性分類任務.
在文本情感分類任務中,X是文本集,x={w1,w2,…,wT}∈X為包含一系列詞wi的評論文本.在傳統文本情感分類任務中,文本由詞的獨熱(one-hot)表示.在深度學習模型中,詞wi由word2vec 表示為一個d維向量,即.詞向量矩陣記為E∈RV×d,這里,V為詞典的大小,d為詞向量的維數.Y是情感分類的標簽空間,對于二分類任務Y={正面,負面},對于5 級細粒度情感分類任務Y={強烈正面,正面,中性,負面,強烈負面}.每個訓練樣本記為(x,y),y∈Y是訓練樣本x的標簽.
在文本情感分類問題中,領域D被認為是某個特征空間X及其上的概率分布P(X),通常情況下,P(X)是未知的.跨領域文本情感分類涉及多個領域,不同的領域其特征空間和對應的概率分布不同.源領域訓練數據記為DS={(xi,yi)|1≤i≤N},源領域分布為PS(X).DL={(xi,yi)|1≤i≤n}為目標領域中帶標簽數據集,DU={xi|1≤i≤p}為目標領域測試數據集,DT=DL∪DU為目標領域數據集,分布為PT(X).一般情況下,源領域數據規模遠大于目標領域數據規模,即|DS|>>|DL|.
從標記空間角度,本文將討論兩種情形的跨領域文本情感分類:一是源領域和目標領域的標記空間是相同的,即YS=YT;另一種是源領域和目標領域的標記空間是不同的,即YS≠YT.
已有研究工作積累了大量跨領域文本情感分類語料資源,如亞馬遜(Amazon)英文DVDs,Books,Electronics和Kitchen 等4 個領域的在線評論語料是研究者們使用最多的數據集.已有的數據集資源見表2,其中多為英文數據集,如文獻[2,8,14,17-66].其次是中文數據集,如文獻[67-74],也有少量的German,French 和Japanese 評論數據集,如文獻[75-77].已有數據集多為在線產品評論數據,也有少量的博客數據集[62]、微博數據集,如Stanford Twitter Dataset Test Set(STS),Obama Healthcare Reform(HCR)和Obama-McCain Debate(OMD)等[60].這些數據集普遍規模不大,規模較大的有:Amazon 4 種領域的大規模數據集[25];文獻[63]中的IMDB,Yelp,Cell phone 和Baby數據集;文獻[66]中的Large Movie Review 數據集等.

Table 2 Dataset resources of cross-domain texts sentiment classification表2 跨領域文本情感分類數據集資源

Table 2 Dataset resources of cross-domain texts sentiment classification (Continued)表2 跨領域文本情感分類數據集資源(續)
跨領域文本情感分類研究面臨以下4 點關鍵技術問題.
(1) 弱監督條件下的標簽數據依賴(dependency of labeled data)問題.傳統機器學習模型需要大量的標簽數據支持,而數據標注費用高昂,對于特定任務構建大規模高質量標注數據非常困難.因此,情感遷移建模中弱監督條件下的標注數據依賴是一大重要挑戰;
(2) 目標領域缺乏高質量標簽數據(lack of comprehensive data annotation)問題.即使在特定任務/領域下訓練好的模型也往往存在可擴展性差的問題,當目標領域缺乏高質量標簽數據時,如何建模情感遷移是一個重要挑戰;
(3) 不同領域情感分布的差異鴻溝(distribution gap)問題.文本中情感的表達具有領域依賴性,這導致了不同領域的情感分布差異是非常明顯的,在源領域訓練的模型很難直接應用于目標領域中,需要執行特定的情感遷移策略;
(4) 數據來源具有多源性(multi-source domains)問題.社會媒體的主觀性文本可以屬于不同主題的領域,在面對特定目標領域的情感分類任務時,可能有多個源領域的帶標簽數據進行訓練,而多個源領域的情感分布與目標領域是不同的,需要有效融合多個源領域的情感信息.
針對以上技術問題,跨領域文本情感分類研究主要解決以下3 個問題:(1) 克服領域間情感分布差異,利用源領域的帶標簽情感數據實現不同領域的情感知識遷移;(2) 目標領域可能有少量帶標簽數據(但不足以訓練一個有效的分類模型),如何有效避免過擬合問題;(3) 并非所有的源領域數據對于目標領域分類均有積極作用,如何選擇合適的源領域數據避免所謂的負遷移(negative transfer)現象[67].
認知科學的研究表明:人類大腦能夠借鑒地處理不同領域的任務,并能很自然地從一項技能遷移到另一項技能中.關于如何模擬人類大腦的認知過程解決現有的跨領域文本情感分類問題,研究者多采用遷移學習(transfer learning)或領域適應(domain adaptation)的方法[68,73].情感遷移學習是指遷移源領域的情感信息和模型到新的目標領域.而領域適應是指從一個或者多個源領域中獲取知識和經驗,適應到與源領域分布不同的目標領域的過程[69].
盡管不同領域之間存在分布差異,不同領域的情感知識仍然是可遷移的.主要原因有兩個:(1) 大多數單詞或短語在所有領域和任務中表達相似的情感極性,這表明不同領域的情感分類任務可以共享多個領域通用的情感特征;(2) 不同任務和領域中情感的表達方式是非常相似的,用戶往往遵循相似的句法結構和語法規則.
關于跨領域文本情感分類,最早可追溯到2005 年Anthony 等人[17]在目標領域缺少大量帶標簽數據的情況下提出了4 種研究策略,將在源領域訓練的情感分類器適應到新領域中.按照不同的角度,我們可以對已有的工作進行分類,主要的角度有3 個,分別是按照目標領域中是否有帶標簽的數據、不同的情感適應性策略和可用源領域的個數等.本文將在第2 節按照這3 個角度對已有的跨領域文本情感分類工作進行總結.隨著深度遷移學習方法的興起,本文在第3 節對其在跨領域文本情感分類中的應用進行了重點介紹.
綜上所述,跨領域文本情感分類利用已有的源領域標注數據輔助目標領域的文本情感分類任務,不僅可以減少新領域數據標注工作量,而且可以顯著提高源領域標注資源的利用率,是很多機器學習和自然語言處理專家關注和研究的課題之一.情感遷移學習將在大規模數據環境下學習到的情感知識遷移到特定的小眾領域,可以拓展情感語義分析的應用場景,有效解決特定領域數據標記不足問題,還可以為社會媒體情感分析提供新的研究思路,實現對蘊含于主觀性文本中情感的全面和深層次理解.
如前所述,遷移學習或者領域適應的方法是實現情感遷移的主要方法,而目標領域分類預測的有效性很大程度上取決于源領域與目標領域之間的相關性程度以及所采用的遷移算法.已有的跨領域情感分類問題的主要解決思路有:
(1) 按照目標領域中是否有帶標記的數據(whether there is labeled data in the target domain),可以分為直推式和歸納式的跨領域情感分類方法:在歸納式條件下,目標領域有少量的帶標簽數據,但是數量不足以訓練一個好的情感分類器;在直推式的情況下,目標領域中沒有任何帶標簽數據,相比較歸納式的情況更有挑戰性;
(2) 根據不同的情感遷移策略(sentiment transfer strategies),可以分為實例遷移方法、特征遷移方法、模型遷移方法、基于詞典的方法、聯合情感主題方法和基于圖模型方法等;
(3) 根據可用的源領域個數(available number of source domains),可以分為單源領域和多源領域的跨領域情感分類方法.
不同視角的跨領域文本情感分類代表性方法如圖1 所示.不同年度的跨領域文本情感分類代表性方法如圖2 所示.

Fig.1 Cross-domain text sentiment classification methods from different perspectives圖1 不同視角的跨領域文本情感分類方法

Fig.2 Timeline of cross-domain text sentiment classification methods圖2 不同年度的跨領域文本情感分類代表性方法
根據目標領域有無可用的帶標簽數據,跨領域文本情感分類可以分為直推式的情感遷移方法(transductive sentiment transfer method)和歸納式的情感遷移方法(inductive sentiment transfer method),兩種方法的流程如圖3所示.

Fig.3 Schematic diagram of transductive and inductive cross-domain sentiment classification processes圖3 直推式和歸納式的跨領域文本情感分類流程示意圖
2.1.1 直推式情感遷移方法(transductive sentiment transfer method)
如圖3 所示:在目標領域沒有任何帶標簽數據的情況下,直推式情感遷移方法使用來自源領域的帶標簽樣本訓練情感分類器,然后遷移此情感分類器到另一個不同的目標領域中.例如,2005 年,Anthony 等人[17]提出了4種適應情感分類器到新領域(目標領域)的策略,發現Na?ve Bayes-EM 算法能夠充分利用目標領域不帶標簽數據取得了最好的結果.楊文讓等人[26]選擇高可信度的目標領域文本加入到訓練集中,同時去除源領域距離“質心”較遠的文本,通過此過程,有效減少了領域分布差異,在Amazon 產品評論數據集上達到了74.6%的平均準確率.為解決在沒有目標領域數據的輔助下構建高效分類器問題,Matthew 等人[78]結合領域詞典之間余弦相似度適應性形式用于新的目標領域有效模型構建.吳瓊等人[70]首先根據源領域帶標簽數據對目標領域進行分類,將得到的高置信度文本作為“源點”和“匯點”,再根據物理學熱傳導模型得到目標領域不帶標簽樣本最終的情感分.實驗結果表明,該方法在書籍、酒店和電腦評論數據集上實現了71.5%的平均分類準確率.
2.1.2 歸納式情感遷移方法(inductive sentiment transfer method)
文本情感分類是一個領域依賴問題,然而許多領域中僅有少量的帶標簽數據不足以支持訓練有效的情感分類模型.如圖3 所示:與直推式的情況不同,在歸納式的條件下,源領域中有大量的帶標簽數據,目標領域中有少量的帶標簽數據.在此條件下,跨領域文本情感分類的目標是在源領域和目標領域的帶標簽數據的共同幫助下訓練跨領域情感分類器.例如,趙傳君等人[2]提出了一種基于分組提升集成的跨領域情感分類方法.為了更有效地利用目標領域的帶標簽數據,目標領域文本初始標簽算法(initial data labeling algorithm)首先利用少量人工標注的目標領域數據,基于合成過抽樣技術產生一定量的虛擬數據,得到新的數據集.在此基礎上,采用自適應提升(Boot Strapping)方法獲得目標領域更多的高可信度的帶標簽數據.再將源領域數據等量分割與目標領域數據組合,在每個組合塊上進行適應性提升.最后將得到的多個分類器進行線性集成,得到目標領域上的分類器,在Amazon 產品評論數據集上實現了79.3%的平均準確率.此外,Deshmukh 等人[25]首先抽取和分類源領域的觀點詞,使用目標領域帶標簽數據聯合二部圖聚類和改進的最大熵模型預測目標領域的觀點詞,在Amazon 產品評論數據集上實現了80.69%的平均準確率.
2.2.1 實例遷移方法(instance transferring based method)
由于領域間的情感分布差異,在源領域中,只有部分訓練數據對于目標領域是有用的.實例遷移方法的思路是:根據對于目標領域的重要性,對源領域數據進行加權適應,用于訓練目標領域的情感分類模型.其中,權重選擇與相似度度量往往依賴經驗知識.
例如,Robert 等人[61]提出了一種從源領域訓練集中選擇與目標領域最相似的樣本的領域自適應方法,并在半監督跨領域文本層次情感分類實驗評估了此方法.領域Di和Dj的JS(Jensen-Shannon)散度由Kullback-Leibler距離得到,見公式(1)和公式(2):

在此方法中,初始的源領域訓練集大小由源領域和目標領域的領域相似度和領域復雜性自動確定.他們在Multi-domain sentiment dataset v2.0 數據集上取得了73.4%的平均準確率.
Xia 等人[28]提出了一種基于特征集成和樣本集成的聯合遷移策略.他們首先使用特征集成策略學習一個新的標記函數重新計算新的特征,使用基于PCA 的特征選擇方法進行實例適應,在Amazon4 種產品評論數據集實現了77.5%的平均準確率.Xia 等人[29]還提出了基于PU 學習的實例選擇和實例權重方法.PU 學習首先學習一個目標領域的選擇器,高概率值的樣本被選作訓練數據.校準后的目標領域權重被用作樣本權重訓練一個基于最大加權似然樸素貝葉斯模型.在Movie 領域遷移到Multi-domain sentiment datasets 數據集達到了77.1%的平均準確率,在Video 數據集遷移到12 個評論數據集取得了79.9%的平均準確率.為了選擇對于目標領域合適的源節點,Lin 等人[30]提出了一種基于樹的回歸模型,該模型使用樹結構化的領域表示,聯合了領域相似性和領域復雜度,預測從多個源節點到目標節點的準確性損失,在Amazon Electronics,Books 和Kitchen 數據集上實現了77.37%的平均遷移準確率.Domeniconi 等人[31]通過馬爾可夫模型結合遷移學習和情感分類任務,使用極性依賴的詞進行分類取得了很好的結果,在Amazon4 種產品評論數據集上達到了75.88%的準確率.
2.2.2 特征遷移方法(feature transferring based method)
情感在不同的領域中被不同的特征詞表達,在源領域出現的情感詞可能不會出現目標領域中,因此特征的分布差異阻礙了跨領域的情感遷移.特征遷移方法主要是基于特征映射的方法,旨在發現領域特定特征和領域共享特征之間的關聯.在執行領域適應之前,一個重要的預處理步驟是選擇領域共享(樞紐)特征的集合.已有的跨領域情感分類實驗表明,適應性的特征表示對于減少領域之間的差異是非常有效的.
例如,Blitzer 等人[79]使用源領域和目標領域不帶標簽的數據學習跨領域共享特征表示,提出了一種結構一致化學習(structural correspondence learning,簡稱SCL)方法.領域共享(樞紐)特征被定義為有較高互信息的極性特征,SCL 的核心思想是:通過建立領域特定特征和共享特征的相關性,識別來自不同領域的特征相關性,使用領域共享表示訓練的判別式模型可以更好地推廣到目標領域.Yftah 等人[62]結合結構一致化學習和神經網絡模型,首先學習輸入樣本領域共享特征的低維表示,再將低維表示用于學習此任務的學習算法.通過引入預訓練的詞向量到模型中,利用相似的共享特征提高跨領域的泛化能力.魏現輝等人[68]改進傳統的SimRank 算法,以領域間的共享特征作為橋梁構建潛在的特征空間,將源領域和目標領域的樣本映射到潛在的特征空間中,有效減少了源領域和目標領域之間的分布差異.張博等人[32]結合傳統的典型相關性分析和特征遷移學習策略,分析領域特定特征和共享特征之間的關聯,并選擇合適的基向量訓練線性分類器.張玉紅等人[33]根據詞頻和對數似然比信息挖掘在源領域帶情感極性,且在目標領域判別性較高的特征,構建了不同領域之間的共享特征空間.
在領域共享(樞紐)特征(pivot features)作為橋梁的幫助下,Pan 等人[24]提出一種譜特征對齊(spectral feature alignment,簡稱SFA)算法對齊來自不同領域的領域特定特征.特征和領域之間的互信息建模見公式(3):

在此方法下,聚集的簇可以減少兩個領域的領域特定詞的差異,用于訓練目標領域的精確分類器.在Amazon 4 種領域評論數據集和SentDat 數據集上分別達到了77.71%和75.41%的平均準確率.
類似地,Wang 等人[74]創造了情感相關索引(sentiment related index)衡量特定領域中不同的詞匯元素之間的關聯,并提出了一種基于情感相關索引的跨領域情感分類算法,在RewData 數據集(Computer,Education 和Hotel)和DoubanData 數據集(Movie,Music 和Book)上達到了82.3%的平均準確率.Wei 等人[34]提出了跨領域語義相關自動對應方法,捕捉來自不同領域的相似語義特征.抽取源領域和目標領域共同的前N個共享特征,構建表達相似特征對并轉換為相似的情感特征表示,有效減少了領域情感差異性.Tareq 等人[80]使用條件概率聯合關聯度量源領域和目標領域的遷移特征,利用樸素貝葉斯模型和3 種特征選擇方法(信息熵、比值比和卡方檢驗)應用到跨領域情感分類任務中.Zhang 等人[75]提出了一種基于遷移學習的非負矩陣分解策略,用相似的特征簇遷移知識,通過連接相似的特征簇進行情感分類.在相似的詞聚類矩陣和相似的約束加入到知識遷移函數中,可以應用到跨語言和跨領域情感分類任務中.Zhang 等人[58]遷移源領域特征的極性到目標領域,使用領域共享的特征作為橋梁.
2.2.3 模型遷移方法(model/parameter transferring based method)
基于模型或參數遷移的跨領域情感分類研究假設相關的文本情感分類任務的模型共享部分參數或超參數的先驗分布.已有的方法致力于利用源領域的模型提升目標領域的表現,主要解決兩個問題:(1) 共享模型中的哪些參數;(2) 如何共享參數,即選用何種方法實現模型參數的遷移.
例如,Bollegal 等人[23]將跨領域情感分類看作是嵌入式學習任務,構造了3 種目標函數,分別是共同特征的分布式屬性、源領域文本的標簽約束信息、源領域和目標領域不帶標記樣本的幾何特性.為解決一個領域訓練的分類器在不同的領域表現不好的問題,尤其是帶標記數據的分布和不帶標記數據的分布不一致的時候,Zhu等人[81]使用神經網絡上的特征對齊(feature alignment)方法用于跨領域情感分類任務,使用了基于SVD 分解的方法,見公式(4):

其中,Mm×n為文本矩陣,U和V為正交矩陣,Σm×n為對角矩陣.通過分解,可以有效地過濾掉噪聲特征.
Li 等人[35]針對跨領域文本情感分類問題提出了一種端到端的對抗記憶網絡框架,包括兩種參數共享記憶網絡,分別是是情感分類和領域分類.通過聯合訓練這兩種網絡,使得選擇的特征能夠最小化情感分類錯誤率,同時獲得源領域和目標領域的表示.為解決情感分類的領域適應性問題,Bach 等人[36]提出了利用通用方法進行特征學習和特征子空間映射,并將詞嵌入和典型相關性分析應用到在跨領域情感分類任務.Glorot 等人[37]提出了一種深度學習策略,解決情感分類器的領域適應性問題.通過用一種堆疊去燥自編碼(stacked denoising autoencoders)獲得每篇評論的有意義的表示,在Amazon 4 種類型的產品評論實驗表明,用高層次特征訓練的情感分類器要好于基準方法.借鑒結構一致化學習策略,Yu 等人[82]用神經網絡架構研究跨領域的情感分類問題,利用兩個輔助的任務提升句子嵌入在跨領域情感分類上的表現,聯合學習句子嵌入和情感分類器的方法,在英文電影、相機、筆記本電腦和餐館數據集上達到了79.6%平均準確率.
2.2.4 基于詞典的方法(lexicon based method)
已有的研究積累了大量的情感詞典資源,基于詞典的方法利用領域通用的情感詞典知識和領域特定的語料生成領域特定的情感詞典,以此解決跨領域的文本情感分類問題.例如,Mao 等人[83]提出了一種聯合情感詞典和機器學習的跨領域中文產品評論情感分類方法.首先適應領域通用的詞典到書籍、酒店和電子產品領域中,然后根據情感詞、N元語法、統計信息和基于詞典方法的結果共16 個特征構建分類器.通過使用不同的詞典和分類器評估提出的方法,在中文Hotel,Electronics 和Book 數據集上實現了86.8%的平均準確率.
Dolores 等人[84]針對西班牙語酒店領域開發了一種無監督極性分類系統,引入領域獨立的詞典為SOL 和iSOL,旅游詞典為加入領域知識的eSOLHotel,并在酒店領域評估了這3 個情感詞典的分類表現.Bollegala 等人[21]使用源領域的標記數據、源領域和目標領域未標記的數據創建一個情感敏感的分布式同義詞庫,給出特征ui和文檔d的排序分score(ui,d),見公式(5):

他們使用同義詞庫的擴展特征在分類器上進行訓練和測試,并在單源和多源領域、有監督和無監督的領域適應和各種相似度度量方法進行了實驗驗證,在Amazon 4 種領域數據集上達到81.91%的平均準確率.
Rishabh 等人[38]使用多領域的不帶標簽的評論和K-SVD 算法學習到一個基于稀疏表示的詞典,從而實現自學習的目標.給定一組樣例集Y,K-SVD 的目標是找到一個詞典D和一個系數矩陣X,最小化表示誤差:

其中,γi表示矩陣X的某一行,為表示非0 的個數.此方法在Amazon 4 種領域評論數據集實現了81.25%的平均準確率.
類似地,Li 等人[39]從爛番茄(rotten tomatoes)網站和IMDB 論壇帶星級的電影評論中學習語言表示和能夠表達評論觀點的情感詞,提出了一種新的情感遷移機制:通過在源領域和目標領域的詞-文本矩陣進行受約束的非負矩陣分解,成功地遷移這些知識到目標領域中.
2.2.5 聯合情感主題方法(sentiment-topic joint based method)
主題模型(topic model)是以非監督學習的方式對文集的隱含語義結構(latent semantic structure)進行聚類(clustering)的統計模型[85],主題模型被用于自然語言處理中的語義分析(semantic analysis)和文本挖掘(text mining)問題,例如按主題對文本進行收集、分類和降維等[86].聯合情感主題的方法假設源領域和目標領域共享某些特定的主題,這些主題可以作為連接不同領域之間的橋梁.例如,產品評論的各個領域中往往都有“價格”(price)屬性,電子產品評論中都有“屏幕(screen)”和“電池(battery)”等屬性.
He 等人[87]通過改進主題依賴聯合模型抽取極性依賴的主題,將這些主題加入到初始的特征空間中,利用擴展的特征和信息增益標準進行特征選擇,在跨領域情感分類任務上取得了很好的效果,此方法簡單且不需要困難的參數調試過程.相比較領域內(in-domain)測試的結果,他們提出的Joint sentiment-topic(JST)模型在IMDB 的電影數據集和Amazon 4 種領域評論數據集達到了平均4.1%的平均適應性損失.為了搭建領域間的橋梁,Zhou等人[40]提出了主題一致性遷移(topical correspondence transfer)算法.每篇文本被表示為詞-文本矩陣的形式,包含了領域特定主題和領域共享主題.共有的主題的一致性可以作為橋梁減少領域之間的差異性,在Amazon 4 種領域評論數據集上達到了79.43%的平均準確率.Yang 等人[12]提出了一種Link-Bridged 主題模型,利用輔助連接網絡發現文本之間直接或者間接的共引關系,挖掘出的共引關系可以作為不同領域的連接橋梁.Suman 等人[88]針對社交流媒體和傳統媒體領域之間的實時遷移學習,提出了一種可擴展的SocialTransfer 模型.使用在線流LDA 模型學習社交流媒體的主題,利用來自于社交媒體和視頻領域抽取的主題構建起中介主題空間.再使用譜學習(spectral learning)的方法學習跨領域的共享特征表示,最后通過更新遷移拉普拉斯矩陣(laplacian matrix)得到主題.源領域為10.2 million Twitter 數據,目標領域為5.7 million YouTube 數據,在YouTube 的7 個領域上,實現了75.5%的評論準確率.
Huang 等人[41]提出了一種主題相關適應性提升(topic-related trAdaBoost)跨領域情感分類框架.他們認為:主題分布捕捉文檔的領域信息,對于跨領域情感分類是有價值的.實驗結果表明:TR-TrAdaBoost 表示的文檔提升跨領域的表現和魯棒性,在Amazon 4 個領域評論數據集上達到了76.0%的平均準確率.張慧等人[73]根據4 種評價對象:整體、硬件、軟件和服務,每種評價對象構建獨立的分類器,每個評價對象看作是一個獨立的視圖,使用協同學習(collaborative learning)的方法進行跨領域情感分類任務,在中文4 個領域(酒店(hotel)、筆記本(notebook)、家具(furniture)、數碼相機(digital camera))數據集上遷移到Hotel 和Notebook 領域達到了75.0%和59.0%的F值.
2.2.6 基于圖模型的方法(graph based method)
基于圖的算法被廣泛應用于半監督和跨領域的研究問題中,對于解決數據受限問題非常有效.基于圖模型的跨領域情感分類方法通過構建不同領域之間的情感傳播圖,實現源領域到目標領域的情感傳遞.在情感傳播圖中,節點為情感特征或者文檔,邊為他們之間的語義關系.節點之間的相似度越大,則具有較高的情感相似度;反之則越低.
例如,Arun 等人[89]提出了一種基于圖的遷移學習研究,使用用戶-文本-特征的三部圖從帶標簽的樣本、用戶和關鍵詞特征到不帶標記樣本中傳播情感信息,通過排除一致的用戶在不同的領域間具有不一致的行為解決“負遷移”問題.吳瓊等人[69]將源領域和目標領域中文本和詞的4 種關系納入到隨機游走模型中,待算法收斂時得到文本穩定的情感分,以此判斷目標領域文本最終的情感傾向.此外,Wu 等人[71]將圖排序算法應用到跨領域情感分類中,將源領域的精確標簽和目標領域的偽標簽進行迭代,最終得到測試文本的精確情感分,情感分的計算見公式(8):

其中,i=1,2,…,n,α+β=1,為歸一化的相似度,為情感分,為行歸一化后的鄰接矩陣.
Giacomo 等人[42]提出了一種基于馬爾可夫鏈理論的跨領域情感分類方法.基本的思想是對詞在語料中的語義分布信息進行建模,首先將文檔語料表示為圖,每個不同的詞為一個結點,不同的共現詞之間有一個連接.構建馬爾可夫轉移矩陣,其中,狀態表示詞或者類別,從源領域的領域特定詞到目標領域特定詞之間遷移學習.在Amazon 4 種領域評論數據集上實,現了77.75%的平均準確率.
Wu 等人[72]通過充分融合文本和詞的4 種關系,在不同的領域中遷移情感信息,提出了一種迭代的增強學習研究.文本(詞)的情感分由它相互關聯的文本和詞決定,更新后的文本(詞)的情感分同樣也會影響和它相互關聯的文本和詞.在Book,Hotel 和Notebook 數據集實現了75.2%的平均準確率.Natalia 等人[43]將基于圖的標簽傳播算法(label propagation algorithm)應用到情感分類任務中.他們研究了修改的圖結構和參數變化,比較了基于圖的算法在跨領域和半監督的情況下的表現,在Amazon 4 種領域數據集上達到了78.4%的平均準確率.
以上方法僅從單個源領域遷移情感信息,當源領域和目標領域的特征分布有顯著不同時,適應性表現會顯著下降[89].在存在多個源領域數據集的前提下,多源遷移學習方法提取的遷移知識已不再局限于單個源領域,而是來自于多個源領域[59].大部分多源跨領域情感分類研究主要專注于目標領域數據樣本稀缺問題和如何利用多個源領域數據,多采用基于實例遷移或者參數遷移的方法.
從實例遷移的角度看,Xu 等人[90]提出了一種多視角適應性提升(multi-view adaboost)多源領域遷移學習算法.他們認為:所有的源領域和目標領域任務是成分視角,每個任務可以從不同的視角下學習.此方法不僅利用了多個源領域的帶標簽數據幫助目標任務學習,而且同步地考慮如何在不同視角下的遷移.Fang 等人[91]通過抽取在多個源領域標簽的共享子空間,提出一種多標簽共享子空間的多領域遷移學習方法.此方法轉換目標領域的樣本到多標簽樣本,能夠分析預測標簽和多個源領域的關系.Sun 等人[44]提出了一種二階段領域適應性方法(MDA),能夠從多個源領域中聯合加權數據:第1 階段為邊際概率差異,第2 階段為條件概率差異.最小化條件概率的權重由同時計算多個源領域之間的潛在的交互作用,在Amazon 4 種領域評論數據集上實現了60.14%的平均準確率.Hu 等人[45]提出了一種基于類分布的多源領域適應性算法(MACD),類分布信息被用于從所有的源領域中選擇一些適應性基分類器,選擇的“自標簽”樣本根據源領域和目標領域的相似度被動態地加入到訓練數據中.最終使用類分布信息構建集成分類器,在Amazon 4 種領域評論數據集上實現了79.75%的平均準確率.Li等人[46]在多個源領域適應到一個特定領域的情況下,提出了一種多標簽一致訓練框架.首先在多個領域的帶標簽數據上使用不同的學習算法、訓練數據和特征集訓練基分類器,各種不同的規則聯合基分類器構建多分類器系統框架,在Amazon 4 種領域評論數據集上達到了80.1%的準確率.
從參數遷移的角度看,Tan 等人[92]定義了多視角和多源領域的遷移學習,提出一種新算法協同利用不同視角和源領域的知識,通過不同源領域互相協同訓練的方法,可以彌補不同領域之間的分布差異.Zhuang 等人[47]提出了一種多個源領域的遷移學習框架(CRA),在此框架中,利用自編碼器構造從初始的樣本到隱含表示的特征映射,從源領域的數據中訓練多個分類器,通過執行基于熵一致正則化矩陣完成目標領域樣本的預測.Wu 等人[48]在從不帶標簽的目標領域數據中詞的情感極性關系的幫助下,提出了一種基于情感圖的領域相似性度量方法,相似的領域通常會共享共同的情感詞和情感詞對,在Amazon 4 種領域評論數據集上實現了81.97%的平均準確率.Yoshida 等人[93]提出了一種貝葉斯概率模型處理多個源領域和多個目標領域的情況.在此模型中,每個詞有3 個要素:領域標簽、領域共享/特定、詞的極性.從帶標簽和不帶標簽的文本中使用Gibbs 采樣推斷模型的參數,同時能表明每個詞的極性是領域特定還是領域共享的.他們抽取出的領域共享詞有:正面great,good,best,excellent;負面bad,instead,actually,wrong;中性quite,long,right away.Electronics 領域的領域特定詞為small,light,soft,Kitchen 領域的領域特定詞為stainless,sturdy,fresh,healthy.趙傳君等人[94]從參數遷移和集成學習的角度,提出了一種基于集成深度遷移學習的多源跨領域文本情感分類方法,通過遷移學習實現源領域到目標領域的模型遷移,最終通過集成學習方法聯合各基分類器輸出.
我們對傳統的領域適應綜述中的代表性方法在亞馬遜英文DVDs,Books,Electronics 和Kitchen 等4 個領域的在線評論語料的結果進行了展示,見表3.
由表3 可以發現:相比較6 種單源跨領域文本情感分類方法,多源領域條件下的實例遷移和參數遷移方法均取得了較好的結果.這表明在多個源領域的條件下,充分利用多個源領域的數據,可以有效提高跨領域情感分類的準確率.多源領域優勢在于可以利用多個源領域的信息訓練更魯棒的模型,難點在于如何選擇合適的源領域和如何融合多個多領域的情感信息.
在跨領域文本情感分類研究初期,研究者多采用實例遷移和特征遷移的方法,這兩種方法較為直觀,具備良好的可解釋性.其中:實例遷移方法具有良好的理論支撐,有清晰的泛化誤差上界,但是此類方法在不同領域間差異較大時效果往往并不理想;特征遷移方法尋求領域通用情感特征,將源領域和目標領域的數據特征映射到統一的特征空間,可以有效減少不同領域表示上的差距.模型遷移要求不同領域訓練的模型盡可能接近,由于深度遷移方法的興起,大多數模型遷移的方法結合深度神經網絡模型,也是絕大多數跨領域情感分類研究工作的熱點.在6 種方法中,基于詞典的方法取得了較好的結果,但是依賴于已有的情感詞典資源和人工勞動.聯合情感主題和基于圖模型的方法結合了傳統的主題模型和圖模型方法,也是解決跨領域文本情感分類的重要方法.

Table 3 Different sentiment transfer strategies,methods and classification effects表3 不同情感遷移策略、方法及其分類效果
深度學習模型通常是帶有很多隱藏層和參數的神經網絡,所以需要大量訓練數據才能取得好的結果,否則非常容易過擬合[33].然而,標注特定領域的大規模數據是非常困難的.近年來,遷移學習中的子領域深度遷移學習受到了廣泛關注和研究,特別是在圖像識別、自然語言處理等領域取得了很大成功[95].深度遷移學習通過共享源領域和目標領域的模型結構和部分參數,將源領域中學到的特征表示遷移到目標領域中,以此利用深度神經網絡的可遷移性,提高目標領域的任務表現.深度遷移學習可以放松領域獨立同分布的假設,有效減少目標領域訓練數據的規模,還可以有效避免過度擬合現象.
已有的深度神經網絡實驗表明,較淺的層往往學到的是領域通用特征.隨著網絡層數的逐漸加深,特征逐漸領域特定化,可遷移性也隨之降低.在網絡更高層次上計算的特征很大程度上依賴于特定的數據集和任務[98].深度遷移學習模型的遷移能力主要受到兩個因素的影響:(1) 深度模型在越深的層,其領域相關性越強,即只能完成領域特定的任務,而較淺的層可遷移性越高;(2) 模型在優化過程中,層與層之間參數的優化具有關聯性.因此在模型遷移時,需要固定淺層網絡的結構和參數,重新訓練高層參數,可以提高模型泛化性.
微調策略(fine-tuning)是一種有效的深度遷移學習技術[32].在深度遷移學習的背景下,對預訓練的源領域深度神經網絡進行微調是學習特定任務常用的策略.微調策略的步驟主要有:首先訓練源領域深度神經網絡,將它的前N層復制到目標網絡的前N層,目標網絡的剩下的其他層則隨機進行初始化.在使用目標領域訓練數據進行誤差反向傳播訓練神經網絡的時候有兩種策略:(1) 固定源領域遷移過來的模型和參數,即在訓練目標任務時保持改變;(2) 執行微調策略,即在訓練過程中可以不斷調整其參數權重.
下面給出深度遷移學習的形式化定義:給定源領域DS和源任務TS,目標領域DT和目標任務TT,深度遷移學習致力于使用DS和TS中的知識,幫助提高DT中預測深度神經網絡函數fT(·)的學習.其中,D={X,P(X)},DS≠DT意味著源領域和目標領域實例不同XS≠XT,或者源領域和目標領域邊緣概率分布不同PS(X)≠PT(X).同理,T={Y,P(Y|X)},TS≠TT意味著源領域和目標領域標簽不同(YS≠YT),或者源領域和目標領域條件概率分布不同(P(YS|XS)≠P(YT|XT)).
在文本特性社會媒體的跨領域情感分類任務中,需要深入理解語言表達的機理和情感遷移的機制.構建大規模、高質量的帶標注數據集非常困難,而深度遷移學習可以顯著降低目標領域對帶標簽數據的需求,因此深度遷移學習被廣泛應用于跨領域情感分類任務.作為解決跨領域文本情感分類問題的新途徑和有效手段,深度遷移學習方法主要分為兩個步驟:首先,選取合適的深度情感語義組合方法;然后選擇合適的深度遷移學習算法,有效地遷移相關的情感知識.
我們沿用Tan 等人在文獻[95]中對深度遷移學習的分類方法,將深度遷移學習分為4 類:基于實例的深度遷移學習、基于映射的深度遷移學習、基于網絡的深度遷移學習和基于對抗的深度遷移學習.我們從以上4 個角度對跨領域文本情感分類工作進行總結.
3.2.1 基于實例的深度遷移學習方法(instance-based deep transfer learning method)
類似于傳統的基于實例的情感遷移策略,基于實例的深度遷移學習在解決跨領域情感分類任務時,往往根據目標領域的數據分布對源領域的樣本進行加權權重適應,選擇部分高置信度樣本加入到目標領域訓練集中.例如,Dong 等人[96]通過引入有監督額外數據的情感嵌入,將通用的線索加入到網絡的訓練過程中.然后通過基于專用存儲器的組件將其饋送到模型中,在給定有限訓練數據的前提下可以有更泛化的能力.提出的模型在Stanford sentiment treebank(SST)數據集上,在20%,50%和100%訓練數據集的條件下,分別達到了85.06%,86.16%和86.99%的情感分類準確率.
Sharma 等人[49]使用跨領域不改變其極性和顯著性表示的可遷移信息,用于跨領域文本情感分類任務.具體地,他們提出了一種基于χ2檢驗和單詞上下文向量之間的余弦相似性新方法,識別跨領域保留重要單詞的極性.其中,χ2測試計算如公式(9)所示:

其中,為詞w在正面文檔中的出現次數,為負面文章中的出現次數,μw為在正面和負面文檔中出現的平均次數.
Cui 等人[97]對僅適用于源領域標記數據以及未標記數據的不同策略進行了比較研究,選擇無監督域適應(unsupervised domain adaptation,簡稱UDA)的領域共享特征執行跨領域文本情感分類任務.Khan 等人[66]將余弦相似性度量應用于SentiWordNet 計算特征權重并生成修訂的情感分數,模型學習由支持向量機使用兩個實驗設置執行,即單個源和多個目標域以及多個源和單個目標域.在9 個標準數據集上實現了85.05%的準確率.Cummins 等人[98]通過提供額外的數據集,利用不同的詞袋模型輔助情感檢測.實驗結果表明,使用包含來自測試域和領域外數據集的信息的Bag-of-words 提取范例可以獲得系統性能的提升.源領域數據來自于包含237 clips的Music Review Dataset,目標領域為包含359 個YouTube 視頻的Movie Review Dataset,在發展集上達到了80.7%的平均準確率,在測試集上達到了79.8%的平均準確率.
3.2.2 基于映射的深度遷移學習方法(mapping-based deep transfer learning method)
基于映射的深度遷移學習主要基于以下假設:盡管源領域和目標領域之間在原始的特征空間中存在分布差異,在源領域和目標領域映射到新的特征空間后可能有相似的分布.度量不同領域距離的比較流行的方法是最大均值差異(maximum mean discrepancies,簡稱MMD)方法及其變體方法.MMD 方法是Borgwardt 等人[99]提出的一種邊際分布自適應方法(marginal distribution adaption,簡稱MDA).MMD 將源領域和目標領域的分布映射到再生核希爾伯特空間(reproducing kernel Hilbert space,簡稱RKHS)中,目的是減少源領域和目標領域的邊際分布距離.Duan 等人[100]提出了使用多核MMD 方法和一種新的求解策略,提出了領域遷移多核學習方法(domain transfer multiple kernel learning,簡稱DTMKL).He 等人[63]通過最小化嵌入特征空間中源領域實例和目標領域實例之間的距離,提出了一種領域自適應半監督學習框架(domain adaptive semi-supervised learning framework,簡稱DAS).Sarma 等人[101]提出了一種將通用嵌入廣度與領域特定嵌入的特異性相結合的方法,領域適應的詞嵌入(Domain adapted word embeddings)由對齊相關的詞向量使用典型性相關分析(Canonical correlation analysis)或者非線性核典型性相關分析得到.
Shi 等人[51]提出了一種學習領域敏感和情感嵌入的新方法,該方法同時捕獲情感語義信息和單個單詞的領域敏感性,可以自動確定和生成領域通用嵌入和特定領域的嵌入.基于HL 和MPQA 情感詞典在Amazon 4 種領域評論數據集上達到了81.0%和79.8%的平均準確率.
Wang 等人[76]提出了一種用于跨領域情感分類的軟組合遷移學習算法,將兩個非負矩陣三因子分解集成到一個聯合優化框架中.對詞簇矩陣和簇關聯矩陣近似約束,從而使知識轉移具有適當的多樣性.在Amazon 多語言Books,DVD 和Music 這3 種產品評論數據集上實現了81.31%的平均準確率.
Jia 等人[55]提出了基于關聯規則的詞對齊(words alignment based on association rules,簡稱WAAR)方法.通過學習領域之間的強關聯規則,可以在不同領域的領域特定詞之間建立間接映射關系,在一定程度上減少源領域和目標領域之間的差異,并且可以訓練更準確的跨領域分類器.單詞作為領域共享特征的可能性的評估函數計算見公式(10):

Savitha 等人[102]提出了一種基于推文(Tweets)優化主題適應的詞擴展模型(optimized topic adaptive word expansion,簡稱OTAWE).該算法從特定領域中選擇更可靠的未標記推文,在共同的情感詞和混合帶標簽的推文進行主題適應,并在每次迭代中更新領域自適應詞.
Gupta 等人[103]利用了半監督和遷移學習方法提升低資源(low resource)情感分類任務的表現.該方法通過嘗試提取密集特征表示和帶流形正則化的模型預訓練,可以顯著提高情感分類系統的性能.提出的最優的分類器f*為

其中,Hk為再生核希爾伯特空間(reproducible kernel Hilbert space,簡稱RHKS),V為損失函數,為正則化損失,為額外的平滑損失控制,γA和γI為權重參數.
雖然相應的實例在原始特征空間中存在偏差,但可以映射到其他特征空間,對于源領域或者目標領域是無偏差的.基于以上假設,Zhou 等人[77]提出了一種混合遷移學習框架(hybrid heterogeneous transfer learning,簡稱HHTL),選擇偏向于源領域或者目標領域的跨領域相應的實例,在英語數據作為源領域和目標領域時,達到了79.50%和78.46%的平均準確率.
3.2.3 基于網絡的深度遷移學習方法(network-based deep transfer learning method)
基于網絡的深度遷移學習方法往往首先使用源領域大量帶標簽樣本預訓練深度神經網絡,然后將其網絡結構和連接參數遷移到的新的目標領域中,再使用目標領域的少量帶標簽數據微調整個或者部分神經網絡.例如,Zhao 等人[32]針對短文本跨領域文本情感分類任務提出了一種兩階段的雙向長短時記憶模型和參數遷移框架,首先利用源領域帶標簽數據預訓練雙向LSTM 網絡,通過使用少量的目標領域訓練樣本共享網絡的底層參數和重新訓練高層參數,在目標領域帶標簽數據上進行微調.在中文Hotel,Notebook,Weibo 和Electronic 數據集上實現了77.5%的平均準確率.
Manshu 等人[65]針對跨領域文本情感分類任務,提出了融合先驗知識信息的分層注意網絡(hierarchical attention network with prior knowledge information,簡稱HANP).HANP 具有注意機制的分層表示層,因此可以捕獲與情感相關的重要單詞和句子,在Amazon 5 個領域Books,DVD,Electronics,Kitchen 和Video 數據集上達到了87.76%的平均準確率.
為了有效地利用目標領域標記數據,Peng 等人[50]引入一些目標域標記數據學習特定領域的信息,分別同時提取領域特定和不變表示,使用源領域和目標領域標記數據訓練基于領域不變表示的分類器,在Amazon 4 種領域評論數據集上達到了81.88%的平均準確率.
Yang 等人[64]提出了一種用于跨領域方面層次情感分類的注意力模型(neural attentive model for crossdomain aspect-level sentiment classification,簡稱NAACL),利用監督深度神經網絡的優勢以及無監督概率生成模型加強表征學習.
Zhang 等人[52]提出了一種交互式注意力轉移網絡(interactive attention transfer network,簡稱IATN)用于跨領域文本情感分類任務.IATN 提供了一種交互式注意力轉移機制,通過整合句子和方面的信息,可以更好地遷移情感.主要包括兩個關注網絡,其中:一個是通過領域分類識別領域共同特征,另一個是通過使用共同特征作為橋梁從提取跨領域信息.生成注意力向量αi見公式(12):

Zhang 等人[54]引入了用于領域適應場景中情感分析的Capsule 網絡,此網絡利用膠囊網絡對內在空間部分-整體關系進行編碼,構成領域不變知識,作為源域領域和目標領域之間的橋梁.該方法還將語義規則納入膠囊網絡,以增強綜合句子表示學習.在Amazon 4 種領域評論數據集上實現了88.6%的平均準確率.
Ji 等人[56]設計了一個Bifurcated-LSTM 網絡,利用了基于注意力的LSTM、增強數據集和正交約束.該方法可以從源領域提取領域不變情感特征,在不同的目標領域中執行情感分析.在Amazon 的7 種領域的數據上達到了80.92%的跨領域情感分類平均準確率.
3.2.4 基于對抗的深度遷移學習方法(adversarial learning-based deep transfer learning method)
為了實現源領域到目標領域有效情感遷移,選取的特征應該為目標領域的情感分類任務有良好的辨識度,而對于源領域和目標領域之間不可區分.基于此,基于對抗的深度遷移學習方法引入生成對抗網絡(generative adversarial networks,簡稱GAN)中的對抗技術,找到適合于源領域和目標領域的領域不變特征.
Zhang 等人[53]提出了分層注意力生成對抗網絡(hierarchical attention generative adversarial networks,簡稱HAGAN).通過交替地訓練一個生成器(generative model)和一個判別器(discriminative model)生成一個文檔向量表示(document representation),它是情感可區分但是領域無法區分的.此外,HAGAN 模型應用雙向門控循環單元(Bi-GRU)將單詞和句子的上下文信息編碼到文檔表示中,在Amazon 4 種評論數據集上實現了81.56%的平均準確率.
Liu 等人[57]提出了一種基于模糊的領域對抗神經網絡與自動編碼器(fuzziness based domain-adversarial neural network with auto-encoder,簡稱Fuzzy-DAAE).主要包括:(a) 自編碼,無監督的神經網絡隱含表示用于重構初始化表示;(b) 領域分類器,即簡單的邏輯斯蒂回歸器(logistic regressor);(c) 情感分類器,拼接自編碼的表示h1和領域分類器的隱含表示h1作為情感分類器的輸入,最后是模糊情感分類器的輸出.為了引入更多目標樣本的監督信息,此模型根據其模糊性將未標記的目標樣本及其預測標簽添加到原始訓練數據中,然后重新訓練整個模型.
除了以上工作,Omar 等人[104]在目標領域中引入文本生成作為目標領域中的帶標簽數據集,并且比較了基于諸如LSTM,RNN 深度學習的文本生成和基于馬爾可夫鏈(Markov chain)的文本生成,在Kitchen 作為目標領域數據集上達到了最高72.0%的準確率.此外,Cai 等人[105]使用去噪自動編碼器提取具有魯棒性的更深層共享特征,使用基于Wasserstein 距離的領域對抗和正交約束組合以更好地提取不同領域的深度共享特征,用于跨領域文本情感分類任務.
我們對深度遷移學習中的代表性方法在亞馬遜英文DVDs,Books,Electronics 和Kitchen 這4 個領域的在線評論語料的結果進行了比較,分類效果見表4.

Table 4 Different sentiment transfer strategies,methods and classification effects表4 不同深度情感遷移方法及其分類效果
由表4 可以發現,基于深度遷移學習的跨領域文本情感分類方法在Amazon 經典數據集上均取得了較好的效果.可見,基于深度遷移學習的方法將是解決此問題以后的主流方法.相比較傳統的情感遷移方法,基于深度遷移學習的方法可以實現端到端的跨領域情感遷移任務,具備更好的魯棒性和泛化能力.對應不同的情感遷移策略,基于實例的深度遷移學習方法屬于實例遷移方法的范疇,基于映射的方法屬于特征遷移,基于網絡和對抗的深度遷移學習方法屬于模型遷移的范圍.基于實例的方法通過對源領域樣本加權訓練,具備良好的可解釋性.基于映射的方法通過學習領域通用的特征表示減少領域之間的偏差,最終減少學習誤差,可以有效地提升網絡性能.在4 種方法中,基于網絡的方法取得了最好的效果,實現了最高88.6%的分類準確率.這說明在大規模的情感數據上預訓練模型,遷移到特定的小眾領域,可以有效地提升目標領域的情感分類表現.基于網絡的方法通過預訓練可以有效地節約時間成本,在精度上也有很大優勢.基于對抗的方法結合生成對抗式網絡模型,屬于較新的方法,是未來的重點研究方向之一.
盡管已有工作引入遷移學習或領域適應機制解決跨領域文本情感分類任務取得了很大地成功,但在很多重要的問題的研究上還不夠完善和深入,從理論和技術上仍然有很多問題需要探索.本節分析了仍然存在的3點研究挑戰,并指出了下一步可能的研究方向.
目前來說,跨領域文本情感分類的研究挑戰主要列舉如下.
(1) 由于不同領域間的分布差異,只有部分源領域的知識適合目標領域分類任務,若引入不相關的知識可能會導致負遷移,反而會降低目標領域情感分類的準確率,直接影響跨域學習的分類精度與效率.針對負遷移中的噪聲樣本和分類器問題,Xu 和Gui 等人[106,107]使用Rademacher 分布的總和來估計傳輸數據的類噪聲率,針對一組由噪聲數據的負面影響引起的弱分類器來學習基于訓練誤差和類噪聲估計的整體強分類器.情感的“負遷移”是一個尚未得到完全解決的問題,選擇更合適的領域和樣本進行情感知識的遷移,才能避免情感的“負遷移”現象發生;
(2) 不同領域之間的相似度通常依賴經驗進行衡量,缺乏統一有效的相似度度量方法.目前,跨領域文本情感分類僅局限于相似性較大的領域之間的遷移,如何實現相似性較低的領域之間或者源領域數據受限時的情感遷移,是一個值得注意的問題,需要選取更合適的情感領域距離度量準則;
(3) 現有的跨領域情感分類的方法往往只針對單語言和單模態(文本)之間的遷移,現實條件下往往存在多個語言以及多個圖像、語音或者文本等多個模態的情感信息.然而不同語言和模態之間的特征空間是完全不同的,因此,如何實現異質空間任務的情感遷移,是下一步重點需要解決的問題.
(1) 關注于情感遷移學習機制和情感內部表達機理的研究.情感遷移學習機制主要是尋求領域不變性因素作為跨領域遷移的橋梁,包括句子級情感注意力遷移和句法結構一致性學習等.另一方面,同時考慮邊際分布和語義分布的距離度量方法,可以更好地選擇源領域中對目標領域分類有利的訓練樣本;
(2) 關注于多個源領域條件下的跨領域情感分類研究.多源領域適應可以從多個源領域獲取知識和經驗,適應到與源領域分布不同的目標領域中.多個源領域之間的知識往往存在共性和交叉,有效利用和融合多個領域的情感知識,可以提高目標領域分類的泛化性,較單個源領域的情感遷移有明顯的優勢;
(3) 通過參數遷移和微調策略可以有效地遷移跨領域情感知識.相比較傳統的情感遷移方法,深度遷移學習方法在情感遷移效率和跨領域情感分類準確率上有很大提升.其中,參數遷移技術可以將已經訓練好的模型參數遷移到新的模型幫助新模型訓練,而在源領域模型基礎上的微調策略是非常有效的泛化手段;
(4) 有效的領域相似度衡量和常識知識的引入.目前,跨領域的情感分類僅局限于相似性較大的領域之間的遷移,如何實現相似性較低的領域之間或者源領域數據受限時的情感遷移,是一個值得研究的問題.源領域的知識往往是有限的,融合已有的先驗知識和相關的語言學知識,可以輔助和提升目標領域的情感分類任務的效果.例如,通過引入知識圖譜知識,充分利用人工標定和海量的無標記數據,將是未來非常有價值的研究思路;
(5) 跨領域的細粒度情感分類任務研究.傳統的跨領域文本情感分類往往是實現不同領域之間篇章級的情感遷移,較少關注于跨領域細粒度的句子(sentence)級、方面(aspect)級、評價對象(target)及其屬性的情感傾向任務研究.下一步可以研究篇章級的情感分類任務到細粒度情感遷移任務,或者不同領域之間細粒度情感分類任務之間的情感遷移;
(6) 跨模態和多模態的情感遷移機制研究.現實條件下,往往存在圖像和語音等多個模態的情感信息,然而不同模態之間的特征空間是異構的.Cummins 等人[98]針對跨模態的情感遷移進行了有效探索.在未來的工作中,可以通過文本、圖像和聲音的跨模態特征學習,將不同模態的特征映射到共同的語義空間中,充分利用多模態的情感知識,實現跨模態和多模態的情感分類目標;
(7) 引入在大規模語料上的預訓練模型并結合特定的領域知識.在面臨特定領域的任務時,引入在大規模無監督語料上預訓練的語境化的嵌入表示,例如ELMo[108]、OpenAI GPT[109]、BERT[110]、基于全詞覆蓋(whole word masking)的中文BERT 預訓練模型[111]、XLNet[112]等,在下游任務中,結合特定的領域知識和遷移學習技術,如有監督的微調等,完成特定領域的情感分類任務.
跨領域文本情感分類可以彌補不同領域間情感分布差異,對提升情感分類的泛化性有重要意義,是情感分析的研究熱點和難點之一.本文綜述了跨領域文本情感分類的相關背景、現有技術和應用,從目標領域中有可用數據、不同的情感遷移策略和可用源領域的個數這3 個角度對已有的跨領域文本情感分類工作進行了總結.我們還重點介紹了深度遷移學習方法在跨領域文本情感分類中的應用.最后總結了目前跨領域情感遷移面臨的主要挑戰,并對其未來的研究方向進行了展望,尤其是跨模態情感遷移、常識知識以及領域知識應用于跨領域情感分類,可能是下一步的研究熱點.