劉 嬌,崔榮一,趙亞慧
(延邊大學 計算機科學與技術學院 智能信息處理研究室,吉林 延吉 133000)
情感分類屬于較為典型的二分類問題,即給含有情感色彩的文檔一個態度偏向,支持或者反對。西方語言對情感分類研究起步較早,具有豐富的情感詞典語料等資源,而中文情感資源相對匱乏。研究跨語言情感分類不僅是為了消除語言之間的應用屏障,還可以將資源豐富型語言的研究資源應用到資源匱乏型語言中去,幫助其他語言發展,跨越語言之間的鴻溝。本文提出的自聯想記憶模型可以減小資源不均衡對分類精度帶來的影響,適用于跨語言情感分類任務。
跨語言情感分類領域近年來顯現出許多優秀的模型。文獻[1]提出混合自訓練模型和協同訓練模型,分別訓練兩個語種的數據,采用雙視圖來得到最終的分類結果,分類性能超過了自訓練和協同訓練中最好的結果,并在當時取得了NLPCC跨語言情感分類評測任務(2013)的第一名。文獻[2]在解決跨語言模型的問題時采用遷移學習的方法,將源語言和目標語言分別視作兩個領域,在此引入基于樣例遷移的監測機制來避免發生負遷移情況,可以減少樣本數據中的噪音,提高分類性能。文獻[3]結合雙視圖與遷移學習兩種方法構建模型。雙視圖中將英文視為標準的參考知識,并在英文空間中進行訓練,通過對英文樣本的翻譯來得到中文視圖中的數據集,并引入知識驗證函數來過濾中文翻譯樣例中由于翻譯產生的可能存在的噪音。
深度學習模型在情感分類上的應用研究也取得了不小的進展。文獻[4] 通過注意力機制來捕獲不同上下文信息對給定特征的重要性,將注意力機制與LSTM結合起來對句子進行語義建模。文獻[5]提出一個端到端的對抗記憶網絡去解決跨領域的情感分類。使用注意力機制來自動抓取特征,模型框架包括兩個參數共享的記憶網絡。其中,一個用于情感分類,一個用于主題分類,聯合訓練的同時自動選擇特征以最小化情感分類的誤差。文獻[6]提出了使用降噪自編碼器或者長短時記憶遞歸網絡(LSTM)結合上下文情感模糊詞,以學習中英文雙語特征的信息表示。
在跨語言語義表示方面,融合和轉換語言空間的方法也是研究的重點。Gliozzo等[7]通過使用比較語料庫對英語和意大利語進行跨語言文本分類,對比較語料庫做潛在語義分析,建立一個由兩種語言的潛在語義構成的低維投影空間,并將兩種語言構成的詞—文檔矩陣都投影到該空間以后進行分類。Hanneman等[8]通過構造基于句法的全文翻譯算法來提高分類的正確率。Faruqui等利用典型相關性分析[9-10]進行跨語言文本分析,即找出兩個語言空間下相關系數最大的向量,建立起跨語言橋梁。而本文以翻譯語料庫為基礎獲得評論語料在不同語種下的表示,利用不同語種的詞匯之間的共現程度和它們對應詞嵌入的空間關系來構造跨語言自聯想記憶關系。在合并的語言空間下,使用擴展的卷積神經網絡模型進行跨語言情感分類任務。證明了在對跨語言評論語料進行情感正負面分類時,語義的融合方法比轉換方法更有效,即使在小規模數據集下也可以獲得較高的分類精度。
自聯想記憶是指模型能夠學習并回憶不同對象個體間的關系。比如,精通中英雙語的人通過中文文本可以聯想到同一語義的英文文本,任意給出一種語言的信息都可進行聯想以獲得該文本語義在融合語種模型空間中的完整表示。由文獻[11]中的分布假設推導可知單詞的關聯程度可以用基于語料庫的方法來獲得。在一個大規模語料庫中,每個文檔中字詞的分布都可以用向量來表示,詞與詞之間的關聯程度也可以用這個向量來計算。通常在平行語料庫中,如果分別屬于兩種語言的兩個詞出現在同一篇語義的文檔中,一般情況下我們可以確定這兩個詞匯具有高度的語義相關性。根據這個關系,對特定語言中的每一個詞匯,找出另一種語言中與該詞匯相關度最大的詞,可以得到一種語言關于另一種語言的共現詞匯表。互相共現的兩個不同語種的詞不一定能互譯,但在語義上具有高度相關性[12],它們之間的關系已經被證明適用于跨語種文檔檢索和相似度計算。
根據Word2Vec模型的計算原理可知[13],它計算詞向量時體現的是詞和它的局部上下文的共現關系。根據上下文窗口的滑動來迭代計算所有詞的向量表示,詞之間具有高度的可比性,詞之間的語義距離可以在向量的空間中衡量,這證明了詞之間可以直接用向量線性表示[14]。在不同的語言中,即使源語言文檔ds和目標語言文檔dt存在互譯關系,文檔中的詞在各自語種的語料庫中分布相近,但不具有上下文關系。即ds和dt中的詞不能在同一個詞上下文窗口中計算得到。因此,它們只能遵循如“vFrance-v法國≈vItaly-v意大利”這樣的語義關系。本文結合詞的共現計算方法和詞嵌入向量的特點設計了共現詞對如式(1)所示。
Ls|t= {
=T-index(x) } (1)
其中:
(2)
式中Vs和Vt分別表示源語言和目標語言下語料中的詞項序號集。vi和vj分別表示目標語言中和源語言中序號為i、j的詞的詞向量,α代表經驗參數,mij表示這兩個詞共同在平行語料中的出現次數。
式(2)旨在找出兩種語言中統計關系最大的兩個詞。在平行語料中共同出現次數最多的詞i和詞j在跨語言語義中具有理應有更強的關聯性,但詞j關聯度最高的候選詞可能不止一個。因此,公式中加入詞嵌入向量vi和vj的內積結果來加強相關性的計算,且使共現詞對的結果具有唯一性。
自聯想記憶是指兩個同形態的數據相互之間存在聯系的形式或概念構成知識存儲在記憶中的具體形態。依據這個概念提出將共現詞表作為兩種語言的數據之間的橋梁,將自聯想記憶方法應用到神經網絡中。自聯想記憶映射如式(3)、式(4)所示。
式(4)中,根據輸入的源語言向量可以聯想到目標語言的相關向量。在跨語言任務中,只需要對不同的語言之間互相建立共現詞表,輸入任何語言的向量都可以聯想到任意其他語言。分類模型的底層輸入通常為詞向量,對給定某個語種文本中的每一個詞都生成一個詞向量。根據自聯想記憶關系,該詞在任一其他語言下都有語義對應的詞,依據式(3)對輸入的源語言中每一個樣本數據進行擴展,如圖1所示。

圖1 基于自聯想記憶的語言擴展
在Word2Vec的計算下,每一個詞都被表示成為一個維數固定為k的向量。每篇文檔由它的詞生成的詞向量以出現次序排列成一個輸入矩陣,文本信息轉化為可計算的向量組合。圖右側第一個框為源語言文本的輸出詞向量,根據共現詞匯表找到每一個詞對應的目標語言下的語義關聯詞,在目標語言空間中的同樣位置輸入獲得的關聯詞的詞向量。通過自聯想記憶關系,源語言中的文檔矩陣di|s可以映射到目標語言中,其文檔表示為di|t,di|s是s語言空間中m行k列的矩陣,di|t是另一種t語言中同樣m行k列的矩陣。文本模型是將源語言空間中的矩陣拼接映射結果矩陣,如式(5)所示。
通過式(5)合并一篇文檔在不同語言下的矩陣表示后,可以在合并的空間中對同語義不同語種的文檔進行分類。
假設自聯想記憶關系產生的數據互相具有語義補充關系,因此自聯系記憶關系適用于融合不同語言的語義信息。在情感分類任務中,文本的情感傾向通常只由少數詞語決定,而卷積神經網絡可用于提取顯著特征并忽略對分類器作用較小的信息[15]。因此本文提出基于自聯想記憶卷積神經網絡MeCL-CNN (Auto-associative Memory Cross-Linguistic Convolutional Neural Network) 的跨語言情感分類方法。通過自聯想記憶映射方法,文本模型可以獲取任意語種文本作為輸入。根據輸入語種的語義映射向量作為記憶來幫助模型生成融合的語種空間,在合并的空間中進行卷積局部特征提取。
本文中卷積神經網絡模型如圖2所示,其中擴展的模型一共包括9層,疊加了更深的卷積層和歸一化層(batch normlization)。輸入層是由詞嵌入向量拼接構成的文本矩陣,卷積層中每一個卷積核窗口寬度k與詞向量寬度一致,卷積結果向量s的第i個值的計算,如式(6)所示。
其中,A代表輸入數據,W表示與A計算內積的卷積核權重參數,b是偏置項。長度為2代表卷積核可以提取兩個詞組成的短語信息。同理,其他長度的卷積核也可表示對相應詞數組成的短語特征的提取。卷積核的深度表示同一卷積層在相同卷積核尺寸下,卷積層由不同的特征提取規則集構成。
歸一化層的計算過程,如式(7)~式(10)所示。
其中,μβ是對輸入的這一批數據的平均值,σβ2是輸入數據的方差,m為輸入數據的數量,通過式(7)~式(10)來歸一化數據的分布[16],使之具有固定的均值和方差,由于神經網絡本質上是一個參數化模型,不同的數據分布理應在不同的參數模型下才能更好地擬合。對于評論類型長度的情感分類語料,當訓練數據和測試數據的分布差距較大時,模型的效果將大打折扣。此外,在網絡層數增加的過程中,較低層網絡參數的變化對高層網絡的影響將越來越大,而在式(9)的影響下,每層的輸入數據都轉變成均值0與方差為1的分布。因此,對數據的歸一化可以改善這個問題,但是在這個操作下,網絡的表達能力會變弱,因此采用式(10)對歸一化后的數據進行縮放和平移。

圖2 擴展的TextCNN模型
激活層函數選擇ftanh和frelu, 如式(11~12)所示。
ftanh(x)的輸出區間為(-1,1),并且在輸入數據x絕對值非常大時函數值達到飽和,這使得它的作用接近生物神經元,可抑制或刺激神經元的信息傳遞。因它具有均值為0的特性,故收斂速度較快。relu函數的存在極大地解決了飽和函數所遇到的問題。即在函數值飽和到0或1時,網絡層導數接近0。因此,會影響梯度的反向傳遞。在高層網絡中適宜用relu函數來保證梯度的傳輸,緩解梯度消失的問題。
池化層采用Chunk-Max Pooling方法。其思想是把pooling層中每一個深度上的向量進行等長分段,將特征向量切割成若干段后,只保留每個子段中最顯著的特征值。在情感分類任務中,池化層可以有效地過濾噪音,增強分類器性能。
最后一層為分類結果輸出層,將全連接層與softmax層組合,可組成softmax回歸分類器。假設卷積層、激活層和池化層等可將向量從原始輸入映射到隱層特征空間中,則全連接層的作用是將隱層空間中的分布式特征向量表示映射到樣本標簽上,從而完成分類任務。softmax函數如式(13)所示。
其中,zi代表前一層第i個單元的輸出,pi的值代表輸出層上第i個神經元的輸出,即分類標簽屬于第i類的概率。
模型中在全連接層添加了dropout機制。dropout的工作原理是在神經網絡的傳遞過程中,以某個特定的概率隨機放棄一些單元。類似于特征選擇的作用,只保留一部分優秀的特征傳遞下來,還可以降低隱含層單元之間的聯合適應性。用生物學的角度來說,它使得復雜的整段神經元的組合聯動變成比較小的神經元片段之間的聯合適應。在簡單的線性空間中,只學習一個空間的特征集合足以應付當前的輸入,但是在數據分布波動較大且通常存在于非線性不連續的空間中時,只適應一個空間中的特征集合會造成過擬合的現象,模型對與當前數據分布差別較大的輸入沒有識別能力,此時對局部空間的特征集合進行隨機采樣可以增強了模型的泛化能力。
本文實驗主要對NLPCC2013會議中提供的“跨語言情感分類”評測任務進行實驗。該語料源自Amazon網站的中英文產品評論數據,訓練數據中含有英文語料2 000條。含書籍、DVD和音樂三種商品的評論標注語料,測試數據為同等規模的中文語料。該任務針對情感的正負類提供了一批用于計算情感分類的情感詞典,另有一大部分未標注的中文語料,數量是訓練數據的10倍,所有文檔都以XML格式進行存儲。為了獲得不同語言之間的關系,需要將所有標注與未標注的中文語料通過google翻譯成英文,通過翻譯語料庫來獲取如第2節所示的跨語言自聯想記憶關系。實驗需要采用英文語料訓練本文所示模型AMCL-CNN,并對任務重提供的中文語料進行情感正負類。經過多次實驗,訓練過程中參數設置如下:
(1) 設置詞向量維度為200,卷積核組合為[2,3,4,5],卷積核深度為64;
(2) 設置L2正則方法且正則系數為0.05,深度學習模型容忍度為10;
(3) 選擇帶動量的隨機梯度下降法,隨機梯度步長為0.01,動量系數為0.5。
dropout率的經驗值一般為0.5,但通過實驗可以發現,在情感分類任務中,dropout率對分類的正確率影響非常大。

圖3 不同dropout的分類正確率

dropout正確率/%書籍DVD音樂Average0.581.7582.1381.2081.690.382.2083.7983.2883.090.283.1484.3884.3583.950.185.6286.6785.3285.870.0584.8485.0183.4684.43
為了更直觀地體現實驗結果的整體差別,對三種商品的評論分類的正確率計算宏平均。與上一個任務保持參數不變的情況下,不同的dropout參數對結果精度的影響較大,如圖3所示。dropout的經驗值一般選取0.5,而從圖中可以看出,當dropout的比例取0.5時,各項類別的情感分類效果都為最低。當單元的保留比例增高時,分類精度也隨之增高,但是在dropout比例為0.1時達到了最高。因dropout的本質是在神經單元的信號傳輸過程中放棄一部分單元的工作能力,故將這些神經單元看作特征。dropout自動完成了對輸入信號進行特征選擇的過程。從實驗結果的角度分析,情感分類的語料特點是需要上下文特征來協助分類,又因情感分類是二分類任務,故不需要通過dropout來提高模型的復雜程度。這個實驗證明深度學習訓練過程中,不同的數據分布和任務需要不一樣的超參數。
對跨語言情感分類研究做了對比實驗。實驗數據中沒有平行語料,采用機器翻譯獲得雙語語料,繼而根據式(2)計算詞嵌入向量之間的距離,與上一個實驗過程相同,采用基于CNN的自聯想記憶模型。實驗結果如表2所示。

表2 不同方法的分類正確率
文獻[1]中雙視圖與自訓練協同訓練相結合的方法在當時取得了最好成績。它的不足在于分別訓練源語言和目標語言的分類模型時,沒有充分利用兩種語言之間的語義信息。文獻[2]和文獻[3]均基于遷移學習的方法來實現跨語言的過程繼而進行情感分類。其中文獻[3]取得的平均準確率高達83.59%,但它存在的明顯問題是同一個模型在3個類別上的正確率差距太大。這是由于此模型中采用任務提供的未標注數據來做機器翻譯的可信度認證,所以測試集的結果會在一定程度上依賴未標注數據的翻譯質量和數據分布。換言之,當未標注數據與測試數據分布相近,未標注數據可以幫助模型提高分類精度。當數據分布相差較大時,會產生負遷移的現象。同時,測試集中抽取的數據信息不具有代表性,分類性能下降。實驗表明,未標注的數據分布對應用于跨語言任務的遷移學習方法影響非常大。文獻[6]中提出的方法通過情感詞的上下文情感的模糊信息表示,判斷模糊限制句來表達特定語境下的語義和情感信息的融合。該方法以情感詞為中心,一方面可增強句子的情感表示,另一方面也受限于情感詞的分布。沒有充分利用語料本身的語義表達,所以分類效果有限。
相比之下,本文沒有用到情感詞典,僅用測評任務中給出的文本語料就取得了最高的準確率。且對三個產品類的評論分類精度都比較高,未曾出現不平衡的現象。這是因為本模型可以從抽象層面上提取了不同語種的語義特征,特征之間的隱含聯系對分類的效果提高非常有幫助。且本模型的擴展度高,不僅適用于跨語言任務,還適用于多語種特征任務。從實驗結果可以得知,基于聯想記憶模型的CNN分類模型對跨語言情感分類非常高效。
本文一方面分析了dropout大小對分類器性能的影響;另一方面對跨語言文本信息的提取方法與現有的方法進行了實驗結果對比,證明了dropout的選取可以有效提高普通的分類器對短文本語義的識別度。通過自聯想記憶關系對跨語言短文本語義進行融合,減少了在語言交換過程中語義的丟失,加強了短文本語義的完整表示程度。與其他學者提出的方法相比,本文設計的跨語言情感分類模型獲得了非常好的效果,驗證了本文所提出方法的有效性。
此次訓練只針對了電商網站上的商品評論,下一步研究計劃將該應用擴展到其他應用環境中,進一步驗證算法的有效性。