李 倩,郭紅鈺,鄭揚飛,劉玉龍,李山海,吳艷雄
1.中國電子科技集團有限公司 第十五研究所,北京 100083
2.中華全國工商業聯合會 信息中心,北京 100035
洞察文本中的情感極性(例如,正面情感、負面情感、中立情感等)并嵌入到文本的向量化表示中是情感分析的一項關鍵任務[1]。研究表明,有監督的機器學習方法可以有效捕獲文本中的情感特征[2]。相比于人工提取的文本情感特征,基于深度表示學習構建的文本特征可以顯著提高情感分析的準確性[3]。
然而,面向情感分析的文本表示學習方法普遍忽視了文本中的非獨立同分布特點,進而不能對含有非獨立同分布特點的文本進行有效的表示。通常,文本中的詞與詞之間、句子與句子之間存在著相互耦合的關系(非獨立特點),相同詞或者句子在不同的語境下也可能有著不同的含義(非同分布特點)。文本的非獨立特點和非同分布特點共同構成了文本的非獨立同分布特點。圖1展示了一段文本中的非獨立同分布特點及其帶來的挑戰。在詞層面,單個詞語與其近鄰的詞語之間存在著耦合關系。例如,單詞“not”和“sure”是相互耦合的。這種耦合關系構成了句子中最基本的情感單元。句子中的情感單元再進一步直接耦合(例如,“not sure”和“why this”)或間接耦合(例如,“best parts”和“bread and the rice”)決定了一個句子的情感極性。此外,一個詞語可能在不同的語境和位置具有不同的含義。例如“dark”一詞在圖1的示例中具有負面的情感,但如果其用于描繪顏色則具有中性的情感。在句子層面,具有與詞層面類似的非獨立同分布特點。一個句子和它近鄰的句子相互作用(例如,圖1示例中的第一句和第二句),這些相互作用的句子又進一步耦合在一起(例如,圖1示例中的間接耦合關系)決定了文本的情感極性。除此之外,一個句子在不同的位置也可能具有不同的情感極性。例如,圖1示例中的最后一句話,當考慮第一句和第二句話時,其具有負面的情感;但僅考慮這句話本身時,其展現出正面的情感。對于非獨立同分布文本而言,非獨立同分布特點可能層次化的存在于詞層面、句子層面、段落層面,深度影響著文本的情感極性,并且難以被有效表示。

圖1 文本中非獨立同分布特點示意圖Fig.1 Example of Non-IID characteristics in paragraph
當前僅有少量針對非獨立同分布文本的表示方法。這些方法考慮了近鄰詞語之間的耦合關系[4],詞語之間的序關系[5],詞和句子層次化的多義性[6],顯著地提升了情感分析的性能。然而,上述方法并未有效捕獲文本中完整的非獨立同分布特點。例如,大多數方法將“I feel the restaurant is good”和“I don’t feel the restau‐rant is good”判別為相同的情感極性。一個可能的原因是這些方法都只關注于情感詞“good”而忽略了詞語“don’t”和“good”的耦合關系。同樣,由于忽略了詞語“deal”在不同語境中具有不同的含義,又將“The taste is great”和“Cost a great deal of time”兩句中反應的情感視為一致。
完整地捕獲非獨立同分布文本中的非獨立同分布特點是具有挑戰的工作,既需要構建復雜的模型,又需要防止模型過于復雜從而帶來數據過擬合的問題。為應對這一挑戰,本文提出了一種全新的非獨立同分布文本表示學習框架。該框架系統地捕獲文本中層次化分布的非獨立同分布特點并將其嵌入到向量空間中,構成對文本的隱式特征表示。進一步,通過情感先驗知識構造現實情感特征,在文本向量表示中,融入更多的情感信息,并以此防止復雜模型可能出現的數據過擬合問題。
本文亦提出一種帶有注意力機制的層次化的、多尺度深度神經網絡來實現非獨立同分布文本表示學習框架。具體而言,該神經網絡采用多尺度卷積遞歸神經網絡的結構來捕獲層次化和異構的耦合關系,采用注意力機制解決詞或句子的多義性問題。除此之外,該神經網絡根據語義匹配層次化地融合了隱式和顯式的文本特征表示。
本文的主要貢獻包括:
(1)提出了一種面向情感分析的非獨立同分布文本表示學習框架。該框架綜合考慮了決定文本情感極性的文本非獨立特點和非同分布特點,是首個全面考慮文本非獨立同分布特點的表示學習框架。
(2)提出了一種可對非獨立同分布文本進行建模的深度神經網絡結構。該神經網絡結構采用了帶有注意力機制的層次化多尺度卷積遞歸模塊,以建模層次化的耦合關系和多義性,從而揭示文本的情感極性。
(3)提出了一種融合顯式特征表示和隱式特征表示的方法避免復雜模型數據過擬合。其中,隱式特征表示捕獲了非獨立同分布文本的情感極性,顯式特征表示減小了隱式特征表示在學習構建過程中的過擬合風險并提供了額外的情感信息。
本文在7個數據集上進行了充分實驗以驗證所提出方法的性能。實驗結果表明:(1)本文所提方法可以有效學習非獨立同分布特性,并帶來了顯著的情感分析性能提升;(2)融合顯式和隱式的特征表示可以有效提高非獨立同分布文本表示的質量。
現有的非獨立同分布文本表示學習方法主要關注于捕獲文本的以下幾個方面的特性:上下文關聯關系,序列關聯關系以及詞或句子的多義性。
(1)上下文關聯關系:通過考慮詞語/句子與其近鄰的詞語/句子的關聯關系來反映情感極性。例如,在詞向量的基礎上使用卷積神經網絡來捕獲多個近鄰詞語的關系[7];在修辭結構理論上引入循環神經網絡以捕獲文本中直接的耦合關系[8];選取對上下文極度敏感的詞,求這類詞的詞向量之和,以捕獲文本中間接的耦合關系[9-10];采用層次化網絡結構建模詞/句之間復雜的上下文關系[3]。
(2)序列關聯關系:通過詞語/句子之間的序列關系反映情感極性。此類方法往往采用層次化的循環神經網絡捕獲文本中序列的關聯關系[5]。但是,在循環網絡訓練過程中常面臨梯度消失的問題。為了解決這類梯度消失的問題,后續工作在每一層循環神經網絡都加入了批歸一化操作[11]。盡管如此,以上方法還是忽略了詞/句在不同語言環境下可能出現的多義性現象。
(3)詞或句子的多義性:通過分析詞/句在不同語言環境下的不同語義判定情感極性。這類方法可以分為兩類,一類利用概率圖模型分析不同語言環境下的詞或句子所在的主題。例如,通過主題模型分析詞/句的多義性[12]。另一類方法通過詞/句上下文的分析體現多義性。例如,在層次化的網絡結構中引入注意力機制[6,13],以及采用雙向循環神經網絡以此捕獲詞語/句字相關的更多信息[14]。
以上方法都從非獨立同分布特點的某一方面挖掘情感極性,本文則致力于全面地捕獲和分析非獨立同分布特性,從而支持更為精準的文本情感分析。
從文本中提取情感有關特征是一種構建面向情感分析的文本表示的直接有效的方法。與通過表示學習構造文本向量表示不同,傳統的文本特征提取是基于對文本語義和情感的理解,人工構造特征指標,所提取特征一般具有很強的情感指示能力。典型特征包括詞頻[15]、詞性標注[16]等。此外,文獻[17]基于特定詞或詞組的存在性構建特征,以反映段落情感。還有一些研究通過提取稀有詞,即一些幾乎不會出現在語料庫中,但具有明顯情感傾向的特殊詞(比如“Gooooood”)構建段落特征[18]。另外一些工作[19]認為情感詞是影響文本情感極性的最主要因素,因此直接將情感詞作為特征進行情感極性的判斷。
近年來,越來越多的研究者將人工提取的情感特征融入表示學習構造的文本向量之中[20-21],從而利用情感特征中包含的領域知識來增強文本向量表示對于情感極性的判別性,進一步提升了基于文本向量表示的情感分類效果。然而,大多數現有的方法未考慮人工提取的情感特征與表示學習構建的文本向量表示在語義層面的層次化對應關系[22-23],使其融合效果受限。
給定一段包含ns個句子{si|i=1,2,…,ns}的文本P∈?,其中第i個句子位包含nwi個詞的詞序列{wi,j|j=1,2,…,nwi},文本表示學習模型可以形式化定義為E(·):P→該模型將一段文本P轉化為一個nf維的向量p∈此處,P表示一個文本空間,?表示一個實數空間。
將文本P中第i句中的第j個詞的情感極性表示為oi,j,則第i句的情感極性可以表示為Oi=∮nwi1oi,jdwi,j。此處,∮nwi
1dwi,j表示從wi,1到wi,nwi的一種序列化運算。在此基礎上,文本P的情感極性O∈O可以表示為O=Oidsi。此處表示從s1到sns的一種序列化運算。一段文本的情感極性由從詞到句層次的∮和∮運算決定,即:Ons×nwi→O。此處,O表示情感極性空間。
面向情感分析的文本表示學習目標是構建一個模型E(·),使得該模型對于一個情感分類器C(·):?nf→O可以提供有效的包含情感信息的文本向量表示。在形式上,若定義一組文本P的分布為,面向情感分析的文本表示學習目標函數可由如下公式表示:

其中,div(·||·)表示兩個分布間的散度度量。為了適應于不同任務種的不同數據特點,div(·||·)可以采用不同的散度測量方法或者轉換后的散度函數,例如KL散度、交叉熵、海靈格距離等。利用上述目標函數,可以在文本的表示空間中保留文本的情感分布特性。換而言之,利用情感分類器C(·)可以從文本的表示空間中恢復出文本的情感信息。
在實際運用目標函數(1)的過程中,可能會出現兩個問題:較高的泛化誤差和較低的模型適應度。此處,泛化誤差是指文本真實情感分布和由情感分類器從文本表示中學到的情感分布之間的差異。較高的泛化誤差通常由缺少訓練數據所導致。雖然實際運用中會有成千上萬的文本可供訓練,但對于完全覆蓋文本的情感特性而言還是不足的。模型的適應度是指表示模型E(·)捕獲情感相關信息的能力。較低的模型適應度往往是由于在設計模型E(·)時忽略了情感相關的復雜數據特性導致的。
為了有效降低泛化誤差,一種可行的策略是對表示學習的目標函數增加約束項,使得在文本的表示空間E:?nf中盡可能地保留住文本在原始空間P中的分布特性。若將文本原始空間P中的分布表示為,將文本表示空間E中的分布表示為,文本表示學習的目標函數可調整為:

為了有效增強模型的適應度,一種有效策略是對決定文本極性的數據特點進行建模。本文假設詞與詞、句子與句子之間的交互關系決定了一段文本的情感極性,這些交互關系包含在序列化運算∮和之中。在此,定義詞表示函數為Ew(·):W→句子表示函數為Es(·):?nwi×new→,段 落 表 示 函 數 為Ep(·):→其中W表示詞空間,new表示詞表示空間的維度,nes表示句子表示空間的維度。為了對交互關系進行建模,文本表示模型需要能夠分解為由詞表示函數、句子表示函數、段落表示函數順序運算的形式。由此,文本表示學習的目標函數可以重構為:

本文同時考慮保留文本的分布信息以及非獨立同分布文本的數據特性來實現對于情感分析更加精準的文本表示。結合公式(2)和公式(3),非獨立同分布文本表示學習目標函數定義如下:

依據非獨立同分布文本表示學習目標函數,本節提出面向情感分析的非獨立同分布文本表示學習框架,如圖2所示。非獨立同分布文本表示學習框架由具有層次化的結構的深度神經網絡構成。該框架按照從詞語到句子再到段落的層次化結構,順序使用目標函數詞表示函數Ew(·)、句子表示函數Es(·)、段落表示函數Ep(·)來生成文本表示。

圖2 非獨立同分布文本表示學習框架示意圖Fig.2 Non-IID document representation framework
具體而言,詞表示函數Ew(·)由隱式詞嵌入層、顯式詞特征層、全連接層構成。隱式詞嵌入層捕獲詞的上下文信息,并將其嵌入到向量空間之中構成詞的隱式特征。顯式詞特征層通過預先構建的詞情感信息提取函數提取詞語的特征,包含著專家對于文本情感的先驗知識。全連接層融合隱式詞嵌入層和顯式詞特征層提取的詞特征向量,最終形成詞的向量表示。句子表示函數Es(·)由非獨立同分布特征學習模塊構成。非獨立同分布特征學習模塊捕獲詞語之間的耦合關系及詞語本身在不同環境下的不同語義,而后將它們嵌入到句子的向量表示之中。本文將在3.3節對非獨立同分布學習模塊進行詳細介紹。最后,段落表示函數Ep(·)由非獨立同分布特征學習模塊、顯式段落特征層、全連接層構成。此處,非獨立同分布特征學習模塊與句子表示函數中的非獨立同分布特征學習模塊具有相同的結構。不同的是,此處的非獨立同分布特征學習模塊通過捕獲句子間而不是詞語間的耦合關系及不同語義來生成段落的隱式特征表示。顯式段落特征層通過預先構建的段落情感特征提取函數來構造段落的特征。最終,全連接層融合顯式的段落表示和隱式的段落表示來構成非獨立同分布段落的向量表示。
非獨立同分布文本表示框架通過最小化文本原始情感分布與基于文本表示向量預測的情感分布的差異來實現目標函數中的第一部分;通過層次化地融入先驗知識驅動的顯式特征來保留文本原始分布特征,以實現目標函數中的第二部分。通過這種方式,非獨立同分布文本表示學習框架不僅可以捕獲復雜的非獨立同分布文本特征,同時可以防止過度擬合的問題發生。
非獨立同分布文本學習框架可以很容易地通過設計非獨立同分布特征學習模塊和選擇合適的先驗特征來實現。本文在2.3節給出了非獨立同分布文本表示學習框架的一種實現方法。
本節提出了一種帶有注意力機制的多尺度層次化深度神經網絡框架來實現非獨立同分布文本表示學習。具體地,利用帶注意力機制的多尺度卷積循環神經網絡來實現非獨立同分布特征學習模塊,并使用了三種類型的情感相關文本特征作為顯式的詞和段落特征。
2.3.1 帶注意力機制的多尺度卷積循環神經網絡
帶注意力機制的多尺度卷積循環神經網絡如圖3所示。在非獨立同分布文本表示學習方法中,該神經網絡實現了非獨立同分布特征學習模塊。在句子表示函數中,該神經網絡的輸入是一組詞向量;在段落表示函數中,該神經網絡的輸入是一組句向量。該神經網絡首先采用注意力機制將輸入的向量進行轉化,通過輸入向量中的上下文信息為該向量賦予注意力權重。通過這種方式,可以利用相同文本的不同上下文內容有效解決文本多義性的問題。然后,該神經網絡使用帶有多尺度過濾器的卷積神經網絡層來從轉化后的詞或句子向量中提取卷積特征。在卷積特征的基礎上,進一步引入帶有門控循環單元的雙向循環神經網絡層來生成對應于卷積特征的循環神經網絡特征。最后,該神經網絡使用全連接層聚合各循環神經網路特征,從而構造出句子或段落的表示向量。
多尺度卷積循環神經網絡結構能夠捕獲文本中的耦合關系。一方面,該神經網絡可以利用卷積神經網絡層捕獲詞或句子之間的直接的耦合關系。卷積神經網絡層通過不同尺度的過濾器(例如,圖3中1到K號卷積神經網絡過濾器)來對詞或句子之間具有不同范圍和大小的直接耦合關系進行建模。與傳統n-gram特征不同,此處生成的卷積特征更加關注于與情感直接關聯的文本間耦合關系,而n-gram特征對于所有的詞或句的組合賦予相同權重、一視同仁。另一方面,多尺度的卷積循環結構可以通過雙向循環神經網絡層捕獲詞或句子之間的間接耦合關系。同時,雙向循環神經網絡還可以揭示出句子或段落中的情感變化過程。綜上,由全連接層融合直接和間接耦合關系后的向量表示可以完整反映文本中的耦合關系。

圖3 非獨立同分布特征學習模塊Fig.3 Non-IID-characteristic-learning module
注意力機制用以捕獲詞或句子的異構性,即詞或句在不同語境中的多義性問題。注意力機制根據上下文的信息對詞或句子的表示進行調整,以此消除詞或句子的多義性對數據表示帶來的影響。對于一個表示向量xi,注意力機制首先用一個非線性層將其映射為hi=tanh(Wxi+b),其中W和b分別表示非線性層的權重于與偏置值。然后,注意力機制基于向量的上下文計算表示向量的調整系數αi,計算公式如下:

其中,{xj|j∈c(i)}是向量xi的上下文集合,u是需要學習的上下文信息的全局記憶量。根據調整系數αi,注意力機制將向量xi調整為:

調整后的向量表示將進一步輸入到多尺度卷積循環結構中對文本的耦合關系進行學習。
本文采用帶注意力機制的多尺度卷積循環神經網絡來實現句子表示函數Es(·)和段落表示函數Ep(·)中的非獨立同分布特征學習模塊,其原因在于非獨立同分布特征在詞和句子層面具有相同的結構和層次。此外,具有相同結構的神經網絡可以有效捕獲不同層次的相同結構特征,例如GoogLeNet層次化地疊加Inception模塊在提取圖像不同層次特征時取得了巨大的成功[24]。
2.3.2 顯式情感特征層次化構建
為了避免模型的過度擬合,非獨立同分布文本表示框架使用層次化的情感顯式特征來約束模型的學習過程。本文所提出方法在詞層次和段落層次均引入了顯式特征對模型進行約束。
在詞層次上,本文引入的顯式特征包括:(1)情感詞典特征[25];(2)詞性特征[16]。情感詞典特征包含著每個詞的情感極性概率值。詞性特征則顯式地指出了哪些詞需要在情感分析中得到更多的重視。為了生成情感詞典特征,本文提出的方法將每個詞編碼為一個二維向量,向量的兩個維度分別是每個詞正、負情感極性的概率值。為了生成詞性特征,本文提出的方法將每個詞進行熱獨編碼,編碼的每一位對應于一種詞性,若該詞擁有某詞性則對應位編碼為1,其余位編碼為0。
在段落層次上,本文引入稀有詞頻率特征[18]來構造段落的顯式特征表示。研究表明,稀有詞對于文本極性可能有決定性的影響[17]。例如,單詞“Goooood”可能僅在語料庫中出現1到2次,但其清晰地指明了文本具有積極的情感極性。為有效構造稀有詞頻率特征,本文所提方法首先對語料庫中的詞頻進行統計,并選取出現頻率最低的10%的詞構成稀有詞集合。而后,利用該稀有詞集合對段落進行熱獨編碼,編碼的每一位對應于一個稀有詞,若段落包含該稀有詞則對應位編碼為1,若不包含則對應位編碼為0。
3.1.1 對比方法
本文將所提出的方法與4種基于人工情感特征的方法以及7種深度表示學習方法的共11個變種進行對比,以檢驗所提出方法的性能。
基于人工情感特征的方法包括詞袋模型特征(bagof-words,BOW)、帶有詞頻-逆文本頻率的詞袋模型特征(bag-of-words with term frequency-inverse docu‐ment frequency,BOW-TFIDF)、n元語法特征(ngram),以及帶有詞頻-逆文本頻率的n元語法特征(n-gram-TFIDF)。
基于深度表示學習的方法包括:GateRNN的變種GateRNN-CNN[5]、GateRNN-LSTM[5];HNATT的 變 種HNATT-ATT[31]、HNATT-AVG[31]、HNATT-MAX[31];EL‐MO[14];BERT[3];SentiLARE[20];MF的 變 種MF_CNN[23]、MF_RNN[23];SKEP[21]。
3.1.2 數據集
本文在實驗中使用了5個帶有情感標簽的大型文本數據集,包括IMDB電影評論數據集[26],Amazon產品數據集[27],Yelp情感分析挑戰中的Yelp13、Yelp14、Yelp15數據集。同時,在實驗中還用了兩個較小的數據集Twitter短文情感分析數據集(Twitter)以及Twitter航程評論數據集(Twitter-Air)。對于IMDB、Yelp13、Yelp14、Yelp15、Twitter數據集而言,訓練集和測試集已經劃分,本實驗依據其劃分好的訓練集訓練模型,并在其劃分好的測試集上進行測試。對于Amazon和Twitter-Air數據集,本實驗隨機劃分90%的數據作為訓練集,剩余10%作為測試集。
上述7個數據集來自于不同的領域和應用,例如Twitter和Twitter-Air來自于社交平臺,IMDB來自于電影平臺,Yelp13、Yelp14、Yelp15來自于推薦平臺,Amazon來自于電子商務平臺。因此,數據集在結構特點上有著非常大的差異性。具體而言,上述7個數據集中包含的文本數量從5 697到5 255 009不等,每個文本包含的平均句子數量為3到14,每個文本包含的平均詞數為22到325.6,數據集中包含的單詞總數從16 389到3 652 038不等。
3.1.3 數據預處理
在數據預處理階段,本文提出的方法首先將文本分割成若干句子,并使用斯坦福大學的CoreNLP工具[28]對句子中的詞進行標記和標準化處理。然后,使用skip-gram模型[29]對各個詞語進行隱式向量表示的預訓練。接著,本文方法使用斯坦福大學的CoreNLP工具生成詞性特征,并使用SentiWordNet[25]生成情感字典特征。
3.1.4 神經網絡參數
在實驗中,本文模型的神經網路參數設置如下:隱式詞向量的特征維度設置為100;多尺度卷積神經網絡層的過濾器尺寸設置為2×100和3×100兩種尺度;在句子表示函數中,每一個卷積神經網絡層中的過濾器個數設置為32,門控循環單元的個數設置為64,全連接層中的節點個數設置為64;在段落表示函數中,每一個卷積神經網絡層中的過濾器個數設置為64,門控循環單元的個數設置為128,全連接層中的節點個數設置為128;全連接層的層數設置為2。在訓練階段,本文提出方法使用在每一層后使用批歸一化(batch-normalization),并在全連接層后使用保持概率為0.5的dropout策略。訓練采用Adam算法[30]以64個樣本的批量訓練大小來優化表示學習目標函數。采用上述神經網絡參數設置的主要考慮如下:(1)保持在同一語義層次中每層神經網絡輸出向量維度數目不變,避免維度減少可能導致的信息損失以及維度增加可能導致的模型過擬合;(2)在段落表示上采用高于句子表示的向量維度,從而使得段落表示向量擁有大于句子表示向量的信息容量;(3)采用批歸一化和dropout策略,緩解模型訓練中可能導致的過擬合問題。本實驗中的參數配置僅代表本文提出方法的一種具體實踐,用于展示所提出方法的性能優勢,不代表本文方法的最佳實踐。
實驗中的對比方法采用其推薦的參數配置,其中ELMO和BERT兩個模型采用其在Tensorflow Hub平臺上預訓練得到的參數配置。對于所有對比方法,實驗將其得到的向量表示輸入到輸出層帶有softmax激活函數的單隱層前饋神經網絡中來構造情感分類器。
3.2.1 驗證方法
本實驗驗證所提出的方法捕獲的非獨立同分布文本特征是否能夠增強情感分析性能。本實驗用兩種指標來度量情感分析的性能:準確率(accuracy)和均方根誤差(rooted-mean-square error,RMSE)。準確率用于衡量表示學習使能的情感分類器可將文本的情感分類為其原本情感的能力。
在傳統的分類問題中,通常面對的是離散的類別型標簽。然而,在情感分析任務中,分類器面對的是有著序關系的類別型標簽。例如,情感程度4更接近于情感程度5而不是情感程度1。因此,更精準的情感分類器應該可以預測出更接近于文本真實情感程度的文本情感值,然而這并不能被準確率指標所反映。為了彌補準確率指標的不足,本實驗進一步使用了均方根誤差指標,預測結果與真實情感值之間具有越小的均方根誤差表示所用模型的情感分析性能越好。
3.2.2 驗證結果
實驗結果如表1所示,其中本文提出的方法相較于對比的大多數方法提升了情感分類的準確率。此處的準確率提升主要受益于捕獲到的非獨立同分布數據特點以及融合了顯式和隱式的文本情感特征(將在4.3節予以驗證)。對于Twitter和Twitter-Air數據集,本文所提出方法與BERT、SentiLARE和SKEP模型相比性能略低,但是仍然取得了高于其余對比模型的結果。此處的關鍵原因在于這兩個數據集所包含的結構和耦合關系都較為簡單(體現在其中文本僅包含少量語句),不具有顯著的非獨立同分布特性;并且文本量很少(分別為5 695和13 176),難以訓練好本文提出的復雜模型。在此情況下,本文提出的方法性能略低于已經在大量數據上進行過預訓練的模型。

表1 不同方法的情感分類準確率Table 1 Sentiment classification accuracy of different methods 單位:%
如表2所示,在均方根誤差指標的評價標準下,本文提出方法可以使得情感分析的性能得到顯著提升。從表2中可以看出,現有方法中性能最佳的是MF_RNN方法。該方法與本文方法一樣采用了層次化模型和并且融合了顯式和隱式的文本特征。對于非獨立同分布文本,本文提出的方法在情感分類問題上優勢更為明顯。

表2 不同方法的情感預測均方根誤差Table 2 Sentiment prediction rooted-mean-square error of different methods
3.3.1 驗證方法
實驗通過對比所提方法的兩個變種來驗證層次化結合顯式特征和隱式特征的重要性。變種一僅采用了非獨立同分布特征學習模塊。變種二僅在詞層面融入了詞性特征這一種顯式文本情感特征。為了更為全面地進行驗證,實驗采用了分類準確率和均方根誤差兩種驗證指標。
3.3.2 驗證結果
實驗結果如表3所示,可以得出如下結論:(1)融合顯式特征增加了情感分類的性能;(2)層次化的融合顯式特征進一步提升了情感分類的精度。其根本原因是融合顯式特征后引入了更多的情感相關信息,這些信息使得原始空間中的文本情感分布在其表示空間得以保留。

表3 本文方法與其變種方法情感分析對比結果Table 3 Sentiment analysis performance based on proposed method and its variants
面向情感分析的非獨立同分布文本表示學習方法將文本中復雜的層次化非獨立同分布特點嵌入到文本的向量表示之中,以更為精準地刻畫文本情感。本文提出了一種非獨立同分布文本學習框架,并通過帶有注意力機制的多尺度層次化深度神經網絡予以實現。充分的實驗結果驗證了所提出方法可以顯著增強情感分析的性能。
在未來工作中,可以從如下三個方面對本文工作進行拓展延續:
(1)針對特定領域的文本特性,研究非獨立同分布文本表示學習框架的其他實現方法。
(2)針對中文文本,研究非獨立同分布文本表示學習框架的具體實現方法。
(3)針對情感分析應用的可解釋性需求,研究可解釋的非獨立同分布文本表示學習方法。