Transformer及門控注意力模型在特定對象立場檢測中的應用①

2020-11-24 05:46:52何孝霆杜義華

計算機系統應用 2020年11期

何孝霆,董航,杜義華

1(中國科學院計算機網絡信息中心,北京 100190)

2(中國科學院大學,北京 100049)

3(清華大學工業工程系,北京 100084)

隨著社交媒體的迅速發展,用戶對各種對象(例如政客和宗教)的豐富意見很容易地得以傳播.這些意見可以幫助優化管理系統,并可以洞察重要事件.例如在總統選舉中,從社交媒體上的內容中判別用戶對總統候選人的立場可以更好地預測民意,對政治走向進行判斷.立場檢測任務旨在確定人們對特定對象是贊成,反對,還是持中立態度.

針對對象的立場檢測與情感極性分類是不同的問題.情感極性分類是不針對特定對象的,而立場檢測是針對于特定對象.但這個對象不一定必須在推文中出現,因為可以通過隱式提及對象或談論其他相關對象來表達針對特定對象的立場.此任務的主要挑戰是分類器作出的決定必須要針對特定對象.來自SemEval-2016 的特定對象立場檢測數據集的訓練數據示例可以在表1找到.同時可以看到推文是由用戶生成,簡短且嘈雜.并具有獨特的特征,如短語標簽.已有工作并未充分利用這些推文獨特的特征.

表1 針對特定對象的立場檢測示例

受詞片模型[1]和Transformer[2]在語言建模任務的有效性所帶來的啟發[3].我們將Transformer 與門控注意力應用于特定對象立場檢測任務,同時將情感預測作為立場檢測的輔助任務.具體來說,該方法首先通過Wordpiece 模型將原始文本拆分成詞片序列,文本中所有的短語標簽會在此步被有效拆分成單詞組合;隨后將詞片序列輸入Transfomer 進行編碼;緊接著,門控注意力被用來識別與給定對象相關的重要單詞.此外,取中間編碼預測情感,并將立場檢測和情感預測的損失整合到最終損失中.上述模型的表現在SemEval-2016數據集上得到了驗證.總體來說,我們的貢獻概括如下:

首先,我們將Wordpiece 和Transformer 結構應用于立場檢測模型,該模型借助建模與編碼可分離短語來改善在立場檢測任務上的表現;其次,我們將門控注意力應用于“感知”特定對象,在細粒度語義層面,使得模型可以根據對象對文本進行自適應編碼;最后,情感得分預測任務的加入進一步提升了立場檢測的效果.

1 針對特定對象的立場檢測模型

立場檢測任務即判斷給定文本對于特定對象的立場,類似于進行情感極性的分類任務.但是,與情感分類不同,在給定的句子中可能未明確提及立場檢測的對象.考慮以下示例推文:@realDonaldTrump is the only honest voice of the @GOP and that should scare the shit out of everyone!(譯文:@唐納德·特朗普是@GOP唯一的誠實聲音,應該嚇到所有人！).我們進行立場檢測的對象是Hillary Clinton/希拉里·克林頓,我們觀察到即使對象希拉里·克林頓并未出現在此推文中,我們仍可以推斷出,意見持有者不太可能贊成希拉里·克林頓.因此識別對象信息對于立場檢測至關重要.此前的立場檢測研究工作包括基于特征工程[4]、卷積神經網絡[5,6]、循環神經網絡[7]的工作,但是他們沒有考慮針對特定對象的問題.為了解決這個問題,有工作已經提出了幾種針對特定對象的注意力機制方法[8-10],將對象信息嵌入句子表示中.

在社交媒體中,往往存在短語標簽.如#NoHillary,我們稱這類短語標簽為可分離短語,因為這些短語標簽往往可以被拆分成若干個單詞,如“No Hillary”.這些短語標簽對立場檢測往往很有幫助.通過準確識別并理解特定對象及短語標簽,可以更有效的判斷推文立場.但已有方法并未有效的利用這些短語標簽.

情感信息也被證明對立場檢測任務有幫助.例如Sobhani 等[11]發現情感特征與其他特征結合使用時,對立場檢測任務有幫助.Sun 等[10]提出一個層次注意力模型用來學習情感信息的重要性,而不是直接將情感特征整合進向量表示中.后來Sun 等[12]提出了一個聯合模型,可以同時確定立場和情感.

為了有效利用可分離短語、特定對象以及情感信息,我們利用Transformer 和門控注意力構造一個針對特定對象立場檢測的模型.模型主體結構如圖1所示.該模型包含帶有詞片的Transformer 編碼器和細粒度對象注意力兩部分,除了標準的立場檢測任務外,還附加了情感預測輔助任務幫助立場檢測.

圖1 模型主體結構

1.1 帶有詞片的Transformer 編碼器

給出示例推文,@Reince This is very credible!Good work! America is desperately in need of good leadership.#Vote- GOP #NoHillary.(譯文:@Reince 這是非常可信的！干得好！美國迫切需要良好的領導才能.#反對希拉里.)我們進行立場檢測的對象是Hillary Clinton.如果我們不考慮標簽#NoHillary 就很難推斷出正確的立場標簽.因此無法分離的連續短語會導致重要對象信息的丟失.在分離連續短語后,我們需要知道No 指向的是Hillary 從而判斷推文作者反對希拉里.

為了能夠有效將標簽中的連續短語分割成有意義的單詞,我們使用無監督詞片模型(Wordpiece),用來分離連續短語.而為了更好地捕捉到句子內部的依賴關系,我們使用Transfomer 結構代替此類任務中通常使用的循環神經網絡結構,并提升了模型表現.接下來將介紹具體過程.

首先,我們給定原始推文序列s,并對s應用詞片模型,生成確定性分段,即詞片序列.

詞片模型的一種主要實現方式為字節對編碼(Byte-Pair Encoding,BPE)算法[1].該算法首先將原始文本視為字母組成的符號序列,每次合并最頻繁的相鄰符號對,并將合并后的相鄰符號對作為新的符號.直到達到指定的合并次數.如我們的原始文本是Jet makers feud over seat width with big orders at stake.應用詞片模型后可以形成詞片序列J et_ makers_ fe ud_ over_ seat _width_ with_ big_ orders_ at_ stake_.此時“_”是一個特殊字符,代表單詞結束.再如例子#NoHillary,在應用詞片模型后會被分成“#”、“No”和“Hillary” 3 個符號.

在對s使用詞片模型進行切分后,得到輸入詞片序列s={s0,s1,s2,···,sL}.接下來將其送入嵌入層,每個單詞都是一個向量表示X={x0,x1,x2,···,xn},其中n是句子長度.下一步使用Transformer 進行特征提取.Transformer[2]作為編碼器的結構如圖2所示.在時間t,Transformer 輸出的隱向量通過所有時刻的輸入決定.

同樣的,對于特定對象q,同樣對其應用詞片模型得到詞片序列q={q0,q1,q2,···,qL},其中L是對象短語的長度,并同樣使用Transformer 進行特征提取.

最終對象向量k是Transformer 輸出在對象短語上所有詞的平均.

圖2 Transformer 編碼器

1.2 細粒度對象門控注意力

當人類被要求標記一條推文對特定對象的立場時,他們很可能將有關對象的信息牢記在心,并更多的關注與對象相關的部分.注意力機制首先應用于機器翻譯任務,允許神經網絡自動為源句子中與預測對象的有關的詞分配權重,并屏蔽不相關的標記.注意力機制已應用于問答、生成、情感分析等任務.

我們將注意力機制應用于該模型,使模型能自動計算推文中詞的權重,從而反映出不同詞在特定對象時的重要性.在標準注意力機制中,推文向量被表示為隱藏狀態的加權和,因而在這樣的模型下文本表示和對象表示沒有直接交互作用.而直覺上,人類只會關注與對象相關的部分詞,例如文本中的某個詞可能暗示了對象的反對立場,但這個詞與其他對象無關.標準注意力機制所使用的Softmax 歸一化權重間接使得詞與詞之間存在了關系,這與我們的直覺不符.詞的權重得分應該是獨立的,即獨立考慮每個詞與對象的相關性.

為了獨立考慮每個詞語對象的相關性,我們通過引入隱藏狀態和對象向量表示之間的交互,即使用門控結構將當前詞的注意力拓展到更細粒度的語義級別.針對特定對象的推文隱藏狀態表示為:

注意力權重ai用來確定hi對最終對象的重要性.這是通過一個門控結構計算得出的:

其中,ai的計算可以有多種選擇,如內積注意力或多層感知機注意力.在本研究中ei使用了多層感知機注意力來計算,即將輸入通過含單隱藏層的多層感知機變換.

為了得到最終的句子表示,借鑒文獻[13]的做法,使用對每個詞的向量表示取平均來作為最終句子的表示.

在得到最終的句子表示b后,首先通過多層感知機進行變換,多層感知機輸出的維度為可能的立場類別數.將輸出送入Softmax 層,轉換為概率分布.由于模型的所有部分都是可導的,因而我們可以使用標準的反向傳播以端到端的方法進行訓練.我們使用多類別交叉熵作為損失函數,該損失函數定義如下:

其中,N是訓練數據集,z是立場類別數.

1.3 情感預測輔助

先前的研究表明,情感信息對于立場檢測任務是有幫助的[11].為此我們同時加入情感得分的預測來改善立場檢測任務.我們對訓練集中的每個推文進行情感打分,標注情感得分為-0.5 到0.5,其中-0.5 代表最消極,0.5 代表最積極.例如對推文“Hillary is our best choice if we truly want to continue being a progressive nation.” (譯文:如果我們真正想繼續成為一個進步的國家,希拉里是我們的最佳選擇.)標注得分0.41,代表比較偏向于積極.

預測情感得分將作為模型的輔助訓練任務.具體而言,參照文獻[14] 的方法,對原始推文序列通過Transformer 輸出的隱向量hi取平均作為情感表示向量.

將r送入多層感知機進行變換,輸出維度為1,即預測的情感得分u.我們使用均方誤差作為損失函數.

合并立場檢測主任務和情感預測輔助任務的損失:

其中,λ是超參數,用來調整兩個任務的權重.

2 實驗與分析

2.1 數據集和實驗設置

我們使用SemEval-2016 任務6.A 來測試本文模型的性能.該數據集包含有5 個不同的對象:“Atheism/無神論” (“A”)、“Climate Change is a Real Concern/氣候變化是一個真正的問題”(“CC”)、“Feminist Movement/女性主義運動”(“F”)、“Hillary Clinton/希拉里克林頓”(“H”) 和“Legalization of Abortion/墮胎法律”(“LA”).表1顯示了這些對象在數據集中的分布.每條推文有立場標簽 (“支持”、“反對” 和“無關”),情感得分使用兩個目前最好的第三方標注服務,通過 Amazon Comprehend 及Azure 文本分析服務分別進行標注,并取兩者的平均值作為最終的情感得分.

我們采樣了約15%的訓練數據作為驗證集以調整參數.詞嵌入層使用預訓練BERT.Tansformer 中單元數設置為256.Dropout 層,比率為0.5.使用Adam 作為優化器,學習速率設置為1e-4.立場檢測主任務的全連接層維度為128,情感預測輔助任務的全連接層維度為64.λ設置為0.75.此外,我們將L2 正則用于損失函數,并將正則化參數設置為0.01.

2.2 評估指標

MacroF1 被用于評估本文模型的性能.標簽“支持”和“反對”的F1 得分計算如下:

其中,P指準確率,R指召回率.然后計算MacroF1:

值得注意的是,“無關”標簽不會在訓練中被丟棄.但是評估中不考慮標簽“無關”.因為在此任務中我們僅對“支持”和“反對”標簽感興趣.

我們平均每個對象的Favg得到M acFavg.

2.3 結果

首先使用消融實驗來確定本文模型中每個組件對立場檢測的重要性.

(1) WT-all 是帶有情感預測輔助任務的模型.

(2) WT-main 跟WT-all 相比不帶有情感預測輔助任務.

表2是在SemEval-2016 數據集上立場檢測的性能比較結果,表2的前兩行數據顯示了該消融實驗的結果.在所有對象的表現上,帶有情感預測輔助任務的模型都優于不帶該輔助任務的模型.這可以表明情感預測輔助任務的有效性.

其次,我們將本文模型與以下基準方法進行比較(所有基準方法的實驗結果均來自原始論文):

(1) SVM[4]:通過單詞和字符的n-gram 進行訓練,超越了SemEval-2016 競賽中的最佳模型.

(2) JOINT[12]:利用情感信息來改進立場檢測任務.

(3) TAN[8]:基于注意力的LSTM 模型.

(4) AS-BiGRU-CNN[9]:在基于注意力的LSTM 模型之后加入CNN 以提取對象特征.

(5) HAN[10]:利用層級注意力機制建模各種語言特征.

(6) TGMN-CR[15]:使用注意力機制和記憶機制提取重要信息進行立場檢測.

表2 Favg 性能比較(%)

表2其余數據顯示了比較的結果.我們可以看到,WT-all 在“Climate Change is a Real Concern/氣候變化是一個真正的問題”(“CC”)、“Feminist Movement/女性主義運動”(“F”)、“Hillary Clinton/希拉里克林頓”(“H”)這3 個對象中優于所有基線模型.在“Atheism/無神論” (“A”)對象上也可以取得可比較的結果.該模型MacFavg比JOINT 模型高出1.21%,證明了模型的有效性.

3 結論與展望

在本文中,我們將Transformer 結構與門控注意力應用于特定對象立場檢測.使用Wordpiece 拆分可分離短語,Transformer 用于建模文本語義,門控注意力用于建模文本與對象的關系.此外,我們還加入了情感預測任務作為輔助任務,以充分利用文本中的情感信息來提升表現.在基準數據集上的實驗結果表明,在Macro F1 分數的評價體系下,我們的模型比其他模型具有更好的性能.在未來的工作中,我們可以進一步考慮對象間的關系:在立場檢測中,對象之間的相互關系往往是有幫助的,即推文可能通過談論其他相關對象,來推理對某一特定對象的立場,比如支持“特朗普”意味著反對“希拉里”.因而,如何捕捉到對象之間的關系,從而利用此類關系進一步提升立場檢測應用的表現,這需要更深入的研究.