楊 程,車文剛
(昆明理工大學信息工程與自動化學院,云南 昆明 650500)
近年來,大量的文本數據得以生成并可用于進一步的分析與處理,這些數據主要來源于在線文檔、文章、新聞和評論等。為了更好地完成下游任務,對這些長文本串進行摘要處理顯得尤為重要[1]。文本摘要的方法通常被分為兩大類:提取式摘要和抽象式摘要[2]。抽象式文本摘要需要理解文檔來生成摘要,因此抽象式摘要的模型通常需要實詞知識和語義類分析[3]。各種深度學習模型已被用于抽象摘要,包括RNN、卷積神經網絡(CNNs)和序列到序列模型。很多研究者注意到情感分析的結果與文本摘要的結果結合可以對學習過程和結果進行優化。文獻[4]通過將文本摘要及用戶評價的情感結合分析,提出了一套評價推薦系統的方法;文獻[5]使用BERTSUMEXT 提取文本摘要,采用LDA 進行主題建模,通過FinBERT 進行情感分析以及使用決策樹和隨機森林進行性能預測,最終為決策者提供了年度報告內容的詳細解釋,及其與未來公司業績的關系;文獻[6]通過有效性分析幫助提取基于情感分析酒店評論摘要。
目前針對多任務模型的優化主要基于針對結構的調整,通過不同的策略更好地學習任務的共享信息。例如:MMoE[7](Multi-gate Mixture-of-Expert)模型采用多門控制機制來平衡多任務,拓展了MoE[8](Mixture-of-Expert)模型;PLE[9](Progressive Layered Extraction)模型通過聯合表示和信息路由的角度,采用漸進式分層的方法分離了任務的特定參數和共享參數。然而這些優化主要針對普遍領域的優化,在一些特定領域,仍然可以根據任務的特點進行進一步的模型架構和機制調優。
在MMoE 模型中,塔層網絡結構和專家層網絡結構均是由深度神經網絡構成,然而在處理文本數據的能力上,循環神經網絡模型被證實能獲得更佳的效果[10]。文本摘要與情感分析任務均是基于文本數據進行學習,采用序列到序列的編碼解碼模型對MMoE 原有的深度神經網絡進行重構,可以使模型能夠學習到上下文信息以及更精確的文本理解能力,幫助模型獲得更優的效果。但是在采用模型重構后,原有專家層的輸出由一個單純的輸出變為了最后一個時刻的隱藏層狀態和上下文信息,因此需要針對新的模型設計門控制網絡機制。MMoE 中的門控制網絡機制是根據輸入計算然后不斷學習得到權重矩陣,這種計算方式很難快速反映出每個輸出針對每個任務的重要程度。然而采用循環神經網絡替換深度神經網絡后,可以應用注意力機制中針對每個輸入向量計算出的上下文權重值替換簡單根據輸入計算出的權重,由于上下文權重值表示的是每個輸入向量需要注意的程度,因此,學習起來會更加快速。此外,MMoE 沒有專注于特殊任務的信息學習,采用的是共享專家層的信息進行學習后加權輸入到特殊任務的塔層網絡,由塔層網絡進行學習。將專家層和塔層設計為序列到序列的模式之后,每個專家網絡的隱藏層信息不進行加權,直接輸入塔層網絡,結合兩個任務互相學習到的上下文信息進行解碼,既可以獲得任務之間的共享信息,也可以學習到任務之間的獨有信息。最后,基于文獻[11]使用的方法證實的文本摘要任務和情感分析任務有相互促進的效果論證,提出了一種新的門控制網絡之間的權值注意力修改機制。該機制在對于一個文本需要摘要和情感分析的情境下,可以優化注意力機制針對實詞知識和語義分析的學習,從而幫助帶有注意力機制的模型獲得更高的準確率和更快的收斂。
序列到序列的模型[10]在許多自然語言處理的問題上獲得了最優的成果,包括文章摘要[12]、情感分析[13]等。其中由兩個循環神經網絡組成的編碼器解碼器的模型已經被證實在處理由一個序列生產新的序列問題上相比普通的模型有著更優的效果[14]。序列到序列模型重構后的MMoE 模型架構如圖1 所示。

圖1 使用序列到序列模型重構后的MMoE 模型架構
如圖1 所示,由于每個任務是由帶注意力機制的序列到序列模型組成,為了讓模型能夠學習到特定任務獨有的信息,將注意力機制計算出的最后一層隱藏層編碼傳入塔層協助解碼工作,同時專家層學習到的上下文信息會輸入到門控制網絡進行加權學習共享信息。在門控制網絡之間將會利用文獻[10]提出的理論重新設計權值矩陣,并且在門控制層網絡之間相互共享權值信息,之后根據共享的權值信息對自身權值矩陣進行更新,從而加快權值矩陣的學習。
其中RNN 專家網絡層模塊的設置需要進行一定的調優。在MMoE 模型中,由多個專家層模塊同時學習輸入值,之后由各自任務的門控制網絡對所有專家層的輸出進行加權。然而在替換后的模型中,由于需要將每個專家層的隱藏層狀態直接傳入到塔層模塊,以學得任務自身獨有的信息,因此每個任務需要有一個獨立的專家模塊,但該專家模塊中可以有多個專家網絡,之后將多個專家網絡學習到的信息進行加權輸出,那么專家層模塊中的專家網絡數量即為一個超參數,可根據實際情況進行調整。
在采用序列到序列的模型網絡后,將會面臨如下幾個問題:
1)專家層的輸出由原始的運算結果矩陣變為了隱藏層的狀態,需要對門控制網絡進行修改。
2)MMoE 模型中的門控制網絡是根據輸入學習權重矩陣,然后根據權重矩陣對專家層學習到的信息進行加權。這一做法忽視了對每個任務獨有信息的學習提取,僅僅針對共享信息進行加權之后傳入各自任務的塔層結構。
3)上下文信息更加符合對于目前每個詞向量信息的描述,因此相比專家層的輸出更加適合作為兩個任務進行加權學習的對象。
為解決以上問題,針對MMoE 的網絡架構進行如下修改:
設計新的門控制網絡結構,其詳細架構將在第2 節進行介紹,新設計的架構不僅能夠匹配序列到序列模型的解碼層信息進行學習,同時在學習任務聯系時相比MMoE 有著更全面的信息和更好的初始狀態。
為了使得每個任務能夠學習到專注于自己任務的信息,將每個專家層網絡的隱藏層編碼私有,直接傳到塔層網絡架構。同時,為了獲得任務之間的共享信息,將每個任務之間的上下文信息共享,并且通過第3 節中的權值機制修改計算上下文信息的權重,從而更快地促進當前任務的學習。
如圖2 所示,輸入向量通過不同的權重矩陣加權相加后進行Softmax 操作,得到了一個用于決定專家網絡的所有輸出在對應任務中分別應該占有的權重。這一做法很難真實地反映出任務之間的聯系和區別,與輸入加權的權重矩陣也需要由隨機值不斷學習,其學習的速度也相對較慢。因此,本文采用注意力機制計算出針對每個詞向量的權重作為對應專家網絡的加權矩陣,同時結合另一個專家網絡注意力機制計算出的權重計算在本任務中對專注另一任務的專家網絡的輸出加權。

圖2 MMoE 門控制網絡層結構
從MMoE 模型的門控制網絡層的計算公式可以看出,門控制網絡層的思想類似于Attention 機制中使用權重矩陣相似函數計算相似度,其權重計算依賴的是輸入值,且每個任務的權重由自己學習得到。
根據文獻[15]提出的在序列到序列模型中加入注意力機制的思想,將原本的權值計算改為結合循環神經網絡注意力機制的權重計算。在序列到序列的模型中,解碼層除了接收到編碼層的隱藏層信息,還有上下文信息,上下文信息的權重計算公式如下:
公式(2)為對齊模型,可以用于評估位置j附近的輸入和位置i的輸出的匹配程度,其程度大小由i-1 的隱藏層狀態和j的注釋決定。在新的門控制網絡中,每個任務的權重矩陣由上下文信息權重組成,而不是MMoE中隨機生成的權重矩陣。同時,該矩陣在生成之后還會經過第3 節中的權值修改機制進行修改。最終,將兩個專家層網絡中的注釋信息通過各自的門控制網絡中的權重矩陣進行加權求和,分別輸送給各自的塔層任務。
如圖3 所示,在任務1 的門控制網絡模塊中使用當前專家網絡的每個隱藏層狀態和信息求出的權重作為當前專家層網絡任務權重矩陣,而針對另一個專家層的權重矩陣,則是結合兩個任務中的門控制網絡收到的權重根據權值修改機制生成,最后將兩個專家層網絡的注釋信息傳入各自門控制網絡后加權求和作為各自塔層網絡的輸入。這一權重矩陣對比其隨機初始的權重矩陣可以更合理地表示針對專家層每個輸出的重要性,通過使用每個向量對應的隱藏層狀態權重來替代隨機初始化的權重矩陣,使得整個模型收斂速度加快。通過將針對兩個任務的專家層的輸出權重分開處理,保證了本任務的主要影響性,同時也兼顧了另一任務與本任務之間的聯系和共享信息,并且由于權值修改機制是基于兩個任務之間相互促進理論設計,可以使得權重矩陣進一步體現出任務之間的聯系。

圖3 優化后的MMoE 門網絡層模型
文獻[11]研究了從非結構化文本中獲取情緒、觀點、態度等多方面信息的方法,同時發現,在文本提取時模型會盡可能詳細地查看文本中感興趣的領域,但是由于主觀性的句子經常包含一些隱喻性或者看似與文本摘要相關的表達,導致模型會錯誤地關注這些主觀性的句子。因此,如果能在文本摘要的材料中剔除主觀色彩的部分,將會提高文本摘要提取的速度和準確率,在主觀分析中亦是如此。
本文總共提出了兩種權重修改機制:
1)直接修改策略。使用文章摘要作為主導,僅使用注意力機制的權重計算機制計算出文章摘要任務的權重,然后根據文章摘要任務的權重生成情感分析任務的摘要。情感分析任務的權重為單位矩陣減去文章總結任務的權重矩陣,為了方便后續計算,再進行歸一化。WE為事件提取任務的權重矩陣,WS為情感分析任務的權重矩陣,可以形式化表示為:
2)輔助修改策略。使用文章摘要任務作為主導,但是同時計算兩個任務的權重矩陣,然后按照一個設定的比例,依據文章摘要任務的權重對情感任務的權重進行修改,可以形式化表示為:
式中λ為設定的0~1 的數值,用于決定文章摘要任務中的權重對于情感摘要任務的權重影響大小,在第4 節實驗中,當λ取0.8 時取得的效果最優。其思想為:當文章摘要任務的權重小于權重平均值時,則適當增加該信息在情感任務中的權重,反之,則減少,起到決定事件提取任務中對于該向量的權值是增加還是減少的作用,若事件提取任務中,該詞向量的權值大于該向量在情感分析中的權值,則增大比重。公式最后一部分確定修改權值的大小,若情感分析任務中該向量權值較大,則修改較大。同時,兩個任務針對該向量權值之和作為分母,可以使兩個權值都較大時,適當減少修改的值。
在第4 節的實驗中,對比了兩種機制兩個任務的消耗和結果,最終選擇第二種權值修改策略。
本節一共設置3 個實驗,首先是針對優化前后的MMoE 在兩個任務的準確度和時間損耗進行對比,證明模型優化的有效性;之后針對直接修改策略、不同參數的輔助修改策略以及原始MMoE 的性能進行對比,證明權值修改策略的有效性及得出最佳參數;最后,采用消融實驗證明每一步優化的有效性。
實驗采用NLPCC2017 摘要任務數據集,對于文本摘要任務的評估,采用數據集中的標題作為標準,計算預測結果的Rouge-1、Rouge-2 及Rouge-L分數;對于情感分析任務,將文獻[16]提出的Bert 模型運用于情感分析進行訓練,并且將訓練好的模型對NLPCC2017 數據集進行情感標注,之后用于情感分析任務訓練。
如圖4 所示,優化后的模型針對原始MMoE 在任何一個Rouge 指標的評價下都取得了更好的得分,其中Rouge-L的得分差距最為明顯,而Rouge-L指標是依據最長子序列的準確率進行計算,表明優化后的模型在正確找到最長子序列的能力優于原始模型,具備更佳的理解能力。

圖4 MMoE 與優化后的MMoE 在摘要任務上的預測能力評估
如圖5 所示,將每次訓練兩個模型的準確率進行對比,在第一次訓練中,優化后的MMoE 與MMoE 差值最大,準確率提高了5.12%。然而在第二次訓練時,準確率低于原始模型。通過對判斷錯誤的評估數據集進行分析,發現優化后的MMoE 由于權值修改機制,導致在一個任務學習到錯誤的權重矩陣后,對另一個任務權重矩陣進行修改將會使得學習到的錯誤信息進行傳遞,從而出現更多的錯誤預測。因此,提出以下兩種可深入研究的解決方案:

圖5 MMoE 與優化后的MMoE 在情感分析任務上預測能力評估比較
1)采用隨機不進行權值修改的機制,犧牲部分性能來減少錯誤傳遞。
2)采用預訓練,減少學習到錯誤信息的情況。
針對權值修改策略,在第3 節中提出了兩種方法:第一種為直接使用情感分析的權重矩陣決定事件提取的權重;第二種為參考事件提取任務的權重對情感分析任務的矩陣進行一定程度上的修正。實驗將針對幾種不同策略進行對比,得出性能最佳的策略。不同權值修改策略Rouge 分數對比如表1 所示。

表1 不同權值修改策略Rouge 分數對比
如表1 所示,可知當λ取值較低時,對于文本摘要任務權值的修改并不大,從而并不能很好地體現出權值修改策略的優化效果。隨著λ的提升,情感分析任務對于文本摘要任務的促進效果逐漸明顯,在λ=0.8 時達到最優效果。而對于直接決定策略,有時候過于簡單的判斷二者之間的關系,導致在部分得分上甚至低于不采取任何權值修改策略。
表2 為不同優化的模型性能對比,僅僅進行網絡架構和門控制網絡重構的MMoE 模型針對原始MMoE 在文本摘要任務上性能提升,最低為Rouge-2 分數提升,在MMoE 的基礎上提升了4.3%;最高為Rouge-L分數提升,在MMoE 的基礎上提升了6.6%。而加入權值共享機制的完全優化MMoE 在網絡結構重構的MMoE 基礎上又進行了提升,其中完全優化的MMoE 在Rouge-L分數上提升最明顯,比僅結構重構的MMoE 提升了7.7%。同時,在情感分析任務中,準確率也在每一步優化后都得到了提升。因此,本文提出的方案都對MMoE 模型進行了有效的優化。

表2 不同優化模型的性能對比
為解決MMoE 模型針對情感分析和文本摘要這一特定領域內對文本信息處理能力的不足,采用帶有編碼解碼架構的序列到序列模型替換原始MMoE 模型中的深度神經網絡。同時,為了解決架構替換后帶來的數據不匹配及MMoE 模型缺少針對任務獨有信息的學習不足問題,對網絡架構進行調整,并設計了新的門控制網絡架構。為了解決MMoE 模型針對任務之間聯系學習能力不足,引入注意力機制并設計了新的門控制網絡權值初始化機制,同時基于文獻[11]證實的情感分析和文本摘要互助理論,提出了權值共享修改機制,幫助門控制網絡更好地學習到任務之間的聯系。最終,通過實驗選擇最佳的權值共享修改機制,同時證明了經過以上優化的模型相比于MMoE,在文本摘要任務上,Rouge-L的分數在MMoE 的基礎上提高了14.82%,在情感分析任務上準確率最高提升了3.64%。
但是模型仍然存在著錯誤傳遞的問題,即當一個任務學習到錯誤的信息,在依照該任務權值進行權值修改時會將錯誤傳遞至另一個任務的權重矩陣。可以從減少錯誤的傳遞、減少錯誤的出現等方面進行改進,例如:設計一定概率不進行權值共享的機制或者使用預訓練提高模型學習的準確率等。