999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于外部知識篩選的主題文本生成技術研究

2024-04-29 11:17:10王沛楊頻程芃森代金鞘賈鵬
四川大學學報(自然科學版) 2024年1期
關鍵詞:語義文本模型

王沛 楊頻 程芃森 代金鞘 賈鵬

在自然語言生成任務中,主題文本生成是一項富有挑戰性的工作,其主要難點在于:源信息量遠小于目標生成的信息量.為了解決該問題,本文提出一個基于外部知識篩選的主題文本生成模型Trans-K,通過引入與主題詞相關的外部知識來豐富源信息,進而提高生成文本的質量.本文為了解決引入外部知識的“一詞多義”問題,提出一種基于線性變換的主題向量計算方法,用于篩選和主題詞語義一致的外部知識;提出一種基于注意力機制的外部權重計算方法,為每個外部詞設定一個主題權重,使其更貼合文本語義;為了解決主題詞(含候選詞)在生成文本中反復出現的問題,提出一種基于多頭注意力機制的內部權重計算方法.在EASSY數據集上的實驗表明,與基線相比,Trans-K生成文本質量的各項指標更優.此外,人類評估表明,該模型可生成與主題更相關、語言更連貫、且符合語義邏輯的文本.

自然語言生成; 主題文本生成; Transformer; HowNet; 知識增強

TP391.1 A 2024.012003

Research on topic text generation technology ?based on external knowledge filtering

WANG Pei, YANG Pin, CHENG Peng-Sen, DAI Jin-Qiao, JIA Peng

(School of Cyber Science and Engineering, Sichuan University, Chengdu 610065, China)

In the natural language generation task, topic text generation is a challenging task,the main difficulty is that the amount of source information is much smaller than the amount of information generated by the target. To solve this problem, this paper proposes a topic text generation model called Trans-K based on external knowledge filtering, which enriches the source information by introducing external knowledge related to topic words, thereby improving the quality of the generated text. In this paper, in order to solve the "polysemy" problem of introducing external knowledge, a topic vector calculation method based on linear transformation is proposed to filter external knowledge consistent with the semantics of the topic words. An external weight calculation method based on attention mechanism is proposed, which sets a topic weight for each external word to make it more suitable for text semantics. In order to solve the problem that topic words including candidate words, appear repeatedly in the generated text, an internal weight calculation method based on the multi-head attention mechanism is proposed. Experiments on the EASSY dataset show that Trans-K is superior to various indicators of the quality of generated text compared to the baseline. In addition, human evaluations show that the model can generate more topic-relevant, linguistically coherent, and semantically logicals text.

Natural language generation; Topic text generation; Transformer; HowNet; Knowledge enhancement

1 引 言

隨著信息時代發展,人工智能技術對人類生活產生了巨大影響.基于人工智能的自然語言生成(Natural Language Generation,NLG)技術被廣泛應用于新聞寫作、自動對話等領域,現已成為人工智能的研究熱點之一 ?[1] .主題文本生成(Topic-to-Essay Generation,TEG)是近幾年提出的一個新方向,它是指以一組用戶指定的主題詞集合作為輸入,輸出一段與主題相關、連貫的文本 ?[2] .此技術可快速將輿論話題中的幾個熱點關鍵詞擴展成一段文本,也能為其他文本生成任務的個性化、多樣化發展提供更多可能性.

然而,相較于對話系統、機器翻譯、摘要生成等文本生成任務,主題文本生成更具挑戰性.一個主要原因是:TEG任務的源信息過少,而目標生成的信息量較多.如果輸入與輸出間存在著巨大的語義信息差,則容易造成生成的句子枯燥且質量低下 ?[2] .從圖1不難看出,機器翻譯輸入和輸出的信息量大致相同,文本摘要的輸入明顯大于輸出,而TEG的輸入則遠小于目標生成的信息量.

為了解決源信息匱乏的問題,研究者們提出引入外部知識來豐富源信息, 但現有的研究方法仍存在以下問題:(1) 外部詞的“一詞多義”問題:對于同一個主題詞,從知識圖譜中檢索出的外部詞可能具有多個不同的含義.如果將這些有歧義的外部知識直接融入解碼器,可能會引入與主題無關的信息. 雖然已有研究 ?[3] 提出將平均主題詞向量和不同的外部詞計算相似度,以減少歧義性,但平均值法是模糊和非排他性的 ?[2] .(2) 生成文本的主題表達不全面:在生成文本的過程中,可能會出現某些詞反復出現,而另一些詞沒有出現的情況.雖然現有主題覆蓋機制 ?[2] 可加強對未表達話題詞的關注度,但它多用于循環神經網絡(Recurrent Neural Network, RNN) ?[4] ,且一般只作用于主題詞,未對引入的外部詞進行處理.

為了解決上述問題,本文提出了一個融合外部知識的主題文本生成模型Trans-K,該模型基于Transformer ?[5] 框架,通過自注意力機制捕獲文本中的長依賴關系;同時取消了編碼器中的位置編碼,以解決TEG任務的時序問題.本文的貢獻點如下: (1) 提出了一種基于線性變換的主題向量計算方法,用于篩選和主題詞語義一致的外部詞,解決了外部詞的“一詞多義”問題; (2) 提出了一種基于注意力機制的外部權重計算方法,為外部詞設定主題權重,使引入的外部知識更加貼合文本語義,避免引入不必要的噪聲;(3) 提出了一種基于多頭注意力機制的內部權重計算方法,在解碼器中更新多頭自注意力分數,使模型更多地關注未表達的主題詞,提高生成文本的主題相關性; (4) 在公用數據集EASSY上的自動和人工評估結果均表明,本文提出的模型優于先進的基線模型.

2 相關工作

2018年,Feng等 ?[2] 首次提出了TEG任務.論文設計了TAV、TAT和MTA三個模型,逐步引入平均主題詞向量、注意力機制和主題覆蓋機制.其中MTA模型成為該領域的經典基準模型之一.2019年,Yang等 ?[6] 提出通過動態記憶機制將來自外部知識庫的常識整合到生成器中,從而提高生成文章的新穎性和多樣性,并采用基于多標簽鑒別器的對抗性訓練來進一步提高主題一致性.2021年,Luo等 ?[3] 提出了一個基于義原的主題文本生成模型,使用一種非當前主題詞的相似性度量法來過濾義原信息;2021年,Liu等 ?[7] 提出了一種具有綜合知識增強功能的主題文本生成模型,通過教師-學生的CVAE網絡實現內部知識增強,同時通過一個主題知識圖編碼器實現外部知識增強. 2021年,Pascual等 ?[8] 提出了一種即插即用解碼方法K2T.將詞匯表中的概率分布向與目標約束詞語義相似的單詞添加一個偏移.雖然該方法較直觀,但可能使詞匯的概率分布變得混亂.

然而,上述方法都基于RNN實現,該網絡結構在TEG任務中存在著一些不足.一方面,由于TEG任務的源信息過少,隨著目標文本長度的增加,RNN很難捕獲文本中的長依賴關系 ?[9] ;另一方面,RNN適合挖掘時序數據的語義 ?[10] ,但主題詞集合不是嚴格的時序數據.采用時序模型來獲取輸入詞語的上下文向量,有些不符合常理. 2022年,He等 ?[11] 提出了一個基于Transformer 的分層主題文本生成模型,可在一定程度上緩解RNN的長依賴問題,但該方法仍然沒有很好地改善源信息匱乏的問題.

與主題文本生成任務類似的一個任務是中國詩歌的生成.2014年,Zhang等 ?[12] 首次將RNN引入到中文詩歌生成任務中.2016年,Wang等 ?[13] 提出了一種兩段式的生成方法,先生成幾個子主題,再利用RNN逐次生成對應行的詩句.2019年,Liu等 ?[14] 提出了一種修辭控制編碼器,用于現代漢語詩歌生成任務.2021年,Shao等 ?[15] 按照風格、情感、格式和主要關鍵字,對數十萬首詩歌進行分類,并通過掩碼自注意力機制關聯多個標簽,進而生成風格、情緒可控的詩歌.

然而,中文詩歌具有明顯的結構化規則和平仄規律,TEG任務的生成目標卻是非結構化的長文本. 直接沿用詩歌生成任務的研究思路,往往會導致主題漂移問題,給TEG任務帶來挑戰.

3 模型描述

主題文本生成任務可表示為:給定一個由 k 個主題詞組成的集合 T={ t ??1 , t ??2 ,…, t ??k } ,生成一個包含 T 中主題的句子 Y={ y ??1 , y ??2 ,…, y ??n } ,且 Y 內的詞語數 n 遠遠大于主題詞數量 k .模型的訓練目標是從主題-文本對的數據集中,獲得具有 θ 參數的最優模型 ?θ ?︿ ?,使條件概率最大化:

θ ?︿ = arg max ???θ ??P ??θ ?Y T) ?(1)

本文提出了一個融合外部知識的主題文本生成模型Trans-K,圖2給出了模型的整體結構圖.首先,基于Transformer構建編碼器和解碼器,特別的是,在編碼器中取消了位置編碼,因為輸入的主題詞集合不具備嚴格的時序性;其次,基于線性變換的主題向量計算方法,篩選出和主題詞語義一致的外部詞;再次,為篩選后的外部詞設置外部權重,減少不必要的噪聲;最后,根據外部知識和編碼器隱藏層狀態,更新解碼器的內部權重,并將其應用到多頭自注意力機制中,使模型更多地考慮未表達的詞語.

3.1 基于線性變換的主題向量計算方法

將主題詞集合 T={ t ??1 , t ??2 ,…, t ??k } 中的某一主題詞 ?t ??i ?作為索引,在外部知識圖譜中進行檢索,可得到 L 個候選詞.檢索結果表示為

candidate ???i = ?t ??i : ?c ??i1 , c ??i2 ,…, c ??iL ????(2)

然而,中文里普遍存在著“一詞多義”的現象,例如:“蘋果”一詞可檢索出“水果”和“電腦品牌”兩種完全不同的擴展含義.因此,本文將當前主題詞集合的主題向量和各候選詞進行相似度計算,以避免引入與主題無關的信息.

文獻[3]提出將所有非當前主題詞的平均詞向量作為主題向量,但這種方法是模糊和非排他性的 ?[2] .如:主題詞組 A: 0.1,0.3,0.5 ) 和 B: -0.1,0.8,0.2 ?都可得到平均詞向量 ?0.3 ?.為了解決這個問題,本文提出一種基于線性變換的主題向量計算方法.

(1) ?將一組主題詞按照詞典序號從小到大的方式進行排序,排序后的主題詞組表示為 ?T ???sort .這是為了避免在后續操作中,出現同樣的詞語因排列順序不同而拼接結果不同的情況;

(2) 將所有排序后的主題詞依次拼接起來,得到一個新的主題向量 ?T ???merge .由于關鍵詞在生成文本中的實際順序與輸入順序無關,因而采用固定方式拼接不會對結果造成影響.

T ???merge =concatenate ??T ???sort ??(3)

其中,函數concatenate表示將輸入的有序向量集合進行行拼接.假設每個主題詞的向量維度為 x ,則 ?T ???merge 的維度為 k*x .

(3) 利用線性變換,對 ?T ???merge 進行降維,使其與各候選詞 ?c ??il ?的維度保持一致,降低后續計算的復雜度.壓縮維度的公式如下.

T ???linear ?=A· T ???merge ?+b ?(4)

其中, ?T ???linear 表示當前主題詞組的主題向量; A 表示權重矩陣; b 表示偏置矩陣.

完成上述操作后,再計算主題向量和各候選詞之間的相關度,找出與當前主題最相關的候選詞.計算如下所示.

s ??i ={ similarity ( c ???il ?, T ???linear ?)} ??L ??l=1 ,i=1,2,…,k ?(5)

m ??i = ?c ??il ??max ?( s ??i )),i=1,2,…,k ?(6)

式(5)中, ?c ??il ?表示第 i 個主題詞 ?t ??i ?對應的第 l 個候選詞; ?s ??i ?表示第 i 個主題詞與其 L 個候選詞的相關度集合;式(6)中, ?m ??i ?表示最大相關度對應的候選詞,即與當前主題詞語義最貼合的外部詞.

最終,找出和 k 個主題詞一一對應的最相關外部詞,表示為集合 M .

M= ?m ??i ????k ??i=1 ??(7)

圖3展示了上述步驟的執行流程,其中無序主題詞里的數字表示該主題詞在詞典中對應的序號.

表1給出一個經過篩選后的示例.由表1可知,第一組主題詞顯然圍繞蘋果自身的含義展開,自然地,“蘋果”對應的外部詞為“水果”;而對于第二組主題詞,主題語義和“科技”、“電腦品牌”等含義更相關,因此“蘋果”對應的外部詞為“電腦”,“現代”對應的是“經濟”,而不是“車”.

3.2 基于注意力機制的外部權重計算方法

雖然上述過程可以篩選出和主題詞語義一致的外部知識,但如果將原主題詞和外部詞簡單拼接后直接傳入解碼器,則可能會引入不必要的噪聲.

例如:給定一組主題詞[“蘋果”、“春天”],目標生成句子為“春天的蘋果很好吃”.經過上一步驟,可得到最貼合原主題詞語義的外部詞組[“樹”、“春”].其中,“春”和目標句的語義很相關,“樹”卻不太相符.在Tranformer中,自注意力機制雖然可以使源序列和目標序列“自身”所蘊含的信息更加豐富,但沒有對外部詞和目標序列間的關系進行處理.因此,我們希望能夠為每個外部詞設定一個主題權重,減小“樹”對應的權重,將更多的“注意力”放到 “春”上.

受注意力機制 ?[16] 啟發,本文提出一種計算候選詞外部權重的方法,可根據期望表達的語義對權重進行動態調整.

將固定的外部詞向量列表 M ,轉換為可根據輸入信息而變化的動態詞向量 ?M ′ ,計算公式如下.

M ′= ?m ??i * a ??i ????k ??i=1 ??(8)

其中, ?a ??i ?表示給第 i 個外部詞 ?m ??i ?分配的權重,由以下公式推導得出:

a ???i = ?exp ??g ???i ??∑ ??k ??i=1 ?exp ??g ???i ????(9)

g ??i = ?v ??a ???T ?tanh ??W ??a ?m ??i + U ??a ?H ???enc ??(10)

其中, ?v ??a ?、 ?W ??a ?和 ?U ??a ?是可學習的參數矩陣或向量; ?H ???enc 是主題詞組 X 經過編碼器后的隱藏狀態; ?g ??i ?是 ?m ??i ?上的注意力得分.

最后,將編碼器輸出的主題詞隱藏狀態 ?h ??e ??i ?與賦權值后的候選詞 ??m ??i ?′ 進行拼接,并將其傳入解碼器.本文采用一一對應的拼接方式,而不是統一附著在 ?H ???enc 之后,此時的詞向量表示為

H ???enc_m ?= ?h ??e ??1 , ?m ??1 ?′, h ??e ??2 , ?m ??2 ?′…, h ??e ??k , ?m ??k ?′ ??(11)

同時,考慮外部知識后的TEG任務的目標(1)可以修改為

θ ?︿ = arg max ???θ ??P ??θ ?Y T, M ′) ?(12)

3.3 基于多頭注意力機制的內部權重計算方法

為了保證模型生成文本的主題完整性和相關性,避免某些詞反復出現,而另一些詞沒有出現在生成文本中的情況.受主題覆蓋向量 ?[2] 的啟發,本文提出一種基于多頭注意力機制的內部權重計算方法,以便在Transformer解碼器內部,動態調整多頭注意力分數,使模型可以更多地考慮未表達的主題詞和候選詞.

內部權重表示主題詞(含候選詞)在下一層中需要表達的程度,用于調整注意力策略.該權重向量的更新過程如式(13)所示.

C ??n+1 = C ??n - 1 ???s ??n ?Q,K,V ??(13)

其中, ??由公式(14)可得; ?s ??n (Q,K,V) 是解碼器在第 n 層的多頭自注意力的分數,將其和 V 相乘可以得到縮放點乘注意力 ?[17] ,計算如公式(15)所示.

=N·σ ?U ??f ?H ???enc_m ??(14)

s ??n ?Q,K,V = softmax ??Q K ??T ?????d ??k ????C ??n ??(15)

式(14)中, N 為解碼器的層數; σ 為sigmod函數; ?U ??f ?為參數矩陣; ?H ???enc_m 為編碼器輸出的隱藏狀態和帶權重候選詞的拼接向量,即 ?{ h ??e ??i , ?m ??i ?′} ??k ??i=1 ?;式(15)中, ?K=V= H ???enc_m ,維度轉換為 ?d ??k ??, Q= H ???dec ???n-1 ?,表示第 n-1 層解碼器的輸出.

此時,考慮內部權重后的TEG任務的目標(12)可以修改為

θ ?︿ = arg max ???θ ??P ??θ ?Y T, M ′, C ??n ) ?(16)

4 實 驗

4.1 基本設置

4.1.1 數據集 ?本文采用文獻[2]提出的ESSAY數據集,它是TEG任務中的一個高質量公開數據集,包括320萬篇中國初中或高中作文,每個句子有5個主題.我們選用了其中長度在40~50間的50 000條數據作為訓練集,5000條作測試集.文本最大長度設為50,不足的部分用填充,詞表外的詞語用填充.

4.1.2 模型設置 ?本文使用Word2Vec ?[18] 進行詞嵌入,得到低維實數向量表示 ?[19] .選用HowNet ?[20] 知識圖譜作為外部知識庫,它在自然語言處理方面,更貼近語言的本質特點,在融入學習模型方面,也具有無可比擬的優勢 ?[21] .我們將主題詞的鄰近詞作為候選信息,并去除和索引相同的詞,候選詞的最大數量設為5.采用余弦相似度方法 ?[22] 計算主題向量與各候選詞之間的相似度.模型的參數設置如表2所示.

4.2 基準模型

本文選擇了以下基準方法與論文提出的模型Trans-K作比較:

(1)TAV-LSTM:利用所有主題詞的平均加權和嵌入來表示主題語義,使用長短期記憶網絡(Long Short-Term Memory, LSTM) ?[23] 作為編/解碼器 ?[2] ;

(2)TAT-LSTM:使用注意力機制對主題詞和生成詞之間的語義關系進行建模 ?[2] ;

(3)MTA-LSTM:使用主題覆蓋向量來調整注意機制,使模型更加關注未表達的主題詞 ?[2] ;

(4)MTAK-LSTM:自定義模型.在MTA-LSTM模型的基礎上引入外部知識,具體的做法是將從Hownet中提取的外部知識和源主題詞一一拼接后傳入解碼器,即傳入模型的主題詞向量 ?T={ ?t ??1 , m ??1 , t ??2 , m ??2 ,…, t ??k , m ??k } .

4.3 評價指標

4.3.1 自動評估

(1) BLEU:雙語評估替補(BLEU)是機器翻譯的一個自動評估指標 ?[24] .使用訓練集作為參考,計算BLEU值來評估生成的文本.本文選取BLEU-2、BLEU-3和BLEU-4的分數進行比較.分數越高,生成文本的精度(流暢性)越好.

(2) Back-BLEU:使用生成的文本作為參考,計算BLEU值來評估訓練集中的文本.本文選取Back-BLEU-2的值進行比較,表中縮寫為B-BLEU.分數越高,生成文本的召回率(多樣性)越好.

4.3.2 人工評估 ?由5名中文專家對每個模型生成的100個隨機樣本進行主觀評價.包括:完整性(生成文本是否完整)、相關性(生成文本與主題詞是否相關)、流暢性(在語法和句法上是否結構良好)、連貫性(是否具有主題和邏輯結構)四個評價維度 ?[2] .每個維度給出一個1~5分之間的分數,并計算平均值作為最終得分.

4.4 實驗結果分析

自動評估結果如表3所示.結果表明,Trans-K的各項指標均表現為最優.證明了本文提出的方法可以有效提高生成文本的質量.特別的是,與最佳基準模型相比,Trans-K在BLEU-4上提高了58.12,在Back-BLEU上提高了20.53.證明生成文本的流暢性和多樣性都得到了顯著提升.

經過進一步觀察,不難發現:隨著 n -gram匹配片段的增大,上述模型的BLEU值均有不同程度的減小.其中,基于LSTM基準模型的下降速率較快,基于Trans-K的下降趨勢卻相對平緩.這可能是因為在源信息遠小于生成信息量的情況下,Transformer是基于詞語間的相對距離來構建模型的,能夠較LSTM模型更好地捕獲文本中的長依賴關系.另外,一個有趣的發現是,在MTA-LSTM模型上引入外部知識后(MTAK-LSTM)的各指標都不如原模型.

表4給出了人類評估結果,從中可以得出類似的結論.顯然,Trans-K模型優于基線,尤其是在主題一致性方面.例如:與最佳基線相比,該模型的相關性得分提高了0.72,連貫性得分提高了0.69.這是因為外部知識庫提供的額外背景信息可以在一定程度上豐富源信息的語義知識,進而幫助模型生成更加相關、連貫的句子.

下面對比各模型的訓練效果.

圖4是訓練過程的Loss值下降圖,可以看出TAT-LSTM模型的收斂效果最差,Trans-K的收斂效果優于其他基準模型. 當模型趨于平穩時,Trans-K的Loss值明顯低于其他模型的Loss值.

圖5較直觀地對比了訓練80輪后,各模型生成文本的準確率.準確率由生成文本和參考文本的張量進行逐元素比較得到,計算公式如下.

ACC = corrects real ?(17)

其中,corrects表示兩個張量中,索引位置和對應數值均相同的元素數量;real表示在參考文本張量中,去除填充位的元素數量.

由圖5可知,當模型訓練80輪時,Trans-K生成文本的準確率最高,TAV-LSTM的表現最差,引入外部知識后的模型MTAK-LSTM在準確率方面較MTA-LSTM有輕微的提升.

4.5 消融實驗

4.5.1 關鍵組成部分研究 ?為了更直觀地驗證前文所述方法的可行性和重要性,在本節進行以下消融實驗:

(1) Transformer:最基礎的Transformer模型,但編碼器取消了位置編碼.

(2) (w/o) LM:篩選和主題詞語義一致的候選詞時,采用文獻[3]提出的方法,將所有非當前主題詞的平均詞向量作為主題向量,并將其與候選詞做余弦相似度計算.

(3) (w/o) EW-1:取消基于注意力機制的外部權重,即 ?a ??i =1 .

(4) (w/o) EW-2:計算基于注意力機制的外部權重時,將編碼器的輸出替換為目標句經過位置編碼后的隱藏狀態,即 ?g ??i = ?v ??a ???T ?tanh ( W ??a ?m ??i + ???U ??a ?H ???pos ) .

(5) (w/o) IW:取消基于多頭注意力機制的內部權重,即 ?C ??n =0 .

上述模型的參數設置和Trans- K 一 致.表5和表6分別給出了消融實驗的自動和人類評估結果.

分析消融實驗的自動評估結果.由Transformer的結果可知,基礎的Transformer模型效果已經優于表3中的最優基準模型MTA-LSTM,證明了自注意力機制的有效性;另一方面,它的BLEU值明顯低于Trans-K的結果,其中BLEU-4值減小了21.35,說明引入外部常識知識能夠為模型提供更加豐富的語義知識,在一定程度上補充源信息.

由(w/o)LM和Trans-K的結果對比可知,兩者的Back-BLEU大致相同,但前者的3個BLEU值均小于完整模型,說明本文采用的方法可以更好地表達主題語義,采用平均詞向量作為主題向量的方法存在語義模棱兩可、不明確的可能性.

由(w/o)EW-1和EW-2的結果,討論外部詞的噪聲對模型生成效果的影響.對比(w/o)EW-1和Trans-K的評估結果,發現前者的各項指標均低于后者,說明為外部詞設定外部權重可以有效減少不必要的噪聲,使引入的外部知識更加貼近主題;而(w/o)EW-2和Trans-K的結果則證明了,編碼器輸出的隱藏狀態與經過位置編碼的目標生成文本相比,前者更適合與候選詞做注意力計算.

最后,對比(w/o)IW和Trans-K的評估結果.完整模型的各項指標均優于未加入多頭覆蓋向量的模型,證明了基于多頭注意力機制的內部權重可以提高模型生成文本的質量和多樣性.

消融實驗的人工評估結果也表明,本文提出的方法可以使模型性能得到有效提升.

4.5.2 外部詞檢索方式研究 ?HowNet里所有詞語(sense)的含義可以由更小的語義單位,即“義原”(sememe)構成 ?[20] .可總結出以下三種外部詞檢索方式:

(1) Sememe-T:選擇義原樹最頂端的義原作為主要的語義信息.

(2) Sememe-A:選擇義原樹所有的義原作為擴展語義信息.

(3) Sense:選擇主題詞的鄰近詞作為外部詞,即本文采用的檢索方式.

將3種方法分別應用到Trans-K模型,除檢索方式不同,其他設置均相同.結果如表7所示.和表5中的Transformer相比,3個模型的各項指標均有一定的提升,證明無論采用哪種檢索方式,引入外部知識都是有意義的;后兩種檢索方式的結果大致相同,說明外部詞的檢索方式對模型生成效果沒有太大的影響,本文提出的方法具有普適性.

5 結 論

本文提出了一個融合外部知識的主題文本生成模型Trans-K,其編碼器和解碼器基于Transformer結構,緩解了傳統采用RNN方法帶來的長依賴問題,減少了時序特性對生成結果的影響.該模型首先從外部常識知識庫中檢索出和主題詞有關的多個候選詞,再通過基于線性變換的主題向量計算方法,篩選出和主題詞語義一致的外部詞;其次,通過基于注意力機制的外部權重計算方法,為外部詞賦予主題權重,并將編碼器的隱藏狀態和賦值后的外部詞一一拼接后傳入解碼器;最后在解碼器計算多頭自注意力分數時,引入內部權重.

在公用數據集EASSY上訓練模型,自動評估和人工評估結果均表明,Trans-K模型優于當前主題文本生成任務中的基線模型;在消融實驗中證明了模型中各關鍵模塊的有效性,并對比了不同檢索候選詞方法對模型的影響.

未來,我們嘗試將更多類型或風格的外部知識引入到TEG任務中,例如:新聞、小說等.除此之外,還可進一步思考如何提升生成文本的多樣性,考慮引入修辭手法、語法結構等特征,生成更加符合人類書寫風格的內容.

參考文獻:

[1] ??Zhang J H, Chen J J. Summarization of natural language generation [J]. Appl Res Comp, 2006, 23:1.[張建華, 陳家駿. 自然語言生成綜述[J]. 計算機應用研究, 2006, 23: 1.]

[2] ?Feng X, Liu M, Liu J, ?et al . Topic-to-essay generation with neural networks [C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence, IJCAI-18. Stockholm: Morgan Kaufmann, 2018: 4078.

[3] ?Luo D, Ning X, Wu C. Sememe-based topic-to-essay generation with neural networks[EB/OL].[2022-12-20].https://iopscience.iop.org/issue/1742-6596/1861/1JPCS.

[4] ?Mikolov ?T, Kombrink S, Deoras A, ?et al . RNNLM-recurrent neural network language modeling toolkit[C]// Proceedings ?of the 2011 ASRU Workshop. Hawaii: IEEE, 2011: 196.

[5] ?Vaswani A, Shazeer N, Parmar N, ?et al . Attention is all you need [C]// Proceedings ?of the Advances in neural information processing systems 30. Long Beach, California: Morgan Kaufmann, 2017: 5998.

[6] ?Yang P, Li L, Luo F, ?et al . Enhancing topic-to-essay generation with external commonsense knowledge [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: ACL, 2019: 2002.

[7] ?Liu ?Z, J Wang, Li Z. Topic-to-essay generation with comprehensive knowledge enhancement[C]//Proceedings of the Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Bilbao: ECML PKDD, 2021: 302.

[8] ?Pascual D, Egressy B, Meister C, ?et al . A Plug-and-Play Method for Controlled Text Generation[C]//Empirical Methods in Natural Language Processing. [S. l.]: ACL, 2021: 3973.

[9] ?Li Z C.Text generation algorithm based on keyword semantic control [D]. Beijing: Beijing University of Posts and Telecommunications, 2019.[李作潮. 基于關鍵詞語義控制的文本生成算法研究[D].北京: 北京郵電大學, 2019.]

[10] ?Sun C H, Hu B, Zou Y X. A BP-LSTM trend forecast model for stock index [J]. J Sichuan Univ(Nat Sci ?Ed), 2020, 57: 27.[孫存浩, 胡兵, 鄒雨軒. 指數趨勢預測的BP-LSTM模型[J]. 四川大學學報(自然科學版), 2020, 57: 27.]

[11] He W, Rao Y. Transformer-based hierarchical topic-to-essay generation [EB/OL]. [2022-12-20]. https://www.sciencedirect.com/science/article/pii/ ?S1877050922005920.

[12] Zhang X, Lapata M. Chinese poetry generation with recurrent neural networks[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Doha: ACL, 2014: 670.

[13] Wang Z, He w, Wu H, ?et al . Chinese poetry generation with planning based neural network[C]// Proceedings of the COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. Osaka: [s. n.], 2016: 1051.

[14] Liu Z, Fu Z, Cao J, ?et al . Rhetorically controlled encoder-decoder for modern chinese poetry generation [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: ACL, 2019: 1992.

[15] Shao Y, Shao T, Wang M, ?et al . A Sentiment and Style Controllable Approach for Chinese Poetry Generation [C]// Proceedings of the 30th ACM International Conference on Information & Knowledge Management. [S.l.:s.n.], 2021: 4784.

[16] Bahdanau ?D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL]. [2022-12-20].https://arxiv.org/abs/1409.0473.

[17] Wang J W, Yang X C, Ju S G, ?et al. ?Text classification model based on convolutional neural network and self-attention mechanism [J]. J Sichuan Univ(Nat Sci Ed),2020, 57: 469.[汪嘉偉, 楊煦晨, 琚生根, 等. 基于卷積神經網絡和自注意力機制的文本分類模型[J]. 四川大學學報(自然科學版), 2020, 57: 469.]

[18] Goldberg Y, Levy O. word2vec Explained: derivingMikolov ?et al .′s negative-sampling word-embedding method [EB/OL]. [2022-12-20].https://arxiv.org/abs/1402.3722.

[19] ?Liu G F, Huang X Y, Liu X Y. Document sentiment modeling based on topic attention hierarchy memory network [J]. J Sichuan Univ(Nat Sci Ed), 2019, 56: 833.[劉廣峰, 黃賢英, 劉小洋, 等. 基于主題注意力層次記憶網絡的文檔情感建模[J]. 四川大學學報(自然科學版), 2019, 56: 833.]

[20] Dong Z, Qiang D. How net and the computation of meaning [M]. [S. l.]: World Scientific, 2006.

[21] Niu Y, Xie R, Liu Z, ?et al . Improved word representation learning with sememes[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver: ACL. 2017: ??2049.

[22] Wang C L, Yang Y H; Deng F, ?et al . Institute of Computer A Review of Text Similarity Approaches [J]. Inform Sci, 2019, 37: 158.[王春柳, 楊永輝, 鄧霏, 等. 文本相似度計算方法研究綜述[J]. 情報科學, 2019, 37: 158.]

[23] Sundermeyer M, R Schlüter, Ney H. LSTM neural networks for language modeling[C]// Thirteenth annual conference of the international speech communication association. Portland, Oregon, USA: [s. n.]. 2012: 194.

[24] Papineni K, Roukos S, Ward T, ?et al . Blue: a method for automatic evaluation of machine translation [C]// Proceedings of the Meeting of the Association for Computational Linguistics. Association for Computational Linguistics. Philadelphia: ACL,2002: 311.

收稿日期: ?2022-09-20

基金項目: ?四川省科技廳重點研發項目(2021YFG0156)

作者簡介: ??王沛(1998-), 女, 重慶人, 碩士研究生, 研究方向為信息內容安全.E-mail:1335316220@qq.com

通訊作者: ?楊頻.E-mail: yangpin@scu.edu.cn

猜你喜歡
語義文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 青青草原国产精品啪啪视频| 丝袜高跟美脚国产1区| 色婷婷久久| 最新国语自产精品视频在| 最新国产你懂的在线网址| 久操线在视频在线观看| 国产喷水视频| 无码一区中文字幕| 99视频在线看| 中文无码毛片又爽又刺激| a毛片在线| 亚洲一区二区三区在线视频| 欧美日本激情| 69视频国产| 综合成人国产| 中文字幕伦视频| 国产玖玖玖精品视频| 日韩免费毛片| 真实国产乱子伦高清| 亚洲色图欧美在线| 性欧美在线| a级毛片免费播放| 毛片三级在线观看| 亚洲视频三级| 伊人中文网| 精品久久蜜桃| 特级欧美视频aaaaaa| 精品91自产拍在线| 国产成人在线无码免费视频| 一级毛片免费高清视频| 国产免费网址| 久久婷婷五月综合色一区二区| 天天综合网站| 亚洲大学生视频在线播放| 精品国产福利在线| 国产午夜精品鲁丝片| 国产手机在线ΑⅤ片无码观看| 国产免费羞羞视频| 免费jizz在线播放| 毛片久久网站小视频| 91午夜福利在线观看| 日本AⅤ精品一区二区三区日| 色天天综合久久久久综合片| 妇女自拍偷自拍亚洲精品| 色天天综合久久久久综合片| 日韩在线欧美在线| 亚洲日韩精品欧美中文字幕| 国产高清在线精品一区二区三区| 日本a∨在线观看| 无码aaa视频| 免费看av在线网站网址| 亚洲无线视频| 色成人综合| 白浆免费视频国产精品视频| 欧美爱爱网| 成人va亚洲va欧美天堂| 8090午夜无码专区| 四虎在线观看视频高清无码| 激情国产精品一区| 91在线播放国产| 亚洲第一区在线| 嫩草影院在线观看精品视频| 国产99热| 全裸无码专区| www.亚洲色图.com| 亚洲中文无码av永久伊人| 国产区网址| 国产www网站| 国产资源免费观看| 国产精品冒白浆免费视频| a亚洲视频| 国产福利一区在线| 中文字幕伦视频| 国产精品一区不卡| 色久综合在线| 99人体免费视频| 久久无码av一区二区三区| 国产日韩av在线播放| 亚洲天堂精品视频| 国产精品夜夜嗨视频免费视频 | 高清无码手机在线观看| 免费久久一级欧美特大黄|