結(jié)合對(duì)比學(xué)習(xí)和雙流網(wǎng)絡(luò)融合知識(shí)圖譜摘要模型

2025-04-10 00:00:00趙霞王釗

計(jì)算機(jī)應(yīng)用研究 2025年3期

摘要：提出了一種融合對(duì)比學(xué)習(xí)與雙流網(wǎng)絡(luò)的新型知識(shí)圖譜摘要模型（KGDR-CLSUM），旨在解決現(xiàn)有模型在生成摘要時(shí)存在的事實(shí)性錯(cuò)誤和信息提取不足的問題。該模型通過設(shè)計(jì)雙流網(wǎng)絡(luò)同時(shí)處理文本特征和知識(shí)圖譜特征，并采用對(duì)比學(xué)習(xí)來強(qiáng)化這兩類特征的有效融合。此外，引入動(dòng)量蒸餾策略以降低知識(shí)圖譜中的數(shù)據(jù)噪聲，從而提升摘要生成的質(zhì)量和準(zhǔn)確性。在CNN/Daily Mail數(shù)據(jù)集上，KGDR-CLSUM相較于基線模型PEGASUSBASE，在ROUGE-1、ROUGE-2和ROUGE-L指標(biāo)上分別提升了3.03%、3.42%和2.56%，在XSum數(shù)據(jù)集上更是達(dá)到了7.54%、8.78%和8.51%的顯著提升。此外，人工評(píng)分顯著高于ChatGPT，進(jìn)一步證明了該模型的優(yōu)越性能。結(jié)果表明，KGDR-CLSUM在生成摘要時(shí)，尤其在短文本生成任務(wù)中，能夠有效降低錯(cuò)誤信息，并顯著提高摘要的質(zhì)量。

關(guān)鍵詞：文本摘要；知識(shí)圖譜；動(dòng)量蒸餾；對(duì)比學(xué)習(xí)；雙流網(wǎng)絡(luò)

中圖分類號(hào)：TP391"" 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2025）03-010-0720-08

doi：10.19734/j.issn.1001-3695.2024.07.0304

Integrating contrastive learning and dual-stream networksfor knowledge graph summarization models

Zhao Xia， Wang Zhao

（School of Management Sciences amp; Information Engineering， Hebei University of Economics amp; Business， Shijiazhuang 050061， China）

Abstract：This study presented a novel knowledge graph-based summarization model（KGDR-CLSUM）， which integrated contrastive learning with a dual-stream network to address factual errors and improve information extraction in existing summarization models. The model used a dual-stream network to process textual and knowledge graph features simultaneously， while contrastive learning enhanced the integration of these features. Additionally， it introduced a momentum distillation strategy to reduce data noise in the knowledge graph， improving the quality and accuracy of the generated summaries. On the CNN/Daily Mail dataset， KGDR-CLSUM outperforms the baseline model PEGASUSBASE， improving ROUGE-1， ROUGE-2， and ROUGE-L scores by 3.03%， 3.42%， and 2.56%， respectively. On the XSum dataset， it observes even more significant improvements of 7.54%， 8.78%， and 8.51%. Human’s evaluations also report significantly higher scores compared to ChatGPT， further demonstrating the superior performance of our model. These results show that KGDR-CLSUM effectively minimizes factual errors and significantly enhances summary quality， especially for short-text generation tasks.

Key words：text summarization; knowledge graph; momentum distillation; contrastive learning; dual-stream network

0 引言

互聯(lián)網(wǎng)的迅猛發(fā)展導(dǎo)致了信息量的爆炸性增長。在這個(gè)信息過載的時(shí)代，個(gè)人識(shí)別和篩選有價(jià)值信息的難度逐漸加大。因此，摘要作為一種關(guān)鍵的信息篩選工具，能夠幫助人們迅速判斷文檔或文章的價(jià)值，從而決定是否進(jìn)行深入閱讀。然而，并非所有文本都擁有人工編寫的摘要，這使得自動(dòng)文摘算法的研究顯得尤為迫切和重要。

文本摘要算法主要分為抽取式和生成式［1］兩大類。抽取式摘要通過從原始文本中提取關(guān)鍵句子或文本單元，并重新組合這些句子或單元以形成摘要。然而，這種方法可能存在的一個(gè)潛在問題是，生成的摘要可能會(huì)顯得較為生硬，缺乏流暢性。與抽取式相比，生成式摘要（也稱為抽象式摘要）則采用自然語言處理（NLP）中的文本生成技術(shù)，以更深層次地理解上下文語義，從而能夠創(chuàng)造出原文章中未出現(xiàn)的表達(dá)［2］。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，BERT和GPT等預(yù)訓(xùn)練模型在NLP領(lǐng)域取得了顯著成就。因此，利用這些預(yù)訓(xùn)練模型來處理NLP的下游任務(wù)，例如文本摘要，已成為一種日益流行的方法。

在文本摘要領(lǐng)域，預(yù)訓(xùn)練模型的應(yīng)用顯著增強(qiáng)了文本表示的能力，從而使生成的摘要更加精確和精煉。然而，盡管這些模型在文本表示上取得了顯著進(jìn)步，但它們在挖掘文本信息時(shí)仍面臨一些局限。例如，這些模型可能會(huì)遺漏關(guān)鍵信息，或在生成的文本中出現(xiàn)主謂不一致等問題，這些問題可能會(huì)影響生成摘要的真實(shí)性和可靠性［3］。

知識(shí)圖譜是一種高效的結(jié)構(gòu)化數(shù)據(jù)表示方法，近年來被廣泛應(yīng)用于自然語言處理任務(wù)中，尤其是在文本摘要生成中。與僅使用文本特征相比，知識(shí)圖譜能夠通過挖掘?qū)嶓w及其關(guān)系，提供更豐富的語義信息，使得摘要生成更加精準(zhǔn)［4，5］。例如，通過分析人物之間的關(guān)系、地理位置等關(guān)鍵因素，可以確定摘要的核心內(nèi)容，進(jìn)而生成準(zhǔn)確且全面的摘要。這種方法不僅增強(qiáng)了摘要的針對(duì)性，也提高了信息的可讀性和實(shí)用性。

知識(shí)圖譜編碼器負(fù)責(zé)將結(jié)構(gòu)化的知識(shí)信息轉(zhuǎn)換為實(shí)體的特征表示，文本編碼器則專注于處理非結(jié)構(gòu)化的文本數(shù)據(jù)，這兩者可以被視為兩個(gè)不同的模態(tài)［6］。融合知識(shí)圖譜的文本摘要模型致力于通過學(xué)習(xí)文本與知識(shí)圖譜的多模態(tài)表示來提升文本摘要任務(wù)的性能。當(dāng)前，基于知識(shí)圖譜的多模態(tài)摘要模型普遍采用的策略是使用文本編碼器和知識(shí)圖譜編碼器分別對(duì)文本內(nèi)容和知識(shí)結(jié)構(gòu)信息進(jìn)行編碼，隨后進(jìn)行特征融合。

然而，這種知識(shí)圖譜-文本多模態(tài)框架面臨以下挑戰(zhàn)：a）知識(shí)圖譜的實(shí)體特征和文本特征分別駐留在它們各自的空間中，這使得后續(xù)兩個(gè)模態(tài)的有效融合具有挑戰(zhàn)性。b）知識(shí)信息通常通過OpenIE［7］等信息抽取平臺(tái)獲取。然而，這些平臺(tái)抽取的信息可能與原文的語義存在偏差。例如，對(duì)于句子“He prefers to play football”，OpenIE會(huì)提取出三元組（He，play，football），提取出的三元組明顯偏離了原文語義。c）當(dāng)知識(shí)圖譜實(shí)體特征不足時(shí)，融合知識(shí)圖譜的摘要模型性能會(huì)受到限制。

為了解決上述問題，本文提出了一種結(jié)合對(duì)比學(xué)習(xí)和雙流網(wǎng)絡(luò)融合知識(shí)圖譜摘要模型。具體而言，首先使用單獨(dú)的文本編碼器和知識(shí)圖譜編碼器對(duì)非結(jié)構(gòu)化文本信息和結(jié)構(gòu)化的知識(shí)信息進(jìn)行獨(dú)立編碼。然后，通過基于對(duì)比學(xué)習(xí)和雙流網(wǎng)絡(luò)的對(duì)齊策略對(duì)經(jīng)過編碼后的實(shí)體特征和文本特征進(jìn)行對(duì)齊。最后，利用多模態(tài)編碼器將實(shí)體特征和文本特征充分融合。為了解決結(jié)構(gòu)化的知識(shí)信息可能偏離原文的語義，本文引入了動(dòng)量蒸餾策略。動(dòng)量蒸餾模型生成的偽目標(biāo)將作為訓(xùn)練時(shí)額外的監(jiān)督信號(hào)，使得模型在一定程度上克服來自O(shè)penIE等平臺(tái)的數(shù)據(jù)噪聲影響。以上文句子“He prefers to play football”為例，動(dòng)量蒸餾模型生成的偽目標(biāo)可能是（He， enjoys， football），相對(duì)于OpenIE的輸出更加貼近原語義。

1 相關(guān)工作

在過去的十年間，生成式文本摘要算法取得了顯著的進(jìn)展。2015年，Rush等人［8］首次提出了一種基于序列到序列（seq2seq）模型的生成式文本摘要方法，并在Gigaword和DUC-2004數(shù)據(jù)集上對(duì)該模型的性能進(jìn)行了驗(yàn)證，取得了不錯(cuò)的效果。該算法為后續(xù)研究奠定了基礎(chǔ)，但在處理長文本和復(fù)雜句子結(jié)構(gòu)時(shí)，其摘要生成質(zhì)量仍不盡如人意。這一問題凸顯了該模型在捕捉文本深層語義信息方面的不足。為了克服這些局限，Chopra等人［9］引入了注意力機(jī)制，并將其與循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）相結(jié)合，提出了一種改進(jìn)的抽象文本摘要模型，該模型在DUC-2004數(shù)據(jù)集上展現(xiàn)出了卓越的性能，顯著提升了摘要生成的流暢性和連貫性。針對(duì)先前模型中存在的未登錄詞和重復(fù)詞問題，See等人［10］提出了一種基于指針網(wǎng)絡(luò)和生成機(jī)制的seq2seq神經(jīng)網(wǎng)絡(luò)模型生成文本摘要，這一創(chuàng)新使得該模型在CNN/Daily Mail數(shù)據(jù)集上取得了卓越的效果。盡管如此，該模型在處理復(fù)雜語義和長文本時(shí)仍存在明顯的局限性，尤其是在保持文本邏輯一致性和生成摘要的準(zhǔn)確性方面。這表明，單純依賴傳統(tǒng)的seq2seq結(jié)構(gòu)可能無法完全滿足復(fù)雜文本生成任務(wù)的需求。

與傳統(tǒng)的seq2seq模型相比，Transformer借助自注意力機(jī)制（self-attention）顯著提高了文本摘要生成的效果。自2017年以來，Transformer架構(gòu)被廣泛應(yīng)用于Google的T5模型、BART、PEGASUS等模型。這些模型在眾多自然語言處理任務(wù)中展現(xiàn)了出色的性能，并推動(dòng)了生成式文本摘要技術(shù)的發(fā)展［11～13］。特別是PEGASUS模型，在文本摘要領(lǐng)域展現(xiàn)出卓越性能。在處理長文本時(shí)，PEGASUS生成的摘要更具連貫性和精確性。Transformer架構(gòu)的應(yīng)用，顯著提升了模型在處理長距離依賴、提升并行處理能力以及提高模型解釋性方面的表現(xiàn)。這些模型在生成摘要的流暢性和信息密度上表現(xiàn)出色，但仍面臨生成虛假信息和語義不一致的挑戰(zhàn)［13］。這些不足對(duì)能夠有效解決生成虛假信息和語義不一致問題的智能摘要模型提出了需求。

融合知識(shí)圖譜的摘要生成模型提供了解決上述挑戰(zhàn)的新途徑。知識(shí)圖譜能夠?qū)ξ谋具M(jìn)行分析和處理，提取其中的實(shí)體、關(guān)系等結(jié)構(gòu)化信息。Fernandes等人［14］探索了將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于結(jié)構(gòu)化文本摘要的方法，并在多個(gè)數(shù)據(jù)集上驗(yàn)證了其對(duì)文本摘要任務(wù)的有效性。Kryscinski等人［15］開創(chuàng)性地將Transformer架構(gòu)應(yīng)用于融合知識(shí)圖譜摘要，證明了結(jié)構(gòu)化知識(shí)信息在文本生成領(lǐng)域的應(yīng)用潛力，為后續(xù)融合知識(shí)圖譜的文本摘要研究奠定了基礎(chǔ)。Zhu等人［5］進(jìn)一步通過圖注意力機(jī)制提取知識(shí)圖譜中的事實(shí)關(guān)系，并將其整合到摘要生成過程中，有效降低了生成虛假信息的風(fēng)險(xiǎn)，他們還設(shè)計(jì)了一個(gè)自動(dòng)校正摘要事實(shí)錯(cuò)誤的校正器模型，進(jìn)一步提高了摘要的準(zhǔn)確性。這些模型通過融合知識(shí)圖譜，在降低虛假信息生成和提高摘要準(zhǔn)確性方面取得了一定的成果，尤其是文獻(xiàn)[5]通過增強(qiáng)模型對(duì)文本結(jié)構(gòu)的理解，提升了摘要的質(zhì)量。

為了進(jìn)一步提升摘要質(zhì)量，尤其是減少虛構(gòu)內(nèi)容，Huang等人［16］提出了一種知識(shí)圖增強(qiáng)的圖摘要框架ASGARD，利用完形填空機(jī)制來提高摘要的準(zhǔn)確性和質(zhì)量。賈莉等人［17］提出了一種雙編碼器模型，該模型結(jié)合了基于圖注意力機(jī)制的圖結(jié)構(gòu)編碼器和基于BERT預(yù)訓(xùn)練模型的文本編碼器，充分對(duì)信息進(jìn)行編碼。然而，這些方法在將知識(shí)圖譜信息與文本語義精確匹配上仍存在不足，導(dǎo)致生成的摘要有時(shí)不夠準(zhǔn)確或信息不完整。并且現(xiàn)有研究往往是直接融合知識(shí)圖譜特征和文本特征，這也導(dǎo)致兩者難以充分融合。此外，現(xiàn)有模型尚未有效解決在結(jié)構(gòu)化知識(shí)信息匱乏的情境下，融合知識(shí)圖譜的摘要模型所生成的摘要質(zhì)量下降的問題。這些挑戰(zhàn)構(gòu)成了本文模型的研究基石。

針對(duì)這些挑戰(zhàn)，本文提出了一個(gè)新的模型KGDR-CLSUM，旨在解決現(xiàn)有方法中的不足。與現(xiàn)有模型相比，該模型引入了在多模態(tài)領(lǐng)域得到成功應(yīng)用的動(dòng)量蒸餾策略，以及特征對(duì)齊的概念。動(dòng)量蒸餾是一種特殊的知識(shí)蒸餾技術(shù)，它提供了一種解決問題的新思路［18］。知識(shí)蒸餾的目標(biāo)是通過從教師模型中學(xué)習(xí)知識(shí)來訓(xùn)練一個(gè)結(jié)構(gòu)更簡單、參數(shù)更少的學(xué)生模型，這些學(xué)生模型通常是基于預(yù)訓(xùn)練的教師模型進(jìn)行訓(xùn)練的［19］。Li等人［18］采用動(dòng)量蒸餾模型成功解決了圖像內(nèi)容與圖像標(biāo)題不匹配的問題，并驗(yàn)證了動(dòng)量蒸餾作為一種通用學(xué)習(xí)算法的有效性。文獻(xiàn)[20～22]將其在視覺和多模態(tài)領(lǐng)域成功應(yīng)用，展現(xiàn)了其在降低噪聲和提升模型穩(wěn)定性方面的巨大潛力。

多模態(tài)領(lǐng)域中的特征對(duì)齊方法致力于將來自不同模態(tài)（例如文本、圖像、音頻、知識(shí)圖譜等）的信息映射至一個(gè)共同的表征空間，以實(shí)現(xiàn)更有效的信息融合與利用［23］。在對(duì)比學(xué)習(xí)的框架下，特征對(duì)齊通常涉及最大化正樣本間的相似度，同時(shí)最小化負(fù)樣本間的相似度［24］。這種策略還有助于緩解模型在處理輸入特征不足時(shí)的局限性［25］。此外，基于注意力機(jī)制的特征對(duì)齊方法亦被廣泛采用［26，27］。本文KGDR-CLSUM模型中的雙流網(wǎng)絡(luò)即是一種基于注意力機(jī)制的對(duì)齊策略。然而，在融合知識(shí)圖譜的文本摘要領(lǐng)域，動(dòng)量蒸餾的應(yīng)用尚處于初步探索階段，特征對(duì)齊技術(shù)的應(yīng)用也相對(duì)較少。

綜上所述，已有研究為本文研究奠定了堅(jiān)實(shí)的理論基礎(chǔ)。通過整合動(dòng)量蒸餾技術(shù)、Transformer架構(gòu)、圖注意力機(jī)制以及特征對(duì)齊方法，為克服現(xiàn)有模型不足提供了可能性，展現(xiàn)了在生成高質(zhì)量文本摘要方面的巨大潛力。

2 模型

首先，本文將介紹模型的整體架構(gòu)及選擇依據(jù)（2.1節(jié)），通過圖1直觀展示各組件之間的關(guān)系與數(shù)據(jù)流。接著，深入探討KGDR-CLSUM的編碼器（2.2節(jié)），其核心功能是對(duì)不同模態(tài)信息進(jìn)行編碼并生成特征向量，為后續(xù)雙流網(wǎng)絡(luò)和動(dòng)量蒸餾模型提供輸入。隨后，描述雙流網(wǎng)絡(luò)與對(duì)比學(xué)習(xí)策略（2.3節(jié)），它們確保不同模態(tài)特征的有效融合，減少模態(tài)間的信息不對(duì)稱。接著，介紹動(dòng)量蒸餾模型（2.4節(jié)）將優(yōu)化雙流網(wǎng)絡(luò)生成的多模態(tài)特征，以解決知識(shí)圖譜實(shí)體信息與文本語義不匹配的問題。最后，利用多模態(tài)編碼器和解碼器（2.5節(jié)）整合各模塊輸出，生成最終摘要，并詳細(xì)闡述目標(biāo)函數(shù)的計(jì)算方式及各損失項(xiàng)的作用。

2.1 模型架構(gòu)及選擇依據(jù)

2.1.1 模型架構(gòu)

如圖1所示，KGDR-CLSUM由知識(shí)圖譜編碼器、文本編碼器、多模態(tài)編碼器、解碼器以及動(dòng)量蒸餾模型構(gòu)成。

知識(shí)圖譜編碼器和文本編碼器用來獲取知識(shí)圖譜實(shí)體特征表示{e1，e2，e3，…，em}和文本特征表示{t1，t2，t3，…，tn}。這兩種特征經(jīng)由雙流網(wǎng)絡(luò)交互，以及對(duì)比學(xué)習(xí)KTC-LOSS進(jìn)行特征對(duì)齊。對(duì)齊后的實(shí)體特征和文本特征通過多模態(tài)編碼器的交叉注意力機(jī)制進(jìn)行融合。融合后的特征作為解碼器的輸入生成摘要。為了克服來自O(shè)penIE平臺(tái)的數(shù)據(jù)噪聲，本文在模型訓(xùn)練的過程中，將動(dòng)量蒸餾模型生成的偽目標(biāo)作為額外的監(jiān)督信號(hào)。

除此之外，知識(shí)圖譜編碼器的實(shí)體初始化嵌入表示部分為離線模塊。這意味著，該模塊在模型訓(xùn)練前完成特征的抽取，不參與模型的訓(xùn)練。

2.1.2 選擇依據(jù)

Transformer編碼器-解碼器結(jié)構(gòu)是KGDR-CLSUM模型的核心架構(gòu)，并且知識(shí)圖譜編碼器、文本編碼器、多模態(tài)編碼器同樣經(jīng)過精心設(shè)計(jì)。

本文選擇Transformer作為核心模型架構(gòu)，主要因?yàn)樗芡ㄟ^自注意力機(jī)制有效捕捉長依賴關(guān)系和全局上下文信息，克服了傳統(tǒng)RNN和LSTM在處理長文本中的局限性，在全局信息捕捉上相較于CNN表現(xiàn)更佳。同時(shí)，Transformer的并行計(jì)算能力顯著提高了訓(xùn)練效率，這在處理大規(guī)模數(shù)據(jù)時(shí)尤為重要。因此，Transformer在自然語言處理領(lǐng)域的機(jī)器翻譯和文本摘要等任務(wù)中表現(xiàn)優(yōu)異。特別是基于Transformer編碼器-解碼器結(jié)構(gòu)的BART和PEGASUS模型在文本摘要上的表現(xiàn)明顯優(yōu)于基于自回歸解碼器的GPT2。自此支持了本文選擇Transformer編碼器-解碼器結(jié)構(gòu)的決策。

在圖文多模態(tài)領(lǐng)域，視覺編碼器通常比文本編碼器更為復(fù)雜，同時(shí)多模態(tài)編碼器也需要具備足夠的深度。受圖文多模態(tài)領(lǐng)域研究的啟發(fā)，本文將知識(shí)圖譜編碼器設(shè)計(jì)得比文本編碼器層數(shù)更深，同時(shí)多模態(tài)編碼器也保證了足夠的深度，以便不同模態(tài)特征可以充分融合。

2.2 知識(shí)圖譜實(shí)體特征和文本特征表示

2.2.1 文本編碼器

在自然語言處理領(lǐng)域，文本編碼器的作用至關(guān)重要，它能夠?qū)⒆匀徽Z言文本轉(zhuǎn)換成機(jī)器能夠理解和處理的數(shù)值形式，即向量序列。這一過程不僅涉及詞匯的映射，更重要的是捕捉文本中的語義信息，從而實(shí)現(xiàn)對(duì)全文意義的全面理解。

PEGASUS［13］是一個(gè)seq2seq的預(yù)訓(xùn)練模型，由一個(gè)編碼器和一個(gè)解碼器組成。組成PEGASUS的編碼器和解碼器分別由12層Transformer塊堆疊而來。本文使用PEGASUS模型編碼器的前6層作為文本編碼器以獲取文本特征。

具體而言，在輸入文本的開始和結(jié)束位置分別插入特殊符號(hào)［CLS］和［SEP］。隨后，取文本編碼器最后一層隱藏狀態(tài)層的［CLS］標(biāo)記作為輸出向量tcls。

2.2.2 知識(shí)圖譜編碼器

如圖1所示，知識(shí)圖譜編碼器由離線模塊和四層圖注意力網(wǎng)絡(luò)（graph attention networks，GATs）［28］兩個(gè)主要部分組成。離線模塊在模型訓(xùn)練前負(fù)責(zé)初始化實(shí)體特征表示，為后續(xù)特征學(xué)習(xí)奠定基礎(chǔ)。而注意力網(wǎng)絡(luò)則進(jìn)一步優(yōu)化實(shí)體的表示，使其能夠捕捉更豐富的全局信息。

為了構(gòu)建圖1離線模塊中的知識(shí)圖譜，本文采用了斯坦福OpenIE平臺(tái)，該平臺(tái)用于識(shí)別和提取文本中的關(guān)鍵實(shí)體關(guān)系。這一過程涉及將原文章轉(zhuǎn)換為一系列三元組，每個(gè)三元組都遵循〈主體（subject），關(guān)系（relation），客體（object）〉的結(jié)構(gòu)組成。在這個(gè)結(jié)構(gòu)中，主體和客體代表實(shí)體，而關(guān)系則描述了它們之間的聯(lián)系。這種方法將非結(jié)構(gòu)化的文本信息轉(zhuǎn)換為結(jié)構(gòu)化實(shí)體和關(guān)系集合，從而構(gòu)建出一個(gè)知識(shí)圖譜。因此，這些三元組提供了一種靈活且富有表現(xiàn)力的方式，用于表示和理解文本中的復(fù)雜關(guān)系。

在通過OpenIE平臺(tái)獲取實(shí)體和關(guān)系之后，每個(gè)實(shí)體和關(guān)系都以Levi變換的方法被平等地處理［29］。具體來說，對(duì)于任意一個(gè)給定的三元組（s，r，o），分別創(chuàng)建了代表實(shí)體的節(jié)點(diǎn)s、r和o。通過這種方式，可以構(gòu)建出一個(gè)知識(shí)圖譜G=（V，E），其中V代表節(jié)點(diǎn)的集合，E代表邊的集合。

離線模塊中的預(yù)訓(xùn)練模型采用了BERT［30］模型。然而，離線模塊中的預(yù)訓(xùn)練模型與文本編碼器的一個(gè)重要區(qū)別在于其權(quán)重是凍結(jié)的。這意味著在離線模塊的訓(xùn)練過程中，預(yù)訓(xùn)練模型的參數(shù)不會(huì)被更新。為了利用BERT強(qiáng)大的語言表示能力，它被看做為知識(shí)圖譜編碼器的詞嵌入層。在將知識(shí)圖譜的節(jié)點(diǎn)輸入到詞嵌入層之前，需要對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行預(yù)處理，具體做法是在每個(gè)節(jié)點(diǎn)的開始位置和結(jié)束位置分別添加特殊符號(hào)［CLS］和［SEP］。隨后取BERT模型最后一層隱藏狀態(tài)層的［CLS］標(biāo)記作為輸出向量ncls。

圖注意力網(wǎng)絡(luò)（GATs）通過注意力機(jī)制計(jì)算節(jié)點(diǎn)之間的相關(guān)性，從而有效地將鄰居節(jié)點(diǎn)的信息整合到目標(biāo)節(jié)點(diǎn)的表示中。這種方法不僅能捕獲知識(shí)圖譜的局部特征，還能捕獲全局特征，為每個(gè)實(shí)體提供豐富的語義信息［25］。本文采用了GATs來處理知識(shí)圖譜編碼器詞嵌入層的輸出向量，具體過程如下：

對(duì)于每個(gè)節(jié)點(diǎn)i，首先計(jì)算與其鄰居節(jié)點(diǎn)j的注意力權(quán)重：

（1）

其中：hi和hj分別表示節(jié)點(diǎn)i和j的輸入特征向量；W為學(xué)習(xí)的權(quán)重矩陣;a是用來計(jì)算注意力分?jǐn)?shù)的向量;‖表示向量的拼接操作;N（i）是節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)集合。

接著，將每個(gè)節(jié)點(diǎn)的注意力權(quán)重應(yīng)用到鄰居節(jié)點(diǎn)的特征表示上，得到更新后的節(jié)點(diǎn)表示：

（2）

其中：σ為非線性激活函數(shù)ReLU。在本次實(shí)驗(yàn)中，知識(shí)圖譜編碼器采用了四層GATs，通過多層堆疊來增強(qiáng)節(jié)點(diǎn)表示的質(zhì)量和表達(dá)能力。

圖注意力網(wǎng)絡(luò)將知識(shí)圖譜編碼器詞嵌入層的輸出向量ni輸出表示為ei。在對(duì)所有節(jié)點(diǎn)kf=[eT1，eT2，eT3，…，eTm]進(jìn)行式（3）平均池化后，獲取知識(shí)圖譜的特征表示kcls。

（3）

2.3 知識(shí)圖譜-文本特征對(duì)齊

不同于現(xiàn)在對(duì)知識(shí)模態(tài)和文本模態(tài)特征進(jìn)行的早融合或晚融合，本文在通過多模態(tài)編碼器融合文本特征和實(shí)體特征之前，通過雙流網(wǎng)絡(luò)和對(duì)比學(xué)習(xí)策略來對(duì)齊這兩種特征。

2.3.1 雙流網(wǎng)絡(luò)

雙流網(wǎng)絡(luò)的設(shè)計(jì)理念旨在深入挖掘并充分利用文本模態(tài)與知識(shí)圖譜模態(tài)之間的交互特征，為后續(xù)的特征融合奠定堅(jiān)實(shí)基礎(chǔ)。該網(wǎng)絡(luò)結(jié)構(gòu)的核心優(yōu)勢在于其能夠同時(shí)處理并關(guān)聯(lián)兩種不同類型的數(shù)據(jù)——文本和知識(shí)圖譜實(shí)體，從而提升模型在多模態(tài)學(xué)習(xí)任務(wù)中的性能。

在圖1所示的雙流交互中，一個(gè)關(guān)鍵組件是兩路多頭跨注意力機(jī)制。該機(jī)制的設(shè)計(jì)使得網(wǎng)絡(luò)能夠同時(shí)關(guān)注并整合來自兩個(gè)不同模態(tài)的信息。具體而言，這兩路跨注意力分別對(duì)應(yīng)于圖2（a）中的實(shí)體跨注意力和圖2（b）中的文本跨注意力。

每路跨注意力專注于獲取不同模態(tài)引導(dǎo)下的模態(tài)融合特征。這意味著，通過這種雙流交互結(jié)構(gòu)，模型能夠從兩個(gè)不同的角度和層面理解和關(guān)聯(lián)文本與知識(shí)圖譜之間的信息。這種多角度的特征提取和融合有助于增強(qiáng)模型對(duì)多模態(tài)數(shù)據(jù)的理解與表達(dá)能力。

跨注意力機(jī)制與自注意機(jī)制的不同之處在于，Q的來源模態(tài)與K和V的不同。實(shí)體特征交互旨在獲取實(shí)體經(jīng)交互后的融合特征，Q為式（3）所示的全局向量kcls，K和V均為文本特征。與實(shí)體特征交互類似，文本特征交互旨在獲取文本經(jīng)交互后的融合特征，Q為文本全局特征tcls，K和V則為對(duì)應(yīng)的實(shí)體特征。

attention（Q，K，V）=softmax（QKTdk）V

（4）

綜上所述，實(shí)體跨注意力與文本跨注意力模塊通過分別引導(dǎo)知識(shí)圖譜實(shí)體與文本特征的融合，實(shí)現(xiàn)了更優(yōu)化的特征表示。隨后，這些經(jīng)過實(shí)體跨注意力和文本跨注意力模塊處理的知識(shí)圖譜實(shí)體特征與文本特征，將被作為輸入傳遞至知識(shí)圖譜-文本對(duì)比學(xué)習(xí)模塊及動(dòng)量蒸餾模塊。這兩個(gè)模塊同樣是KGDR-CLSUM的核心組成部分，它們將進(jìn)一步處理并優(yōu)化這些特征，從而提升模型在多模態(tài)學(xué)習(xí)任務(wù)中的性能。

2.3.2 知識(shí)圖譜-文本對(duì)比學(xué)習(xí)

本文提出的知識(shí)圖譜-文本對(duì)比學(xué)習(xí)策略核心目標(biāo)在于通過所提出的ktc損失函數(shù)，有效提升知識(shí)圖譜與文本數(shù)據(jù)之間的相互理解與表達(dá)能力。該策略致力于實(shí)現(xiàn)兩個(gè)關(guān)鍵目標(biāo)：a）最大化正樣本間的相似度。當(dāng)知識(shí)圖譜中的實(shí)體或概念與文本中描述的相應(yīng)信息相匹配時(shí)，模型應(yīng)能識(shí)別并強(qiáng)化這兩者之間的關(guān)聯(lián)性。b）該策略還致力于最小化負(fù)樣本間的相似度。這意味著，當(dāng)知識(shí)圖譜中的實(shí)體或概念與文本中的信息不相符時(shí)，模型應(yīng)能識(shí)別并削弱這兩者之間的關(guān)聯(lián)性。

通過這種對(duì)比學(xué)習(xí)策略，能夠獲得更優(yōu)的知識(shí)圖譜-文本特征多模態(tài)表示。這種表示不僅能夠更準(zhǔn)確地映射知識(shí)圖譜與文本數(shù)據(jù)之間的內(nèi)在聯(lián)系，而且能夠有效解決知識(shí)圖譜特征可能存在的局限性。例如，知識(shí)圖譜可能缺少某些特定領(lǐng)域的詳細(xì)信息，無法適應(yīng)復(fù)雜多變的文本數(shù)據(jù)。通過對(duì)比學(xué)習(xí)，得以彌補(bǔ)這些局限性，使得知識(shí)圖譜-文本特征表示更加全面且精確。

s（kdcls，tdcls）=gk（kdcls）·gt（tdcls）T

（5）

通過相似度函數(shù)式（5），可以為正確匹配的知識(shí)圖譜-文本對(duì)分配更高的相似度分?jǐn)?shù)。gk和gt則代表著將768維的實(shí)體融合特征kdcls和文本融合特征tdcls線性變換為256維。動(dòng)量模型編碼器同樣會(huì)產(chǎn)生標(biāo)準(zhǔn)化的知識(shí)圖譜特征g′k（k′cls）和文本特征g′t（t′cls）。在本文提出的知識(shí)圖譜-文本對(duì)比學(xué)習(xí)策略中，對(duì)于每一個(gè)知識(shí)圖譜實(shí)體特征和文本特征，采用式（6）（7）來分別計(jì)算歸一化的knowledge graph-to-text （k2t）和 text-to-knowledge graph （t2k）相似度分?jǐn)?shù)。這一步驟是實(shí)現(xiàn)知識(shí)圖譜與文本數(shù)據(jù)有效關(guān)聯(lián)的關(guān)鍵。

pk2tm（K）=exp（s（K，Tm）/τ）∑Mm=1exp（s（K，Tm）/τ）

（6）

pt2km（T）=exp（s（T，Km）/τ）∑Mm=1exp（s（T，Km）/τ）

（7）

其中：Km和Tm表示來自經(jīng)由動(dòng)量蒸餾模型加權(quán)融合后的文本特征和知識(shí)圖譜實(shí)體特征；T和K則是文本編碼器和知識(shí)圖譜編碼器生成的文本特征；τ是一個(gè)可學(xué)習(xí)的溫度超參數(shù)。本文采用了MoCo［31］中的隊(duì)列結(jié)構(gòu)存儲(chǔ)動(dòng)量模型編碼器的最近M個(gè)知識(shí)圖譜-文本特征對(duì)（bach_size的大小）。在同一個(gè)批處理中，對(duì)于任意一個(gè)樣本的文本特征T，都有一個(gè)與之對(duì)應(yīng)的、經(jīng)由動(dòng)量加權(quán)融合后的知識(shí)圖譜實(shí)體特征Km；反之亦然，對(duì)于實(shí)體特征K，也存在一個(gè)對(duì)應(yīng)的文本特征Tm。

Lktc=12

損失函數(shù)Lktc計(jì)算方法如式（8）所示，知識(shí)圖譜-文本對(duì)比學(xué)習(xí)損失的定義為p和y之間的交叉熵H。yk2t和yt2k表示真實(shí)標(biāo)簽的獨(dú)熱編碼相似度，正樣本對(duì)的概率為1，負(fù)樣本對(duì)的概率為0。

2.4 動(dòng)量蒸餾

知識(shí)圖譜-文本對(duì)的來源是OpenIE信息抽取工具，該工具雖然能夠提供大量的知識(shí)信息，但這些信息可能包含噪聲。當(dāng)這些知識(shí)信息與文本信息融合時(shí)，如果存在噪聲，可能會(huì)降低模型對(duì)文本內(nèi)容的理解和摘要生成的準(zhǔn)確性。因此，為了提高摘要質(zhì)量，需要采取額外的措施來克服噪聲的負(fù)面影響以確保知識(shí)信息的準(zhǔn)確性。

為了解決該問題，本文將動(dòng)量模型生成的偽標(biāo)簽作為原有特征的補(bǔ)充。動(dòng)量模型本質(zhì)是一個(gè)如圖3所示的持續(xù)更新的教師模型，它是文本編碼器和知識(shí)圖譜編碼器的指數(shù)平均移動(dòng)版本。而學(xué)生模型則是圖1中的文本編碼器和知識(shí)圖譜編碼器，在學(xué)生模型完成每次參數(shù)更新后，教師模型也會(huì)相應(yīng)地更新。

偽標(biāo)簽的生成過程如下：首先，動(dòng)量模型會(huì)接收與學(xué)生模型相同的輸入數(shù)據(jù)，包括文本和知識(shí)圖譜信息。動(dòng)量模型通過其編碼器（即動(dòng)量文本編碼器和動(dòng)量知識(shí)圖譜編碼器）處理輸入數(shù)據(jù)，生成表示向量，即偽標(biāo)簽。偽標(biāo)簽可以看作是教師模型輸出的特征表示，它們代表動(dòng)量模型在當(dāng)前學(xué)習(xí)狀態(tài)下對(duì)輸入數(shù)據(jù)的“目標(biāo)”理解。

動(dòng)量蒸餾模型的參數(shù)更新策略是指數(shù)平均移動(dòng)，即該教師模型的參數(shù)會(huì)根據(jù)學(xué)生模型參數(shù)的變化而逐漸調(diào)整。這種更新方式有助于平滑學(xué)習(xí)過程，并減少由于一次性大幅度更新帶來的不穩(wěn)定性。式（9）詳細(xì)描述了動(dòng)量模型參數(shù)的更新方法，這種方法為學(xué)生模型提供了更加穩(wěn)定和可靠的目標(biāo)，有助于提高模型整體的魯棒性和性能。

θmodt←mθt+（1-m）θmodt-1

（9）

其中：θt表示學(xué)生模型的t時(shí)刻的參數(shù)；θmodt-1和θmodt分別代表動(dòng)量模型（教師模型）在t和t-1時(shí)刻的參數(shù)，動(dòng)量系數(shù)m∈［0，1）。

kfcls=（1-β）·kdcls+β·kmodcls

（10）

tfcls=（1-β）·tdcls+β·tmodcls

（11）

其中：tmodcls和kmodcls代表動(dòng)量模型產(chǎn)生的偽目標(biāo)特征對(duì)；tmodcls是動(dòng)量模型產(chǎn)生的文本特征;kmodcls則代表著知識(shí)圖譜特征；最終的結(jié)果kfcls和tfcls是結(jié)合了原始特征和動(dòng)量模型生成的偽目標(biāo)特征后的加權(quán)結(jié)果； β是一個(gè)可調(diào)節(jié)的權(quán)重參數(shù)，用于平衡原始特征和動(dòng)量模型生成的偽目標(biāo)特征之間的影響。在得到加權(quán)后的結(jié)果后，將結(jié)果代入式（5），即可得式（8）的最終KTC損失函數(shù)。并且該特征將同樣作為多模態(tài)編碼器的輸入。

2.5 多模態(tài)編碼器和解碼器

在前文所述的多模態(tài)學(xué)習(xí)框架內(nèi)，借助于式（10）（11），本文能夠獲得經(jīng)過加權(quán)的文本特征與知識(shí)圖譜實(shí)體特征。通過多模態(tài)編碼器內(nèi)部的交叉注意力機(jī)制，這些源自不同模態(tài)的數(shù)據(jù)特征能夠被有效地融合，形成一個(gè)更為豐富和全面的數(shù)據(jù)表示。在解碼階段，解碼器利用這些融合后的特征以生成相應(yīng)的輸出摘要。該策略使得模型在處理復(fù)雜問題時(shí)，能夠更深入地理解和利用多源信息，進(jìn)而提升任務(wù)的整體性能。

PEGASUS［13］是一個(gè)seq2seq的預(yù)訓(xùn)練模型，由一個(gè)編碼器和一個(gè)解碼器組成。這個(gè)模型的核心思想是在預(yù)訓(xùn)練階段就針對(duì)摘要任務(wù)進(jìn)行優(yōu)化，通過從文本中提取關(guān)鍵信息來生成摘要。組成PEGASUS的編碼器和解碼器分別由12層Transfor-mer塊堆疊而來。

本文使用PEGASUS模型的編碼器后六層作為模型的多模態(tài)編碼器，結(jié)合文本特征和知識(shí)圖譜實(shí)體特征，進(jìn)行多模態(tài)特征的有效整合。解碼器部分仍然基于PEGASUS模型的架構(gòu)，用于生成最終的輸出摘要。多模態(tài)編碼器由先前的self-attention改為與實(shí)體特征交互層相同的cross-attention機(jī)制，而解碼階段的損失函數(shù)依然是一個(gè)如式（12）所示的交叉熵?fù)p失。

L=-∑Tt=1logP（yt|ylt;t，x）

（12）

L′=L+Lktc

（13）

式（12）所示的交叉熵?fù)p失函數(shù)用于生成摘要，使其最大化生成正確單詞的概率。其中：yt是目標(biāo)序列的第t個(gè)token；ylt;t是目標(biāo)序列在第t步之前的所有token；x則為原文本。在與對(duì)比學(xué)習(xí)KTC損失結(jié)合后，KGDR-CLSUM最終的目標(biāo)函數(shù)如式（13）所示。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

為了全面評(píng)估模型的性能，本文在兩個(gè)廣泛認(rèn)可的公開數(shù)據(jù)集——CNN/Daily Mail（https：//huggingface.co/datasets/ ccdv/cnn_dailymail）和XSum（https：//huggingface.co/datasets/ EdinburghNLP/xsum）上進(jìn)行了訓(xùn)練與測試。這兩個(gè)數(shù)據(jù)集不僅提供了大量的文本數(shù)據(jù)，而且為每篇文章配備了相應(yīng)的摘要作為標(biāo)注，是文本摘要領(lǐng)域普遍采用的數(shù)據(jù)集。CNN/Daily Mail的摘要源自文章中的幾個(gè)句子，而XSum的摘要?jiǎng)t是由人工編寫的。此外，CNN/Daily Mail的文章平均長度為760字，而XSum的文章平均長度為430字。這些差異有助于深入分析模型的優(yōu)缺點(diǎn)，并為進(jìn)一步改進(jìn)模型提供依據(jù)。

CNN/Daily Mail和XSum數(shù)據(jù)集被劃分為測試集、驗(yàn)證集和訓(xùn)練集，具體劃分如表1所示。表中的元組表示使用Open-IE工具從這兩個(gè)數(shù)據(jù)集中抽取的知識(shí)三元組的平均數(shù)量。

本文的數(shù)據(jù)預(yù)處理主要依賴于BERT和PEGASUS各自的tokenizer組件。tokenizer能夠處理大多數(shù)標(biāo)點(diǎn)符號(hào)和特殊字符，將它們分解為子詞或特殊的［UNK］標(biāo)記，并對(duì)所有詞匯進(jìn)行處理，包括停用詞。為了確保文本中不殘留HTML標(biāo)簽，本文在原始數(shù)據(jù)集的處理中增加了去除HTML標(biāo)簽的步驟。

本文采取自動(dòng)和人工兩種評(píng)估相結(jié)合的方式對(duì)生成摘要質(zhì)量進(jìn)行評(píng)估。在自動(dòng)評(píng)估方面，本文選用ROUGE作為模型的自動(dòng)評(píng)估指標(biāo)，該值通過比較生成的摘要和原始摘要之間的重疊程度判斷生成摘要的質(zhì)量。本文使用了ROUGE-1、ROUGE-2、ROUGE-L這三個(gè)不同的變體進(jìn)行評(píng)估，它們分別代表了基于單個(gè)詞元、雙詞元以及最長公共子序列的重疊程度衡量生成摘要和參考摘要之間的相似性。在人工評(píng)估部分，本文從數(shù)據(jù)集的測試集中隨機(jī)選取一定數(shù)量的樣本以評(píng)估模型性能。評(píng)估人員將根據(jù)生成摘要的準(zhǔn)確性、流暢性進(jìn)行質(zhì)量評(píng)分。通過結(jié)合自動(dòng)評(píng)估的客觀性和人工評(píng)估的主觀性，可以更準(zhǔn)確地評(píng)估生成摘要的質(zhì)量，并確保評(píng)估結(jié)果的全面性和可靠性。

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

KGDR-CLSUM集成了兩個(gè)預(yù)訓(xùn)練模型：一個(gè)包含123.7M參數(shù)的BERT模型和一個(gè)包含223M參數(shù)的PEGASUSBASE模型。這兩個(gè)模型的隱藏層維度均為768，為模型提供了強(qiáng)大的表示能力。在訓(xùn)練過程中，本文使用4塊NVIDIA A40 GPU來加速模型的訓(xùn)練，設(shè)置批量大小（batch size）為64，迭代輪數(shù)（epoch）為12。所使用的Python版本為3.8。

BERT模型負(fù)責(zé)為知識(shí)圖譜中的節(jié)點(diǎn)提供初始的向量表示，這些節(jié)點(diǎn)最終獲得768維的隱藏層狀態(tài)。知識(shí)圖譜編碼器進(jìn)一步由4層GATs構(gòu)成，GATs包含8個(gè)注意力頭，同樣擁有768維的隱藏層狀態(tài)。

在優(yōu)化方面，本文選擇Adam優(yōu)化器來更新模型的參數(shù)，設(shè)置學(xué)習(xí)率為1E-5。動(dòng)量模型的參數(shù)更新采用了指數(shù)衰減率m為0.995，動(dòng)量蒸餾中的權(quán)重參數(shù)β被設(shè)置為0.4，以平衡動(dòng)量模型和學(xué)生模型之間的信息融合（這兩個(gè)參數(shù)設(shè)置參考了ALBEF［18］）。

3.3 基線模型

在本次實(shí)驗(yàn)中，本文選取了八個(gè)基線模型作為知識(shí)圖譜增強(qiáng)的自動(dòng)文摘模型（KGDR-CLSUM）的對(duì)照模型。這八個(gè)基線模型可劃分為融合知識(shí)圖譜實(shí)體信息的模型和傳統(tǒng)文本摘要模型兩大類。

3.3.1 傳統(tǒng)文本摘要模型

在此類別中，本文選取了四個(gè)基于Transformer的模型作為基線模型，分別是GPT2、BART、PEGASUSBASE和PEGA-SUSLARGE。其中，GPT2與其他三個(gè)模型有顯著差異，它基于自回歸解碼器，而其余三個(gè)模型則都基于編碼器-解碼器結(jié)構(gòu)。

a）GPT2［32］。利用了Transformer架構(gòu)中的解碼器部分來生成文本。它通過預(yù)測下一個(gè)單詞的方式逐步構(gòu)建文本，并能夠捕捉長距離的依賴關(guān)系。GPT2的自回歸特性允許它在生成新詞后，將新詞添加到原始輸入句子的末尾，形成新的輸入句子以進(jìn)行下一輪預(yù)測。這種機(jī)制確保了生成文本的高度連貫性。

b）BART ［12］。融合了BERT（雙向編碼器）和GPT（自回歸解碼器）的特點(diǎn)，既能夠理解文本的雙向上下文，又具備生成連貫文本的能力。此外，在預(yù)訓(xùn)練階段，BART通過引入噪聲并訓(xùn)練模型以重構(gòu)原始文本，從而增強(qiáng)了其文本生成能力。這些設(shè)計(jì)特點(diǎn)使得BART在文本生成任務(wù)中取得了顯著的效果。

c）PEGASUSBASE和PEGASUSLARGE［13］。均基于Transformer的編碼器-解碼器架構(gòu)。與BART相比，PEGASUS在預(yù)訓(xùn)練階段采用了一種特殊策略，即將文檔中的關(guān)鍵句子作為遮蔽（MASK）處理，并利用剩余的句子來預(yù)測這些遮蔽的句子，以此模擬摘要生成的過程。此外，相較于PEGASUSBASE，PEGASUSLARGE具有更深的網(wǎng)絡(luò)層數(shù)和更多的參數(shù)，這使得它能夠捕捉更復(fù)雜的特征表示，同時(shí)它也是一個(gè)強(qiáng)基線模型。

3.3.2 融合知識(shí)圖譜文本摘要模型

本文同樣選取了四個(gè)融合知識(shí)圖譜文本摘要模型作為基線模型。FASum和SKGSUM是兩個(gè)融合知識(shí)圖譜信息的經(jīng)典模型，而RHGNNSumExt和KSDASum則被視為強(qiáng)基線模型。

a）SKGSUM［33］和FASum［5］。SKGSUM和FASum均為融合知識(shí)圖譜摘要模型，SKGSUM以句子和實(shí)體為節(jié)點(diǎn)，捕捉不同文本層次上單元之間的關(guān)系，聚焦源文檔中的突出內(nèi)容，指導(dǎo)摘要生成過程并且其主要關(guān)注點(diǎn)在于提高文本摘要與原摘要的相似度，而FASum更加注重生成摘要的事實(shí)性。

b）KSDASum［15］。在融合知識(shí)和文本語義信息的基礎(chǔ)上，引入了指針網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)中的自我批判策略，以進(jìn)一步提高摘要的準(zhǔn)確性和相關(guān)性。

c）RHGNNSumExt［34］。將知識(shí)圖譜（KG）和圖神經(jīng)網(wǎng)絡(luò)（GNN）聯(lián)系在一起，形成一個(gè)兩步摘要框架。定義一個(gè)多任務(wù)選擇器來選擇顯著句子和實(shí)體，并使用實(shí)體聚焦的抽象器來壓縮句子。通過構(gòu)建句子-實(shí)體圖，GNN與KG相連，其中實(shí)體-實(shí)體邊基于KG構(gòu)建，實(shí)體嵌入在KG上初始化，并使用實(shí)體-實(shí)體邊訓(xùn)練實(shí)體嵌入。

3.4 實(shí)驗(yàn)結(jié)果

在模型訓(xùn)練前，KGDR-CLSUM接收的原始文本首先經(jīng)由圖1展示的離線處理模塊提取預(yù)訓(xùn)練的實(shí)體特征。在隨后的模型訓(xùn)練階段，知識(shí)圖譜編碼器的輸入數(shù)據(jù)源自圖1離線模塊的處理結(jié)果，與此同時(shí)，文本編碼器的輸入數(shù)據(jù)則直接采用原始文本。最終，KGDR-CLSUM生成的輸出為文章的摘要形式。此外，KGDR-CLSUM與現(xiàn)有模型的比較實(shí)驗(yàn)分別在CNN/Daily Mail和XSum數(shù)據(jù)集上展開，采用ROUGE-1、ROUGE-2、ROUGE-L作為主要的評(píng)價(jià)指標(biāo)。

實(shí)驗(yàn)結(jié)果詳見表2、3，充分展示了KGDR-CLSUM在CNN/Daily Mail和XSum數(shù)據(jù)集上的優(yōu)異表現(xiàn)。在ROUGE-1、ROUGE-2和ROUGE-L三項(xiàng)指標(biāo)上，KGDR-CLSUM的得分均超越了所有基線模型。

具體來說，在CNN/Daily Mail數(shù)據(jù)集上，KGDR-CLSUM與PEGASUSBASE相比，在ROUGE-1、ROUGE-2和ROUGE-L指標(biāo)上分別提升了3.03%、3.42%和2.56%。在XSum數(shù)據(jù)集上，性能提升更為顯著，分別達(dá)到了7.54%、8.78%和8.51%。這說明本文改進(jìn)可以有效提高文本摘要的性能。

KGDR-CLSUM可以被視為一個(gè)基于PEGASUSBASE的模型。相對(duì)于PEGASUSBASE， BART和PEGASUSBASE擁有相同的層數(shù)，但它擁有更多的參數(shù)。而PEGASUSLARGE同時(shí)擁有更多的層數(shù)和參數(shù)。相較于BART和PEGASUSLARGE，KGDR-CLSUM在兩個(gè)數(shù)據(jù)集的多個(gè)評(píng)價(jià)指標(biāo)上達(dá)到了超越的效果。這證明了本文提出優(yōu)化策略可以令一個(gè)模型達(dá)到超越擁有更多參數(shù)和層數(shù)模型的效果。

本文從模型文本輸入長度和文本對(duì)應(yīng)摘要是抽取式還是生成式的兩個(gè)角度來驗(yàn)證KGDR-CLSUM模型的魯棒性。

在CNN/Daily Mail數(shù)據(jù)集中，訓(xùn)練集源文本的平均長度為766個(gè)詞，這通常被分類為長文本；而XSum數(shù)據(jù)集的平均長度為431個(gè)詞，被歸類為短文本。KGDR-CLSUM在這兩種文本長度條件下均表現(xiàn)出穩(wěn)定的性能，這凸顯了其良好的適應(yīng)性和穩(wěn)健性。

此外，CNN/Daily Mail傾向于抽取式摘要，其摘要內(nèi)容主要來源于原文中的句子；相比之下，XSum的摘要?jiǎng)t完全由人類撰寫。值得注意的是，盡管本文模型在這兩個(gè)數(shù)據(jù)集上均保持了穩(wěn)定的性能，但在XSum數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯著優(yōu)于CNN/Daily Mail數(shù)據(jù)集，這一現(xiàn)象表明KGDR-CLSUM更適用于生成式摘要的數(shù)據(jù)集。

值得注意的是，盡管RHGNNSumExt和KSDASum都是融合了知識(shí)信息的模型，但本文模型仍然展現(xiàn)出了更好的性能。這一結(jié)果表明，本文模型在融合知識(shí)圖譜信息方面具有優(yōu)勢。

3.5 消融實(shí)驗(yàn)

為了深入探究KGDR-CLSUM中各模塊的功效，本文開展了消融實(shí)驗(yàn)。表4陳列了在CNN/Daily Mail與XSum數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。值得注意的是，KGDR-CLSUM-all實(shí)質(zhì)上是PEGASUSBASE模型在本文中的別稱，它指的是KGDR-CLSUM模型中所有模塊均被剔除的狀態(tài)。

KGDR-CLSUM-ktc和KGDR-CLSUM-dtn分別代表了移除對(duì)比學(xué)習(xí)模塊和雙流網(wǎng)絡(luò)模塊的變體模型。它們都有對(duì)齊知識(shí)圖譜實(shí)體特征的作用，但KGDR-CLSUM-ktc還擁有緩解特征不足導(dǎo)致的生成摘要質(zhì)量問題的作用。KGDR-CLSUM-mom代表移除動(dòng)量蒸餾模塊的模型，動(dòng)量蒸餾模塊的設(shè)計(jì)旨在克服原始知識(shí)信息中存在的噪聲問題。

通過表4數(shù)據(jù)分析可知，在兩個(gè)數(shù)據(jù)集上，去除任何一個(gè)模塊都會(huì)導(dǎo)致模型性能的下降，這一現(xiàn)象證實(shí)了三個(gè)模塊的有效性。此外，去除對(duì)比學(xué)習(xí)模塊對(duì)模型的影響最大，而去除動(dòng)量蒸餾模塊的影響最小。并且雙流網(wǎng)絡(luò)模塊的作用同樣超過了動(dòng)量蒸餾模塊。這說明在融合知識(shí)圖譜摘要任務(wù)中，特征對(duì)齊的作用非常重要。

3.6 實(shí)例分析

為了全面評(píng)估摘要生成的質(zhì)量，本文從CNN/Daily Mail和XSum的測試集中隨機(jī)選取了300篇文章。這些文章的摘要由ChatGPT和本文模型分別生成。隨后，三名研究人員對(duì)這些摘要進(jìn)行了盲評(píng)審打分。打分的標(biāo)準(zhǔn)主要基于兩個(gè)方面：a）事實(shí)匹配度。評(píng)估生成摘要與原有摘要在內(nèi)容上是否一致，即摘要是否準(zhǔn)確反映了原文的核心信息和細(xì)節(jié)。b）流暢度。評(píng)估生成摘要的可讀性，包括語法正確性、句子連貫性以及整體表達(dá)的自然性。打分范圍設(shè)定為0～10分，其中分?jǐn)?shù)越高，表示生成的摘要在事實(shí)匹配度和流暢度方面的表現(xiàn)越好。

從表5的分析結(jié)果來看，本文模型在人工評(píng)分環(huán)節(jié)獲得了8.0分的高分，而ChatGPT的得分為4.2分。這表明，在CNN/Daily Mail和XSum上，本文模型的摘要生成能力顯著優(yōu)于ChatGPT。表6呈現(xiàn)了ChatGPT生成的摘要、本文模型生成的摘要、原文摘要以及原文之間的對(duì)比分析。ChatGPT生成的內(nèi)容未能準(zhǔn)確捕捉原文的核心要點(diǎn)，其生成信息與原始摘要存在較大偏差。相較之下，本文模型更有效地提取了原文的關(guān)鍵信息，生成的摘要中包含了更多與原文摘要相關(guān)的關(guān)鍵詞，且更貼近原始摘要的內(nèi)容。此外，本文還在表6中補(bǔ)充了一個(gè)中文實(shí)例，以進(jìn)一步闡述KGDR-CLSUM模型的性能優(yōu)勢。

4 結(jié)束語

本文提出了一種階段式的融合知識(shí)圖譜摘要模型框架。該模型的編碼器部分由GATs和Transformer結(jié)合而成，從而可以綜合考慮知識(shí)和文本信息。并通過引入對(duì)比學(xué)習(xí)策略，先對(duì)知識(shí)圖譜模態(tài)和文本信息模態(tài)進(jìn)行對(duì)齊，再將它們作為多模態(tài)編碼器的輸入解決實(shí)體特征和文本信息特征位于不同空間的問題。與此同時(shí)，動(dòng)量模型產(chǎn)生的偽目標(biāo)將作為模型訓(xùn)練時(shí)的額外監(jiān)督信號(hào)，克服來自O(shè)penIE等平臺(tái)的噪聲影響。在CNN/Daily Mail和XSum上的實(shí)驗(yàn)結(jié)果和人工評(píng)價(jià)結(jié)果表明，本文模型相對(duì)于其他對(duì)比模型在ROUGE評(píng)價(jià)指標(biāo)上有著最好的結(jié)果，并且生成的摘要還兼顧了原文的事實(shí)性。

未來研究工作計(jì)劃在現(xiàn)有成果的基礎(chǔ)上進(jìn)一步擴(kuò)展，專注于處理數(shù)據(jù)集偏向抽取式摘要時(shí)模型表現(xiàn)不佳的問題，以提升模型在多樣化場景下的表現(xiàn)和性能。

參考文獻(xiàn)：

［1］Gupta S， Gupta S K. Abstractive summarization： an overview of the state of the art［J］. Expert Systems with Applications， 2019， 121： 49-65.

［2］Mridha M F， Lima A A， Nur K， et al. A survey of automatic text summarization： progress， process and challenges［J］. IEEE Access， 2021， 9： 156043-156070.

［3］Wang Shaolei， Che Wangxiang， Liu Qi， et al. Multi-task self-supervised learning for disfluency detection［C］//Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 9193-9200.

［4］Camarillo-Ramirez P， Cervantes-Alvarez F， Gutiérrez-Preciado L F. Semantic maps for knowledge graphs： a semantic-based summarization approach［J］. IEEE Access， 2024， 12： 6729-6744.

［5］Zhu Chenguang， Hinthorn W， Xu Ruochen， et al. Enhancing factual consistency of abstractive summarization［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： Association for Computational Linguistics， 2021： 718-733.

［6］晉艷峰，黃海來，林沿錚，等. 基于知識(shí)表示學(xué)習(xí)的KBQA答案推理重排序算法［J］. 計(jì)算機(jī)應(yīng)用研究， 2024， 41（7）： 1983-1991. （Jin Yanfeng， Huang Hailai， Lin Yanzheng， et al. KBQA answer inference re-ranking algorithm based on knowledge representation learning［J］. Application Research of Computers， 2024， 41（7）： 1983-1991.）

［7］Manning C， Surdeanu M， Bauer J， et al. The Stanford CoreNLP natural language processing toolkit［C］//Proc of the 52nd Annual Mee-ting of the Association for Computational Linguistics： System Demonstrations. Stroudsburg， PA： Association for Computational Linguistics， 2014： 55-60.

［8］Rush A M， Chopra S， Weston J. A neural attention model for abstractive sentence summarization［C］//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2015： 379-389.

［9］Chopra S， Auli M， Rush A M. Abstractive sentence summarization with attentive recurrent neural networks［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： Association for Computational Linguistics， 2016： 93-98.

［10］See A， Liu P J， Manning C D. Get to the point： summarization with pointer-generator networks［C］//Proc of the 55th Annual Meeting of the Association forComputational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2017： 1073-1083.

［11］Colin R， Noam S， Adam R， et al. Exploring the limits of transfer learning with a unified text-to-text transformer［J］. Journal of Machine Learning Researchm， 2020， 21（140）： 1-67.

［12］Lewis M， Liu Yinhan， Goyal N， et al. BART： denoising sequence-to-sequence pre-training for natural language generation， translation， and comprehension［C］//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2020： 7871-7880.

［13］Zhang Jingqing， Zhao Yao， Saleh M， et al. PEGASUS： pre-training with extracted gap-sentences for abstractive summarization［C］//Proc of International conference on machine learning.［S.l.］： PMLR， 2020： 11328-11339.

［14］Fernandes P， Allamanis M， Brockschmidt M. Structured neural summarization［EB/OL］. （2018-11-05）. https：//arxiv.org/abs/1811.01824.

［15］Kryscinski W， McCann B， Xiong Caiming， et al. Evaluating the factual consistency of abstractive text summarization［C］//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2020： 9332-9346.

［16］Huang Luyang， Wu Lingfei， Wang Lu. Knowledge graph-augmented abstractive summarization with semantic-driven cloze reward［C］//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2020： 5094-5107.

［17］賈莉，馬廷淮，桑晨揚(yáng)，等. 融合知識(shí)和語義信息的雙編碼器自動(dòng)摘要模型［J/OL］. 計(jì)算機(jī)工程與應(yīng)用. （2024-04-25）. https：//link.cnki.net/urlid/11.2127.tp.20240423.2008.009. （Jia Li， Ma Tinghua， Sang ChenYang， et al. Dual-encoder automatic summarization model incorporating knowledge and semantic information［J/OL］. Computer Engineering and Applications. （2024-04-25）. https：//link.cnki.net/urlid/11.2127.tp.20240423.2008.009.）

［18］Li Junnan， Selvaraju R， Gotmare A， et al. Align before fuse： vision and language representation learning with momentum distillation［C］//Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， Article No.742.

［19］Ma Xinge， Wang Jin， Yu L-C， et al. Knowledge distillation with reptile meta-learning for pretrained language model compression［C］//Proc of the 29th International Conference on Computational Linguistics.［S.l.］： International Committee on Computational Linguistics， 2022： 4907-4917.

［20］Dong Aimei， Liu Jian， Zhang Guodong， et al. Momentum contrast transformer for COVID-19 diagnosis with knowledge distillation［J］. Pattern Recognition， 2023， 143： 109732.

［21］Li Siqi， Deng Weihong， Hu Jiani. Momentum distillation improves multimodal sentiment analysis［M］//Yu Shiqi， Zhang Zhaoxiang， Yuen Pong C， et al. Pattern Recognition and Computer Vision. Cham： Springer， 2022： 423-435.

［22］Wang Maorong， Michel N， Xiao Ling， et al. Improving plasticity in online continual learning via collaborative learning［C］//Proc of the 41st International Conference on Machine Learning.［S.l.］： PMLR， 2024： 23460-23469.

［23］Du Mengfei， Wu Binhao， Zhang Jiwen， et al. DELAN： dual-level alignment for vision-and-language navigation by cross-modal contrastive learning［C］//Proc of Joint International Conference on Language Resources and Evaluation. 2024： 4605-4616.

［24］林潔霞，朱小棟. CMHICL：基于跨模態(tài)分層交互網(wǎng)絡(luò)和對(duì)比學(xué)習(xí)的多模態(tài)諷刺檢測［J］. 計(jì)算機(jī)應(yīng)用研究， 2024， 41（9）： 2620-2627. （Lin Jiexia， Zhu Xiaodong. CMHICL： multi-modal sarcasm detection with cross-modal hierarchical interaction network and contrastive learning［J］. Application Research of Computers， 2024， 41（9）： 2620-2627.）

［25］Kipf T， Van der Pol E， Welling M. Contrastive learning of structured world models［EB/OL］. （2019-11-27）. https：//arxiv.org/abs/1911.12247.

［26］Han Jiaming， Gong Kaixiong， Zhang Yiyuan， et al. OneLLM： one framework to align all modalities with language［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway， NJ： IEEE Press， 2024： 26574-26585.

［27］吳運(yùn)兵，曾煒森，高航，等. 基于雙流殘差融合的多模態(tài)諷刺解釋研究［J/OL］. 小型微型計(jì)算機(jī)系統(tǒng). （2024-01-31）. https：//kns.cnki.net/kcms/detail/21.1106.TP.20240130.1521.012.html. （Wu Yunbing， Zeng Weisen， Gao Hang， et al. Multimodal sarcasm explanation survey based on dual-stream residual fusion［J/OL］. Journal of Chinese Computer Systems. （2024-01-31）. https：//kns.cnki.net/kcms/detail/21.1106.TP.20240130.1521.012.html.）

［28］Velickovic P， Cucurull G， Casanova A， et al. Graph attention networks［EB/OL］. （2017-10-30）. https：//arxiv.org/abs/1710.10903.

［29］Levi F W， Calcutta U O. Finite geometrical systems; six public lectues delivered in February， 1940， at the University of Calcutta［M］. Calcutta： The University of Calcutta， 1942.

［30］Devlin J， Chang Mingwei， Lee K， et al. BERT： pre-training of deep bidirectional transformers for language understanding［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： Association for Computational Linguistics， 2019： 4171-4186.

［31］He Kaiming， Fan Haoqi， Wu Yuxin， et al. Momentum contrast for unsupervised visual representation learning［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2020： 9726-9735.

［32］Radford A， Wu J， Child R， et al. Language models are unsupervised multitask learners［EB/OL］. （2019）. https：//cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

［33］Ji Xin， Zhao Wen. SKGSUM： abstractive document summarization with semantic knowledge graphs［C］//Proc of International Joint Conference on Neural Networks. Piscataway， NJ： IEEE Press， 2021： 1-8.

［34］Chen Jingqiang. An entity-guided text summarization framework with relational heterogeneous graph neural network［J］. Neural Computing and Applications， 2024， 36（7）： 3613-3630.

計(jì)算機(jī)應(yīng)用研究2025年3期

計(jì)算機(jī)應(yīng)用研究的其它文章: 復(fù)合因素影響下嫌疑人發(fā)型變化的深度模擬; 基于韋伯定律的彼得森圖局部人臉特征模式; DepthMamba:多尺度VisionMamba架構(gòu)的單目深度估計(jì); 聯(lián)合時(shí)空差異注意力與層級(jí)細(xì)節(jié)增強(qiáng)的遙感影像變化檢測; 融合雙向感知Transformer與頻率分析策略的圖像修復(fù); 一種改進(jìn)的快速深度圖像先驗(yàn)降噪模型