999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主題感知的長文本自動摘要算法

2022-10-17 11:05:40劉永堅劉平峰
計算機工程與應用 2022年20期
關鍵詞:文本模型

楊 濤,解 慶,劉永堅,劉平峰

1.武漢理工大學 計算機科學與技術學院,武漢 430070

2.武漢理工大學 經濟學院,武漢 430070

隨著互聯網的發展,海量的長篇文本如新聞、微博、博客、論文等等,充斥整個網絡,大大加劇了文本信息獲取的難度。自動文摘需求急劇增加,研究如何利用自動摘要技術對長文本的主要內容進行提取總結變得尤為重要。

自動文摘技術經過多年的發展,主要有兩種思路,一種是直接從原文中抽取重要句子組成摘要,稱為抽取式摘要技術。另一種是在理解原文的基礎上,用新的單詞或句子表述原始文本的內容,稱為生成式文本摘要。目前抽取式文本摘要技術經過多年發展,技術成熟,性能穩定,對于文本的壓縮具有顯著的效果。但本身存在固有缺陷,摘要的形成方式只是典型語句的機械拼接,不符合人類的摘要習慣,閱讀性較差,不適合作為正式閱讀的參考摘要。基于BERT預訓練模型和強化學習技術的抽取式摘要模型是目前效果最好、性能最為穩定的模型之一。

相比于抽取式文本摘要,生成式文本摘要能夠用新的句子來表達原始的文本信息,創建更加精準、自然的摘要。且生成的摘要具有可讀性強、語法正確、連貫性強等優點。目前,主流的生成式文本摘要模型主要使用借鑒于機器翻譯的基于編碼器-解碼器架構的Seq2Seq模型[1]。但該類生成式文本摘要模型一般只適用于處理短文本,對于稍長的輸入序列的處理能力十分有限。尤其在處理中文數據集時,其處理能力最多只有300~500字(如圖1所示)。一旦超過這個長度,其性能會急劇下降,各項指標會趨近于零。但是,在實際的應用場景之中,針對短文本進行自動摘要的意義有限,長文本摘要的需求更大,也更加迫切。因此,目前急需一種性能穩定的針對較長文本的自動摘要算法。

圖1 指針生成網絡模型效果變化圖Fig.1 Pointer-generator network model effect variation

主題模型是近20年發展起來的一種重要的文本信息挖掘技術,已經成為篇章級的文本語義理解的重要工具。主題模型善于從一組文檔中抽取幾組關鍵詞來表達文檔集合的核心思想。多年來,一直被用于多文檔摘要任務,并且表現突出。同時,也為情感分析、文本生成、信息檢索、文本分類等其他自然語言處理任務提供重要支撐[2]。對于長文本摘要問題,主題模型可以從多語義角度抽取出現在文中不同位置的主題信息。尤其對于多主題長文本,主題模型能以一組概率的形式表達其復雜的主題情況,這對長文本的摘要生成具有顯著的指導意義。

鑒于以上背景,本文提出了一種基于主題感知的抽取式與生成式結合的混合摘要模型TASTE(topic-aware abstractive summarization with text extraction)來處理長文本的自動摘要問題。該模型結合了抽取式模型與生成式模型,將兩者的優點進行結合,缺點相互彌補。該模型既能保留抽取式文本摘要方法的應對長文本的概括壓縮能力,又能保留生成式文本摘要方法的重寫能力。另外,為了應對長文本復雜的語義環境及多主題的情況,本文加入了主題感知部分,讓原文檔的潛在主題參與關鍵句子的抽取和最終摘要的生成。

1 相關工作

1.1 主題模型

主題模型旨在從文檔級別的單詞共現中發現其潛在主題,通常采用基于貝葉斯圖形模型的LDA(latent Dirichlet allocation)方式實現[3]。然而,這些模型都依賴于專業知識參與來定制模型的推理算法。隨著主題模型的表達能力越來越強,為了捕獲主題相關性和利用已有的條件信息,推理的方法就會變得越來越復雜,會大大增加模型的使用局限性。另一方面,隨著深度學習技術在自然語言處理領域的廣泛應用,結合深度學習思想與方法的神經主題模型開始廣泛使用,并表現突出。不同于傳統的LDA模型[3],該模型基于變分自動編碼器(variational auto-encoder,VAE)實現[4],同樣采用編碼器-解碼器結構。同時,神經主題模型基本摒棄了傳統的概率主題模型關于Dirichlet先驗假設和Gibbs采樣方式[5],而是直接將復雜的分布計算完全交給神經網絡的節點和權重矩陣,通過反向傳播算法或隨機梯度下降算法訓練模型參數,降低了主題模型的使用門檻。此外,由于構造出了神經網絡結構,即可以在模型的輸入層疊加詞向量,從而更好地利用詞匯之間的語義信息,發現潛在主題。同時可以更加完美地與其他深度學習模型相互融合,用以輔助訓練[6]。于是本文的模型選用了Miao等[7]提出的神經主題模型來推斷潛在主題。

1.2 抽取式文本摘要

自動文本摘要技術早期的研究都集中在抽取式文本摘要領域。其多年發展中,前后經歷了基于文本特征、基于詞匯鏈、基于圖、基于深度學習方法的四個階段。近年來,隨著BERT預訓練語言模型的提出[8],出現了眾多混合多種先進技術的抽取式摘要模型。如Narayan等[9]提出將摘要抽取任務視為句子排序任務,并引入強化學習技術,使用ROUGE評價指標來作為獎勵直接指導模型訓練。Liu等[10]將BERT模型的使用方法進一步簡化和推廣,提出了一個用于抽取式模型和生成式模型的一般框架:在BERT模型之上,通過堆疊多個句子之間的轉換層獲得抽象的文本表示,以此文本表示抽取摘要句子。并根據模型效果微調BERT模型,該方法成為了使用BERT預訓練語言模型抽取文本句子的基礎模型,后續不斷有研究者在此基礎上得到了各種BERT的衍生模型。2020年,Zhong等[11]將抽取式文本摘要的粒度從句子級別ROUGE值調整到摘要段落的ROUGE值,將文本抽取任務視為語義文本匹配問題,使用一個簡單的匹配模型來抽取摘要,并對抽取結果使用Tri-Blocking(三元組)等技術進行冗余去除,使得模型的摘要效果更加優異。

1.3 生成式文本摘要

生成式文本摘要實現難度較大,早期發展緩慢,直到2014年,編碼器-解碼器結構模型在機器翻譯上的成功[1],為生成式文本摘要提供了新的思路。2015年,Rush等[12]率先將基于注意力機制的編碼器-解碼器模型運用到生成式摘要中,將生成式模型的摘要效果提高到一個新的高度。后來學者紛紛基于該模型進行改進創新。2016年,Nallapati等[13]將指針網絡引入到編碼器-解碼器模型中來,用以解決文本生成的OOV問題。2017年,See等[14]在此基礎上進一步改進,引入覆蓋機制,同時結合指針網絡提出了指針生成器模型。該模型完美地解決了生成式摘要的OOV詞和摘要重復問題,使生成式文本摘要漸漸成熟。Wang等[15]認為高質量的抽象摘要不僅應將重要的原文本作為摘要生成來源,而且還應傾向于生成新的概念性詞語來表達具體細節。在指針生成器的基礎上提出了概念指針網絡(concept pointer network),用以獲得抽象性更高,概念性更強的摘要。Liu等[16]提出對抗訓練的指針生成器,該方法除了訓練指針生成器外,還訓練了一個摘要鑒別器,鑒別器負責將機器生成的摘要和人工生成的參考摘要進行區分,文中使用強化學習方法來優化生成器使得鑒別器的出錯概率最大化,通過生成器和鑒別器的對抗訓練來提升摘要質量。

目前,隨著深度學習技術、強化學習技術、預訓練語言模型等技術的發展,出現了各種技術交織的摘要生成模型。隨著硬件設備的進步,模型規模與訓練速度也大大提升,無論是抽取式摘要技術還是生成式摘要技術,增強模型自身對于文本內容的理解是模型訓練的核心,也是實現機器摘要比肩人工摘要的關鍵。

2 TASTE模型構建

在本章中,將詳細描述本文提出的主題感知混合模型(TASTE),該模型由神經主題模型和抽取-生成混合模型組成。主題模型首先獲取文本的潛在主題表示,再加入到混合模型中輔助長文本的摘要生成,獲得契合主題的摘要。下面將給出神經主題模型和抽取-生成混合模型的實現細節。

2.1 神經主題模型搭建

根據Miao等的描述,該模型基于變分自動編碼器(VAE)實現[17],模型以文檔句子的詞袋向量作為輸入。首先將原文檔的句子處理成詞袋向量xbow,xbow是一個基于詞匯表的V維向量。該神經主題模型同樣基于編碼器-解碼器結構實現,其過程類似于數據的重構過程,如圖2所示。

圖2 推理模型q(z|d)和生成模型p(d|z)的網絡結構圖Fig.2 Network structure diagrams of inference model q(z|d)and generation model p(d|z)

編碼器部分使用帶有激活函數的多層感知機MLP(multilayer perceptrons)來計算先驗變量μ和σ,用于生成潛在主題表示θ的中間變量z。

其中,g(·)表示Gaussian SoftmaxgGSM(x)。

以上公式表明,模型使用了一個基于高斯分布的神經網絡來參數化潛在變量θ,使用MLP構造了一個推理網絡來近似后驗概率p(θ|d)。通過使用高斯先驗分布,模型可以使用重新參數化的技巧來為變分分布構建無偏和低方差梯度估計。在沒有共軛性的情況下,參數的更新仍然可以從變分下限直接推導出來,只是模型訓練的速度較慢一些。通常,可以將權重矩陣當做具體主題詞的分布,該矩陣負責將高斯樣本z轉換成主題比例θ。

模型解碼器部分會根據獲取的主題表示θ進行基于詞袋向量表示的重構,對于文檔中的每一個詞根據θ來提取對應的主題-詞分布,結合所有分布獲得

該神經網絡的訓練函數如下:

該損失函數是基于變分下限,包括重構損失和隱空間約束損失(使用KL散度衡量)。其中p(z)表示標準的高斯分布,q(z|d)和p(d|z)表示圖中編碼器和解碼器的工作過程。該神經主題模型為獨立模塊,既可以與摘要模型聯合訓練,也可以單獨訓練,訓練完成后根據模型計算出潛在主題θ,參與到摘要的生成。

2.2 抽取-生成混合模型搭建

2.2.1 抽取器

抽取器部分使用BERT預訓練語言模型作為編碼器將輸入序列D={s1,s2,…,sn}映射到句子表示向量H={h1,h2,…,hn},其中hi表示文檔中的第i個句子,然后解碼器利用H從D中抽取一個句子子集在Liu等[10]的基礎上,對模型的輸入設置進行了稍加修改。由于原BERT模型的輸出是依托于輸入中的[CLS]符號,而不是每一個句子,若需獲得每一個句子的語義表示,則需要在每個句子前面添加[CLS]標記,在每個句子的末尾添加[SEP]標記,以此分割長文本,區分多個句子。則BERT輸出層的第i個[CLS]符號的向量就對應第i個句子表示hi。抽取器整體架構如圖3所示。

圖3 抽取器模型整體架構圖Fig.3 Extractor model overall architecture diagram

根據BERT編碼得到句子的向量表示后,解碼器需要反復抽取句子,既要達到盡量信息覆蓋的效果,同時又要避免信息冗余。其具體實現如下,首先獲取基于BERT模型的句子編碼表示:

解碼器部分使用單層單向的LSTM,以上一時刻抽取的句子的編碼表示為輸入,循環提取句子。同時,為了針對長文本的主題信息進行抽取,在解碼器環節添加了潛在主題,并修改了注意力機制的構成部分。

其中,vg、Wg1和Wg2是可學習參數。[;]表示向量的拼接。可以將注意力分布αt視為輸入文檔中各個句子結合潛在主題的概率分布。根據注意力分布αt可以計算語義向量et,根據et、hi來計算每個句子的被抽取概率:

其中,vp、Wp1和Wp2是可學習參數。t表示解碼步驟t時刻,jk代表所有之前抽取的句子。解碼器分為兩步執行,相當于執行了兩次注意力機制,首先處理hi獲得上下文向量et,然后根據et獲取抽取概率。整個模型類似于一個分類模型,當遇到結束符或超過指定閾值,模型就會停止抽取動作。

2.2.2 生成器

生成器的主要目的是將抽取器抽取的句子壓縮改寫為簡明的摘要句子,以符合人類的摘要習慣,增強閱讀性。本文使用See等[14]提出的指針生成網絡(pointergenerator networks)作為生成器網絡模型,同時結合潛在主題生成以主題為導向的最終摘要,生成器整體架構如圖4所示。

圖4 生成器模型整體架構圖Fig.4 Abstractor model overall architecture diagram

該模型帶有指針生成器和覆蓋機制,可以較好地解決未登錄詞和摘要重復問題。生成器根據抽取器獲得抽取句子的編號,找到對應句子,對句子進行預處理。由于生成器網絡本身是以單個詞為最小結果單位,所以無法使用抽取器所訓練的句子向量表示。實際上被送入生成器中的是被抽取句子分詞以后的詞向量表示。該生成器網絡模型使用標準的帶注意力機制的編碼器-解碼器結構,編碼器的作用在于將輸入文檔編碼成向量表示,輸入序列中的原文單詞wi被逐個送入編碼器,產生一系列編碼器隱含狀態hi:

生成式摘要是以單詞為產出單位,生成目標摘要時也需要加入潛在主題與前一時刻生成的單詞相結合,用以輔助摘要生成,同時修改注意力的構成部分:

其中,vT、Wh、Ws和battn是可學習參數。[;]表示向量的拼接。注意力分布αt可看作是當前時刻輸入原文序列中結合潛在主題的單詞概率分布,概率分布較大的單詞是能產生當前解碼輸出的核心主題單詞。注意力分布αt和編碼器隱含狀態hi進行加權和操作,產生語義向量h*t。在解碼步驟t時刻,根據解碼器狀態st和語義向量h*t可以產生詞匯分布Pvocab:

其中,V、V′、b和b′是可學習參數。Pvocab是詞匯表(詞匯表是事先定義好的,在本文中取訓練集詞頻最高的前50 000個詞)中所有單詞的概率分布。

由于生成器存在詞匯溢出問題,需要引入復制機制。利用指針網絡來計算概率決定是根據詞匯分布Pvocab從詞匯表中生成單詞,還是根據注意力分布αt來直接復制輸入序列中的單詞。根據語義向量h*t、解碼器狀態st和解碼器輸入xt計算指針開關pgen。根據pgen決定詞匯來源,為了增加主題詞在摘要中的出現概率,將潛在主題添加到開關計算部分:

其中,σ為softmax激活函數,均為參數矩陣,bptr為偏置項。

生成式摘要容易出現摘要自我重復,其原因是注意力機制反復注意到輸入序列中的某些單詞,而覆蓋機制的思想就是避免已經獲得高注意力的詞匯再次獲得較高注意力。具體實現為通過以往注意力的權重來影響當前詞匯的注意力計算。首先需要根據注意力分布αt匯總計算覆蓋矢量ct,ct代表歷史注意力信息,利用ct計算當前詞匯注意力,同時定義覆蓋損失,參與主損失函數計算,即:

根據公式可知,若某一詞匯之前已獲得高注意力,則其歷史注意力信息ct偏大,covlosst等于,為降低損失,必然要降低該詞匯的再次注意力,這樣就不會再次注意到該詞匯,從而解決了重復問題。

該混合摘要模型涉及三個模塊,即主題模塊、抽取器和生成器。主題模塊可以視為一個單獨模塊,可以預先訓練,不影響主模型的訓練進程,且小數據集的主題模型訓練運算量相對較小,一天以內就可以收斂到一個不錯的范圍。主模型主要是抽取器模塊和生成器模塊,在常規摘要算法中直接使用生成式模型對長文本進行逐個字的摘要生成的計算復雜度遠高于抽取式方法,這也是抽取式模型的文本處理能力強于生成式模型的一個重要原因。如一篇n字的文本分為m句話,生成器使用的詞匯表維度為Vvocab,抽取器和生成器的時間復雜度大致估算如下:

Vin表示輸入維度,Vout表示輸出維度,Lde表示解碼器部分的神經網絡層數。當文本長度n較大時,復雜度會急劇增加,加之生成器模型無法并行計算,生成器模型的運算就會變得非常緩慢,影響運行效率。本文結合兩種摘要方式,首先利用抽取器壓縮文本規模,大大縮減了生成器模塊的計算量,是針對長文本摘要來說采取的一種較為合理的降低復雜度的方式。

基于實驗發現,本文將模型分為主題模型,抽取器和生成器三個模塊分別進行工作時,實驗效果不佳,無法找到共同收斂點。于是改進了實驗,讓三者聯合訓練。同時由于神經主題模型和抽取器、生成器模型共同訓練的時候,神經主題模型的收斂速度要遠遠慢于混合模型。因此,每對神經主題模型進行100個epoch的預訓練,對抽取器模型只進行一個epoch的訓練,同時建立聯合損失函數:

其中,α和β是為了平衡各個子模型而設置的超參數。

最后使用維特比算法的貪心形式——集束搜索(beam search)來生成最終摘要。集束搜索衡量了搜索空間和獲取到最優解的概率雙重因素,模型設置集束搜索的集束寬度為10,即每次只保留概率最大的10個結果繼續按照詞表搜索,直到生成動作結束。同時,借鑒于Zhong等[11]處理冗余的trigram blocking思想,在集束搜索時加入一個rerank操作,即每次對集束搜索生成的10個句子進行一次重新排序。排序的依據為2-grams的重復次數,要求2-grams的重復次數越小越好,以此降低生成摘要的冗余情況。

3 實驗與結果分析

本章報告本文模型在真實數據集上進行長文本摘要的實驗結果。

3.1 數據集與評價指標

在本次實驗中,為了驗證本文所提出模型的可行性和有效性,模型同時在英文數據集和中文數據集上進行了相關實驗。中文數據集選用NLPCC2018共享任務3提供的中文單文檔語料庫TTNews。該數據集包含50 000條訓練數據、2 000條驗證集和2 000條測試集(無參考摘要)。該數據集是一個長文本摘要數據集,其平均長度統計如表1所示。與經典的LCSTS數據集相比,該數據集的實驗效果更具有說服力。

表1 TTNews文本長度統計Table 1 TTNews text length statistics

英文數據集選用CNN/Daily Mail數據集。該數據集是文本摘要領域的經典數據集,眾多突破性實驗都是在該數據集上實驗成功的。該數據集將近30多萬條訓練數據,10 000余條驗證集數據、10 000余條驗證集。該數據集不但數據量足夠龐大,而且文本數據長度較長,適合本實驗。數據以及參考摘要的質量較高,生成的摘要效果更好,其平均長度統計如表2所示。

表2 CNN/Daily Mail文本長度統計Table 2 CNN/Daily Mail text length statistics

評價指標方面依舊采用文本摘要領域經典的ROUGE指標對模型生成的摘要進行評估。采用廣泛使用的ROUGE-1.5.5工具包進行效果檢驗。由于ROUGE工具無法直接對TTNews中文數據集使用,若使用分詞以后的數據進行評判效果差異較大,不具備說服力。于是將中文字符轉換為數字ID,再進行ROUGE評估。

3.2 數據預處理和參數設置

在實驗之前需要對數據集中的數據進行清洗,并進行一些預處理。其中CNN/Daily Mail比較經典,直接按照See等[14]的做法,使用斯坦福大學的Standford CoreNLP工具包進行分詞處理,去除其中的特殊符號,由于本文是針對長文本展開討論,所以去除掉原文本中長度小于300個字符的數據,留下較長的數據進行實驗訓練。

對于TTNews數據集,首先過濾掉重復的新聞摘要對和無效的新聞摘要對(無效情況包括:(1)缺少摘要;(2)缺少原始新聞;(3)新聞和摘要不匹配;(4)原文本長度小于300)。采用jieba分詞工具進行中文分詞。同時,文中的模型是分為抽取器和生成器兩塊進行實驗的,抽取器需要獲得抽取顯著句子的能力。而數據集中只有文檔-參考摘要數據。并沒有表明每個句子的提取標簽。因此,需要制定一個簡單的相似性方法來為文檔中的句子打上“標簽”。使用ROUGE值尋找最相似的文檔句子:

di為文檔句子,st為參考摘要。選取一定比例的句子打上標簽。基于標簽使用最小化交叉熵損失進行訓練。

關于詞向量部分,英文數據集采用了經典的Glove詞向量,維度選擇為300維。由于目前中文數據集領域缺乏比較權威的中文詞向量,實驗前期嘗試使用過北師大[18]提供的中文詞向量。可能由于文本領域或其他問題,實驗效果不佳。因此依舊選中了word2vec自動生成詞向量,利用模型自主訓練。

模型參數設置方面,抽取器模塊的編碼器部分針對中英文數據集分別使用BERTBASE和BERTBASE-Chinese預訓練語言模型。文中使用到的所有LSTM的隱藏層單元大小設置為256。抽取器和生成器都使用Adam優化器(模型同樣嘗試了SGD和Adagrad優化器,實驗表明,不同優化器經過訓練都可以使得模型向最優點收斂,只是訓練的時間存在些許差距。),初始學習率都為1E-3,L2正則項系數都為1E-5。對于主題模型,設置主題數K=15。當抽取器、生成器與主題模型三者一起聯合訓練時,通過實驗發現(如圖5所示),設置各個損失函數的權重接近時,模型效果最佳。則設置損失函數的調節參數α和β都等于1。對于集束搜索,設置集束寬度(beam size)為10,設置詞表大小為50 000。

圖5 α和β系數變化影響圖Fig.5 α and β coefficient change influence diagram

最后,模型在NVIDIA GTX1080TI GPU上進行了實驗,整個模型接受了40個小時的訓練。

3.3 實驗結果分析

3.3.1 復雜度分析

基于BERT預訓練模型的抽取器編碼器在訓練階段,由于參數量較為龐大,需要4塊顯存11 GB的GPU進行長達40個小時的訓練。鑒于BERT模型的兼容性和普適性,模型一經訓練完成,將適配多種領域的文本內容進行摘要。同時,由于本文將長文本摘要工作分成了抽取器和生成器兩部分完成。減低了生成器的數據處理量,且生成器模塊的訓練可以與抽取器模塊的訓練同時進行。所以整個模型的訓練速度仍然比單純使用生成器進行文本摘要的速度快。整個模型的訓練復雜度對比如表3所示。

表3 各模型訓練復雜度對比表Table 3 Comparison table of training complexity of each model

3.3.2 CNN/Daily Mail

表4為CNN/Daily Mail數據集上的實驗結果,表5為該數據集上的摘要對比示例。由于對數據集中小于300個字符的數據進行了去除,而大部分模型對這部分短文本的測試數據集的生成效果都極好,指標評價分數都較高,所以本文特意根據對應論文中給出的代碼鏈接復現了相應模型,再用同樣處理的數據集進行測試。由于都是針對較長文本進行的測試,實驗效果并沒有原始論文中給定的那么好(TTNews數據集同理)。具體的對比模型如下:

表4 CNN/Daily Mail(length>300)各模型結果評價表Table 4 CNN/Daily Mail(length>300)evaluation table for each model result 單位:%

表5 CNN/Daily Mail數據集摘要示例Table 5 CNN/Daily Mail dataset summary example

Lead-3:最傳統最簡單的抽取式摘要模型,只需要選擇文檔的前三句話來組成摘要的基線模型,其模型效果卻非常出色,甚至超越很多復雜的深度學習模型。

Pointer Generator(后面簡稱P-Gen)[14]:由See等[14]提出,為生成式摘要領域的里程碑式工作,該模型提出的指針生成器和覆蓋機制完美的解決了生成式文本摘要的OOV詞和摘要重復的兩大難題。

fast_abs_rl[19]:由Chen等[19]提出的一種較為復雜的強化選擇句子改寫模型。該模型是典型的兩階段式摘要模型,由一個抽取器和一個生成器組成,其中抽取器首先從源文檔中抽取出顯著句子,然后生成器重寫抽取的顯著句子以獲得一個完整的摘要。同時,該模型也是本文的基線模型。

REFRESH[9]:將抽取式文本摘要任務視為句子排序的Ranking問題,是首個使用強化學習的方法替代傳統的交叉熵損失訓練方法的模型。

Bottom-Up[20]:由Gehrmann等人提出的一種自底向上的摘要方法,也是一種兩階段式摘要模型,第一階段先做序列標注,找出原文中可能與摘要相關的單詞。第二階段,使用這些相關的詞匯為約束,進行生成式文本摘要。

表4中,TASTE表示本文的模型,TASTE-a表示抽取器和生成器均為未添加潛在主題,TASTE-b表示只在抽取器中添加潛在主題,TASTE-c表示只在生成器中添加潛在主題,TASTE表示在抽取器和生成器中均添加潛在主題。同時文中用方框圈出了潛在主題分布中權重較高主題詞,進一步說明了主題模型對于長文本摘要的指導意義。

從表4中的數據可以看出本文模型實現了最好的模型效果,相對于同類型的模型有1~2個點的提升。但同時也注意到,只在生成器中添加潛在主題,對模型的效果提升較為明顯。通過分析發現,主要是由于該潛在主題模型是基于文檔主題詞建立的一種“特殊”的注意力機制,是一種基于詞級別的注意力機制。而在抽取器模型中,抽取粒度是句子級別的,以詞級別的注意力來輔助句子級別的摘要抽取,效果可能不是特別明顯。而另一方面,在生成器中,摘要以單個的詞為產出單位,形成了詞級別的注意力和該主題模型提取到的潛在主題是一個維度上的。相當于是對原來的注意力進行了又一次檢驗:若原注意力機制與該潛在主題同時注意到某個詞語,則這個詞語的注意力就被增強了。若之前的注意力注意到了某個錯誤的詞語,而主題模型沒有發現,則兩者疊加,就可以削弱該詞的注意力。從而緩解摘要模型造成的“錯誤”。

3.3.3 TTNews

同樣由于模型去除了該中文數據集中300字以下的數據。只留下文本長度較長的數據進行實驗,實驗獲得的指標數據與NLPCC2018公布的參賽數據不具備可比性,所以未與該類模型數據進行比較。只針對同樣數據集下所復現的相關模型進行了比較。表6為TTNews數據集上的實驗結果,表7為該數據集上的摘要對比示例。

表6 TTNews(length>300)各模型結果評價表Table 6 TTNews(length>300)evaluation table for each model result 單位:%

表7 TTNews數據集摘要示例Table 7 TTNews dataset summary example

表6中的數據可以看出,在中文數據集中,傳統的堅實的Lead-3模型與其他模型差距拉大,主要由于中文的較長文本中,往往前三句是關于一些基礎背景的描述并不涉及核心主題。所以模型捕捉不到長文本的核心內容,效果不佳。另一方面,模型也出現了和英文數據集中一樣的情況,對于只在生成器中添加潛在主題,對模型的效果提升較為明顯。在具體實驗中,發現該基于主題的摘要有時也會出現一些紕漏,其在一些娛樂類、故事類、劇情類等具有較強連貫邏輯的文本中,摘要效果會出現下滑。本文在實驗時對該部分數據集進行了避讓。同時,模型在時政類、報道類等以信息平鋪為主的文本中實驗效果較好,如何針對所有領域文本都可以實現較好的摘要效果是往后的研究重心。

4 結語

本文提出了一種基于主題感知的抽取-生成混合文本自動摘要的模型,該模型在早期研究基礎上[21],針對長文本摘要中的文本主題指導的重要作用,加入主題感知模塊,有效提高了文本摘要的效果和質量。特別對于長文本的處理,該模型幾乎可以和人類摘要的方式一樣,圍繞主題生成摘要,簡短精煉,直擊主題。同時通過在TTNews和CNN/Daily Mail數據集上的實驗結果表明,該模型生成摘要ROUGE分數提升了1~2個百分點,實際的摘要案例也直觀表明了本文模型的優勢。但對于真正過長的文本進行摘要時,確實存在太多的不確定性因素,出于閱讀者和觀察點的不同,很難生成令所有人滿意的摘要。若可以根據用于在網絡上留下的足跡和標簽,提前獲取用戶的閱讀喜好,提取用戶關注的主題信息,以此輔助摘要生成,則可以實現針對特定用戶生成特定摘要的長文本摘要系統,從而全面提升用戶體驗。在之后的研究中,將向此方向繼續努力。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 精品无码国产自产野外拍在线| 国产成人调教在线视频| 国产一级小视频| 国产h视频在线观看视频| 亚洲欧美在线综合图区| 亚洲天堂视频在线观看| 日韩精品亚洲人旧成在线| 国内精品久久久久鸭| 亚洲欧美日韩另类| 成人午夜网址| 夜精品a一区二区三区| 日a本亚洲中文在线观看| 国产手机在线观看| 久久久久人妻一区精品| 全部免费特黄特色大片视频| 在线免费看片a| 婷婷激情五月网| 成人福利在线视频| 国产激情无码一区二区APP | 国产尹人香蕉综合在线电影| 日韩在线中文| 九九这里只有精品视频| 欧美国产日韩一区二区三区精品影视| 中文字幕日韩视频欧美一区| 久久久久夜色精品波多野结衣| 99精品国产自在现线观看| 亚洲婷婷丁香| 色婷婷电影网| yjizz视频最新网站在线| 日韩高清欧美| 久久亚洲天堂| 久久a毛片| 国产www网站| 精品一区二区无码av| 青草视频免费在线观看| 一本一道波多野结衣av黑人在线| 国产精品视频白浆免费视频| 99在线国产| 欧美日韩国产成人高清视频| 国产性生大片免费观看性欧美| 久久国产精品娇妻素人| 色亚洲成人| 热re99久久精品国99热| 无码精品福利一区二区三区| 欧美性久久久久| 伊人久久久久久久| 老司机午夜精品网站在线观看| 亚洲色成人www在线观看| 毛片视频网址| 免费无码AV片在线观看国产| 国产免费一级精品视频| 视频二区国产精品职场同事| 国内精品免费| 91娇喘视频| 人妻丰满熟妇AV无码区| 国内精品视频在线| 五月婷婷综合网| 四虎永久免费网站| 在线免费a视频| 精品久久久久久久久久久| 亚洲综合天堂网| 国产XXXX做受性欧美88| 久久婷婷五月综合97色| 蜜桃视频一区| 日韩高清中文字幕| 亚洲av无码片一区二区三区| 乱系列中文字幕在线视频| 五月丁香伊人啪啪手机免费观看| 国产又大又粗又猛又爽的视频| 亚洲欧美一区二区三区蜜芽| 欧美国产日产一区二区| 熟妇丰满人妻av无码区| 亚洲成a人片在线观看88| 草草线在成年免费视频2| 少妇精品久久久一区二区三区| 欧美亚洲第一页| 99视频免费观看| 奇米精品一区二区三区在线观看| 成人福利在线观看| 丁香六月激情婷婷| 国产精品区视频中文字幕| 亚洲国产天堂在线观看|