999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Seq2Seq-Attention 模型的文本摘要生成方法

2022-12-01 06:00:26門鼎陳亮
電子設(shè)計工程 2022年23期
關(guān)鍵詞:詞匯機制文本

門鼎,陳亮

(西安工程大學計算機科學學院,陜西 西安 710048)

隨著社會進入信息時代,人們可以通過多種渠道從互聯(lián)網(wǎng)平臺獲取重要信息,信息社會中人們把時間和精力花在閱讀大量信息上。互聯(lián)網(wǎng)上的信息盈余,將引導人們有效地解決信息過載的問題,而從海量的有效數(shù)據(jù)來看信息化的工作量不僅是巨大的,而且是迫切需要解決的問題。網(wǎng)絡(luò)數(shù)據(jù)需要從大量文本信息中快速挖掘語義數(shù)據(jù)。因此,通過文本摘要生成技術(shù)可以快速獲得文本主要信息。

自動摘要生成技術(shù)不僅過程完全自動化,而且生成的摘要概括能力強。互聯(lián)網(wǎng)上的文本信息數(shù)量龐大,自動摘要生成技術(shù)可以幫助用戶自動歸納文本信息的主要內(nèi)容,節(jié)省了用戶的閱讀時間。當人工閱讀文本信息總結(jié)文本主旨時,摘要質(zhì)量的高低依賴于讀者自身的語言概括能力和信息提取能力,容易導致捕獲的語義與文本核心主旨形成較大偏差。在面對復雜且篇幅過長的文本時,人們的閱讀理解能力有限,不能快速準確地獲取文本主旨。自動摘要生成技術(shù)模仿人工摘要過程,學習文本的深層語義,具有高水準的概括能力。

該文利用抽取式與生成式摘要抽取模型相結(jié)合的方法應(yīng)用在工業(yè)領(lǐng)域中,對于文本提取摘要的技術(shù)做出創(chuàng)新,在摘要提取的準確度、核心詞以及詞匯重復等方面做出一些突破,結(jié)合BERT 摘要模型進行摘要句抽取[1],分析Seq2Seq-Attention 模型,并通過Seq2Seq-Attention 模型進行文本摘要生成,在注意力機制中加入核心詞,然后結(jié)合指針網(wǎng)絡(luò)生成模型[2],該模型可以通過核心詞中的重要信息,構(gòu)建出摘要框架,生成信息全面精煉的文章摘要。

1 相關(guān)工作

1.1 問題描述

文本摘要問題一直是學者們研究的焦點,該文采用文本自動摘要技術(shù),將其凝練復制成一段簡單有效的段落,對于機器翻譯過程中會存在關(guān)鍵詞丟失、詞匯重復以及語句不通順等問題。調(diào)研了關(guān)于西安高壓開關(guān)操動有限公司項目的質(zhì)量數(shù)據(jù)管理問題,其中,質(zhì)量問題主要包括質(zhì)量問題的描述、質(zhì)量問題的分類以及原因等。通過調(diào)研公司目前客戶經(jīng)常出現(xiàn)的質(zhì)量問題,方便進行統(tǒng)計分析。調(diào)研質(zhì)量問題,產(chǎn)生大量文本數(shù)據(jù),不利于后期管理和查詢統(tǒng)計,為了使工業(yè)生產(chǎn)更加信息化,通過收集工業(yè)數(shù)據(jù)集,進行廣泛的實驗,構(gòu)建一種新的混合模型應(yīng)用于工業(yè)領(lǐng)域,進行技術(shù)創(chuàng)新并解決以上問題。

1.2 系統(tǒng)框架

BERT 模型中集成文章的主題信息,在長語句處理時會出現(xiàn)問題。因為Seq2Seq 模型將產(chǎn)生數(shù)據(jù)截斷,導致丟失信息。于是提出融合核心詞注意機制,把全文本作為摘要輸出。

結(jié)合現(xiàn)有的文本摘要模型技術(shù),構(gòu)建出一個新的混合模型,處理流程如圖1 所示。

圖1 文本摘要混合模型處理流程

2 文本摘要自動生成的方法

2.1 基于BERT模型的摘要句抽取

BERT 模型采用Transformer 網(wǎng)絡(luò)結(jié)構(gòu)[2],對語言模型進行預訓練,通過多次語言訓練得到一種通用的語言理解模型。BERT 語言模型的結(jié)構(gòu)如圖2所示。

圖2 BERT語言模型結(jié)構(gòu)

雙向預訓練與單項預訓練有所不同,BERT 在文本摘要抽取過程中,利用了遮蔽語言機制來表示深度雙向訓練。在許多訓練模式中,BERT 可以根據(jù)特定的任務(wù)需求改變體系結(jié)構(gòu)的需求。同時,它在訓練過程中顯示了自己先進的性能。BERT 擁有兩個變體,一個是BERTBASE,該變體擁有12 層Transformer 模塊,另一個變體是BERTLarge:,該變體擁 有24 層Transformer 模塊。

2.2 Seq2Seq模型

2014 年,Seq2Seq 模型[3]進入文本摘要的研究領(lǐng)域,學者們試圖將其應(yīng)用到機器學習等各個領(lǐng)域中,該模型的本質(zhì)就是Encoder-Decoder 框架,在生成摘要的過程中,輸入一段長文本,使用編碼器進行編碼,得到原文的向量化表示,然后用解碼器進行解碼得到文本摘要,輸出的句子是短文本。Seq2Seq 模型結(jié)構(gòu)如圖3 所示。

圖3 Seq2Seq模型結(jié)構(gòu)

2.3 Seq2Seq-Attention模型

Encoder-Decoder 框架在需要語句向量中存在較大的局限性。該模型在解碼過程中需要壓縮整個語句向量,這就使得壓縮后的語句與原來的文本主旨存在差異,原文本中的重要信息隨著壓縮逐漸變少,重要信息存在遺漏,在解碼階段就不會產(chǎn)生重要信息,導致解碼關(guān)鍵信息丟失。

該文提出的Attention 模型[4-6],在文本輸出時,會有一個特定的范圍把需要關(guān)注的重要信息標記出來,然后根據(jù)這些標記的主要信息生成輸出。Seq2Seq模型中,因為向量自身長度限制,輸出過長的文本導致信息丟失,在Attention 模型中,可以分為多個向量來儲存信息,在編碼階段,把重要信息標注出來,在向量輸出后進行調(diào)整,該模型在編碼端使用雙向LSTM,在解碼端使用單項LSTM。模型圖如圖4所示。

圖4 Seq2Seq-Attention模型

2.4 改進模型

在Seq2Seq-Attention 模型[7-8]中,對于長文本多次出現(xiàn)未登錄詞以及生成詞匯重復率極高的情況,使得原文本中重要信息在解碼階段,由于向量長度的自身限制沒有解碼出來,導致得到的摘要讀起來不通順,原文主要意思無法表達出來。于是加入指針網(wǎng)絡(luò)來解決這一問題。

2.4.1 指針網(wǎng)絡(luò)

模型中添加指針網(wǎng)絡(luò)[9-10],為了能夠在模型抽取原文主要信息后,可以自動生成標題,而且可以根據(jù)生成詞匯擴充新詞匯來豐富生成的摘要信息,有效提高了原文信息的利用率,使得生成的摘要內(nèi)容信息更加飽滿,讀者閱讀也會更加通順。相關(guān)公式如下:

式中,Pgen作為開關(guān),可控制新詞生成。

2.4.2 覆蓋機制

在Seq2Seq-Attention 模型中,重復問題比較嚴重,由于在機制計算時,機制計算在不同時間段內(nèi)相對獨立,模型在采集信息位置上會出現(xiàn)重復現(xiàn)象,這就導致生成文本摘要會出現(xiàn)重復詞匯或者會漏掉相應(yīng)的重要信息。在絕大多數(shù)長文本中會重復出現(xiàn)一些詞匯,這也說明這些詞匯十分重要,針對該詞匯模型注意力會更加集中,因此,模型需要對已經(jīng)注意過的位置進行標記,防止下次再集中到某一位置,而導致某一詞匯多次出現(xiàn)。因此,該文在原有模型中加入覆蓋機制。相關(guān)公式如下:

2.4.3 核心詞注意力機制

神經(jīng)網(wǎng)絡(luò)進行摘要生成的過程中,原文中許多詞匯沒有編譯出來,文章主旨表述不完整。于是在注意力機制中融入指導核心詞,核心詞包括原文中的主要句子和短語,核心詞匯在解碼時會被重要關(guān)注,生成的摘要也會概括出原文主要信息[11]。

TF-IDF 算法[12]可以提取文檔中的重要詞匯,然后測評出一段文本對于原文檔的重要程度。TF-IDF表示某關(guān)鍵詞在文檔中出現(xiàn)的頻率,由兩部分組成:

TF 為詞頻,表示某詞匯或短語在該文檔中出現(xiàn)的頻率,頻率的高低可以反映其對于文檔的重要程度。

IDF 為逆文檔頻率,表示對于某一詞語權(quán)重的衡量,若詞匯在其他文檔中出現(xiàn)頻率較低,則認為該詞語為少見詞,若該詞匯在文檔中重復出現(xiàn),該詞匯IDF 值越大,它的權(quán)重越大,反之越低。

2.5 基于混合模型的摘要生成

基于以上模型對于文本摘要生成過程中起到了十分重要的作用,單個模型在編碼以及解碼中存在一些問題,該文提出混合模型的方法,然后加入注意力機制以及指針網(wǎng)絡(luò)[13],解決了重復問題以及核心詞的提取,讓文本摘要語義表達更加準確,語句更加通順。在Seq2Seq-Attention 模型中,針對無法生成OOV 詞匯,并且會產(chǎn)生其他信息,加入了覆蓋機制與指針網(wǎng)絡(luò),解決了詞匯重復的問題。在注意力機制中,過多的關(guān)注摘要與原文的信息對比,忽略一些核心詞對原文的信息表達的影響,該文將核心詞提取到注意力機制中,然后通過核心詞引導出較為準確的文本摘要。

3 實驗分析

3.1 實驗設(shè)置

1)實驗選取西安高壓開關(guān)操動有限公司的項目進行駐場調(diào)研,對設(shè)備進行入庫、檢定、維修、封存,啟封、報廢狀態(tài)變更等過程信息的記錄、查詢和統(tǒng)計分析。收集統(tǒng)計文本記錄,對于選取的數(shù)據(jù)集進行預處理,數(shù)據(jù)集包含訓練集、驗證集以及測試集,統(tǒng)計結(jié)果如表1 所示。

表1 數(shù)據(jù)統(tǒng)計結(jié)果

2)采集樣本如圖5 所示。

圖5 采集樣本

3)文本自動分詞,通過分詞工具,把文本內(nèi)容分為兩字詞語,對于低頻詞語用符號來代替,數(shù)據(jù)集分詞結(jié)果如圖6 所示。

圖6 數(shù)據(jù)集分詞結(jié)果

4)選取抽取式摘要模型:①TextRank;②TFIDF;③BERTSUM

5)選取生成式摘要模型:①Seq2Seq;②Seq2Seq-Attention;③Pionter+Generator 4.core words

6)進行ROUGE 打分,并進行結(jié)果分析。

3.2 結(jié)果及分析

實驗結(jié)果如表2 所示。實驗對比模型如下:

表2 生成式摘要與基于混合模型的摘要生成結(jié)果對比

1)基本Seq2Seq:屬于一種encoder-decoder 結(jié)構(gòu),應(yīng)用在機器翻譯等領(lǐng)域[14]。

2)Seq2Seq-Attention:將序列到序列的模型。

3)Pointer-Generator:使用pointer 機制從原文中復制未登錄詞匯,保證信息的正確率[15]。

通過觀察表1、表2,繪制柱狀圖,如圖7 所示,可以得出:

1)Attention 機制的模型ROUGE 平均值較高,基礎(chǔ)Seq2Seq 模型的ROUGE 平均值較低,Attention 機制更加適用于混合模型。

2)BERTSUM+Seq2Seq-Attention 模型[16]相比于BERTSUM+Seq2Seq 模型ROUGE 平均值提高了1.8%,混合模型相比BERTSUM+Pointer-Generator提高了2.57%。可以得出,混合模型的表現(xiàn)更好。

3)從圖7 可以看出,混合模型比生成模型具有更好的結(jié)果,生成模型會存在信息不完整等問題。與直接輸入原文相比,BERTSUM 生成的摘要更加符合原文的主旨大意,則認為它生成的摘要更為全面。

圖7 柱狀圖

4 結(jié)論

實驗證明,在工業(yè)領(lǐng)域中,文本摘要技術(shù)也可以得到很好的應(yīng)用,讓制造生產(chǎn)更加信息化和智能化,該文采用混合模型進行了實驗。在摘要生成過程中使用了指針網(wǎng)絡(luò)以及融合了核心詞注意力機制,得到了比較精確的文本摘要,但是在文本提取過程中仍然存在很多的問題。在BERT 模型的摘要提取過程中,輸出端處理工作欠缺,使得輸出原文信息覆蓋不全面,并且存在信息重復。在注意機制中,可以使用多種的模型方法,并且更加有效快捷地提取文章主要包含的信息,最終成為簡明扼要的文本。

猜你喜歡
詞匯機制文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
注重機制的相互配合
打基礎(chǔ) 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 欧美亚洲欧美| 国产精品夜夜嗨视频免费视频| 欧美日韩免费在线视频| 精品人妻无码中字系列| 亚洲免费黄色网| 日本a级免费| 亚洲人成成无码网WWW| 爽爽影院十八禁在线观看| 亚洲精品无码日韩国产不卡| 日本伊人色综合网| 久久 午夜福利 张柏芝| 美女扒开下面流白浆在线试听| 午夜性刺激在线观看免费| 国产成人1024精品下载| YW尤物AV无码国产在线观看| 日本三区视频| 波多野结衣在线一区二区| 国产亚洲精品自在线| www.亚洲天堂| 亚洲色图综合在线| 2024av在线无码中文最新| 亚洲乱强伦| 99免费视频观看| 97人人模人人爽人人喊小说| 亚洲AV人人澡人人双人| 亚洲综合片| 日韩av电影一区二区三区四区 | 三级欧美在线| 欧洲欧美人成免费全部视频| 久久综合婷婷| 国产精品久久精品| 欧美精品在线免费| 亚洲无码视频喷水| 国产美女人喷水在线观看| 国产一级在线播放| 一级成人欧美一区在线观看| 玩两个丰满老熟女久久网| 22sihu国产精品视频影视资讯| 成人在线综合| 国产十八禁在线观看免费| 色综合久久综合网| 亚洲国产午夜精华无码福利| 国产女人在线| 亚洲区一区| 激情综合网激情综合| 国产日韩精品一区在线不卡 | 蜜臀AV在线播放| 婷婷午夜影院| 日韩高清中文字幕| 亚洲第一精品福利| 九九九久久国产精品| 18禁高潮出水呻吟娇喘蜜芽| 亚洲av无码久久无遮挡| 欧美日韩亚洲综合在线观看| 亚洲天堂区| 狠狠色丁婷婷综合久久| 国产经典免费播放视频| 亚洲一区波多野结衣二区三区| 欧洲成人在线观看| 91年精品国产福利线观看久久 | 91精品国产综合久久香蕉922| 被公侵犯人妻少妇一区二区三区| 国产精品密蕾丝视频| 国产亚洲高清视频| 一本无码在线观看| 久久精品只有这里有| 国产尤物视频在线| 无码AV日韩一二三区| 鲁鲁鲁爽爽爽在线视频观看| 曰韩人妻一区二区三区| 色AV色 综合网站| 婷婷成人综合| 国产人碰人摸人爱免费视频| 日本黄色a视频| 久久国产毛片| 日韩高清欧美| 国产精品第一区在线观看| 久久情精品国产品免费| 小蝌蚪亚洲精品国产| 国产美女无遮挡免费视频| 极品国产一区二区三区| 久久婷婷五月综合97色|