999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向招標(biāo)文件的半結(jié)構(gòu)化文本自動(dòng)生成

2023-03-16 10:20:50劉金碩
計(jì)算機(jī)工程 2023年3期
關(guān)鍵詞:文本模型

劉金碩,劉 寧

(武漢大學(xué) 國家網(wǎng)絡(luò)安全學(xué)院 空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,武漢 430079)

0 概述

招標(biāo)文件一般指的是招標(biāo)工程建設(shè)的大綱,是建設(shè)單位實(shí)施工程建設(shè)的工作依據(jù),也是向投標(biāo)單位提供參加投標(biāo)所需要的一切情況。為了做到文件內(nèi)容的規(guī)范統(tǒng)一,招標(biāo)公司通常會(huì)邀請(qǐng)專家參考?xì)v年的招標(biāo)文件編寫范本,然而這種方式嚴(yán)重依賴專家的行業(yè)經(jīng)驗(yàn)與知識(shí)水平,自動(dòng)化程度低,需要花費(fèi)大量的人力與時(shí)間,無法滿足行業(yè)快速發(fā)展的需求。通過對(duì)人工編制的范本進(jìn)行分析發(fā)現(xiàn),其本質(zhì)上是對(duì)招標(biāo)文件核心內(nèi)容的匯總。采用形式化定義:給定n個(gè)招標(biāo)文件組成的集合D={d1,d2,…,dn},參考范本的內(nèi)容為Y={y1,y2,…,ym},其中yi是文檔集D中的核心內(nèi)容。在自然語言處理領(lǐng)域中,自動(dòng)文摘技術(shù)的目的是對(duì)海量數(shù)據(jù)進(jìn)行提煉總結(jié),以簡潔直觀的摘要來概括原始數(shù)據(jù)[1]。

目前,文本摘要按照研究方法可分為生成式文本摘要與抽取式文本摘要[2]。生成式方法通過理解原始文本,自動(dòng)生成摘要內(nèi)容。文獻(xiàn)[3]提出基于編碼器-解碼器框架的生成式文本摘要,效果得到顯著提升,成為主流方法。文獻(xiàn)[4]提出復(fù)制和覆蓋機(jī)制,改善了生成內(nèi)容重復(fù)及未登錄詞問題。文獻(xiàn)[5]建立謂詞-參數(shù)關(guān)系的語義依賴圖,指導(dǎo)摘要生成過程,以應(yīng)對(duì)語義偏差問題。文獻(xiàn)[6]提出復(fù)制結(jié)合重寫機(jī)制生成最終摘要。然而,現(xiàn)有生成式文本摘要通常依賴大規(guī)模監(jiān)督語料,無法應(yīng)對(duì)真實(shí)場景中的資源缺乏問題。抽取式方法通過主題模型、圖模型等實(shí)現(xiàn)文本摘要。文獻(xiàn)[7-8]基于主題模型思想,將文檔映射至矢量語義空間,構(gòu)建句子加權(quán)的詞頻向量,選擇排名靠前的句子組成摘要。主題模型能夠挖掘潛在語義信息,但過分依賴數(shù)據(jù)集質(zhì)量,容易發(fā)生過擬合。因此,研究人員將文本構(gòu)建為圖結(jié)構(gòu),采用圖排序算法選擇靠前的文本語句作為摘要。文獻(xiàn)[9]提出TextRank 方法,采用PageRank[10]算法計(jì)算語句得分并排序。文獻(xiàn)[11]采用圖節(jié)點(diǎn)的度作為排序衡量方法。文獻(xiàn)[12]提出句子-實(shí)體二分圖表示文檔,實(shí)現(xiàn)網(wǎng)頁文本的摘要生成。TextRank[9]等方法簡單有效,但只考慮了句子之間的相似性關(guān)系,忽略了其他因素,而且生成內(nèi)容多樣性較差。文獻(xiàn)[13]將圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)應(yīng)用在文檔摘要任務(wù)中,取得了不錯(cuò)的效果。文獻(xiàn)[14-15]利用位置關(guān)系或聚類算法對(duì)TextRank 算法進(jìn)行改進(jìn),但依然存在運(yùn)行速度較慢,忽略了時(shí)間特征等問題。文獻(xiàn)[16]引入文檔節(jié)點(diǎn)、單詞節(jié)點(diǎn)構(gòu)建異質(zhì)圖,實(shí)現(xiàn)核心詞句的提取。文獻(xiàn)[17]基于圖卷積網(wǎng)絡(luò)與雙注意力機(jī)制實(shí)現(xiàn)醫(yī)療文本摘要生成。圖神經(jīng)網(wǎng)絡(luò)能夠捕獲上下文的長依賴關(guān)系,但現(xiàn)有方法需要將所有句子構(gòu)成的圖加載到內(nèi)存以執(zhí)行卷積操作,很難應(yīng)用于當(dāng)前的長文本場景。

綜上,基于圖模型的文本摘要方法作為抽取式文本摘要的主流方法雖然能夠提取核心內(nèi)容,但忽略了文本的主題結(jié)構(gòu),普遍存在運(yùn)行速度慢等問題,無法實(shí)現(xiàn)篇幅較長且強(qiáng)調(diào)時(shí)效性、結(jié)構(gòu)性以及多樣性的招標(biāo)文件范本生成。本文提出一種基于多頭圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[18]的半結(jié)構(gòu)化文本自動(dòng)生成(Semi-structured automatic text Generation model based on Multi-head GAT,SGMG)模型。將文本內(nèi)容作為輸入,利用異質(zhì)圖對(duì)文本、段落及主題之間的語義關(guān)系進(jìn)行建模,采用多頭圖注意力網(wǎng)絡(luò)加強(qiáng)不同節(jié)點(diǎn)之間的交互,從而提取核心主題結(jié)構(gòu)。通過融合時(shí)間特征及語義相似關(guān)系的有向圖算法抽取段落中心句,降低計(jì)算成本,保證生成文本的時(shí)效性與多樣性。

1 面向招標(biāo)文件的半結(jié)構(gòu)化文本自動(dòng)生成模型

基于多頭圖注意力網(wǎng)絡(luò)的半結(jié)構(gòu)化文本自動(dòng)生成模型的核心思想是利用圖模型抽象文檔、段落、語句之間的關(guān)系,提取核心主題與中心語句。模型總體框架如圖1 所示,主要包括預(yù)處理層、主題抽取模塊、中心句抽取模塊、句子選擇模塊。將文本集合作為輸入,在預(yù)處理層將文本轉(zhuǎn)化為上下文編碼表示,抽取主題詞。在主題抽取模塊中,基于主題詞構(gòu)建異質(zhì)圖,運(yùn)用圖注意力網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)信息進(jìn)行傳播更新,提取核心主題與段落集合。在中心語句抽取模塊中,根據(jù)語句的時(shí)間關(guān)系及相似性構(gòu)建有向圖,抽取核心語句。在句子選擇模塊中,應(yīng)用三元詞過濾法[19]篩選中心句,得到最終的生成文檔。

圖1 模型總體框架Fig.1 Overall framework of the model

1.1 預(yù)處理層

SGMG 模型基于BERT 預(yù)訓(xùn)練模型[20]對(duì)文檔集進(jìn)行處理。BERT 預(yù)訓(xùn)練模型是多層雙向的Transformer 編碼器,通過隨機(jī)屏蔽預(yù)測以及下一句預(yù)測任務(wù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,在自然語言處理領(lǐng)域的文本分類、對(duì)話系統(tǒng)等多項(xiàng)任務(wù)中具有優(yōu)越性能。

給定輸入文本詞序列W={w1,w2,…,wn},經(jīng) 過BERT 模型的詞嵌入層,將文本中的n個(gè)字符轉(zhuǎn)為固定維度d的向量表示VT。本文采用的BERT 模型向量維度為768。段嵌入層的作用是區(qū)分輸入文本,本文中段嵌入向量VS都為0。經(jīng)過位置嵌入層,學(xué)習(xí)輸入文本的位置表示VP。經(jīng)過3 個(gè)嵌入層,得到BERT 的最終嵌入表示V=VT+VS+VP,V∈Rnxd。之后,將嵌入向量V送入12 層Transformer 單元,其中多頭注意力層選擇12 個(gè)頭,得到最終的編碼輸出矩陣H={h1,h2,…,hn},hi∈R768,將第一層token 向量h1與最后一層token 向量hn按照式(1)計(jì)算得到BERT編碼向量Vo:

文獻(xiàn)[21-22]在實(shí)驗(yàn)中證明直接使用BERT 模型得到的句向量在語句相似任務(wù)上的效果并不理想。受到以上工作的啟發(fā),對(duì)編碼向量執(zhí)行如式(2)所示的白化操作得到Xw,其中T表示單個(gè)章節(jié)中句向量的總數(shù),使句向量之間滿足各向同性,并通過前饋神經(jīng)網(wǎng)絡(luò)得到最終的向量表示XS。

平均池化能夠考慮每個(gè)詞的語義信息,最大池化能夠提取顯著特征。由于語料文本中噪聲信息密度較大,采用最大池化能夠聚焦關(guān)鍵信息,因此對(duì)句向量XS采取如式(3)、式(4)所示的最大池化操作,生成段落表示Xsec以及文檔的編碼表示Xd:

其中:n、m分別表示構(gòu)成段落、文檔的句子數(shù)量。

通過文本處理工具PyPDF 得到原始文檔集的標(biāo)題信息,由LDA 模型[23]生成段落及文檔主題,綜合兩者得到最終的待選主題集合ttheme={t1,t2,…,tk},其中k為主題數(shù)量,通過BERT 預(yù)訓(xùn)練模型將主題詞映射為向量表示T。

1.2 主題抽取模塊

現(xiàn)有自動(dòng)摘要算法解決了核心內(nèi)容提取問題,但無法提取文本的主題結(jié)構(gòu)。文獻(xiàn)[16]通過共現(xiàn)詞建立文檔與句子的關(guān)系,實(shí)現(xiàn)了核心詞的提取。受到該工作啟發(fā),設(shè)計(jì)由主題、文檔、段落組成的異質(zhì)圖,結(jié)合多頭圖注意力網(wǎng)絡(luò)提取文檔的核心主題。

1.2.1 異質(zhì)圖模型結(jié)構(gòu)

給定文檔集D={d1,d2,…,dn},文 檔di={ssecj}由段落ssecj組成。異質(zhì)圖包含中心節(jié)點(diǎn)與邊緣節(jié)點(diǎn),邊緣節(jié)點(diǎn)之間通過中心節(jié)點(diǎn)建立語義連接關(guān)系。如圖2 所示,采取主題節(jié)點(diǎn)Vt={Vt1,Vt2,…,Vtk}作為中心節(jié)點(diǎn),文檔節(jié)點(diǎn)Vd={Vd1,Vd2,…,Vdn}及段落節(jié)點(diǎn)Vsec={Vsec1,Vsec2,…,Vsecm}作為邊緣節(jié)點(diǎn)構(gòu)建圖G,圖節(jié)點(diǎn)集合V=Vt∪Vd∪Vsec。

圖2 主題抽取模塊結(jié)構(gòu)Fig.2 Structure of topic extraction module

將段落、文檔與相關(guān)的主題之間建立連接,得到圖的邊集合E={eij},eij表示節(jié)點(diǎn)Vi與Vj之間存在邊。圖節(jié)點(diǎn)通過多頭圖注意力網(wǎng)絡(luò)層進(jìn)行消息傳播與聚合更新,并通過分類輸出層預(yù)測主題節(jié)點(diǎn)是否為范本中采用的真實(shí)主題。

1.2.2 圖初始化

采用段落、文檔及主題詞的上下文表示作為圖節(jié)點(diǎn)的初始化特征向量{hi}。Xdi初始化文檔節(jié)點(diǎn)Vdi,Tj初始化主題節(jié)點(diǎn)Vtj,Xseck初始化段落節(jié)點(diǎn)Vseck。計(jì)算主題詞在文檔與段落中的TF-IDF 值作為邊eij的權(quán)值。

1.2.3 圖更新

在建立異質(zhì)圖并初始化后,采用多頭圖注意力機(jī)制對(duì)節(jié)點(diǎn)信息進(jìn)行消息傳播與聚合更新。圖注意力層使用注意力機(jī)制聚合鄰近節(jié)點(diǎn)特征,如式(5)~式(7)所示:

其中:eij表示節(jié)點(diǎn)之間邊的權(quán)重值;Wa、Wq、Wk、Wv是待訓(xùn)練的權(quán)重向量;αij是兩個(gè)節(jié)點(diǎn)之間的注意力權(quán)重值。

為了進(jìn)一步提高表達(dá)能力,采用多頭自注意力機(jī)制,設(shè)置多個(gè)Wk并對(duì)結(jié)果求取均值,如式(8)所示:

其中:Ni表示節(jié)點(diǎn)Vi的鄰近節(jié)點(diǎn)集;K表示自注意層的數(shù)量。

在節(jié)點(diǎn)狀態(tài)聚合更新階段,主題節(jié)點(diǎn)首先通過圖注意力層與前饋神經(jīng)網(wǎng)絡(luò)層對(duì)文檔節(jié)點(diǎn)、段落節(jié)點(diǎn)進(jìn)行傳播更新,再由更新過后的文檔節(jié)點(diǎn)、段落節(jié)點(diǎn)對(duì)主題節(jié)點(diǎn)進(jìn)行反向更新。經(jīng)過L輪次迭代,得到最終的主題節(jié)點(diǎn)表示。

分類輸出層包括兩層前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Network,F(xiàn)FN)[24],采用Softmax 作為激活函數(shù),對(duì)主題節(jié)點(diǎn)進(jìn)行二分類,預(yù)測主題詞屬于真實(shí)主題的概率p,p∈[0,1]。在訓(xùn)練階段,采用交叉熵?fù)p失函數(shù)。

在主題抽取模塊中,異質(zhì)圖每輪次傳播與更新的計(jì)算復(fù)雜度為O(|V|+|E|),其中|V|、|E|分別表示圖中節(jié)點(diǎn)和邊的數(shù)量。由于采用文檔與段落級(jí)別進(jìn)行建模,因此相較于直接對(duì)句子建模的方法,降低了時(shí)空復(fù)雜度。經(jīng)過計(jì)算,最終得到k個(gè)核心主題及其相關(guān)的t個(gè)段落組成的集合P={ssec1,ssec2,…,ssect}。

1.3 中心句抽取模塊

現(xiàn)有文本摘要模型在提取核心內(nèi)容時(shí),忽略了時(shí)間特征對(duì)語句中心性的影響,無法保證內(nèi)容的時(shí)效性。因此,設(shè)計(jì)中心句抽取模塊,如圖3 所示。融合時(shí)間特征及語句相似性對(duì)段落集合P構(gòu)建語句關(guān)系有向圖。在提取核心語句的同時(shí),保證了內(nèi)容的時(shí)效性。

圖3 中心句抽取模塊結(jié)構(gòu)Fig.3 Structure of central sentence extraction module

節(jié)點(diǎn)S={S1,S2,…,Sn}表示句子節(jié)點(diǎn),采用語句向量表示XS進(jìn)行初始化,邊集合E={eij},eij表示Si指向Sj的有向邊,Si的時(shí)間信息晚于Sj。根據(jù)式(9)計(jì)算語句向量之間的相似度,作為關(guān)系圖邊eij的權(quán)重:

根據(jù)式(10)定義節(jié)點(diǎn)中心性的計(jì)算方法:

其中:S={S1,S2,…,Sn}表示節(jié) 點(diǎn)集合;time(Si)表示節(jié)點(diǎn)Si的時(shí)間特征信息;λ1與λ2是超參數(shù),分別代表入邊與出邊的權(quán)重,并且滿足式(11),λ2通常小于0,表示相似句子中,越晚出現(xiàn)的句子中心性越低,目的是使模型傾向于輸出較新內(nèi)容。

中心句抽取模塊計(jì)算每個(gè)段落集合P中句子的中心性,時(shí)間復(fù)雜度為O(|S|2),空間復(fù)雜度為O(|S|),其中|S|表示句子節(jié)點(diǎn)的數(shù)量。由于不同主題之間可以并行計(jì)算,因此最終的時(shí)間復(fù)雜度仍為O(|S|2)。

現(xiàn)有文本摘要方法通常選擇對(duì)文本中所有句子進(jìn)行建模[9,11-17]。與這些方法相比,本文提出的模型先對(duì)主題信息進(jìn)行粗粒度篩選,主題之間再采取并行的方式選擇中心句,降低了時(shí)空復(fù)雜度。當(dāng)數(shù)據(jù)規(guī)模較大時(shí),利用節(jié)點(diǎn)中心性計(jì)算過程的獨(dú)立性,對(duì)節(jié)點(diǎn)采取組內(nèi)串行、組間并行的計(jì)算方式,進(jìn)一步提高模型效率。

1.4 句子選擇模塊

文獻(xiàn)[25]采用最大邊緣相關(guān)性(Maximal Marginal Relevance,MMR)算法提高推薦結(jié)果的多樣性。文獻(xiàn)[19]將MMR 算法應(yīng)用在文本摘要任務(wù)中也取得了相同的效果。受到以上工作的啟發(fā),采用一種改進(jìn)的MMR 算法——三元詞過濾法篩選最終輸出的內(nèi)容,給定已選內(nèi)容S和候選句c,ncountmatch(gram3)表示c與S之間共有的三元詞數(shù)量,當(dāng)數(shù)量大于等于1 時(shí),舍棄候選句c(t=0),否則將其保留(t=1),如式(12)所示:

2 實(shí)驗(yàn)與結(jié)果分析

2.1 實(shí)驗(yàn)語料庫

實(shí)驗(yàn)語料采集自國家能源集團(tuán)2016 年至2020 年度招投標(biāo)過程中積累的招標(biāo)技術(shù)文件。文件所屬類型分為貨物類、服務(wù)類和工程類。按照文本數(shù)量以及語料質(zhì)量,選取其中120 類標(biāo)的物對(duì)應(yīng)的共計(jì)8 012 件文件作為實(shí)驗(yàn)的數(shù)據(jù)集,按照8∶1∶1 的比例,劃分出訓(xùn)練集、驗(yàn)證集和測試集。

原始語料文件數(shù)據(jù)清洗包括:提取文件的發(fā)布日期,清理文件內(nèi)容中頁碼等無效成分,按照文檔、段落、語句的層級(jí)整理主體內(nèi)容,提取當(dāng)前文件標(biāo)題等工作。清洗后的語料結(jié)構(gòu)如表1 所示。

表1 數(shù)據(jù)清洗后的語料結(jié)構(gòu)Table 1 Corpus structure after data cleaning

2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

采用ROUGE 作為評(píng)估指標(biāo),如式(13)所示:

其中:Rd表示人工編制的參考范本;S表示人工范本中的句子;表示人工范本與生成文本共有的N元詞個(gè)數(shù);表示人工范本中N 元詞的總數(shù)。

采用ROUGE-1、ROUGE-2 指標(biāo)對(duì)生成文本與人工范本進(jìn)行對(duì)比,采用ROUGE-L 指標(biāo)對(duì)比最長公共子序列,評(píng)價(jià)生成文本內(nèi)容的流暢性。為了驗(yàn)證本文模型中主題抽取模塊的有效性,采用F1 分?jǐn)?shù)(F)對(duì)主題抽取效果進(jìn)行評(píng)價(jià),計(jì)算公式如式(14)~式(16)所示:

其中:P表示預(yù)測精確率;R表示召回率;TTP表示預(yù)測的主題為真實(shí)主題的數(shù)據(jù)數(shù)量;FFP表示預(yù)測為非真實(shí)主題而實(shí)際為真實(shí)主題的數(shù)據(jù)數(shù)量;TTN表示預(yù)測為真實(shí)主題而實(shí)際為非真實(shí)主題的數(shù)據(jù)數(shù)量;FFN表示預(yù)測為非真實(shí)主題而實(shí)際也為非真實(shí)主題的數(shù)據(jù)數(shù)量。

2.3 實(shí)驗(yàn)參數(shù)

采用base 版本的BERT 預(yù)訓(xùn)練模型,文本向量特征維度為256。為了捕捉更加豐富的語義特征,使用8 個(gè)自注意力層求取均值,圖注意力網(wǎng)絡(luò)隱藏層狀態(tài)向量維度為64。實(shí)驗(yàn)過程表明,當(dāng)圖節(jié)點(diǎn)消息傳播及更新的迭代次數(shù)設(shè)置為2 時(shí)能夠充分進(jìn)行節(jié)點(diǎn)交互且避免過擬合。選擇得分前M的句子作為中心句,M采用段落集合句子數(shù)的平均值。

在訓(xùn)練過程中,采用Adam 優(yōu)化函數(shù)尋找模型最優(yōu)參數(shù)。實(shí)驗(yàn)設(shè)置的批處理大小為32,學(xué)習(xí)率為5e-4,為了防止過擬合,模型在驗(yàn)證集的連續(xù)10 次迭代中,如果誤差不再下降,則停止訓(xùn)練。

2.4 有效性驗(yàn)證

選取TextRank[9]、LexRank[11]、PacSum[14]、Seq2Seq+Attention[27]等4 種常用的文本 摘要方法驗(yàn)證SGMG模型的有效性,并與PacSum、Seq2seq+Attention 方法進(jìn)行對(duì)比以驗(yàn)證SGMG 模型的先進(jìn)性。

1)TextRank[9],基于PageRank 算法實(shí)現(xiàn)抽取式文本摘要,被廣泛應(yīng)用于文本生成任務(wù)[26]。

2)LexRank[11],基于節(jié)點(diǎn)度的定義實(shí)現(xiàn)抽取 式文本摘要,常被應(yīng)用于多文檔文本生成任務(wù)。

3)PacSum[14],重新定義了句子中心性,在無監(jiān)督文本摘要任務(wù)中取得了較好的效果。

4)Seq2Seq+Attention[27],目前主流的生成式摘要方法,采用編碼器-解碼器結(jié)合注意力機(jī)制實(shí)現(xiàn),實(shí)驗(yàn)中采用RNN 作為神經(jīng)元。

為了比較不同輸入方式對(duì)基準(zhǔn)模型的影響,對(duì)平滑連接(Flat Concatenation,F(xiàn)C)與分層連接(Hierarchical Concatenation,HC)[28]方式進(jìn)行對(duì)比實(shí)驗(yàn),其中:平滑連接將文檔集整體拼接在一起得到D={d1;d2;…;dn};分層連接將文檔集中每篇文檔獨(dú)立地輸入模型D=[d1,d2,…,dn],得到的結(jié)果采用投票法進(jìn)行融合。本文提出的SGMG 模型采用多文檔同時(shí)輸入的方式。

2.5 結(jié)果分析

實(shí)驗(yàn)結(jié)果如表2 所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。

表2 文本摘要生成的ROUGE 值對(duì)比Table 2 Comparison of ROUGE value of text summarization generation %

由表1 可以看出:本文提出的SGMG 模型在面向招標(biāo)文本的半結(jié)構(gòu)化文本自動(dòng)生成任務(wù)上的效果要明顯優(yōu)于基線方法。具體分析為:在招標(biāo)文本數(shù)據(jù)集上,采用分層連接的基準(zhǔn)方法優(yōu)于采用平滑連接的基準(zhǔn)方法,TextRank、LexRank 以及PacSum 模型的ROUGE-1 指標(biāo)分別提升了1.9、1.0、5.2 個(gè)百分點(diǎn),實(shí)驗(yàn)結(jié)果表明分層連接能夠提高當(dāng)前任務(wù)下的文本生成效果;PacSum 模型相較于TextRank、LexRank 模型在ROUGE-1、ROUGE-2 及ROUGE-L 指標(biāo)上平均提升了約6.45、9.35、7.35 個(gè)百分點(diǎn);SGMG 模型相較于PacSum+HC 模型在ROUGE-1、ROUGE-2 及ROUGE-L 指標(biāo)上分別提升了3.3、5.2、4.3 個(gè)百分點(diǎn),原因?yàn)槿诤蠒r(shí)間特征及多樣性選擇能夠明顯改善文本生成效果;Seq2Seq+Attention+FC 相比于其他基線方法在ROUGE-2、ROUGE-L 指標(biāo)下取得了最低的分?jǐn)?shù),原因?yàn)樯墒轿谋菊蕾嚧笠?guī)模數(shù)據(jù),不適用于當(dāng)前的低資源場景;SGMG 模型相比于Seq2Seq+Attention+FC 方法,在ROUGE-1、ROUGE-2、ROUGE-L指標(biāo)上分別提升了12.4、17.2、14.7個(gè)百分點(diǎn)。

驗(yàn)證SGMG 主題抽取模塊的有效性,實(shí)驗(yàn)結(jié)果如表3 所示。由表3 可以看出,貨物類、服務(wù)類招標(biāo)文件主題抽取結(jié)果的精確率、召回率及F1 分?jǐn)?shù)整體在75%以上,貨物類招標(biāo)文件主題抽取結(jié)果的精確率最高達(dá)到82.3%,工程類招標(biāo)文件主題抽取結(jié)果的精確率、召回率及F1 分?jǐn)?shù)整體取得了73%以上的結(jié)果。實(shí)驗(yàn)結(jié)果驗(yàn)證了SGMG 模型主題抽取模塊的有效性。

表3 主題抽取模塊的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of subject extraction module %

3 結(jié)束語

針對(duì)現(xiàn)有文本摘要方法無法提取文本主題結(jié)構(gòu)、忽略時(shí)間特征對(duì)文本重要性的影響等問題,本文提出一種基于多頭圖注意力網(wǎng)絡(luò)的半結(jié)構(gòu)化文本自動(dòng)生成模型(SGMG)。利用異質(zhì)圖提取核心主題,通過多頭圖注意力網(wǎng)絡(luò)加強(qiáng)不同節(jié)點(diǎn)之間的交互,結(jié)合時(shí)間特征與語義相似度提取中心句確保生成文本的時(shí)效性,利用三元詞過濾法提升生成文本的多樣性。實(shí)驗(yàn)結(jié)果表明,在面向招標(biāo)文件的半結(jié)構(gòu)化文本自動(dòng)生成任務(wù)中,SGMG 模型的ROUGE-L 相比于TextRank、LexRank、PacSum、Seq2Seq+Attention等現(xiàn)有文本摘要方法提升了4.3 個(gè)百分點(diǎn)以上,主題提取的F1 分?jǐn)?shù)達(dá)到74.9%以上。下一步將融合主題抽取與中心語句選擇模塊,縮短鏈路生成時(shí)間,降低語義丟失風(fēng)險(xiǎn)。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产女人在线观看| 日韩精品一区二区三区swag| 欧美啪啪网| 999福利激情视频| 在线播放真实国产乱子伦| 欧美特黄一免在线观看| 一级片一区| 中文字幕 91| 波多野结衣亚洲一区| 一区二区午夜| 中文成人无码国产亚洲| 国产精品自在线拍国产电影| 亚洲成人精品久久| 精品一区二区三区水蜜桃| 乱系列中文字幕在线视频| 欧美精品亚洲精品日韩专区| 国产视频久久久久| 日韩 欧美 小说 综合网 另类 | 亚洲福利视频一区二区| 无码av免费不卡在线观看| 色九九视频| 国产成人a在线观看视频| 91美女视频在线| AV无码无在线观看免费| 91福利在线观看视频| 色一情一乱一伦一区二区三区小说| 亚洲天堂网在线视频| 久久国产V一级毛多内射| 成人福利在线观看| 超碰免费91| 日本欧美成人免费| 精品久久香蕉国产线看观看gif| 亚洲精品自拍区在线观看| 国产成人欧美| 中文字幕天无码久久精品视频免费| 亚洲成人精品在线| 色综合天天娱乐综合网| 亚洲 日韩 激情 无码 中出| 操操操综合网| 国内精品伊人久久久久7777人| 婷婷综合在线观看丁香| 狂欢视频在线观看不卡| 男人天堂亚洲天堂| 国产高清免费午夜在线视频| 无码国产伊人| 国产精品久久自在自2021| 91网在线| 永久免费精品视频| 亚洲无码视频喷水| 91成人在线免费观看| 国产网友愉拍精品| 亚洲青涩在线| 国产免费怡红院视频| 久久精品日日躁夜夜躁欧美| 精品国产免费观看一区| 怡红院美国分院一区二区| 国产综合欧美| 日韩免费成人| 国产成人1024精品下载| 日韩色图区| 亚洲成人黄色在线| 亚洲欧美自拍中文| 欧美一道本| 久操中文在线| 又爽又大又光又色的午夜视频| 在线精品视频成人网| 国产成人8x视频一区二区| 国产尤物jk自慰制服喷水| 99在线视频免费观看| 国产精品私拍在线爆乳| 亚洲国产午夜精华无码福利| 日本AⅤ精品一区二区三区日| 国产又黄又硬又粗| 无码'专区第一页| 久久一色本道亚洲| 中国黄色一级视频| 午夜国产大片免费观看| 欧美高清三区| 色综合热无码热国产| 天天色天天综合| 婷婷色一区二区三区| 亚洲精品在线观看91|