999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的生成式自動(dòng)摘要技術(shù)

2021-01-22 13:40:46陳天池洪沛楊國鋒
關(guān)鍵詞:語義文本實(shí)驗(yàn)

陳天池 洪沛 楊國鋒

(中國電信安徽分公司,安徽合肥 230001)

0 引言

互聯(lián)網(wǎng)技術(shù)的高速發(fā)展帶來信息快速增長(zhǎng)的問題,人們?cè)谔幚砗烷喿x文本信息中花費(fèi)大量時(shí)間和精力,精簡(jiǎn)濃縮文本信息的技術(shù)顯得尤為迫切。自動(dòng)摘要技術(shù)是一種能夠從文檔中獲取重要信息的方法,它能緩解信息爆炸時(shí)代給人們帶來的時(shí)間精力問題。

自動(dòng)摘要技術(shù)按照組成摘要的句子進(jìn)行區(qū)分,可以分為抽取式自動(dòng)摘要和生成式自動(dòng)摘要。抽取式摘要通過考慮原文中句子的位置、詞頻、關(guān)鍵詞[1]等評(píng)估句子重要度,從原文中提取重要度高的句子組成摘要。此外,陸續(xù)有研究將外部知識(shí)引入自動(dòng)摘要任務(wù)中,如TF-IDF、Text Rank[2]等,這些算法可以挖掘語料中隱含的知識(shí)將其融入句子重要度評(píng)估函數(shù)中,提高自動(dòng)摘要效果。抽取式方法雖然能輸出語義完整的句子,但由于語言的復(fù)雜性和靈活性缺乏對(duì)語義的分析,其核心問題在于如何選取更合適的句子來表達(dá)文章的中心思想。深度學(xué)習(xí)技術(shù)的出現(xiàn)推動(dòng)了生成式自動(dòng)摘要技術(shù)的發(fā)展,生成式方法使用了一系列自然語言處理技術(shù)對(duì)原文內(nèi)容進(jìn)行總結(jié),生成更加符合人類摘要思維的句子。當(dāng)前主流的生成式摘要技術(shù)是基于Seq2Seq框架進(jìn)行的[3-4],通過對(duì)輸入的原文檔加以理解將輸入序列表示成向量形式,然后經(jīng)解碼器解碼得到生成的目標(biāo)文本,即摘要。與抽取式摘要相比,生成式的方法能夠從語義層面對(duì)文本進(jìn)行分析,生成更加簡(jiǎn)潔、靈活、多樣的摘要。

根據(jù)任務(wù)需求,本文將從語義分析角度出發(fā),基于Seq2Seq框架進(jìn)行文本語義信息解析,聯(lián)合注意力機(jī)制將文本中的關(guān)鍵信息與語義信息結(jié)合起來實(shí)現(xiàn)對(duì)摘要的引導(dǎo)生成。

1 生成式摘要算法模型

1.1 Seq2Seq框架

Seq2Seq框架[5]是Google在2014年一篇機(jī)器翻譯的文章上提出來的,將深度學(xué)習(xí)模型用于語言生成,推動(dòng)了自然語言生成領(lǐng)域的發(fā)展。Seq2Seq是一個(gè)Encoder-Decoder結(jié)構(gòu)的網(wǎng)絡(luò),其輸入是一個(gè)序列,輸出也是一個(gè)序列。其中Encoder的任務(wù)是將輸入序列編碼表示成一個(gè)帶有語義信息的中間向量,Decoder則將Encoder產(chǎn)生的中間語義向量作為輸入解碼為目標(biāo)輸出序列。

圖1 Seq2Seq框架

其內(nèi)部工作流程如圖1所示,X代表給定的原始文本輸入,Y代表生成的摘要,分別由各自的單詞序列組成:X=,Y=,m

1.2 注意力機(jī)制(Attention)

Seq2Seq的Encoder-Decoder結(jié)構(gòu)雖然非常經(jīng)典,但具有一定的局限性。其最大的局限性就在于編碼器要將整個(gè)序列的信息壓縮進(jìn)一個(gè)固定長(zhǎng)度的向量C中去。當(dāng)輸入序列過長(zhǎng)時(shí),一個(gè)向量C可能會(huì)丟失早期攜帶的信息,無法完全表示整個(gè)序列的信息。這就使得在解碼的時(shí)候無法獲得輸入序列足夠的信息,那么解碼的準(zhǔn)確率就會(huì)下降。

圖2 Attention機(jī)制

Attention機(jī)制[6]就是為了解決上述問題而提出的。相較于Encoder-Decoder框架,Attention最大的區(qū)別就在于它不要求編碼器將所有輸入信息都?jí)嚎s到一個(gè)固定的向量序列C,而是根據(jù)當(dāng)前要輸出的y進(jìn)行動(dòng)態(tài)調(diào)整,給不同部分賦予不同的權(quán)重,從而有針對(duì)性的對(duì)輸入的全部信息進(jìn)行有效利用,如圖2所示。

1.3 算法流程

基于上節(jié)介紹的相關(guān)技術(shù),本文采用的Seq2Seq+Attention生成式自動(dòng)摘要算法的結(jié)構(gòu)如圖3具體操作流程如下:

1.3.1 詞典構(gòu)建

考慮到分詞工具容易對(duì)文本分詞產(chǎn)生錯(cuò)分(尤其是未登錄詞),本文選擇直接采用字作為基本輸入進(jìn)行摘要抽取。對(duì)語料中所有字進(jìn)行頻率統(tǒng)計(jì),過濾掉頻率過低的字,結(jié)果作為詞典保存。

1.3.2 Embedding

以字為基本單位,對(duì)輸入信息進(jìn)行padding后做Embedding處理,將每個(gè)字轉(zhuǎn)換為固定長(zhǎng)度m的向量,輸入文本即可表示為m×n的矩陣。此處encoder和decoder共享Embedding層的參數(shù),降低模型參數(shù)量。

1.3.3 Encoder

把Embedding后的向量輸入encoder將其編碼為中間語義向量,其中Encoder采用雙層雙向LSTM,它可以更好的捕捉雙向的語義依賴。

1.3.4 Attention + Decoder

由于decoder在執(zhí)行每一步時(shí)無法提前使用后面步的輸入,因此Decoder采用雙層單向LSTM結(jié)構(gòu)。Attention機(jī)制應(yīng)用在encoder的hidden states上得到context,context一方面作為輸入與目標(biāo)字串聯(lián)作為Decoder端LSTM的輸入,循環(huán)得到hidden states;另一方面可以和Decoder的hidden states連接進(jìn)行softmax計(jì)算輸出概率。

圖3 Seq2Seq + Attention

表1 實(shí)驗(yàn)結(jié)果

表2 摘要示例

2 實(shí)驗(yàn)結(jié)果及分析

2.1 數(shù)據(jù)集

自動(dòng)文本摘要發(fā)展緩慢的原因之一是業(yè)界缺乏大規(guī)模且高質(zhì)量的數(shù)據(jù)集,數(shù)據(jù)集的好壞直接決定了最后摘要生成的質(zhì)量的好壞,本文使用的數(shù)據(jù)集為清華大學(xué)開源的THUCNews[7],該數(shù)據(jù)集包含74萬篇新聞文檔,共14個(gè)類,每條包含新聞標(biāo)題和對(duì)應(yīng)的新聞內(nèi)容,本文將新聞標(biāo)題作為摘要輸入模型進(jìn)行訓(xùn)練。

2.2 實(shí)驗(yàn)結(jié)果與討論

摘要結(jié)果評(píng)價(jià)采用了Rouge評(píng)價(jià)體系[8],它是目前公認(rèn)的摘要評(píng)價(jià)標(biāo)準(zhǔn)。Rouge評(píng)價(jià)的思路是分析比較候選摘要集與專家摘要集的相似程度來評(píng)價(jià)摘要質(zhì)量。本文采用Rouge-1,Rouge-2和Rouge-L三種方式分別從字相似度、詞相似度和句子流暢度三個(gè)方面對(duì)模型生成的摘要質(zhì)量進(jìn)行測(cè)試評(píng)價(jià)。

本文進(jìn)行了兩組實(shí)驗(yàn),實(shí)驗(yàn)1采用抽取式方法Text Teaser,實(shí)驗(yàn)2采用生成式方法Seq2Seq+Attention,實(shí)驗(yàn)結(jié)果如表1所示。

表2給出了測(cè)試結(jié)果的示例,每個(gè)例子包含原文本、與之對(duì)應(yīng)的專家摘要、Text Teaser抽取的摘要和Seq2Seq+Attention生成的摘要。通過實(shí)驗(yàn)結(jié)果對(duì)比可以看出,Text Teaser抽取出的摘要偏長(zhǎng),且沒有突出文章主題“《我是唱作人》”,而本文設(shè)計(jì)的生成摘要模型能夠準(zhǔn)確識(shí)別出主題關(guān)鍵詞“《我是唱作人》”,同時(shí)引申聯(lián)想到了原文中沒有的“云集”一詞對(duì)文中列舉的明星進(jìn)行概括表達(dá)。對(duì)比實(shí)驗(yàn)結(jié)果可知,抽取式摘要雖然能夠獲得一個(gè)完整通順的句子,但往往難以全面概括文章主題,生成式摘要?jiǎng)t能夠?qū)⑽闹性溥M(jìn)行縮寫、轉(zhuǎn)述等,生成更凝練的摘要,更加符合人的理解。

3 結(jié)語

從上述實(shí)驗(yàn)分析結(jié)果來看,本文采用的Seq2Seq+Attention方法能夠在一定程度具有表征、理解、生成文本摘要的能力,滿足提取關(guān)鍵信息的要求。但從實(shí)驗(yàn)結(jié)果來看該方法也存在許多不足,模型在對(duì)人/地名等命名實(shí)體、未登錄詞、重復(fù)詞進(jìn)行處理時(shí),無法準(zhǔn)確識(shí)別這些信息,最終導(dǎo)致摘要生成結(jié)果表述不準(zhǔn)確。因此,在后續(xù)的研究中我們將針對(duì)這一問題作進(jìn)一步研究,為準(zhǔn)確提供用戶AI話術(shù)提供更有力的支撐。

猜你喜歡
語義文本實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
語言與語義
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲人成在线免费观看| 婷婷成人综合| 亚洲天堂成人在线观看| 日韩精品免费在线视频| 国产精品对白刺激| 多人乱p欧美在线观看| yjizz国产在线视频网| 亚洲综合精品香蕉久久网| 国产欧美视频在线观看| 成人夜夜嗨| 69视频国产| 亚洲av无码久久无遮挡| 欧美中日韩在线| 国产精品久久久久久影院| 国产高清在线精品一区二区三区| 国产午夜一级毛片| 人人91人人澡人人妻人人爽| 亚洲成av人无码综合在线观看| 老司国产精品视频91| 人妻中文久热无码丝袜| 波多野结衣国产精品| 97精品国产高清久久久久蜜芽| 国产精品 欧美激情 在线播放| 18黑白丝水手服自慰喷水网站| 99精品视频九九精品| 国产幂在线无码精品| 在线免费看黄的网站| 色悠久久久久久久综合网伊人| 亚洲 成人国产| 国产精品主播| 999国内精品久久免费视频| 亚洲性日韩精品一区二区| 国产日韩丝袜一二三区| 九九免费观看全部免费视频| 在线视频亚洲欧美| 在线另类稀缺国产呦| 激情综合图区| 中文字幕久久波多野结衣| 日本AⅤ精品一区二区三区日| 91年精品国产福利线观看久久| 国产午夜一级毛片| 一级全黄毛片| 极品性荡少妇一区二区色欲| 国产午夜人做人免费视频中文| 婷婷五月在线视频| 精品一区二区三区视频免费观看| 亚洲国产成人自拍| 久久国产亚洲欧美日韩精品| 欧亚日韩Av| 国产精品尹人在线观看| 免费人成视频在线观看网站| 国产在线小视频| 福利在线不卡| 国产精品成人AⅤ在线一二三四| 国产欧美专区在线观看| 国产自在自线午夜精品视频| 不卡视频国产| 国产精品网曝门免费视频| 九色综合视频网| 精品夜恋影院亚洲欧洲| 亚洲综合极品香蕉久久网| 久久综合伊人77777| 农村乱人伦一区二区| 热九九精品| 久久夜色撩人精品国产| 三上悠亚一区二区| 丰满的少妇人妻无码区| 久青草免费视频| 亚洲欧美成人在线视频| 国产精品不卡片视频免费观看| 在线观看欧美精品二区| 国产网站一区二区三区| 91在线激情在线观看| 欧美日韩一区二区三区在线视频| 国产麻豆精品在线观看| 中文字幕调教一区二区视频| 午夜激情婷婷| jizz亚洲高清在线观看| 国产呦视频免费视频在线观看| 2020极品精品国产| jizz亚洲高清在线观看| 国产00高中生在线播放|