999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NN-Attention的中文短文本摘要①

2020-07-25 01:47:00何正方
計算機系統(tǒng)應(yīng)用 2020年7期
關(guān)鍵詞:重置文本模型

何正方,梁 宇

(云南大學(xué)軟件學(xué)院,昆明 650500)

隨著Internet的飛速發(fā)展,人們越來越多地依賴于萬維網(wǎng)來獲取所需要的信息.如何更加有效地瀏覽和查閱萬維網(wǎng)上的海量信息成了當(dāng)前的研究熱點[1].自動文本摘要技術(shù)對給定源文本內(nèi)容進行壓縮、提煉與總結(jié),并產(chǎn)生簡潔、流暢且保留關(guān)鍵信息的文本來概括用戶所關(guān)注的主要內(nèi)容.根據(jù)摘要內(nèi)容的來源可以分為抽取式摘要和生成式摘要兩類.其中,抽取式摘要生成的摘要內(nèi)容是按一定規(guī)則從原文本中抽取出來的詞、短語或句子組成的.生成式摘要產(chǎn)生的摘要文本則是通過理解文本內(nèi)容,用簡練的文字將原文本的內(nèi)容表達出來[2].由于生成式摘要與人類做摘要的過程相似,所以生成式摘要方法在文本摘要模型中得到了廣泛使用.

隨著人工智能技術(shù)快速發(fā)展,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)已廣泛應(yīng)用于自然語言處理任務(wù),比如機器翻譯、情感分析、語音識別、文本摘要等.其中,以序列到序列(Sequence2Sequence)[3]神經(jīng)網(wǎng)絡(luò)模型為代表,其結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]和注意力機制(attention)[5],該模型能夠決定需要關(guān)注輸入的是哪部分,分配有限的信息處理資源給重要的部分,比傳統(tǒng)的自然語言處理方法效果好很多.但是以往設(shè)計的注意力機制(BahdanauAttention[5],LuongAttention[6]),不足以將長句的高維特征提取,會造成導(dǎo)致生成摘要存在句子不通順、詞語重復(fù)、可讀性差等問題.這個問題限制了模型的性能,尤其是當(dāng)輸入序列比較長時,模型的性能會變得很差,這個問題在長句的翻譯中較為明顯.

針對上述問題,本文重新設(shè)計了注意力機制,以提取長句的特征.提出了NN-Attention,其中的NN是全連接神經(jīng)網(wǎng)絡(luò)(Fully-connected Neural Network,FNN)[7].通過實驗,該模型生成的摘要在正確性和可讀性上都較以往的注意力模型有所改善.

1 GRU

RNN是神經(jīng)網(wǎng)絡(luò)的一種,它的輸入不僅包括當(dāng)前時刻的輸入還包含了前一時刻的輸出.基本的RNN通過反向傳播進行矩陣冪運算,很容梯度消失或者梯度爆炸.LSTM[8]的提出有效地解決了這個問題,LSTM通過引入3個門控單元,通過“門”結(jié)構(gòu)來保留重要的內(nèi)容和去除次要的內(nèi)容.但是由于本文引入了CNN,參數(shù)成幾何級增長.若使用LSTM,整個模型的參數(shù)量將非常龐大,訓(xùn)練會變得十分困難.為了解決LSTM參數(shù)過多,訓(xùn)練時間過長,本文采用GRU[9]神經(jīng)元.GRU是LSTM的一種變種,它將遺忘門和輸入門合并為一個更新門,其作用在于每個隱藏層減少了兩個矩陣乘法運算,模型的參數(shù)得到減少,從而減少了訓(xùn)練時間,并且容易實現(xiàn),其示意圖如圖1所示.

圖1 GRU 示意圖

更新門z決定隱藏狀態(tài)的更新是否基于一個新的隱藏狀態(tài),重置門r狀態(tài)決定之前的隱藏狀態(tài)是否被忽略.

讓我們來描述j-th 隱藏單元的激活是如何計算的,首先,按照式(1)計算重置門rj.

式(1)中,σ是Sigmoid激活函數(shù),[·]j是j-th的向量表示.x和ht-1分別表示輸入和前一個隱藏狀態(tài),Wr和Ur是已經(jīng)學(xué)習(xí)到的權(quán)重矩陣.

類似的,按照式(2)計算更新門zj.

激活隱藏單元hj的實際計算公式如式(3)所示.

其中,

在式(3)中,當(dāng)重置門接近0時,隱藏狀態(tài)僅重置當(dāng)前的輸入并強制移除之前的狀態(tài),這能有效地阻止無關(guān)的信息.另一方面,更新門控制多少之前的隱藏狀態(tài)信息繼續(xù)留存到當(dāng)前的隱藏狀態(tài),這和LSTM網(wǎng)絡(luò)中的記憶細胞很像,并幫助RNN 記憶長期的信息[10].每一個隱藏單元都有獨立的重置門和更新門,并學(xué)習(xí)到長時記憶和短時記憶.隱藏單元因重置門被頻繁的激活而學(xué)習(xí)到短時記憶,因更新門被頻繁激活而學(xué)習(xí)到長時記憶,所以GRU 很適合作為文本摘要模型的神經(jīng)元.

2 Attention 機制

Sequence2Sequence模型對輸入序列X缺乏區(qū)分度,因此引入了Attention Mechanism來解決這個問題,總體模型結(jié)構(gòu)如圖2所示.

在以往的Attention模型中,只采用了Bidirectional-RNN[11],BRNN 對上下文信息是有效的,但是無法提取文本的高維特征,所以本文引入了CNN[12],CNN的詳細設(shè)計見本文的第3節(jié),將CNN的輸出按照式(4)的方式拼接起來.

在該模型中,按照式(5)定義了一個條件概率.

其中,si是Decoder 中RNN在i時刻的隱狀態(tài),如圖2所示,其計算公式如式(6)所示.

圖2 Attention Mechanism模型

這里的語義向量ci的計算方式,與傳統(tǒng)的Sequence2-Sequence模型直接累加的計算方式不一樣,這里的ci是一個權(quán)重化(weighted)之后的值,其表達式如式(7)所示.

其中,i表示Encoder端的第i個詞,hj表示Encoder端的第j個詞的隱向量,αij表示Encoder端的第j個詞與Decoder端的第i個詞之間的權(quán)值,表示源端第j個詞對目標端第i個詞的影響程度,αij的計算公式如式(8)所示.

其中,

在式(8)中,αij是一個Softmax模型輸出,概率值的和為1.eij表示一個對齊模型,用于衡量Encoder端的位置j的詞,對于Decoder端的位置i的詞的對齊程度(影響程度),換句話說:Decoder端生成位置i的詞時,有多少程度受Encoder端的位置j的詞影響.以往的對齊模型eij的計算方式如式(9)所示[6].為了方便討論,對齊模型的表示如圖2中的Match 框所示.

但是本文在隱藏層增加了CNN的輸出,以往的對齊模型已不完全適用,所以本文應(yīng)用神經(jīng)網(wǎng)絡(luò)重新設(shè)計了對齊模型.

3 CNN

本文將卷積神經(jīng)網(wǎng)絡(luò)CNN應(yīng)用到中文文本摘要任務(wù),圖2中的CNN的詳細設(shè)計如圖3所示.

圖3 CNN模型

CNN 利用3個不同Size的Kernel 來提取句子中的關(guān)鍵信息(類似于多窗口大小的N-Gram)[13],從而能夠更好地捕捉局部相關(guān)性.

TextCNN模型最大的缺陷是全局的Max Pooling無法提取文本的結(jié)構(gòu)信息,所以文本中的轉(zhuǎn)折、遞進等復(fù)雜的語義關(guān)系無法被TextCNN 發(fā)現(xiàn).TextCNN 只能知道文本的關(guān)鍵詞是否出現(xiàn)了,而無法獲知關(guān)鍵詞出現(xiàn)的順序和出現(xiàn)的次數(shù).針對這個問題,本文采用k-Max Pooling[14]做一些優(yōu)化,k-Max Pooling 針對每個卷積核都不只保留最大的值,而是保留前k個最大值,并且保留這些值出現(xiàn)的順序,也即按照文本中的位置順序來排列這k個最大值,其在比較復(fù)雜的文本上相對于Max Pooling 會有所提升.k的取值見表1.

表1 不同參數(shù)的TextCNN

同時為了更多的提取文本的高維特征,本文增加了Filter的數(shù)量,具體參數(shù)見表1.本文為了找到最佳的Filter-Size參數(shù),按照表1設(shè)計了兩種Size的Kernel來訓(xùn)練模型.此外,為了減少CNN的參數(shù),本文對1到T時刻的CNN 采用參數(shù)共享的方法來訓(xùn)練模型.

為了驗證上述的改進對模型精度的影響,本文按照表1,分別使用CNN-1和CNN-2的參數(shù)訓(xùn)練模型,并分析生成摘要的質(zhì)量.

4 NN-Attention

將圖2中的Match 框抽象提取出來,如圖4所示.其中h為Encoder的隱藏狀態(tài),s為Decoder的隱藏狀態(tài),α為輸出的數(shù)值.

圖4 Match 示意圖

因為本文的引入了CNN,所以傳統(tǒng)的對齊模型已不再適用.為了提取長句的高維特征,本文采用神經(jīng)網(wǎng)絡(luò)對Match進行了重新設(shè)計,具體是全連接神經(jīng)網(wǎng)絡(luò),如圖5所示.

圖5 全連接神經(jīng)網(wǎng)絡(luò)示意圖

該結(jié)構(gòu)對xn?1層和xn層而言,xn?1層的每一個節(jié)點都和第xn層所有節(jié)點有連接.即第xn層的每個節(jié)點在進行計算的時候,激活函數(shù)的輸入是xn?1層所有節(jié)點的加權(quán).由于引入了CNN,所以神經(jīng)網(wǎng)絡(luò)要按照式(10)輸入.

其中,

為了保證α為一個數(shù)值,本文的NN-Attention 最后一層的激活函數(shù)使用Sigmoid函數(shù)[15].為了找到最佳的對齊網(wǎng)絡(luò),本文設(shè)計了兩層模型,并用不同的參數(shù)訓(xùn)練模型,具體參數(shù)如表2所示.

表2 不同NN-Attention的參數(shù)

5 實驗

5.1 數(shù)據(jù)集

本文數(shù)據(jù)集采用的是CSTSD數(shù)據(jù)集[16],數(shù)據(jù)來源于新浪微博主流媒體(頭條新聞、環(huán)球網(wǎng)、人民網(wǎng)等)發(fā)布的微博約68萬數(shù)據(jù),本文按照8:1:1的比例切分訓(xùn)練集、驗證集、測試集.

5.2 數(shù)據(jù)預(yù)處理

(1)去掉無效字符,如表情、日期、鏈接、數(shù)字等.

(2)長度限制,正文的長度規(guī)定為25到250字,摘要長度規(guī)定為8到35字.

(3)相似度過濾,當(dāng)正文和摘要有6個相同的字時,本文認為該數(shù)據(jù)符合條件.

5.3 訓(xùn)練

本文引入詞嵌入解決矩陣稀疏性問題,將輸入文本映射為300維的向量.首先根據(jù)詞頻統(tǒng)計選取出現(xiàn)頻率最高的詞匯為ENCODER和DECODER 各定義一個詞匯表,在本文中設(shè)置為60 000,沒在詞匯表中的詞都轉(zhuǎn)換成一個“Unknown”字符,然后在訓(xùn)練期間學(xué)習(xí)詞嵌入的權(quán)重.

將新聞和摘要同時輸入到Sequence2Sequence模型中,其中新聞對應(yīng)Encoder,摘要對應(yīng)Decoder.整個輸入編碼和解碼的過程中,按照式(13)使用梯度優(yōu)化算法以及最大似然條件概率為損失函數(shù)去進行模型的訓(xùn)練和優(yōu)化.

其中,θ為模型的參數(shù),N為訓(xùn)練集的樣本個數(shù),(yn,xn)是相應(yīng)的輸出和輸入的序列[3].

本文使用TensorFlow[17]構(gòu)建模型,模型的主要參數(shù)見表3.

表3 模型的主要參數(shù)

5.4 推理——如何生成摘要

當(dāng)模型訓(xùn)練完成后,可以得到之前模型沒見過的源文章的摘要,這個過程稱為推理.在推理時,我們只能訪問源句子,執(zhí)行解碼有很多種方法.本文采用Beam Search (束搜索)[18]解碼,Beam Search在做摘要時總是將一小部分頂級候選詞留在周圍,從而在搜索空間更好地探索所有可能的詞匯.Beam的大小稱為寬度,在本文中設(shè)置為12.同時本文對生成的摘要的質(zhì)量采用ROUGE[19]評估中的ROUGE-1,ROUGE-2和ROUGE-L的F1值進行評估.

5.5 采用不同的TextCNN參數(shù)和不同的FNN參數(shù)來訓(xùn)練模型

采用如表1所示的改進前后兩種不同的TextCNN參數(shù)來訓(xùn)練網(wǎng)絡(luò),模型訓(xùn)練的Loss 如圖6所示.

從圖6可以看出,CNN-2的Loss剛開始下降沒有CNN-1快,但是最終的Loss比CNN-1要小.訓(xùn)練之后用應(yīng)用Beam Search對測試集的文本進行推理,并計算ROUGE 得分,本文以Sequence2Sequence與Attention的模型作為基線模型,計算后的得分如表4所示.

圖6 改進前后的TextCNN的Loss 曲線

表4 CNN不同Size的參數(shù)的ROUGE F1 得分

從表4可以看出,對文本摘要的問題,在模型引入CNN 后,模型的性能有了提升.模型雖然有了提升,但是引入CNN 后,模型的參數(shù)增加很多,傳統(tǒng)的基于矩陣變換的注意力機制已經(jīng)不能很好地表征這個模型,所以本文引入了NN-Attention,按照表2的參數(shù)來訓(xùn)練模型,并使用CNN-2的模型來訓(xùn)練,訓(xùn)練的Loss 如圖7所示.

圖7 多種NN-Attention參數(shù)的Loss 曲線

訓(xùn)練之后運用Beam Search 對測試集的文本進行推理,并計算ROUGE 得分,這里以CNN-2的模型作為基線模型,計算后的得分如表5所示.

表5 不同NN-Attention的參數(shù)的ROUGE F1 得分

從表5可以看出,對文本摘要的問題,在模型引入NN-Attention 后,模型的性能有了較大的提升.雖然NN-Attention-3模型的損失最小,但是NN-Attention-2模型取得了最好的成績.說明NN-Attention-2模型最適合作為本文提出的NN-Attention模型的網(wǎng)絡(luò),NNAttention-3模型存在過擬合問題.

5.6 案例分析

從測試集前10條中隨機取4條,給出測試結(jié)果如表6.

表6 測試結(jié)果示例

6 結(jié)論

本文首先對現(xiàn)有Attention 機制對文本摘要問題研究的缺點做了分析,在以往的Attention模型中,只采用了Bidirectional-RNN,BRNN 對上下文信息是有效的,但是無法提取文本的高維特征,所以本文引入了CNN.因為本文的引入了CNN,所以傳統(tǒng)的對齊模型已不再適用,本文將Attention模型改進,提出了NN-Attention以解決這個問題.之后詳細描述了GRU、Attention 機制、CNN、NN-Attention,為了尋找最佳的參數(shù),本文使用多種參數(shù)對模型進行訓(xùn)練,通過計算ROUGE 得分,給出了最佳模型.最后給出了測試結(jié)果,從測試結(jié)果可以看出,生成的摘要比之前的模型有所進步,但是就準確性與可讀性而言,生成的摘要還有待提高,生成式摘要的算法是一個持續(xù)性的研究課題.

猜你喜歡
重置文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
系統(tǒng)重置中途出錯的解決辦法
在808DA上文本顯示的改善
重置人生 ①
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
2018年山西省對口升學(xué)考試考生重置密碼申請表
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲一区二区三区国产精华液| 国产剧情伊人| 久草视频精品| 色综合五月婷婷| 免费又黄又爽又猛大片午夜| 欧美三级视频网站| 国产欧美日韩va| 欧美日韩国产精品va| 欧美日韩激情在线| 亚洲区欧美区| 亚洲αv毛片| 日韩精品无码免费一区二区三区| 国产成人a在线观看视频| 少妇被粗大的猛烈进出免费视频| 在线观看国产网址你懂的| 四虎在线观看视频高清无码| 久久熟女AV| 72种姿势欧美久久久大黄蕉| 啦啦啦网站在线观看a毛片| 91亚洲精选| 亚洲最大在线观看| 久久久久中文字幕精品视频| 超碰免费91| 午夜不卡福利| 久久成人国产精品免费软件| 精品福利网| 亚洲Av综合日韩精品久久久| 久久77777| 亚洲天堂网在线观看视频| 污网站在线观看视频| 91成人免费观看| 国产成人综合亚洲欧美在| 澳门av无码| 国产成人精品一区二区秒拍1o| 国产成人欧美| 97无码免费人妻超级碰碰碰| 亚洲国语自产一区第二页| 538国产在线| 国产极品嫩模在线观看91| 91成人在线免费观看| 久久a级片| 国产精品原创不卡在线| 又粗又大又爽又紧免费视频| 三上悠亚精品二区在线观看| 国产无码高清视频不卡| 国产一级毛片网站| 免费看av在线网站网址| 91精品人妻一区二区| 久久这里只有精品2| 久久网欧美| 国产永久免费视频m3u8| 人人妻人人澡人人爽欧美一区 | 国产拍揄自揄精品视频网站| 高潮毛片免费观看| 999国产精品永久免费视频精品久久 | 人妻免费无码不卡视频| 五月天久久婷婷| 久久成人国产精品免费软件| 午夜天堂视频| 国产成人精品视频一区视频二区| 日韩精品成人在线| 一级毛片网| 国产精品第一区在线观看| 精品久久人人爽人人玩人人妻| 色爽网免费视频| 日本欧美中文字幕精品亚洲| 伊人久久精品无码麻豆精品| 伊人久久大香线蕉影院| 91极品美女高潮叫床在线观看| 乱人伦99久久| 99无码熟妇丰满人妻啪啪| 日韩在线成年视频人网站观看| 91啦中文字幕| 亚洲一级毛片免费看| 国产麻豆精品在线观看| 伊人激情综合网| 中文一区二区视频| www.狠狠| 中文字幕调教一区二区视频| 中文字幕亚洲精品2页| 国产精品妖精视频| 2021天堂在线亚洲精品专区|