999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本類別的文本自動(dòng)摘要模型

2018-02-02 13:12:19謝鳴元
電腦知識(shí)與技術(shù) 2018年1期

謝鳴元

摘要:目前大部分基于序列到序列生成模型的生成式摘要研究未充分考慮文本類別對(duì)于最終摘要結(jié)果的影響。然而往往同一類別的文本的摘要具有類似的格式與措辭。因此該文提出基于文本類別的文本自動(dòng)摘要模型,先利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類,然后在傳統(tǒng)的序列到序列模型的基礎(chǔ)上結(jié)合文本的類別特征進(jìn)行摘要生成。實(shí)驗(yàn)結(jié)果表明,基于文本類別的文本自動(dòng)摘要模型相對(duì)于傳統(tǒng)的文本自動(dòng)摘要模型取得了更好的ROUGE值。

關(guān)鍵詞: seq2seq;神經(jīng)網(wǎng)絡(luò);文本自動(dòng)摘要;文本分類

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)01-0206-03

1 概述

隨著大數(shù)據(jù)時(shí)代的來(lái)臨,如何對(duì)大量信息進(jìn)行壓縮表示,解決信息過(guò)載問(wèn)題已成為一個(gè)迫在眉睫的需求,而文本自動(dòng)摘要無(wú)疑是一個(gè)高效的解決方法。文本自動(dòng)摘要旨在捕獲原文的中心思想,生成覆蓋原文重要信息但又盡可能簡(jiǎn)短的自然語(yǔ)言表示。大部分的文本自動(dòng)摘要研究可以歸為抽取式和生成式兩類。其中抽取式為簡(jiǎn)單的從原文中抽取部分句子組合形成新的摘要;而生成式則是用自然語(yǔ)言加以概括精煉,相對(duì)來(lái)講質(zhì)量更高但研究難度也相對(duì)較大。如今絕大部分生成式摘要的研究基于序列到序列模型[1](sequence to sequence,以下簡(jiǎn)稱seq2seq),并已經(jīng)取得了一定的效果。例如:Loptrev.K[2]等人在傳統(tǒng)的傳統(tǒng)的seq2seq模型上引入不同的注意力機(jī)制已改善效果;Alexander[3]等人使用卷積神經(jīng)網(wǎng)絡(luò)替換編碼器部分常規(guī)的循環(huán)神經(jīng)網(wǎng)絡(luò)。JiaoTao.Gu[4]用拷貝機(jī)制解決文本摘要問(wèn)題中出現(xiàn)的未登錄詞現(xiàn)象。但是以上的研究均存在著一些不足,其中一點(diǎn)就是未充分利用文本本身的類別信息。例如對(duì)于新聞文本,大部分具有明確的類別標(biāo)簽,例如體育新聞、軍事新聞或者財(cái)經(jīng)新聞。同一類的新聞通常具有類似的新聞格式和措辭。例如體育類新聞的摘要通常是“某某隊(duì)以幾比幾的比分戰(zhàn)勝了某某隊(duì)”,事故類新聞通常包含事件的時(shí)間、地點(diǎn)、原因等。因此在本文中,我們提出了類別相關(guān)的文本摘要模型(Topic Senstive Seq2seq,簡(jiǎn)稱TS-seq2seq)。首先我們利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入的文本進(jìn)行分類,得到文本的類別;然后在編碼器端利用文本類別進(jìn)行編碼,最終生成文本類別相關(guān)的摘要。本文選用大規(guī)模中文文本摘要數(shù)據(jù)集LCSTS[5] 作為實(shí)驗(yàn)語(yǔ)料,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)我們的模型較之傳統(tǒng)的文本自動(dòng)摘要模型取得了更好的ROUGE值。證明了方案的可行性。

2 背景

2.1 長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)

長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)[6](Long Short Term Memory,以下簡(jiǎn)稱LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種特殊類型,可以很方便地學(xué)習(xí)長(zhǎng)距離依賴信息。其神經(jīng)單元由一個(gè)輸入門、一個(gè)記憶門以及一個(gè)輸出門所構(gòu)成,我們分別使用,,表示時(shí)間步時(shí)三個(gè)門的輸出向量。另外使用和分別表示神經(jīng)單元的輸入和輸出,向量的維度設(shè)置為。那么的計(jì)算公式如下:

2.2 編碼器-解碼器模型

Sutskever等人在2014年提出seq2seq模型,即編碼器-解碼器(Encoder-Decoder)模型。用以解決對(duì)話生成,文本摘要,機(jī)器翻譯等序列到序列生成問(wèn)題。

seq2seq模型使用兩個(gè)神經(jīng)網(wǎng)絡(luò),通常是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來(lái)分別構(gòu)建編碼器與解碼器。給定輸入序列,在編碼器部分逐個(gè)讀入詞語(yǔ),經(jīng)過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),最終轉(zhuǎn)化成固定長(zhǎng)度的中間語(yǔ)義向量;解碼器部分在中間語(yǔ)義向量的基礎(chǔ)上進(jìn)行解碼并生成目標(biāo)序列。其中編碼器生成第t個(gè)詞的生成概率如下:

其中為softmax激活函數(shù),為t時(shí)刻編碼器的隱藏層狀態(tài),計(jì)算公式如下:

2.3 注意力機(jī)制

Bahdanau[7]在2014年提出了注意力機(jī)制,使得解碼器在t時(shí)刻,能動(dòng)態(tài)并線性的組合輸入序列中的不同部分來(lái)構(gòu)建中間語(yǔ)義向量:,其中表達(dá)了b編碼器在第階段的和解碼器第階段的相關(guān)性。計(jì)算公式為:

確切說(shuō),我們首先將輸入詞語(yǔ)的最后隱藏層狀態(tài)通過(guò)單層MLP獲得,然后通過(guò)softmax函數(shù),得到歸一化的注意力權(quán)重。因此式(6),式(7)變?yōu)椋?/p>

3 基于文本類別的文本自動(dòng)摘要模型

文本類別相關(guān)的文本自動(dòng)摘要模型分為兩部分:文本分類模型與文本摘要模型。給定文本,假設(shè)表示全部可能的類別集合。在文本分類模型中,通過(guò)基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型得到輸入文本的分類。然后在文本摘要模型中,基于類別生成與文本類別相關(guān)的摘要。

3.1 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型

目前,使用基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)的文本分類模型已經(jīng)取得了較好的效果[8]。本文同樣在此基礎(chǔ)上,使用CNN構(gòu)建簡(jiǎn)易的文本分類模型。

具體來(lái)說(shuō),我們使用表示對(duì)于句子中第個(gè)詞的維向量表示,表示第個(gè)詞到第個(gè)詞的詞向量集合,使用卷積窗口矩陣(為卷積核個(gè)數(shù),為卷積窗口大小)進(jìn)行卷積操作后得到在該卷積窗口下的特征向量。具體計(jì)算公式如下:

然后使用最大池化得到每句句子的特征向量表示,希望捕獲句子中的關(guān)鍵位置信息:

文本由句子構(gòu)成,我們?cè)诘玫骄渥犹卣飨蛄康幕A(chǔ)上,進(jìn)行均值池化,得到文本的特征向量表示:

最后通過(guò)softmax分類器得到最終的文本類別。

3.2 基于文本類別的文本自動(dòng)摘要模型

基于文本類別的文本自動(dòng)摘要模型基于經(jīng)典的seq2seq模型,結(jié)合注意力機(jī)制。不同在于編碼器部分結(jié)合了文本的類別特征。

具體的結(jié)構(gòu)如圖1所示。我們將每個(gè)類別轉(zhuǎn)化成維向量,即。然后在標(biāo)準(zhǔn)的seq2seq模型中,編碼器與解碼器部分均采用LSTM,在解碼器部分的每個(gè)時(shí)間步上結(jié)合前一時(shí)間步的隱藏層輸出,當(dāng)前時(shí)間步的輸入以及文本類別。因此式(1)-(4)變?yōu)槿缦滦问剑篹ndprint

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)集描述

實(shí)驗(yàn)數(shù)據(jù)集的選取分為文本分類模型的訓(xùn)練數(shù)據(jù)集以及文本摘要模型的數(shù)據(jù)集。首先對(duì)于文本分類的數(shù)據(jù)集,我們使用搜狗中文分類語(yǔ)料庫(kù)[9]。選取其中教育、體育、政治、科技、軍事、財(cái)經(jīng)6個(gè)類別。每個(gè)部分選取500篇新聞作為訓(xùn)練語(yǔ)料。考慮到每篇新聞字?jǐn)?shù)較長(zhǎng),因此每篇新聞均截取前兩句話(以句號(hào)分隔)作為訓(xùn)練語(yǔ)料。

其次對(duì)于文本摘要模型的數(shù)據(jù)集,我們使用大規(guī)模的中文短文本摘要語(yǔ)料LCST0S作為訓(xùn)練集和測(cè)試集[5]。LCSTS分為三部分:其中第二部分和第三部分根據(jù)摘要質(zhì)量,人工評(píng)為了1-5分。我們使用第一部分作為訓(xùn)練集,選取第二、三部分中分?jǐn)?shù)大于等于3分的作為測(cè)試集。各部分的文本-摘要對(duì)個(gè)數(shù)如表1所示:

4.2 實(shí)驗(yàn)參數(shù)設(shè)置

在文本分類模型中,我們?cè)O(shè)置卷積窗口的大小設(shè)置為8,卷積核個(gè)數(shù)設(shè)置為128;在文本摘要模型中,編碼器和譯碼器使用500個(gè)LSTM單元,詞表大小設(shè)置為10000。另外使用word2vec生成詞向量,維度數(shù)固定為300維,激活函數(shù)采用RelU,梯度算法使用均方根傳播,使模型能夠在訓(xùn)練過(guò)程中自適應(yīng)的調(diào)整學(xué)習(xí)速率。

4.3 實(shí)驗(yàn)結(jié)果

首先是利用文本分類模型進(jìn)行文本分類,分類結(jié)果如表2所示:

文本摘要模型部分我們采用ROUGE-1、ROUGE-2、ROUGE-L作為評(píng)價(jià)指標(biāo)。基準(zhǔn)系統(tǒng)我們選取基本的帶有注意力機(jī)制的seq2seq模型與jiatao.Gu[4]等人在2016年提出的帶有拷貝機(jī)制的文本自動(dòng)摘模型,分別用seq2seq+context和copyNet進(jìn)行表示。我們的類別相關(guān)的文本自動(dòng)摘要模型使用TS-seq2seq進(jìn)行表示。實(shí)驗(yàn)結(jié)果如表3所示:

我們可以看出,基于文本類別的文本自動(dòng)摘要模型取得了比基準(zhǔn)系統(tǒng)更好的指標(biāo)效果。證明了文本類別對(duì)于摘要效果改善的作用。

5 結(jié)束語(yǔ)

本篇文章在傳統(tǒng)的seq2seq模型結(jié)合注意力機(jī)制的基礎(chǔ)上,針對(duì)文本摘要的特點(diǎn):大部分文本有明確的類別特征,并且同一類的文本的摘要格式,措辭也大致相似。提出基于文本類別的文本自動(dòng)摘要模型,先對(duì)文本進(jìn)行分類;然后在編碼階段引入文本類別特征,最終生成類別相關(guān)的摘要。當(dāng)然模型還存著一些不足:由于LCSTS數(shù)據(jù)集的新聞文本較短,使用本文的基于CNN的文本分類器進(jìn)行分類的效果并不是很理想;另外本文的做法實(shí)在編碼器階段直接在每個(gè)時(shí)間步上注入文本類別向量,如何更合理地將文本的類別信息與seq2seq模型相互結(jié)合也將成為后續(xù)的研究重點(diǎn)。

參考文獻(xiàn):

[1] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. 2014, 4:3104-3112.

[2] Lopyrev K. Generating News Headlines with Recurrent Neural Networks[J]. Computer Science, 2015.

[3] Rush A M, Chopra S, Weston J. A Neural Attention Model for Abstractive Sentence Summarization[J]. Computer Science, 2015.

[4] Gu J, Lu Z, Li H, et al. Incorporating Copying Mechanism in Sequence-to-Sequence Learning[J]. 2016:1631-1640.

[5] Hu B, Chen Q, Zhu F. LCSTS: A Large Scale Chinese Short Text Summarization Dataset[J]. Computer Science, 2015.

[6] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735.

[7] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.

[8] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.

[9] http://www.sogou.com/labs/resource/list_news.phpendprint

主站蜘蛛池模板: 午夜无码一区二区三区在线app| 国产成人精品日本亚洲| 91麻豆精品视频| 国产真实自在自线免费精品| 久久影院一区二区h| 日本午夜在线视频| 国产一区在线观看无码| 欧美精品亚洲日韩a| 一级毛片视频免费| 欧美激情网址| 热99re99首页精品亚洲五月天| 欧美三级自拍| 日本日韩欧美| 人妻夜夜爽天天爽| 91日本在线观看亚洲精品| 国产午夜一级淫片| 成人毛片免费观看| 欧美影院久久| 26uuu国产精品视频| 免费全部高H视频无码无遮掩| 免费在线国产一区二区三区精品| 亚洲无码91视频| 无码区日韩专区免费系列| 天天综合亚洲| 国产无码精品在线| 91极品美女高潮叫床在线观看| 视频一区亚洲| 久久无码免费束人妻| 69综合网| 国产一级裸网站| 亚洲精品无码AV电影在线播放| 国产一区二区三区在线观看视频| 午夜激情福利视频| 国产人成午夜免费看| 成人午夜免费观看| 国内熟女少妇一线天| 91外围女在线观看| 国产区福利小视频在线观看尤物| 亚洲第一天堂无码专区| 国产丝袜精品| 国产福利影院在线观看| 男女性色大片免费网站| 国产在线拍偷自揄观看视频网站| 国产xxxxx免费视频| 国产成人一区| 六月婷婷激情综合| 亚洲成人网在线观看| 中国一级特黄大片在线观看| 人妻丝袜无码视频| 午夜日韩久久影院| 国产激爽爽爽大片在线观看| www.亚洲国产| 亚洲国产看片基地久久1024| 国产理论最新国产精品视频| 99久久精品国产麻豆婷婷| 白丝美女办公室高潮喷水视频| 无码内射中文字幕岛国片| 五月丁香伊人啪啪手机免费观看| 久久久久久高潮白浆| 波多野结衣久久精品| 国产av一码二码三码无码| 国产美女在线观看| 国产乱人伦AV在线A| 免费毛片网站在线观看| 久草青青在线视频| 日本午夜网站| 久久这里只有精品23| 日本久久网站| 久久熟女AV| vvvv98国产成人综合青青| JIZZ亚洲国产| 99中文字幕亚洲一区二区| 国产丝袜丝视频在线观看| 亚洲欧美国产高清va在线播放| 国产成人精品一区二区免费看京| 国产成人乱码一区二区三区在线| 亚洲成人在线播放 | 高清无码一本到东京热| 久久毛片免费基地| 色爽网免费视频| 国产激爽大片在线播放| 亚洲综合色婷婷中文字幕|