999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主題關鍵詞信息融合的中文生成式自動摘要研究

2019-04-11 12:14:44侯麗微胡珀曹雯琳
自動化學報 2019年3期
關鍵詞:機制文本信息

侯麗微 胡珀 曹雯琳

自動摘要旨在從給定的文本中自動生成能表達原文主題的精簡形式,以緩解信息過載造成的閱讀壓力.自動摘要過程大致可分為抽取式和生成式兩類,抽取式摘要從原文中選取若干重要句子直接組合成摘要,生成式摘要的產生則相對自由靈活,有望生成更接近人工撰寫的流暢摘要,并且在技術實現上更具挑戰性.

目前,隨著大數據和人工智能技術的發展,以及深度學習和表示學習在各個領域的推廣滲透[1?3],傳統自動摘要方法逐漸從抽取式朝著生成式演化,特別是基于循環神經網絡(Recurrent neural network,RNN)的編碼器–解碼器模型正成為當前應用最廣泛的生成式摘要模型,并在句子級的摘要生成任務(新聞標題生成、句子壓縮等)中取得了較顯著的效果.近年來,已有學者如Bahdanau等[4]提出在此模型的解碼器部分加入對輸入序列的注意力機制,用于提取原始文本中豐富的上下文信息以避免信息覆蓋問題,導致該問題的原因是簡單的RNN編碼器–解碼器模型中的編碼器是將信息從前到后一步步壓縮成一個固定長度的上下文語義向量,但這種信息傳遞編碼方式會使得前面的信息被后面的信息覆蓋而失效.此外,因為該機制將注意力均勻分布在文本的所有內容上,因而使得全文中的主題信息在摘要的生成過程中并沒有被合理地區分利用,同時主題關鍵詞是主題信息常見的表示形式.鑒于此,本文嘗試提出了一種新的融合主題關鍵詞信息的多注意力機制,并融入到循環神經網絡的編碼器–解碼器模型中以補充強化原文中的主題信息,從而更好地引導摘要生成.具體而言,先使用無監督方法識別文本的主題關鍵詞,然后綜合主題關鍵詞注意力機制,輸入序列注意力機制及輸出序列注意力機制三者聯合輔助最終的摘要生成.在NLPCC 2017的中文單文檔摘要評測任務上,本文提出的模型的實際摘要效果的ROUGE(Recall-oriented understudy for gisting evaluation)值比參賽隊中第一名成績還顯著提高了2~3個百分點,充分驗證了本文模型的有效性和先進性.

1 相關工作

現有自動摘要方法主要分為抽取式和生成式.抽取式摘要根據特定的約束條件(如摘要長度)直接從原文中抽取若干重要的句子,這些句子經重新排序后組成摘要.生成式摘要往往涉及對原文內容的語義理解和重構,且多采用更靈活的表達方式(如新詞、復述等)間接凝練出原文的主旨要點.相比于抽取式摘要,生成式摘要更接近人類撰寫摘要的形式.但由于生成式摘要通常需要復雜的自然語言生成技術,因此過去的研究大多注重抽取式摘要模型設計或句子打分排序算法的設計.

抽取式摘要首先給文本中的每個句子依重要度打分,然后根據此分數來對句子排序,進而選出得分最高且冗余小的句子組成摘要.現有方法中,句子重要度計算通常會結合考慮各種統計學和語言學特征,例如句子的位置、詞頻、詞匯鏈等.句子抽取則大致分為無監督和有監督兩種,其中無監督方法主要包括基于質心的方法[5]、基于圖模型的方法[6?8]以及基于隱含狄利克雷分布(Latent Dirichlet allocation,LDA)主題模型的方法[9?10]等,有監督的方法則包括支持向量回歸[11]和條件隨機場模型[12]等.同時還有研究綜合考慮了各種最優化的摘要生成目標函數,例如整數線性規劃[13]、子模函數最大化[14?15]等.除此之外,還有些抽取式摘要研究結合了主題信息來輔助摘要的生成,例如基于動態主題模型的Web論壇文檔摘要[16],也有研究提出使用超圖模型來協同抽取文本關鍵詞與摘要[17].同時,有研究者還嘗試了結合圖像、視頻以及文字來聯合生成多模態的摘要[18].

生成式摘要更接近人類自然撰寫摘要的方式,是高級摘要技術的追求目標.隨著智能技術的發展以及數據量的不斷增長,當前對生成式摘要的需求和研究越來越多.近幾年,神經網絡模型在生成式摘要的一些具體任務(如標題生成、單句式單文本摘要生成等)上取得了一定的效果.Rush等[19]在一個大型語料庫上訓練了神經注意力模型并用于單句式摘要,之后Chopra等[20]在注意力機制的循環神經網絡模型上擴展了Rush等的工作.Nallapati等[21]在基于循環神經網絡的序列到序列模型上應用各種技術改善效果,例如在解碼器階段采用的分層注意力機制和詞表限制.Paulus等[22]將輸出信息嘗試融入到輸出的隱藏層向量中,以避免產生重復的信息,同時提出使用強化學習的方式訓練模型.Ma等[23]通過最大化原文本和摘要之間的語義相似性,確保生成與原文本在語義上表達一致的摘要.Tan等[24]通過序列到序列模型與傳統的圖模型方法融合,以增加對句子重要度的考慮來生成摘要.Li等[25]提出使用變分自動編碼器(Variational auto-encoder,VAE)提取出生成的摘要中的高維信息,然后讓該信息輔助解碼器對原文本進行注意力提取.還有一些工作在注意力機制、優化方法和原文信息的嵌入等方面進行了改進[26?29].然而,值得注意的是以上模型的注意力機制均僅限于均勻考慮整個原文本的所有信息而忽視了原文本中隱藏的重要主題信息的影響.鑒于此,本文提出將原文本中的主題關鍵詞信息抽取出來,并自然地融入神經網絡中以更好地區分引導生成摘要,模型中我們具體采用了多種注意力機制的聯合策略.

2 背景模型:序列到序列模型和注意力機制

2.1 序列到序列模型

序列到序列模型又稱為編碼器–解碼器模型,核心是利用RNN學習一個序列的所有信息,并濃縮到一個向量中,再利用另一個循環神經網絡將此信息解碼出來,進而生成另一個序列.具體結構如圖1所示.

現有的實踐發現[30],門控RNN比簡單RNN效果更好,如長短期記憶(Long short-term memory,LSTM),雙向門控RNN比單向RNN效果好.因此,本研究提出的模型在編碼階段采用了雙向LSTM,在解碼階段采用了單向LSTM.

其中,編碼器作用是將輸入文檔的信息映射為一個上下文語義向量c,每一個表示最新生成的詞是由前i?1個詞聯合嵌入的上下文語義向量c生成的.具體過程為先對每一個文檔d進行分詞,每個詞w被gensim工具包1http://radimrehurek.com/gensim/中的word2vec訓練為一個向量以作為輸入序列.在該階段,每個輸入序列通過LSTM生成一列蘊含高維信息的隱藏層向量.接下來,通過這些隱藏層向量來計算上下文語義向量c,具體計算方式為

圖1http://radimrehurek.com/gensim/ 序列到序列模型Fig.1 The sequence-to-sequence model

解碼器的作用是生成輸出序列.在此階段,解碼器利用編碼器壓縮后的語義向量c結合當前時間點解碼器隱藏層的輸出狀態以及上一時間點中的輸出詞來生成候選詞,具體的條件概率計算方式為

上述編碼器–解碼器模型雖然經典,但局限性也很明顯.由于解碼器從編碼器中獲取信息的唯一途徑是一個固定長度的上下文語義向量c,因而編碼器需要將整個原文本的信息壓縮到一個固定長度的向量中,由此導致了三個弊端:1)僅靠一個固定長度的上下文語義向量往往無法完整地表示整個文本的全部信息,因而自然會影響解碼器的信息解碼效果;2)由式(2)可知,一般上下文語義向量c是由編碼器最后一個LSTM輸出的隱藏層狀態向量獲取的,因此在編碼器階段先輸入的內容所攜帶的信息會被后輸入的信息稀釋或覆蓋,且輸入序列越長,這個現象越嚴重;3)由圖(1)可見,解碼器在所有時間點上都共享了同一個固定長度的上下文語義向量c,因此解碼器生成的序列信息不足且固化,更合理的情況應該是解碼器能根據輸入序列x中不同部分的不同語義信息來生成不同的輸出結果y.為了解決上述問題,Bahdanau等[4]提出了在序列到序列的模型中加入注意力機制,該機制能在一定程度上緩解這些問題.

2.2 注意力機制

引入注意力機制不僅為了減輕基本序列到序列模型中上下文語義向量 c的信息負擔,還要對后續生成內容有針對性地生成一組對應的注意力權重以改進模型的實際生成效果,具體結構如圖2所示.

圖2 注意力機制Fig.2 The attention mechanism

由圖2可知,在解碼過程中,注意力機制使用動態改變的上下文語義向量來獲取編碼器中的原文語義信息,當生成每一個詞yi的時候,編碼器會動態產生與之對應的語義向量ci.這里的關鍵是如何定義不同解碼時間的注意力系數αij,具體為

其中,η由一個多層感知器實現,采用tanh作為激活函數.代表在解碼階段時間i的LSTM 隱藏層向量,代表在編碼階段時間j的LSTM隱藏層向量,w為注意力權重矩陣.

通過上述公式計算得到注意力系數之后,便可結合編碼器中所有隱藏層向量和注意力系數生成解碼階段時間i的上下文語義向量ci,具體為

由于在每個時間點,解碼器會根據當前解碼器的隱藏層向量來引導編碼器產生的上下文語義向量ci生成對應的輸出序列,因此在生成摘要的某個部分時,注意力機制將幫助模型選擇與此部分高度相關的原文信息,進而有望生成更好的相關摘要內容.

通常訓練好一個序列到序列模型需要較大規模的數據,在數據量相對較少的情況下可能存在效果欠佳的情況,在文本摘要領域,雖然注意力機制的引入在一定程度上解決了一些問題并提升了模型的效果,但生成的摘要離人類撰寫的摘要還有一定差距,因此如何將文本更深層次的信息有效地嵌入到模型中來生成更好的摘要仍需繼續研究.為了解決上述問題,本文提出在序列到序列模型中引入主題關鍵詞信息來優化現有生成式摘要模型的效果,并且提出了一種新的融入主題關鍵詞信息的多注意力序列到序列模型,通過聯合注意力機制將文本中多維重要信息綜合起來實現對摘要的引導性生成.通過在NLPCC 2017中文單文檔摘要評測數據集上的實驗,本文提出的模型非常有效.目前,在生成式摘要領域,融合主題關鍵詞信息以聯合注意力方式優化摘要生成效果的設計思路尚未見文獻報道.

3 提出的模型:主題關鍵詞信息融合的多注意力序列到序列模型

在現有模型基礎上,本文提出采用聯合多注意力融合機制以提升摘要生成效果,模型的具體結構如圖3所示.

本節將對圖3中重要標識部分(主題關鍵詞注意力機制和輸入輸出信息注意力機制)進行詳細介紹,首先介紹主題關鍵詞抽取,然后對模型中主題關鍵詞注意力機制進行詳細的說明.最后對模型中的輸入輸出信息注意力機制進行簡要的介紹.

3.1 主題關鍵詞注意力機制

1)主題關鍵詞抽取

按照認知科學的觀點,人類必須先識別、學習和理解文本中的實體或概念,才能理解自然語言文本,而這些實體和概念大都是由文本句子中的名詞或名詞短語描述的[31].因此本文通過發掘文章中的重點實體和概念來輔助模型理解自然語言文本.一個詞在文本中出現的頻率越高,產生的效力就越強,對文本的表達能力也越強,而這些實體或概念就稱為文本的關鍵詞.文本的主題關鍵詞表征了文檔主題性和關鍵性的內容,是文檔內容理解的最小單位[32].因此本文提出將主題關鍵詞信息融入到序列到序列模型中以實現在主題信息引導下的摘要生成.

圖3 主題關鍵詞信息融合的多注意力序列到序列模型Fig.3 The multi-attention sequence-to-sequence model based on keywords information

本文使用的主題關鍵詞抽取方法為HanLP開源工具包提供的主題關鍵詞提取算法TextRank2http://hanlp.linrunsoft.com/doc/_build/html/extract.html#extract-keyword,并對每個文檔提取出10個最重要的主題關鍵詞.TextRank[33]是一種基于圖模型的主題關鍵詞抽取算法,基本思想源自谷歌的PageRank算法,核心是利用投票機制迭代計算圖中每個結點的全局得分,然后取出得分最高的若干詞作為主題關鍵詞.與LDA和隱馬爾科夫模型(Hidden Markov model,HMM)等模型不同,TextRank不需要事先對多篇文本進行學習訓練,因簡潔有效獲得了較廣泛的應用.

2)主題關鍵詞注意力機制實現

人類撰寫文章或摘要,都會預先設定一些內容框架并提取重要的實體信息,然后根據框架和實體信息構建語言.受此啟發,本文通過自動提取文本的主題關鍵詞組成一個文本的框架,然后將模型對文本的注意力引到這些預先提取的主題關鍵詞信息上,由此生成基于主題信息的摘要.

圖3右半部分對主題關鍵詞注意力機制的基本結構進行了直觀呈現.該機制將提取出的主題關鍵詞通過注意力機制融入到模型中,通過主題關鍵詞中蘊含的語義信息來引導模型生成更完善的摘要.

在編碼階段,由于原文本的輸入形式是使用word2vec訓練得到的詞向量,因此為了保持詞嵌入信息的一致性,對從原文中抽取出的主題關鍵詞,直接利用word2vec訓練出的詞向量作為輸入,其中n為主題關鍵詞的數量.

在解碼階段,主題關鍵詞注意力機制通過解碼器解碼當前輸出的LSTM隱藏層狀態向量中的信息來獲得對所有主題關鍵詞信息的不同注意程度.通過此機制,該模型在生成摘要的過程中能自然融入文本中的主題信息來生成基于主題引導式摘要.本文提出的主題關鍵詞注意力機制中注意力系數的具體計算方法為

通過式(7)得到當前解碼器時間點i對主題關鍵詞的注意力系數后,便可結合主題關鍵詞的嵌入向量生成上下文語義向量,具體為

其中,n表示主題關鍵詞個數,kj表示第j個主題關鍵詞的向量表示.

3.2 輸入輸出注意力機制

圖2中的輸入輸出注意力機制是將輸入序列和輸出序列的注意力結合起來共同嵌入到解碼器當前時間點的輸出序列中,這樣既能考慮輸入序列的信息,又可以通過對輸出序列信息的回顧來避免信息的冗余和重復.

輸入序列的注意力機制將原文中隱含的信息提取出來嵌入到輸出序列中,其上下文語義向量表示為.

輸出序列注意力機制與輸入序列注意力機制的實現方式類似,但意義不同,解決的問題也不同.由于注意力機制的序列到序列模型在生成摘要的過程中存在重復信息的問題,而在該模型中加入對輸出序列的注意力機制可在一定程度上緩解此問題,因此,本模型也一并加入了輸出序列的注意力機制來優化摘要的生成結果,具體實現方法為

3.3 多種注意力融合

在獲得主題關鍵詞注意力和輸入,輸出注意力之后,我們將這兩種注意力聯合嵌入當前解碼器的輸出向量中以獲得輸出詞的條件概率.通過此方法,輸出向量中不僅包含輸出序列的信息,也自然融入了原文本中的語義信息以及主題關鍵詞信息,結合這些信息有望輸出更優質的摘要.為了不加重網絡的訓練負擔,本文僅采用線性加和的方式將多種注意力機制獲得的上下文語義向量融合到一起,實驗證明該種融合方式有效.具體融合方式為:先利用線性組合將三個注意力機制獲得的上下文語義向量聯合嵌入到解碼器的第i個時間點隱藏狀態中,然后使用softmax層得出詞表中詞的輸出概率,具體計算方法為

其中,L表示線性組合linear,表示解碼器當前時間點i的隱藏層向量,表示文章主題關鍵詞通過主題關鍵詞注意力機制計算得出的上下文語義向量,表示之前所有輸出向量通過輸出信息注意力機制計算得出的上下文語義向量,表示輸入向量通過輸入信息注意力機制計算得出的上下文語義向量.

4 實驗

4.1 數據集

本研究的實驗語料采用NLPCC 2017的中文單文檔摘要評測數據集,此數據集是今日頭條提供的公開新聞數據,包括50000個文本–摘要對,每篇文章的長度從10~10000個中文字符不等,每篇摘要的長度不超過60個中文字符.在實驗中,將其中49500個文本–摘要對作為訓練集和驗證集,另外500個作為測試集.

4.2 評價標準

評價方法采用自動摘要領域常用的基于召回率統計的摘要評價工具ROUGE(Recall-oriented understudy for gisting evaluation)[34].ROUGE由ISI的Lin和Hovy提出,基于機器摘要和人工標準摘要中的n元詞(即n-gram)匹配情況來生成量化的評價結果.ROUGE指標由一系列具有細微差別的計算方法組成,包括ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4,ROUGE-L等.ROUGE-1.5.5工具包已被DUC和TAC等國際著名的文本摘要評測會議作為標準的評價工具采用.

本實驗使用了ROUGE的五類評價指標,分別為ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4和ROUGE-L.直觀看,ROUGE-1可以代表自動摘要的信息量,ROUGE-2、ROUGE-3以及ROUGE-4則側重于評估摘要的流暢性,而ROUGE-L可看成是摘要對原文信息的涵蓋程度的某種度量.其中ROUGE-N的計算方法為

其中,RS表示參考摘要,該摘要為人工生成的標準摘要.gn表示n元詞,Countm(gn)表示系統生成的摘要和標準摘要中同現的相同n-gram的最大數量,Count(gn)表示標準摘要中出現的n-gram個數.

ROUGE為每類評價指標分別計算了準確率P、召回率R和F值(其中,F=2PR/(P+R)),由于F值綜合考慮了評價指標的準確率和召回率,因此本文統一將F值3ROUGE參數:-n 4-U-z SPL-l 60作為實驗的最終結果匯報.

4.3 實驗步驟

在數據預處理過程中,使用jieba4https://pypi.python.org/pypi/jieba/開源分詞工具對文本進行分詞,再用subword模型5https://github.com/rsennrich/subword-nmt對分詞后的數據進行更細致的切分.通過這些操作,最終形成包含28193個中文詞的詞典.實驗中采用subword模型可以減小詞表的大小,同時解決序列到序列模型中常遇到的罕見詞問題(即UNK問題).為了使詞內信息得到合理的保存,本文使用的subword模型僅對詞內信息進行切分和重組而不組合詞間信息,因而先將分詞后的詞語以每個詞為單位切分成字,然后使用subword模型將該結果使用2-gram的方法抽取出頻率較大的詞內組合,將此組合從之前的詞中分離出來獨立變為一個詞.采用此方法可以極大地減少字典的冗余度,同時保留部分詞信息,最終的分詞結果為詞組和字的混合文本.

接下來,利用gensim 工具包中的word2vec對詞典中的每個詞進行詞嵌入訓練,訓練集為NLPCC 2017的中文單文檔摘要評測任務分享的全部數據集,每個詞的向量維度均設置為256維,通過預訓練可以在一定程度上優化模型的效果.

本文使用tensor flow實現了基于主題關鍵詞注意力的序列到序列模型,編碼器層為一層雙向的LSTM,解碼器為一層單向的LSTM.LSTM 隱藏層維度設為128.在訓練階段,本文使用的優化函數為Adam[35],學習率設置為0.001,并在訓練過程中利用梯度的一階矩估計和二階矩估計動態調整每個參數的學習率,最小學習率設置為0.0001,在訓練過程中,損失開始下降很快,訓練幾輪后,損失逐漸趨于平穩,且在幾百個batch內損失值固定在1點多的范圍內,數值不繼續降低,模型趨于收斂.

在測試階段,使用beamsearch方法生成最終的結果.beamsearch是一種啟發式搜索算法,是對優先搜索策略的一種優化,能降低內存需求,根據啟發式規則對所有局部解進行排序,以找到與全局解最近的局部解,此方法常應用于序列到序列模型中優化解的生成.

4.4 對比模型

選取5種基準模型與本文提出的模型進行比較,5種方法中的3種方法(即LexPageRank[6],MEAD[36]和Submodular[15])是目前最典型的抽取式摘要方法,由開源工具包PKUSUMSUM[37]提供,另外兩種方法是生成式摘要方法的代表.

LexPageRank[6]是一個基于圖模型的摘要算法,它將PageRank算法應用到文本句子關系表示及摘要抽取中.

MEAD[36]方法則通過聯合考慮句子的4種常用特征來為其打分,包括質心、句子的位置、公共子序列及關鍵詞.

Submodular[15]方法利用子模函數的收益遞減特性來挑選重要句子生成摘要.

UniAttention[20]是基本的注意力序列到序列模型,實現了對原文本輸入信息的注意力機制考慮及摘要生成.

NLP_ONE[38]是在NLPCC 2017的中文單文檔摘要評測任務中獲得第一名的參賽模型,包含了輸入序列的注意力機制和輸出序列的注意力機制,但它沒有對主題關鍵詞信息進行融合考慮.

pointer-generator[29]是ACL 2017公開發表的一個最新的同類模型,使用pointer機制解決了輸出信息錯誤和罕見詞的問題.

4.5 實驗結果分析

第4.4節中的5種模型與本文提出模型的具體實驗結果比較如表1所示.由表1的結果可見:

1)生成式摘要方法在ROUGE的F值比較中比抽取式摘要方法平均高4~10個百分點,這說明在自動生成短文本的摘要任務中,生成式方法更有效.

2)由UniAttention模型與本文模型的對比結果可見,將文本關鍵詞的注意力信息和輸入輸出序列的注意力信息共同融入到序列到序列模型中可以顯著地提高模型的摘要效果(具體可提升3~4個百分點).

3)本文對NLP_ONE,pointer-generator和本文模型的實驗數據進行了統計顯著性分析,發現結合主題關鍵詞信息和原文本中多維信息來引導摘要生成能有效地提高現有基于RNN注意力機制的生成式摘要模型的摘要效果,充分說明主題關鍵詞信息在生成式摘要中發揮了積極的引導作用.

4)本文所提模型產生其摘要的實際效果舉例如表2所示.表2展示了從3個序列到序列模型生成的摘要中抽取的5例摘要,從表2可以看出,生成式摘要技術盡力去學習和模擬人類撰寫摘要的方法,生成的摘要根據需要表達的主題信息和語義信息引導詞語組合而成,而不僅僅由抽取的句子簡單拼湊而成,因而在生成短文本摘要時,相比抽取式摘要,生成式摘要的文本流暢性、句間連貫性以及信息豐富性均更勝一籌.

5)對比表2中的機器自動生成摘要的內容可以發現:本文提出的模型在學習摘要的生成過程中,更注重內容信息的表達,同時也抓住了文本中的關鍵主題信息,使生成的摘要的信息量更充足.在同等數據集的條件下,相比未融入主題信息的序列到序列模型,本文提出的模型效果更優,因為該模型將更多的主題信息顯式提取出來用于指導摘要的生成,特別是主題關鍵詞信息協助模型更有針對性地選擇與主題相關的詞語來構成摘要.

4.6 存在的問題

根據實驗結果,盡管生成式摘要相比抽取式摘要在中文短文本摘要生成任務中效果較好,但仍需相對較大的數據來協助訓練以生成高質量的摘要.通過對實驗數據的細致分析可以發現:由于數據分布不均勻使得模型對訓練樣本較多的內容其學習效果比數量較少的內容學習效果好.雖然主題關鍵詞的融入在內容上對文本的信息進行了補充,使得生成的摘要可以抓住文章的重點信息,但在表達的流暢度方面,樣本量越大往往效果越好.例如表2中原文為天氣和受賄內容的生成摘要比其他類型的摘要生成效果好,若訓練樣本充足,則生成的摘要和原標準摘要在內容和表達上均能達到90%以上的匹配度.因而在訓練數據量有限的情況下,如何更好地生成擬人式高質量摘要仍是需要進一步深入探索的問題.

表1 摘要評價結果Table 1 The results of summaries

表2 生成摘要對比示例Table 2 The examples of the generative summaries

5 結束語

本文提出了一種新的基于神經網絡的生成式中文自動摘要方法,不僅融入了對輸入序列的注意力及輸出序列的注意力的區分性考慮,還自然嵌入了文本中的關鍵主題信息下的注意力,最終的實驗及評價結果證實了引入關鍵詞信息對提升中文生成式摘要模型的顯著效果.未來尚有很多可以拓展的工作,例如在LCSTS等中文大規模文摘數據集上進行實驗,將神經網絡模型應用到多文檔多句子式的生成摘要中,以及如何更有效地提取文本中全局和局部的不同粒度或不同模態的關鍵主題信息.

猜你喜歡
機制文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产夜色视频| 91久久偷偷做嫩草影院| 亚洲综合色婷婷中文字幕| 久久精品一卡日本电影| 性做久久久久久久免费看| 国产免费久久精品99re丫丫一| 囯产av无码片毛片一级| 国产农村1级毛片| 直接黄91麻豆网站| 亚洲成年人片| 欧美另类视频一区二区三区| 欧洲熟妇精品视频| a级毛片免费网站| 国产精品.com| 美女无遮挡免费视频网站| 欧美特黄一级大黄录像| 不卡无码网| 手机精品视频在线观看免费| 国产chinese男男gay视频网| 精品国产免费人成在线观看| 亚洲国产欧洲精品路线久久| 人妻少妇乱子伦精品无码专区毛片| 亚洲日韩精品无码专区| 亚洲天堂精品视频| 亚洲自偷自拍另类小说| 久久中文字幕不卡一二区| 性视频一区| 最新加勒比隔壁人妻| 中文字幕乱码二三区免费| 国产乱人伦偷精品视频AAA| 国产精品分类视频分类一区| 伊伊人成亚洲综合人网7777| 亚洲成网777777国产精品| av大片在线无码免费| 国产亚洲精品精品精品| 亚洲最猛黑人xxxx黑人猛交| 成人在线亚洲| www.亚洲一区| 无码精油按摩潮喷在线播放| 国产91九色在线播放| 国产男女免费完整版视频| 97视频免费在线观看| 久久精品国产免费观看频道| 国产极品嫩模在线观看91| 99偷拍视频精品一区二区| av在线无码浏览| 欧美色亚洲| 特级精品毛片免费观看| 人人91人人澡人人妻人人爽| 国产在线小视频| 91精品人妻一区二区| 人妻精品全国免费视频| аⅴ资源中文在线天堂| 欧美激情视频一区| 真实国产精品vr专区| 在线一级毛片| 99久久免费精品特色大片| V一区无码内射国产| 免费日韩在线视频| 国产精品香蕉在线| 色AV色 综合网站| 国产精品视频a| 特级aaaaaaaaa毛片免费视频| 91网红精品在线观看| 国产99在线| 91免费国产高清观看| 人妻丰满熟妇αv无码| 欧美色视频网站| 亚洲精品国产首次亮相| 久久青草免费91线频观看不卡| 色综合热无码热国产| 免费一级毛片在线观看| 萌白酱国产一区二区| 人人爽人人爽人人片| 欧美日韩精品综合在线一区| 在线播放精品一区二区啪视频| 玩两个丰满老熟女久久网| 欧美日韩亚洲综合在线观看| 亚洲AV无码精品无码久久蜜桃| 亚洲国产理论片在线播放| 婷婷亚洲最大| 亚洲男女天堂|