明拓思宇,陳鴻昶
?
文本摘要研究進展與趨勢
明拓思宇,陳鴻昶
(國家數(shù)字交換系統(tǒng)工程技術研究中心,河南 鄭州 450002)
隨著互聯(lián)網(wǎng)上的信息呈爆炸式增長,如何從海量信息中提取有用信息成了一個關鍵的技術問題。文本摘要技術能夠從大數(shù)據(jù)中壓縮提煉出精煉簡潔的文檔信息,有效降低用戶的信息過載問題,成為研究熱點。分類整理分析了近些年來國內外的文本摘要方法及其具體實現(xiàn),將傳統(tǒng)方法和深度學習摘要方法的優(yōu)缺點進行了對比分析,并對今后的研究方向進行了合理展望。
大數(shù)據(jù);文本摘要;機器學習;傳統(tǒng)方法;深度學習
文本摘要是一種從一個或多個信息源中抽取關鍵信息的方法,它幫助用戶節(jié)省了大量時間,用戶可以從摘要獲取到文本的所有關鍵信息點而無需閱讀整個文檔。文本摘要是一個典型的文本壓縮任務。隨著信息化時代的到來,人們變得越來越依賴互聯(lián)網(wǎng)獲取所需要的信息。但是隨著互聯(lián)網(wǎng)的發(fā)展,其上的信息呈現(xiàn)爆炸式增長,如何有效地從海量信息中篩選出所需的有用信息成了關鍵性的技術問題。因為涉及深層次的自然語言處理的能力,所以一直以來它都是個任務難點。自動文本摘要技術對文檔信息進行有效的壓縮提煉,幫助用戶從海量信息中檢索出所需的相關信息,避免通過搜索引擎來檢索可能產生過多冗余片面信息的問題,有效地解決了信息過載的問題。
文本摘要有多種分類方法,按照摘要方法劃分可以分為抽取式摘要[1]方法和生成式摘要[2]方法。抽取式摘要方法通過抽取文檔中的句子生成摘要,通過對文檔中句子的得分進行計算,得分代表重要性程度,得分越高代表句子越重要,然后通過依次選取得分最高的若干個句子組成摘要,摘要的長度取決于壓縮率。生成式摘要方法不是單純地利用原文檔中的單詞或短語組成摘要,而是從原文檔中獲取主要思想后以不同的表達方式將其表達出來。生成式摘要方法為了傳達原文檔的主要觀點,可以重復使用原文檔中的短語和語句,但總體上來說,摘要需要用作者自己的話來概括表達。生成式摘要方法需要利用自然語言理解技術對原文檔進行語法語義的分析,然后對信息進行融合,通過自然語言生成的技術生成新的文本摘要。
按照文檔數(shù)量劃分,可以分為單文檔摘要[3]方法和多文檔摘要[4]方法。單文檔摘要方法是指針對單個文檔,對其內容進行抽取總結生成摘要;多文檔摘要方法是指從包含多份文檔的文檔集合中生成一份能夠概括這些文檔中心內容的摘要。
按照文本摘要的學習方法可分為有監(jiān)督[5]方法和無監(jiān)督[6]方法。有監(jiān)督方法需要從文件中選取主要內容作為訓練數(shù)據(jù),大量的注釋和標簽數(shù)據(jù)是學習所需要的。這些文本摘要的系統(tǒng)在句子層面被理解為一個二分類問題,其中,屬于摘要的句子稱為正樣本,不屬于摘要的句子稱為負樣本。機器學習中的支持向量機(SVM, support vector machine)和神經(jīng)網(wǎng)絡也會用到這樣分類的方法。無監(jiān)督[7-8]的文本摘要系統(tǒng)不需要任何訓練數(shù)據(jù),它們僅通過對文檔進行檢索即可生成摘要。
本文按照時間的順序,對研究文本摘要方法的相關文獻進行收集整理,對文本摘要方法的研究進展進行簡要的概括總結和分析。
抽取式文本摘要方法的關鍵問題是從原文檔中抽取出重要性高的若干句子[9]。研究初期是以統(tǒng)計學為支撐,統(tǒng)計學的方法是基于統(tǒng)計特征,如詞頻、句子中心性(即與其他句子的相似性)、句子位置、句子與標題的相似性、句子的相對長度等統(tǒng)計特征來生成摘要的。首先使用“詞頻”這一簡單的文本特征對文檔的重要句子和詞組進行抽取生成,根據(jù)經(jīng)驗可知,除去停用詞以外,文中出現(xiàn)頻率越高的單詞,其重要性也就越高。根據(jù)單詞的詞頻高低分別設置相應的詞權重,詞頻越高,對應的權重也就越高;句子的權重是組成句子單詞的權重之和。然后從文檔中抽取權重高的單詞和句子組成摘要,這就是簡單的基于詞頻的文本摘要方法。
句子在段落中的位置對句子的重要性影響很大,根據(jù)經(jīng)驗可知,一個段落的首尾句成為概括段落中心思想主題句的概率比其他位置句子的概率要高。Baxendale等[10]從句子位置的特征出發(fā),通過計算文檔段落首尾句能夠概括主題的主題句概率,選取得分最高的若干句子生成文本摘要。Edmundson等[11]在研究中也指出,線索詞(如“幾乎不”“不可能”等類似的特定詞匯)對句子重要性也起到了一定的影響作用。他們將詞頻、句子位置、線索詞、標題詞等多個特征組合起來作為衡量句子重要性的綜合指標,在質量上取得了一定的改善。
其他著名的方法有TF-IDF(詞頻?逆向文件頻率),它是由Salon最先提出的[12],這種統(tǒng)計的方法通過詞頻和逆向文件頻率共同評估一個詞在一個文件集或語料庫中的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。利用TF-IDF生成文本摘要的基本思路是通過背景語料統(tǒng)計出各個詞的TF-IDF值,將其作為重要性得分的權值,接著根據(jù)各個詞的TF-IDF值累加求和計算得到段落中各個句子的TF-IDF值,將其作為該句的重要性得分,然后將句子按照重要性得分排序,依據(jù)文本摘要的大小依次選取重要性得分從高到低的若干個句子組成摘要。這種算法在詞頻算法的基礎上引入一個逆文檔因子,它能夠有效地區(qū)分出高頻無效詞,在一定基礎上改進了一般詞頻算法。其后,基于TF-IDF的方法被廣泛應用于單詞的重要性識別[13-16]。
El-Beltagy等[17]提出了提取關鍵詞性能最好的系統(tǒng)SemEval2010,它利用詞頻等統(tǒng)計特征過濾不可能是關鍵詞的短語,然后結合TF-IDF模型減小對特殊詞的影響,并對候選短語進行排序選出文摘句。Danesh等[18]基于統(tǒng)計啟發(fā)式算法(如TF-IDF分數(shù)和文檔中短語的第一個位置)的組合計算每個短語的初始權重。然后將短語及其初始權重聯(lián)合,基于圖表的算法產生候選關鍵詞的最終排序。Florescu等[19]在Danesh等的基礎上進行了改進,它不僅僅考慮文中每個詞在句子中首次出現(xiàn)的位置,還將每個單詞在句子中出現(xiàn)的所有位置信息進行聚合來計算相應的詞權重,進一步改進統(tǒng)計學特征中詞句位置因素對其重要性的影響,在一定程度上改良了文本摘要的質量水平。Padmalahari等[20]綜合統(tǒng)計特征和語言特征對句子賦予權重,使用連續(xù)閾值從給定的輸入文本文檔中找出重要句子構成文本摘要,摘要質量得到了有效提升。
統(tǒng)計學的方法主要適用于格式相對比較規(guī)范的文檔摘要。此類方法比較經(jīng)典,首次在自動文本摘要方面取得了重大突破,但由于此類方法只是基于句子和單詞本身的表層特征進行統(tǒng)計,未能充分利用詞義關系、詞間關系等特征,所以還有很大的局限性,因此針對這些問題,一些改進的方法隨后被接連提出。
1995年,Miller[21]提出了利用生成詞匯鏈的方法來生成摘要,這種方法主要通過對文章的內容進行自然語言分析處理來生成摘要。首先選定候選詞的集合,然后根據(jù)詞匯鏈之間的相關程度,為每一個候選詞選擇相應的詞匯鏈,如果候選詞與該詞匯鏈之間的相關程度比較高,則將候選詞添加到該詞匯鏈中。最后依據(jù)詞匯鏈的長度與一致性對其進行綜合評分,通過一些啟發(fā)式方法選取若干詞匯鏈生成最后所需要的摘要。Barzilay等[22]基于詞匯鏈的摘要方法做出了創(chuàng)新改進,不再用單個詞作為分析單元,而是通過WordNet[21,23]、詞性標注工具等對詞義進行分析,將原文檔中與某個主題相關的詞匯集合起來,構成詞匯鏈,詞匯鏈重要性表達式如下。

其中,表示詞匯鏈中所有詞匯的詞頻之和,是均一度指數(shù),計算如式(2)所示。



選擇出強詞匯鏈。確定強詞匯鏈后,通過制定的3條啟發(fā)式的規(guī)則,為每一個強詞匯鏈抽取一個句子形成最后的摘要。在此基礎上,后來還提出了結合修辭結構、修辭學理論等一系列方法對詞匯鏈方法進行改進[24-26]。由于傳統(tǒng)的詞匯鏈只考慮名詞而忽略其他語法部分的信息導致準確率較低,Hou等[27]在此基礎上做了進一步改進優(yōu)化,分別引入謂詞和形容詞(副詞)的詞匯鏈,三者一起構成全息詞匯鏈(holographic lexical chain)用于中文文本摘要,準確率取得了顯著性的提高。Lynn等[28]通過對常規(guī)的詞匯鏈進行增強改進,引入文本中關鍵詞的3個不同文本特征來產生更好的文本相關信息,取得了良好的提升效果。
基于WordNet語義詞典對單詞的語義進行分析的方法,通過Lesk算法從特定的情景中找到單詞的實際意思[29],接著使用簡化Lesk算法分別分析文本中所有句子的權重,并根據(jù)其權重按降序排列。然后根據(jù)給定的摘要比例,從有序列表中選擇特定數(shù)量的句子生成摘要。雖然此類方法基于詞的全局性和語義關系等多種屬性來判斷句子的重要性,改進了簡單統(tǒng)計方法未充分利用詞間關系、詞義關系等特征的不足,但由于受限于當時的技術,該方法對原文檔的分析還停留在比較淺的層面。
互聯(lián)網(wǎng)網(wǎng)頁上的文檔具有較松散且涉及主題較多的結構特點,在此基礎上,研究出了一些專門針對生成網(wǎng)頁文檔摘要的自動摘要技術,就是基于圖排序的文本摘要的方法?;趫D排序的文本摘要生成的主要方法是通過把文章分成若干個段落或句子的集合,每個集合對應一個圖的頂點,集合之間的關系對應邊,最后通過圖排序的算法(如PageRank[30]、HITS[31]等)計算各個頂點最后的得分,然后依據(jù)得分高低生成文本摘要。
最先,Mihalcea[32]使用PageRank算法及其改進的算法TextRank提取關鍵詞和關鍵句子來生成文檔摘要。在這個方法中,他們將單詞或句子作為圖的頂點,將詞或句子之間的相似度作為圖頂點之間的連邊。句子之間的相似度單純由句子之間內容重疊部分的多少決定,相似度通過計算2個句子之間共同單詞的數(shù)量得到。對于提取關鍵句子的部分,由于考慮到長句所包含的信息量大,覆蓋的內容較多,導致長句得分普遍比短句高,因此對長句進行相應的懲罰,將計算的得分值除去句子的長度得到相似度值,即邊的權值。當2個頂點之間相似度大于零時,則存在一條邊將2個頂點連接起來,邊的權值也就是頂點之間的相似度數(shù)值;當2個頂點之間相似度為零時,則頂點之間不存在連邊的關系。幾種基本的圖模型包括有向無權圖、有向加權圖、無向加權圖、無向無權圖。對于有向圖,邊的方向是依據(jù)文檔句子的順序,對于所有的圖,邊的權值都是句子或詞之間的相似度?;谶@些圖模型,依據(jù)PageRank、HITS以及TextRank等算法對句子的得分進行計算,按照句子得分的高低選擇合適數(shù)量的句子生成摘要。Wan等[33]將TextRank擴展到SingleRank,通過在可變大小≥2的窗口中共同出現(xiàn)的單詞之間引入加權邊。ExpandRank中包含類似的相鄰文檔以計算更準確字共現(xiàn)信息。Gollapalli等[34]擴展了ExpandRank,整合來自引用網(wǎng)絡的信息來研究關鍵詞的提取,取得了超越當前最先進基線的良好實驗效果。
Khan等[35]提出了一種多文檔生成式摘要的改進語義圖排序算法,它是從源文檔中以圖節(jié)點表示的方式構建謂詞變元結構(PAS, predicate argument structures)的句子語義結構,圖邊代表相似性權重,根據(jù)PAS語義相似度計算相似性權重,用改進的圖排序算法對重要圖節(jié)點排序,從中選取排名高的PAS生成摘要句子。Al-Khassawneh等[36]提出了一種基于混合圖的單文檔抽取摘要技術,將余弦相似度(sim1)、Jaccard相似度(sim2)、基于詞對齊的相似度(sim3)和基于窗口的相似性度量(sim4)4種不同的相似性度量結合創(chuàng)新了一種混合相似函數(shù)來用于計算圖的權重,一定程度上改良了單純基于TextRank字內容重疊計算權重的不足。其他圖排序算法[37-39]都是基于各種方法計算圖節(jié)點的權重,通過篩選出重要性程度高的節(jié)點來生成摘要,都在一定程度上提高了摘要的質量。
耿煥同等[40]利用句子之間的共同詞匯,在節(jié)點關系圖的基礎上提出了一種基于詞共現(xiàn)圖的文本摘要生成的方法,并將條件概率的概念引入詞共現(xiàn)矩陣中,用以構造詞共現(xiàn)矩陣。該方法通過詞共現(xiàn)圖形成的主題信息以及不同主題之間的連接特征信息自動提取生成摘要。
基于PageRank、HITS以及TextRank[41]改進的圖排序算法都是無監(jiān)督的,它具有簡單、語言弱相關及同時適合單文本和多文本等眾多優(yōu)點,無需手動標注數(shù)據(jù)集,相比有監(jiān)督或半監(jiān)督的深度學習的文本摘要方法,節(jié)省了一定的時間和人力。雖然它具有語言獨立、不需要大量語料訓練、節(jié)約時間等優(yōu)點,但是由于無監(jiān)督學習方法還沒有充分挖掘和利用數(shù)據(jù)之間的關系,所以雖然文本摘要的效果和質量有所提升,但是對數(shù)據(jù)利用不夠充分,存在局限性,之后的基于有監(jiān)督、半監(jiān)督學習的文本摘要方法對數(shù)據(jù)進行了合理利用,相比無監(jiān)督方法有顯著的性能提升。
有監(jiān)督的機器學習的方法在自然語言處理領域也得到了極其廣泛的利用。監(jiān)督、半監(jiān)督的機器學習方法通過對數(shù)據(jù)集的語料進行人工標注,人為地判定劃分得到句子的文本特征以及句子重要性的關系模型,在此模型的基礎上,對未被標注的語料進行訓練,預測未被標注語料中句子的重要性排序,然后依據(jù)句子重要性排序,依次選取若干句子生成最后所需要的文本摘要。
這種方法類似于一個二分類問題,對于某一個句子,它只有2種可能性:要么是摘要句,要么是非摘要句。首先通過人工標注的方法,把重要句子手動標注出來,接著在此基礎上提取這些重要句子間的特征,通過統(tǒng)計分析學習的方法,找到句子重要性與這些特征之間的關系,最后選擇合適的分類器對其進行分類,然后對分類器參數(shù)進行調整和對模型加以改進得到最佳的分類器結構,但是這個過程中要防止過擬合的出現(xiàn)。對分類器輸入一個句子,在分類器的輸出端將得到該句子相應的重要性得分,依據(jù)重要性得分的高低抽取所需的句子生成摘要。
機器學習的方法很好地利用了計算機強大的計算性能[42-43],借助統(tǒng)計學的知識理論,對海量的文本信息進行高效合理的建模,能夠挖掘出隱藏在海量文本信息中的隱藏屬性。這些機器學習的方法中使用較為廣泛的有樸素貝葉斯算法[44-45]、隱馬爾可夫算法[46]、決策樹算法[47]等。


通過上述表達式,可以為每一個句子計算它可能作為文本摘要的概率,然后依次從得分順序由高到低的句子中順次抽取前若干個句子生成摘要。
Conroy等[49]提出了隱馬爾可夫模型的摘要算法,該算法通過使用文檔中的一些特征(如句子位置、句內詞數(shù)以及句子中詞語與文檔中詞語的相似度等)來計算句子得分,然后依據(jù)句子得分生成文本摘要。Lin等[50]假設用于生成摘要的文檔的各種特征之間是相互的,他們提出了決策樹的算法來替代之前提出的貝葉斯分類模型來對句子進行評分,從中依次選取評分最高的若干句子生成摘要。
機器學習方法中特征選擇的范圍是相當廣泛的,由于訓練分類器特征的可供選擇性非常廣泛,在本文看來,任意能夠表示句子重要性的特征都可以用來訓練分類器。這里所提及的特征有前文中提到的詞頻、線索詞、句子位置、TF-IDF值等簡單的特征。此外,研究者還嘗試了一些開放性的特征,如標題詞長,平均句子長度,平均詞匯連接度,是否包含數(shù)詞、時間等信息,是否包含代詞、形容詞等詞匯,是否包含命名實體等特征信息?;谶@些開放性特征的機器學習的方法在提高生成摘要的可讀性和準確度上起到了一定的效果。
深度學習是利用多層感知器結構對非線性信息進行處理的一種學習方法。Hinton等[51]首先提出了深度置信網(wǎng)絡和相應的高效學習算法,該算法具有無監(jiān)督學習的能力,降低了對人工的依賴,可以較為高效地進行訓練,之后深度學習發(fā)展都是在此基礎上進行改進的。
目前深度學習方法在對自然語言處理方面的基本方向是通過對文檔上下文進行學習訓練,對于中文文檔,還需要先進行中文分詞處理,然后將文檔中的詞語、句子分別用連續(xù)實值向量進行表示,形成的向量稱為嵌入向量,這樣做是為了方便處理文本語義特征,將詞語、句子用向量表示,在處理文本語義特征時,對詞向量、句向量直接進行向量上的計算即可表征它們之間的文本語義關系。
要將自然語言處理的問題轉化成為一個機器學習的問題,首先需要讓機器能夠理解自然語言,所以第一步就是將自然語言轉化為機器可以理解的語言,于是想到將它進行符號數(shù)學化,為了能表示多維特征,增強其泛化能力,想到用向量對其進行表示,因此也就引出了對詞向量[52-53]、句向量的研究[54]。但是詞向量和句向量的生成仍然具有一定的難度,將文本中不同單詞、句子用詞向量或句向量進行唯一的表示,這樣可以方便其在自然語言處理過程中進行各種操作變換和計算。雖然現(xiàn)在看來將文本中的詞、句轉化成唯一對應的詞、句向量還具有相當大的難度,但由于其在自然語言理解中是關鍵的一步,因此這將是今后研究中亟待解決的問題和重點研究的方向之一。
Seqence-to-Sequence模型[55]廣泛應用于機器翻譯、語音識別、視頻圖片處理、文本摘要等多個領域?,F(xiàn)在最新的一些基于深度學習研究文本摘要生成方法的也都是基于這個模型進行的?;赟eqence-to-Sequence模型的文本摘要需要解決的問題是從原文本到摘要文本的映射問題。摘要相對于原文具有大量的信息損失,而且摘要長度并不會依賴于原文本的長度,所以,如何用簡短精煉的文字概括描述一段長文本是文本摘要需要解決的問題。最先是基于遞歸神經(jīng)網(wǎng)絡(RNN)的Seqence-to-Sequence模型用于文本摘要起到了一定的效果[56],之后考慮到RNN具有長程依賴性,為了減小長程依賴性,提出了基于長短時記憶網(wǎng)絡(LSTM)的Seqence-to-Sequence模型用于文本摘要的生成??紤]到句子中的某些特定詞或特定詞性的詞更具有影響句子中心意思的作用,引入了廣泛應用于機器翻譯中的注意力機制(attention mechanism)[57]對句子的不同部分賦予不同的偏重,即權重。Rush等[57]在這個基礎上提出基于注意力模型的生成式文本摘要,在DUC-2004數(shù)據(jù)集上顯示出了優(yōu)良的性能提升。Rush等首次將深度學習應用于文本摘要的生成,他們基于Seqence-to-Sequence模型,將卷積模型應用于對原文檔進行編碼,然后利用上下文之間的注意力前饋神經(jīng)網(wǎng)絡生成摘要,在當時取得了很好的效果。Chopra等[58]同樣利用卷積模型對原文檔進行編碼,但使用遞歸神經(jīng)網(wǎng)絡作為解碼器解碼輸出,取得良好的改進效果,大大提高了文本摘要的質量。Ramesh等[59]將綜合的RNN[58]和attention機制的Seqence-to-Sequence模型用于生成文本摘要[60],在文本摘要的準確性和可讀性上取得了很大的提高。See等[61]利用注意力模型相對分心機制來緩解重復出現(xiàn)的冗余詞句的權重,降低注意力權值大小達到去除冗余信息的效果,從而大大提高了文本摘要的新穎性。2016年,谷歌也開源了基于TensorFlow[62]的一個自動摘要模塊Textsum,該模塊也是利用Seqence-to-Sequence模型,基于深度學習的方法自動生成新聞標題,在質量和準確度上都取得了良好的效果。Sutskever等[63]考慮到RNN具有長程依賴性,為了減輕長程依賴的影響,將RNN用LSTM網(wǎng)絡進行了替換,在此基礎上取得了良好的改進。最近Facebook嘗試把CNN引入自然語言處理中,由于CNN不能處理變長的序列,在這之前CNN都只應用于圖片視頻領域的處理,恰巧Seqence-to-Sequence模型可以很好地處理變長序列問題,所以綜合CNN與Seqence-to-Sequence模型,Gehring等[64]提出了基于CNN的Seqence-to- Sequence模型,成功應用于機器翻譯領域,取得了比之前模型應用更優(yōu)的結果,準確度超過了之前其他的所有模型。這同樣也是一個啟示,是否能夠將基于CNN的Seqence-to-Sequence模型成功應用到文本摘要的領域取得最優(yōu)的結果?這也是接下來要研究的一個問題。Liu[65]將廣泛應用于圖像領域的生成對抗網(wǎng)絡(GAN, generative adversarial networks)[66]借用于文本摘要領域取得了顯著成效,提出了一種生成式文本摘要的生成對抗過程,在這個過程中,同時訓練一個生成模型G和一個判別模型D。生成器通過文本的輸入來預測生成摘要,判別器則試圖將機器生成的摘要與真實摘要進行區(qū)分。在這個博弈過程中,雙方不斷提高性能,最后利用訓練得到的生成器生成與真實摘要基本吻合的機器摘要。
最近,Tan等[67]提出了一個基于圖的注意力神經(jīng)模型的生成式文本摘要,該文在回顧了基于神經(jīng)網(wǎng)絡的生成式文本摘要難點的基礎上,提出了一種新穎的基于圖注意力機制的模型框架。這里仍然使用被廣泛應用于機器翻譯和對話系統(tǒng)中的編碼器解碼器的框架,需要特別說明的是,這里使用的是一個分層的編碼器解碼器結構,并引入了基于圖的注意力模型。編碼器結構由字編碼器和句編碼器組成,字編碼器將句子中的單詞編碼成句子表示,句編碼器將文檔中的句子編碼成文檔表示。這里用LSTM結構的變體作為字編碼器和句編碼器的網(wǎng)絡結構。不同于一般的解碼器結構,這里使用的是帶注意力機制的分層解碼器結構。在原始解碼器模型中,生成的代表文檔整體的語義向量對于所有的輸出,字是相同的,這就需要語義向量作為整個輸入序列的充分表示。這里引入了注意力機制,對解碼器不同發(fā)生狀態(tài)下不同部分的輸入賦予了不同的注意力,減輕了需要記憶整個輸入序列的負擔。分層解碼器中還利用了波束搜索的策略對句子中的重復現(xiàn)象進行緩解。最后基于圖的抽取式摘要模型的TextRank(Mihalcea 和Tarau于2004年提出)[68]和LexRank(Erkan和Radev于2004年提出)[69]對文檔中句子的重要性進行識別?;谶@種改進的圖注意力的神經(jīng)模型的生成式文本摘要方法實現(xiàn)了相較先前神經(jīng)摘要模型相當大的提升,效果甚至可以與最先進的抽取式摘要方法進行比較。
總體來說,基于深度學習的自動摘要方法是目前效果最好的方法,但其研究深度和研究數(shù)量還遠遠不夠,有待進一步深化。
針對近些年來國內外文本摘要的各文本摘要方法,對其優(yōu)缺點進行了對比分析,具體如表1所示。
文本摘要研究初期,以原文檔中的詞、句為基礎,基于詞頻、句子位置等簡單特征從文檔中生成摘要。隨后借助外部語義資源的方法(如詞匯鏈、WordNet語義字典)幫助選取關鍵詞、關鍵句,從而生成相應摘要。接著出現(xiàn)圖排序的方法,將文本單元中的各種關系映射到圖論中的頂點與邊的關系上,利用句子中詞共現(xiàn)頻率、句子相似度、語義關系等特征生成邊權重,從而輔助判斷找出句子重要性最高的若干個句子,較好地解決了結構較為松散且涉及主題較多的文本摘要生成的問題。之后,隨著計算機性能的顯著提升,基于統(tǒng)計機器學習的文本摘要方法興起,樸素貝葉斯算法、隱馬爾可夫算法、決策樹算法等大量統(tǒng)計機器學習的算法接連應用于文本摘要領域,并在生成文本摘要方法的效果上取得一定的突破。當前最流行、效果最顯著的是基于深度學習的生成文本摘要,基于深度學習的文本摘要方法很好地利用了計算機強大的性能對文檔的局部以及上下文的多維特征同時學習,對特征進行編碼向量化,使文檔的上下文特征、句法特征、語義特征等多維特征轉化為能夠進行計算的向量特征,方便利用深層網(wǎng)絡對其進行訓練學習,在文本摘要質量上實現(xiàn)了許多最優(yōu)的實驗結果。

表1 各文本摘要方法的優(yōu)缺點
展望未來,可能的發(fā)展方向有:1) 對于文本領域,詞、句的向量表示是極為關鍵的一個研究點,相信在之后的研究中,詞、句向量的唯一表示也將是文本領域的重中之重;2) 模仿人撰寫摘要的模式,融合抽取式和生成式摘要方法生成聯(lián)合摘要;3) 基于語義層面研究進一步地深度挖掘句子級、篇章級的語義并加以利用來進一步提高文本摘要的語義一致性和可讀性;4) 研究更好的摘要評估指標;5) 回望過去文本摘要方法,預測今后的自動文本摘要方法大趨勢還是以深度學習為主進行,但是傳統(tǒng)方法仍有其特點和優(yōu)勢,如何將深度學習和傳統(tǒng)方法結合起來生成文本摘要也將是之后的研究重點所在。
[1] CHENG J, LAPATA M. Neural summarization by extracting sentences and words[J]. arXiv preprint arXiv:1603.07252, 2016.
[2] NEMA P, KHAPRA M, LAHA A, et al. Diversity driven attention model for query-based abstractive summarization[J]. arXiv preprint arXiv:1704.08300, 2017.
[3] LI P, LAM W, BING L, et al. Deep recurrent generative decoder for abstractive text summarization[J]. arXiv preprint arXiv:1708.00625, 2017.
[4] BING L, LI P, LIAO Y, et al. Abstractive multi-document summarization via phrase selection and merging[J]. arXiv preprint arXiv:1506.01597, 2015.
[5] LI C, QIAN X, LIU Y. Using supervised bigram-based ilp for extractive summarization[C]//The 51st Annual Meeting of the Association for Computational Linguistics. 2013: 1004-1013.
[6] VEENA G, GUPTA D, JAGANADH J, et al. A graph based conceptual mining model for abstractive text summarization[J]. Indian Journal of Science and Technology, 2016, 9(S1).
[7] DANESH S, SUMNER T, MARTIN J H. Sgrank: combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction[C]//The Fourth Joint Conference on Lexical and Computational Semantics. 2015: 117-126.
[8] FLORESCU C, CARAGEA C. PositionRank: an unsupervised approach to keyphrase extraction from scholarly documents[C]// The 55th Annual Meeting of the Association for Computational Linguistics. 2017: 1105-1115.
[9] LUHN H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
[10] BAXENDALE P B. Machine-made index for technical literature—an experiment[J]. IBM Journal of Research and Development, 1958, 2(4): 354-361.
[11] EDMUNDSON H P. New methods in automatic extracting[J]. Journal of the ACM, 1969, 16(2): 264-285.
[12] SALTON G, YU C T. On the construction of effective vocabularies for information retrieval[C]//ACM SIGIR Forum. 1973: 48-60.
[13] 施聰鶯, 徐朝軍, 楊曉江. TFIDF 算法研究綜述[J]. 計算機應用, 2009, 29(B06): 167-170.
SHI C Y, XU C J, YANG X J. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(B06): 167-170.
[14] 徐文海, 溫有奎. 一種基于 TFIDF 方法的中文關鍵詞抽取算法[J]. 情報理論與實踐, 2008, 31(2): 298-302.
XU W H, WEN Y K. A Chinese keyword extraction algorithm based on TFIDF method[J]. Information Studies: Theory & Application, 2008, 31(2): 298-302.
[15] SUQIN Z B S H M. An improved text feature weighting algorithm based on TFIDF [J]. Computer Applications and Software, 2011, 2: 7.
[16] 李靜月, 李培峰, 朱巧明. 一種改進的 TFIDF 網(wǎng)頁關鍵詞提取方法[J]. 計算機應用與軟件, 2011, 28(5): 25-27.
LI J Y, LI P F, ZHU Q M. An improved TFIDF-based approach to extract key words from Wed pages[J]. Computer Applications and Software, 2011, 28(5): 25-27.
[17] EL-BELTAGY S R, RAFEA A. Kp-miner: participation in semeval-2[C]//The 5th International Workshop on Semantic Evaluation, 2010: 190-193.
[18] DANESH S, SUMNER T, MARTIN J H. Sgrank: combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction[C]//The Fourth Joint Conference on Lexical and Computational Semantics. 2015: 117-126.
[19] FLORESCU C, CARAGEA C. PositionRank: an unsupervised approach to keyphrase extraction from scholarly documents[C]// The 55th Annual Meeting of the Association for Computational Linguistics, 2017: 1105-1115.
[20] PADMALAHARI E, KUMAR D V N S, PRASAD S. Automatic text summarization with statistical and linguistic features using successive thresholds[C]// 2014 International Conference on Advanced Communication Control and Computing Technologies (ICACCCT). 2014: 1519-1524.
[21] MILLER G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.
[22] BARZILAY R, ELHADAD M. Using lexical chains for text summarization[J]. Advances in Automatic Text Summarization, 1999: 111-121.
[23] JAIN A, GAUR A. Summarizing long historical documents using significance and utility calculation using WordNet[J]. Imperial Journal of Interdisciplinary Research, 2017, 3(3).
[24] SILBER H G, MCCOY K F. Efficient text summarization using lexical chains[C]//The 5th International Conference on Intelligent user interfaces. ACM, 2000: 252-255.
[25] KOLLA M. Automatic text summarization using lexical chains: algorithms and experiments[D]. University of Lethbridge, 2004.
[26] POURVALI M, ABADEH M S. Automated text summarization base on lexicales chain and graph using of wordnet and wikipedia knowledge base[J]. arXiv preprint arXiv:1203.3586, 2012.
[27] HOU S, HUANG Y, FEI C, et al. Holographic lexical chain and its application in chinese text summarization[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint Conference on Web and Big Data. 2017: 266-281.
[28] LYNN H M, CHOI C, KIM P. An improved method of automatic text summarization for Web contents using lexical chain with semantic-related terms[J]. Soft Computing, 2018, 22(12): 4013-4023.
[29] PAL A R, SAHA D. An approach to automatic text summarization using WordNet[C]//IEEE International Conference on Advance Computing Conference (IACC). 2014: 1169-1173.
[30] PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ranking: bringing order to the Web[R]. Stanford InfoLab, 1999.
[31] KLEINBERG J M, KUMAR R, RAGHAVAN P, et al. The Web as a graph: measurements, models, and methods[C]//International Computing and Combinatorics Conference, 1999: 1-17.
[32] MIHALCEA R. Graph-based ranking algorithms for sentence extraction, applied to text summarization[C]//Proceedings of the ACL 2004 on Interactive Poster And Demonstration Sessions. Association for Computational Linguistics, 2004: 20.
[33] WAN X, XIAO J. Single document keyphrase extraction using neighborhood knowledge[C]//AAAI. 2008, 8: 855-860.
[34] GOLLAPALLI S D, CARAGEA C. Extracting keyphrases from research papers using citation networks[C]//AAAI. 2014: 1629-1635.
[35] KHAN A, SALIM N, FARMAN H, et al. Abstractive text summarization based on improved semantic graph approach[J]. International Journal of Parallel Programming, 2018: 1-25.
[36] AL-KHASSAWNEH Y A, SALIM N, JARRAH M. Improving triangle-graph based text summarization using hybrid similarity function[J]. Indian Journal of Science and Technology, 2017, 10(8).
[37] WEI F, LI W, LU Q, et al. A document-sensitive graph model for multi-document summarization[J]. Knowledge and Information Systems, 2010, 22(2): 245-259.
[38] GE S S, ZHANG Z, HE H. Weighted graph model based sentence clustering and ranking for document summarization[C]// 2011 4th International Conference on Interaction Sciences (ICIS). 2011: 90-95.
[39] NGUYEN-HOANG T A, NGUYEN K, TRAN Q V. TSGVi: a graph-based summarization system for Vietnamese documents[J]. Journal of Ambient Intelligence and Humanized Computing, 2012, 3(4): 305-313.
[40] 耿煥同, 蔡慶生, 趙鵬, 等. 一種基于詞共現(xiàn)圖的文檔自動摘要研究[J]. 情報學報, 2005, 24(6): 652.
GENG H T, CAI Q S, ZHAO P, et al. Research on document automatic summarization based on word co-occurrence[J]. Journal of the China Society for Scientific and Technical Information, 2005, 24(6): 652.
[41] SEHGAL S, KUMAR B, RAMPAL L, et al. A modification to graph based approach for extraction based automatic text summarization[M]//Progress in Advanced Computing and Intelligent Engineering. Singapore Springer Press, 2018: 373-378.
[42] YOUSEFI-AZAR M, HAMEY L. Text summarization using unsupervised deep learning[J]. Expert Systems with Applications, 2017, 68: 93-105.
[43] ARRAS L, HORN F, MONTAVON G, et al. What is relevant in a text document? an interpretable machine learning approach[J]. PloS one, 2017, 12(8): e0181142.
[44] THU H N T. An optimization text summarization method based on naive bayes and topic word for single syllable language[J]. Applied Mathematical Sciences, 2014, 8(3): 99-115.
[45] SILVA G, FERREIRA R, LINS R D, et al. Automatic text document summarization based on machine learning[C]//2015 ACM Symposium on Document Engineering. ACM, 2015: 191-194.
[46] NISHIKAWA H, ARITA K, TANAKA K, et al. Learning to generate coherent summary with discriminative hidden semi-markov model[C]//The 25th International Conference on Computational Linguistics: Technical Papers. 2014: 1648-1659.
[47] ALLAHYARI M, POURIYEH S, ASSEFI M, et al. A brief survey of text mining: classification, clustering and extraction techniques[J]. arXiv preprint arXiv:1707.02919, 2017.
[48] KUPIEC J, PEDERSEN J, CHEN F. A trainable document summarizer[C]//The 18th annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1995: 68-73.
[49] CONROY J M, O'LEARY D P. Text summarization via hidden markov models[C]//The 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2001: 406-407.
[50] LIN C Y. Training a selection function for extraction[C]//The Eighth International Conference on Information and Knowledge Management. ACM, 1999: 55-62.
[51] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[52] MRK?I? N, VULI? I, SéAGHDHA D ó, et al. Semantic specialisation of distributional word vector spaces using monolingual and cross-lingual constraints[J]. arXiv preprint arXiv:1706.00374, 2017.
[53] XIONG Z, SHEN Q, WANG Y, et al. Paragraph vector representation based on word to vector and CNN learning[J]. CMC: Computers, Materials & Continua, 22018, 55(2): 213-227.
[54] WANG X, ZHANG H, LIU Y. Sentence vector model based on implicit word vector expression[J]. IEEE Access, 2018, 6: 17455-17463.
[55] SUTSKEVER I, VINYALS O, Le Q V. Sequence to sequence learning with neural networks[C]//Advances in neural information processing systems. 2014: 3104-3112.
[56] NALLAPATI R, XIANG B, ZHOU B. Sequence-to-sequence rnns for text summarization[J]. arXiv preprint arXiv: 1602.06023v1, 2016.
[57] RUSH A M, CHOPRA S, WESTON J. A neural attention model for abstractive sentence summarization[J]. arXiv preprint arXiv: 1509. 00685, 2015.
[58] CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks[C]//The 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016: 93-98.
[59] NALLAPATI R, ZHOU B, GULCEHRE C, et al. Abstractive text summarization using sequence-to-sequence RNNS and beyond[J]. arXiv preprint arXiv:1602.06023v5, 2016.
[60] CAO Z, LI W, LI S, et al. Attsum: Joint learning of focusing and summarization with neural attention[J]. arXiv preprint arXiv:1604. 00125, 2016.
[61] SEE A, LIU P J, Manning C D. Get to the point: summarization with pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.
[62] ABADI M, BARHAM P, CHEN J, et al. TensorFlow: a system for large-scale machine learning[C]//OSDI. 2016: 265-283.
[63] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Advances in Neural Information Processing Systems. 2014: 3104-3112.
[64] GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning[J]. arXiv preprint arXiv:1705.03122, 2017.
[65] LIU L, LU Y, YANG M, et al. Generative adversarial network for abstractive text summarization[J]. arXiv preprint arXiv:1711. 09357, 2017.
[66] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680.
[67] TAN J, WAN X, XIAO J. Abstractive document summarization with a graph-based attentional neural model[C]//The 55th Annual Meeting of the Association for Computational Linguistics. 2017: 1171-1181.
[68] MIHALCEA R, TARAU P. Textrank: bringing order into text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004.
[69] ERKAN G, RADEV D R. Lexrank: graph-based lexical centrality as salience in text summarization[J]. Journal of Artificial Intelligence Research, 2004, 22: 457-479.
Research progress and trend of text summarization
MING Tuosiyu, CHEN Hongchang
National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China
With the explosive growth of information on the Internet, how to extract useful information from massive information has become a key technical issue. The text summarization technology can compress and extract refined and concise document information from big data, effectively reducing the user information overload problem, and it has become a research hotspot. The domestic and foreign text summarization methods and their concrete realization in recent years were analyzed, the advantages and disadvantages between traditional methods and deep learning summary methods were compared, and a reasonable outlook for future research directions was made.
big data, text summarization, machine learning,traditional methods, deep learning
TP393
A
10.11959/j.issn.2096-109x.2018048
2018-05-02;
2018-06-01
明拓思宇,1139446336@qq.com
國家自然科學基金青年科學資助項目(No.61601513)
The National Natural Science Foundation of Youth Science (No.61601513)
明拓思宇(1994-),男,湖南長沙人,國家數(shù)字交換系統(tǒng)工程技術研究中心碩士生,主要研究方向為文本摘要。

陳鴻昶(1964-),男,河南鄭州人,國家數(shù)字交換系統(tǒng)工程技術研究中心教授、博士生導師,主要研究方向為電信網(wǎng)信息安全。