唐亞娟 張德賢 楊琳
【摘要】 文本自動摘要技術目前已經成為計算機語言學領域的一個研究熱點。本文討論了自動摘要的定義和分類。針對自動文摘中主題句的冗余現象,提出了一種新型的自動摘要冗余處理的方法。該方法將初始文摘中的句子表示成句鏈.根據任意文摘句中所有特征詞的激活水平、初始化水平、影響因子以及語句相干性公式,計算其與其它初始文摘中句子的相干性.去除相干性比較大的冗余句子,從而得到最終的自動摘要。
【關鍵詞】 自動摘要 冗余處理 語句相干性
【Abstract】 Automatic Text Summarization technology has become a hot topic in the field of computational linguistics. This article discusses the definition and classification of automatic summary. Againsting the redundancy of the topic sentences in automatic summary, it puts forward a new method of automatic summarization, which automatically processes prolixity. This method represents sentences in initial abstract into sentence chains. Calculate its initial coherence with other sentences in initial abstract according to activation levels and initialization levels of all the feature words in every sentence in initial abstract, influence factor and statement coherence formula. Remove the sentences which have the relatively large coherence, thus get the final automatic summarization.
【Key words】 automatic text summarization prolixity processing Statement coherence
自動摘要就是利用計算機自動地從原始文獻中提取文摘,文摘是全面準確地反映某一文獻中心內容地簡單連貫的短文。自動摘要技術作為一種典型的文本抽取技術,是信息檢索、自然語言處理、文本挖掘等文檔信息處理技術的有益補充。通過自動文摘系統生成的主題句,并不一定能作為最終摘要提交給用戶。因為經過自動摘要系統初步篩選出來的主題句,通常具有比較多的冗余信息。本文針對自動文摘中的主題句冗余現象,提出了一種新型的自動摘要冗余處理的方法。
一、相關工作
1.1 文本的自動摘要方法
(1)基于統計的自動摘要
基于統計的自動摘要方法,即基于文本物理信息(文本中的詞語出現頻率、詞語出現位置以及句子出現位置等文本表層信息)分析的自動摘要方法,是一種將詞語視為句子的線性序列,將句子視為文本的線性序列的方法。此方法步驟如下圖(圖1)所示:
計算詞權、句權、選擇文摘句的依據是文本的六種形式特征[2]:F詞頻(Frequency):一般情況下,中頻詞往往是指示文章主題的有效詞,根據句子中有效詞的個數計算句子的權值。T標題(Title):即作者給出的提示文章內容的短語。借助停用詞詞表,去除標題中的功能詞和只具有一般意義的名詞,剩余的詞和文章內容往往有密切的聯系,可以作為有效詞。L位置(Location):在文本信息中處于特殊位置(首段、末段、段首、段尾等)的句子的權值應該提升。S句法結構(Syntactic Structure):句式與句子重要性之間存在關聯,例如,文摘句多為陳述句,疑問句、反問句、感嘆句等不能作為文摘句。C線索詞(Clue):句子中有些詞或者短語雖然不是有效詞,但是它們能起提示作用,告知讀者此句含有重要信息,例如“總的來說”、“綜上所述”等。
I指示性短語[3](Indicative Phrase):指具有主題的詞組,例如“我們認為”、“本文提出”等。
上述各種特征從不同角度指示文章的主題,應該將它們有機結合起來,以W=f(F,T,L,S,C,I)作為計算句子權重的公式。
(2)基于理解的自動摘要
基于理解的自動摘要[4]以自然語言理解技術為核心。對于某一特定領域的文章,利用利用語言學手段識別出讀者感興趣的內容,用話語加以組織,從而形成文摘。此方法步驟如下圖(圖2)所示:
(3)基于信息抽取的自動摘要
基于信息抽取的自動摘要[5]僅對有用的文本片段進行有限深度的分析。首先識別出文檔中的時間、地點、人物和事件等基本實體,并將之套用在事先定義好的模板或者框架中,接著經由這些知識表示模型的推演得知文章內容的主題,最終用模板生成摘要。在知識表示的選擇上,相對于不同領域、不同類型的文章,采用不同的知識表示模型表示文檔。此方法步驟如下圖(圖3)所示:
二、基于語句相干性的自動摘要冗余處理
2.1 基本思想
首先對網頁過濾后的文本首先進行分詞,根據句子中詞語的重要性以及句子的位置,抽取文本的初始文摘句,將初始文摘中的句子表示成句鏈,根據任意文摘句中所有特征詞的激活水平和初始化水平以及語句相干性公式,計算其與其它初始文摘中句子的相干性,去除相干性比較大的冗余句子,從而得到最終的自動摘要。
2.2 算法描述
算法:基于相干性的文本摘要的自動生成
輸入:一篇待提取摘要的文本;初始文摘占原文本的百分比;最終生成摘要的最小長度閾值
輸出:生成的摘要
(1)對輸入的待處理文本進行預處理。將文本內容切分成若干段落和句子,過濾掉無用鏈接,圖片信息以及不可能成為摘要句的反問句,感嘆句或者疑問句等語句。(2)統計抽取出來的預處理后的文本長度,對文本進行切詞處理和特征選擇,計算詞權,根據詞權由高到低抽取若干詞語作為特征詞。(3)根據特征詞詞權、標題特征詞、提示詞、指示性短語、句子所處位置等信息計算句權,將文本句子按照句權權值高低排序,根據初始文摘占原文本的百分比要求,選取權值最高的若干句子作為初始文摘句。(4)根據相干性公式,計算任意兩個初始文摘句的相干性,刪除相干性高的冗余句,直到文摘長度低于最終摘要的最小長度閾值,最后進行潤色,從而得到原文本的最終摘要。
三、結束語
本文介紹了文本自動摘要定義及其分類,并且根據語句相干性,針對初始文摘提出了一種新型的自動摘要冗余處理的方法。該方法對自動摘要中基于詞語共現的信息冗余處理提出了一個新思路,希望對這方面的深入研究做出一點貢獻。在下一步的工作中,將對此方法的完善做進一步的研究。
參考文獻
[1] 江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221 -223
[2] 劉挺,王開鑄.自動文摘的四種主要方法.情報學報 1999(1)
[3] Mathis B A, Rush J E. Abstracting encyclopedia of computer and technology [M]. New York: Marcel Dekker Inc,1975:102 -142
[4] 崔長利,李輝,劉楨祥.自動文摘技術的原理與應用.黑龍江電子技術.1999(17):7-9)
[5] 譚翀,陳躍新.自動摘要方法綜述.情報學報.2008(2)
[6] D. Shahaf and C. Guestrin. Connecting the dots between news articles. In Knowledge Discovery and Data Mining07,2010