999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新型的自動摘要冗余處理技術研究

2014-04-29 11:19:37唐亞娟張德賢楊琳
中國新通信 2014年14期

唐亞娟 張德賢 楊琳

【摘要】 文本自動摘要技術目前已經成為計算機語言學領域的一個研究熱點。本文討論了自動摘要的定義和分類。針對自動文摘中主題句的冗余現象,提出了一種新型的自動摘要冗余處理的方法。該方法將初始文摘中的句子表示成句鏈.根據任意文摘句中所有特征詞的激活水平、初始化水平、影響因子以及語句相干性公式,計算其與其它初始文摘中句子的相干性.去除相干性比較大的冗余句子,從而得到最終的自動摘要。

【關鍵詞】 自動摘要 冗余處理 語句相干性

【Abstract】 Automatic Text Summarization technology has become a hot topic in the field of computational linguistics. This article discusses the definition and classification of automatic summary. Againsting the redundancy of the topic sentences in automatic summary, it puts forward a new method of automatic summarization, which automatically processes prolixity. This method represents sentences in initial abstract into sentence chains. Calculate its initial coherence with other sentences in initial abstract according to activation levels and initialization levels of all the feature words in every sentence in initial abstract, influence factor and statement coherence formula. Remove the sentences which have the relatively large coherence, thus get the final automatic summarization.

【Key words】 automatic text summarization prolixity processing Statement coherence

自動摘要就是利用計算機自動地從原始文獻中提取文摘,文摘是全面準確地反映某一文獻中心內容地簡單連貫的短文。自動摘要技術作為一種典型的文本抽取技術,是信息檢索、自然語言處理、文本挖掘等文檔信息處理技術的有益補充。通過自動文摘系統生成的主題句,并不一定能作為最終摘要提交給用戶。因為經過自動摘要系統初步篩選出來的主題句,通常具有比較多的冗余信息。本文針對自動文摘中的主題句冗余現象,提出了一種新型的自動摘要冗余處理的方法。

一、相關工作

1.1 文本的自動摘要方法

(1)基于統計的自動摘要

基于統計的自動摘要方法,即基于文本物理信息(文本中的詞語出現頻率、詞語出現位置以及句子出現位置等文本表層信息)分析的自動摘要方法,是一種將詞語視為句子的線性序列,將句子視為文本的線性序列的方法。此方法步驟如下圖(圖1)所示:

計算詞權、句權、選擇文摘句的依據是文本的六種形式特征[2]:F詞頻(Frequency):一般情況下,中頻詞往往是指示文章主題的有效詞,根據句子中有效詞的個數計算句子的權值。T標題(Title):即作者給出的提示文章內容的短語。借助停用詞詞表,去除標題中的功能詞和只具有一般意義的名詞,剩余的詞和文章內容往往有密切的聯系,可以作為有效詞。L位置(Location):在文本信息中處于特殊位置(首段、末段、段首、段尾等)的句子的權值應該提升。S句法結構(Syntactic Structure):句式與句子重要性之間存在關聯,例如,文摘句多為陳述句,疑問句、反問句、感嘆句等不能作為文摘句。C線索詞(Clue):句子中有些詞或者短語雖然不是有效詞,但是它們能起提示作用,告知讀者此句含有重要信息,例如“總的來說”、“綜上所述”等。

I指示性短語[3](Indicative Phrase):指具有主題的詞組,例如“我們認為”、“本文提出”等。

上述各種特征從不同角度指示文章的主題,應該將它們有機結合起來,以W=f(F,T,L,S,C,I)作為計算句子權重的公式。

(2)基于理解的自動摘要

基于理解的自動摘要[4]以自然語言理解技術為核心。對于某一特定領域的文章,利用利用語言學手段識別出讀者感興趣的內容,用話語加以組織,從而形成文摘。此方法步驟如下圖(圖2)所示:

(3)基于信息抽取的自動摘要

基于信息抽取的自動摘要[5]僅對有用的文本片段進行有限深度的分析。首先識別出文檔中的時間、地點、人物和事件等基本實體,并將之套用在事先定義好的模板或者框架中,接著經由這些知識表示模型的推演得知文章內容的主題,最終用模板生成摘要。在知識表示的選擇上,相對于不同領域、不同類型的文章,采用不同的知識表示模型表示文檔。此方法步驟如下圖(圖3)所示:

二、基于語句相干性的自動摘要冗余處理

2.1 基本思想

首先對網頁過濾后的文本首先進行分詞,根據句子中詞語的重要性以及句子的位置,抽取文本的初始文摘句,將初始文摘中的句子表示成句鏈,根據任意文摘句中所有特征詞的激活水平和初始化水平以及語句相干性公式,計算其與其它初始文摘中句子的相干性,去除相干性比較大的冗余句子,從而得到最終的自動摘要。

2.2 算法描述

算法:基于相干性的文本摘要的自動生成

輸入:一篇待提取摘要的文本;初始文摘占原文本的百分比;最終生成摘要的最小長度閾值

輸出:生成的摘要

(1)對輸入的待處理文本進行預處理。將文本內容切分成若干段落和句子,過濾掉無用鏈接,圖片信息以及不可能成為摘要句的反問句,感嘆句或者疑問句等語句。(2)統計抽取出來的預處理后的文本長度,對文本進行切詞處理和特征選擇,計算詞權,根據詞權由高到低抽取若干詞語作為特征詞。(3)根據特征詞詞權、標題特征詞、提示詞、指示性短語、句子所處位置等信息計算句權,將文本句子按照句權權值高低排序,根據初始文摘占原文本的百分比要求,選取權值最高的若干句子作為初始文摘句。(4)根據相干性公式,計算任意兩個初始文摘句的相干性,刪除相干性高的冗余句,直到文摘長度低于最終摘要的最小長度閾值,最后進行潤色,從而得到原文本的最終摘要。

三、結束語

本文介紹了文本自動摘要定義及其分類,并且根據語句相干性,針對初始文摘提出了一種新型的自動摘要冗余處理的方法。該方法對自動摘要中基于詞語共現的信息冗余處理提出了一個新思路,希望對這方面的深入研究做出一點貢獻。在下一步的工作中,將對此方法的完善做進一步的研究。

參考文獻

[1] 江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221 -223

[2] 劉挺,王開鑄.自動文摘的四種主要方法.情報學報 1999(1)

[3] Mathis B A, Rush J E. Abstracting encyclopedia of computer and technology [M]. New York: Marcel Dekker Inc,1975:102 -142

[4] 崔長利,李輝,劉楨祥.自動文摘技術的原理與應用.黑龍江電子技術.1999(17):7-9)

[5] 譚翀,陳躍新.自動摘要方法綜述.情報學報.2008(2)

[6] D. Shahaf and C. Guestrin. Connecting the dots between news articles. In Knowledge Discovery and Data Mining07,2010

主站蜘蛛池模板: 青草精品视频| 999精品视频在线| 91视频免费观看网站| 亚欧美国产综合| 久久中文电影| 成人午夜福利视频| 国产日韩欧美在线视频免费观看| 久久久久88色偷偷| 91色爱欧美精品www| 国内精品视频在线| 欧美一级黄色影院| 9久久伊人精品综合| 国产精品不卡片视频免费观看| 国产精品粉嫩| 67194成是人免费无码| 国产激情无码一区二区APP| 亚洲天堂网视频| 偷拍久久网| 91麻豆国产在线| 国产噜噜噜视频在线观看 | 色综合中文| 国产在线自乱拍播放| 久久综合丝袜长腿丝袜| 99视频只有精品| 午夜视频www| 色悠久久久| 亚洲精品国产自在现线最新| 免费在线观看av| vvvv98国产成人综合青青| 亚洲自拍另类| 亚洲欧美一区二区三区图片| 国产99精品久久| 色AV色 综合网站| yjizz视频最新网站在线| 免费又爽又刺激高潮网址 | 亚洲一区二区无码视频| 国产成人精品男人的天堂| 一本一道波多野结衣av黑人在线| 国产91麻豆免费观看| a毛片在线| 亚洲三级a| 伊人国产无码高清视频| 国产女人18毛片水真多1| 99视频在线观看免费| 在线播放精品一区二区啪视频 | 国产亚洲欧美在线专区| 国产情精品嫩草影院88av| 亚洲娇小与黑人巨大交| 亚洲欧美激情小说另类| 亚洲欧洲AV一区二区三区| 99手机在线视频| 亚洲综合色婷婷| 伊人成人在线| 成人亚洲天堂| 久久久久久久久久国产精品| 99久久性生片| 国产日韩欧美中文| 久操线在视频在线观看| 日本精品一在线观看视频| 国产成人久视频免费| 国产成人精品在线1区| 精品人妻一区无码视频| 亚洲人成在线精品| 精品亚洲欧美中文字幕在线看| 视频国产精品丝袜第一页| 成人综合网址| a级毛片免费网站| 亚洲中文字幕在线观看| 夜色爽爽影院18禁妓女影院| 久久久久亚洲av成人网人人软件| 亚洲精品波多野结衣| 九色最新网址| 高清国产va日韩亚洲免费午夜电影| 国模极品一区二区三区| 沈阳少妇高潮在线| 久久精品一品道久久精品| 喷潮白浆直流在线播放| 热re99久久精品国99热| 思思热在线视频精品| 欧美日韩国产高清一区二区三区| 亚洲欧洲日产国产无码AV| 国产精品网址在线观看你懂的|