999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新型的自動摘要冗余處理技術(shù)研究

2014-04-29 11:19:37唐亞娟張德賢楊琳
中國新通信 2014年14期

唐亞娟 張德賢 楊琳

【摘要】 文本自動摘要技術(shù)目前已經(jīng)成為計算機語言學領(lǐng)域的一個研究熱點。本文討論了自動摘要的定義和分類。針對自動文摘中主題句的冗余現(xiàn)象,提出了一種新型的自動摘要冗余處理的方法。該方法將初始文摘中的句子表示成句鏈.根據(jù)任意文摘句中所有特征詞的激活水平、初始化水平、影響因子以及語句相干性公式,計算其與其它初始文摘中句子的相干性.去除相干性比較大的冗余句子,從而得到最終的自動摘要。

【關(guān)鍵詞】 自動摘要 冗余處理 語句相干性

【Abstract】 Automatic Text Summarization technology has become a hot topic in the field of computational linguistics. This article discusses the definition and classification of automatic summary. Againsting the redundancy of the topic sentences in automatic summary, it puts forward a new method of automatic summarization, which automatically processes prolixity. This method represents sentences in initial abstract into sentence chains. Calculate its initial coherence with other sentences in initial abstract according to activation levels and initialization levels of all the feature words in every sentence in initial abstract, influence factor and statement coherence formula. Remove the sentences which have the relatively large coherence, thus get the final automatic summarization.

【Key words】 automatic text summarization prolixity processing Statement coherence

自動摘要就是利用計算機自動地從原始文獻中提取文摘,文摘是全面準確地反映某一文獻中心內(nèi)容地簡單連貫的短文。自動摘要技術(shù)作為一種典型的文本抽取技術(shù),是信息檢索、自然語言處理、文本挖掘等文檔信息處理技術(shù)的有益補充。通過自動文摘系統(tǒng)生成的主題句,并不一定能作為最終摘要提交給用戶。因為經(jīng)過自動摘要系統(tǒng)初步篩選出來的主題句,通常具有比較多的冗余信息。本文針對自動文摘中的主題句冗余現(xiàn)象,提出了一種新型的自動摘要冗余處理的方法。

一、相關(guān)工作

1.1 文本的自動摘要方法

(1)基于統(tǒng)計的自動摘要

基于統(tǒng)計的自動摘要方法,即基于文本物理信息(文本中的詞語出現(xiàn)頻率、詞語出現(xiàn)位置以及句子出現(xiàn)位置等文本表層信息)分析的自動摘要方法,是一種將詞語視為句子的線性序列,將句子視為文本的線性序列的方法。此方法步驟如下圖(圖1)所示:

計算詞權(quán)、句權(quán)、選擇文摘句的依據(jù)是文本的六種形式特征[2]:F詞頻(Frequency):一般情況下,中頻詞往往是指示文章主題的有效詞,根據(jù)句子中有效詞的個數(shù)計算句子的權(quán)值。T標題(Title):即作者給出的提示文章內(nèi)容的短語。借助停用詞詞表,去除標題中的功能詞和只具有一般意義的名詞,剩余的詞和文章內(nèi)容往往有密切的聯(lián)系,可以作為有效詞。L位置(Location):在文本信息中處于特殊位置(首段、末段、段首、段尾等)的句子的權(quán)值應(yīng)該提升。S句法結(jié)構(gòu)(Syntactic Structure):句式與句子重要性之間存在關(guān)聯(lián),例如,文摘句多為陳述句,疑問句、反問句、感嘆句等不能作為文摘句。C線索詞(Clue):句子中有些詞或者短語雖然不是有效詞,但是它們能起提示作用,告知讀者此句含有重要信息,例如“總的來說”、“綜上所述”等。

I指示性短語[3](Indicative Phrase):指具有主題的詞組,例如“我們認為”、“本文提出”等。

上述各種特征從不同角度指示文章的主題,應(yīng)該將它們有機結(jié)合起來,以W=f(F,T,L,S,C,I)作為計算句子權(quán)重的公式。

(2)基于理解的自動摘要

基于理解的自動摘要[4]以自然語言理解技術(shù)為核心。對于某一特定領(lǐng)域的文章,利用利用語言學手段識別出讀者感興趣的內(nèi)容,用話語加以組織,從而形成文摘。此方法步驟如下圖(圖2)所示:

(3)基于信息抽取的自動摘要

基于信息抽取的自動摘要[5]僅對有用的文本片段進行有限深度的分析。首先識別出文檔中的時間、地點、人物和事件等基本實體,并將之套用在事先定義好的模板或者框架中,接著經(jīng)由這些知識表示模型的推演得知文章內(nèi)容的主題,最終用模板生成摘要。在知識表示的選擇上,相對于不同領(lǐng)域、不同類型的文章,采用不同的知識表示模型表示文檔。此方法步驟如下圖(圖3)所示:

二、基于語句相干性的自動摘要冗余處理

2.1 基本思想

首先對網(wǎng)頁過濾后的文本首先進行分詞,根據(jù)句子中詞語的重要性以及句子的位置,抽取文本的初始文摘句,將初始文摘中的句子表示成句鏈,根據(jù)任意文摘句中所有特征詞的激活水平和初始化水平以及語句相干性公式,計算其與其它初始文摘中句子的相干性,去除相干性比較大的冗余句子,從而得到最終的自動摘要。

2.2 算法描述

算法:基于相干性的文本摘要的自動生成

輸入:一篇待提取摘要的文本;初始文摘占原文本的百分比;最終生成摘要的最小長度閾值

輸出:生成的摘要

(1)對輸入的待處理文本進行預處理。將文本內(nèi)容切分成若干段落和句子,過濾掉無用鏈接,圖片信息以及不可能成為摘要句的反問句,感嘆句或者疑問句等語句。(2)統(tǒng)計抽取出來的預處理后的文本長度,對文本進行切詞處理和特征選擇,計算詞權(quán),根據(jù)詞權(quán)由高到低抽取若干詞語作為特征詞。(3)根據(jù)特征詞詞權(quán)、標題特征詞、提示詞、指示性短語、句子所處位置等信息計算句權(quán),將文本句子按照句權(quán)權(quán)值高低排序,根據(jù)初始文摘占原文本的百分比要求,選取權(quán)值最高的若干句子作為初始文摘句。(4)根據(jù)相干性公式,計算任意兩個初始文摘句的相干性,刪除相干性高的冗余句,直到文摘長度低于最終摘要的最小長度閾值,最后進行潤色,從而得到原文本的最終摘要。

三、結(jié)束語

本文介紹了文本自動摘要定義及其分類,并且根據(jù)語句相干性,針對初始文摘提出了一種新型的自動摘要冗余處理的方法。該方法對自動摘要中基于詞語共現(xiàn)的信息冗余處理提出了一個新思路,希望對這方面的深入研究做出一點貢獻。在下一步的工作中,將對此方法的完善做進一步的研究。

參考文獻

[1] 江開忠,李子成,顧君忠.自動文本摘要方法[J].計算機工程,2008,34(1):221 -223

[2] 劉挺,王開鑄.自動文摘的四種主要方法.情報學報 1999(1)

[3] Mathis B A, Rush J E. Abstracting encyclopedia of computer and technology [M]. New York: Marcel Dekker Inc,1975:102 -142

[4] 崔長利,李輝,劉楨祥.自動文摘技術(shù)的原理與應(yīng)用.黑龍江電子技術(shù).1999(17):7-9)

[5] 譚翀,陳躍新.自動摘要方法綜述.情報學報.2008(2)

[6] D. Shahaf and C. Guestrin. Connecting the dots between news articles. In Knowledge Discovery and Data Mining07,2010

主站蜘蛛池模板: 永久在线播放| 久精品色妇丰满人妻| 欧美成人精品高清在线下载| 国产肉感大码AV无码| 91福利在线观看视频| 波多野吉衣一区二区三区av| 国产又爽又黄无遮挡免费观看| 精品国产电影久久九九| 国产免费观看av大片的网站| 久久熟女AV| 亚洲熟女偷拍| 五月天久久婷婷| 亚洲成人在线免费| 91原创视频在线| 五月天丁香婷婷综合久久| 国产91在线|中文| 成人在线观看一区| 亚洲一区二区三区中文字幕5566| 久久伊人操| 国产黄在线观看| 国产无人区一区二区三区| 亚洲精品免费网站| 日韩在线成年视频人网站观看| 精品人妻AV区| 青青国产视频| 色哟哟国产精品| 日韩国产另类| 内射人妻无码色AV天堂| 国产精品无码一二三视频| 性做久久久久久久免费看| 久久精品一卡日本电影| 国产精品久久精品| 五月婷婷中文字幕| 玖玖精品视频在线观看| Jizz国产色系免费| 18禁黄无遮挡免费动漫网站| 亚洲国产综合自在线另类| 99精品这里只有精品高清视频| 亚洲男女天堂| 日韩高清一区 | 免费A级毛片无码免费视频| 91无码视频在线观看| 91视频首页| 久久久久久久久久国产精品| 亚洲欧美一区二区三区麻豆| 午夜久久影院| 国产又爽又黄无遮挡免费观看| 国产真实乱人视频| 亚洲色精品国产一区二区三区| 亚洲第一区在线| 亚洲美女AV免费一区| 91精品国产自产91精品资源| 亚洲欧美另类久久久精品播放的| 国产精品林美惠子在线播放| 人妻丰满熟妇AV无码区| 精品国产中文一级毛片在线看| 成人字幕网视频在线观看| 日韩精品欧美国产在线| 麻豆国产原创视频在线播放| 国产91久久久久久| 2021国产v亚洲v天堂无码| 99在线观看精品视频| 欧美成a人片在线观看| 日韩精品久久久久久久电影蜜臀| 中文字幕2区| 97在线免费| 九九久久精品免费观看| 四虎亚洲国产成人久久精品| 国产美女免费| 久久精品人人做人人爽电影蜜月| 萌白酱国产一区二区| 最新国产高清在线| 久久综合激情网| 亚洲男女天堂| 不卡无码网| 国产区在线观看视频| 性欧美在线| 亚洲欧美成人影院| 国产区免费| 手机在线国产精品| 国产制服丝袜无码视频| 日本高清成本人视频一区|