999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于訓(xùn)練集的自動文摘方法的研究

2011-12-27 08:54:22程傳鵬
中原工學(xué)院學(xué)報 2011年1期
關(guān)鍵詞:方法

程傳鵬

(中原工學(xué)院,鄭州 450007)

基于訓(xùn)練集的自動文摘方法的研究

程傳鵬

(中原工學(xué)院,鄭州 450007)

提出了一種基于訓(xùn)練集的自動文摘方法.依據(jù)訓(xùn)練集所產(chǎn)生的主題詞,設(shè)計出一種新的段落加權(quán)公式和一種新的句子重要性加權(quán)公式,將生成的主題句消除冗余后得到文摘.測試結(jié)果表明,該方法具有一定的實用性.

訓(xùn)練集;主題詞;主題句;自動文摘

自動文摘就是利用計算機從文檔中提取盡可能少的句子,要求這些句子語意連貫,并且能夠最大限度地體現(xiàn)原文檔所要表達的中心思想.隨著Internet的迅猛發(fā)展以及無紙化辦公的普及,各種格式的電子文件大量涌現(xiàn).從這些電子文檔中迅速、準(zhǔn)確地進行自動文摘,已經(jīng)成為一項重要的研究課題.目前,自動文摘的方法大體上可以分為2類:基于統(tǒng)計的機械文摘方法和基于理解的文摘方法[1].前者主要是簡單的對詞頻(詞條在全文中所出現(xiàn)的次數(shù))進行統(tǒng)計,依照詞頻來確定主題詞,主題句的產(chǎn)生也只是依賴所包含主題詞的數(shù)量的多少.它的優(yōu)點是實現(xiàn)簡單,文摘效率較高,但得到的文摘往往不能很好地體現(xiàn)原始文檔的中心思想.后者則是利用人工智能技術(shù),特別是自然語言理解技術(shù)為核心,在對文本進行語法結(jié)構(gòu)分析的同時,利用領(lǐng)域知識對文本的語義進行分析,通過判斷推理,得出文摘句的語義描述,根據(jù)語義描述自動生成摘要.這種方法雖然一定程度上彌補了機械文摘的不足,提高了文摘的質(zhì)量,但需要構(gòu)建復(fù)雜的推理規(guī)則,文摘生成過程所耗時間長,實時性能低劣.

文摘的質(zhì)量固然重要,但低劣的實時性也是不能接受的.基于此,本文提出了一種基于訓(xùn)練集的自動文摘方法,首先對自動文摘中主題詞的選擇、主題句的產(chǎn)生、文摘的生成等關(guān)鍵技術(shù)進行了研究與分析.在此基礎(chǔ)上,設(shè)計出了一個自動文摘原型系統(tǒng),最后對該方法進行了實驗和評價.

1 關(guān)鍵技術(shù)分析

自動文摘從原始文檔中提取最精簡、最能體現(xiàn)原始文檔意思的語句,文摘的優(yōu)劣跟主題詞的選擇、主題句的選擇以及自動文摘息息相關(guān).下面對這些關(guān)鍵技術(shù)進行介紹.

1.1 主題詞的選擇

本文中,主題詞的界定參照了文檔分類中特征提取的方法,通過分詞后的文檔詞匯,數(shù)量是相當(dāng)大的,原始的特征空間可能由出現(xiàn)在文章中的全部詞條構(gòu)成.而中文的詞條總數(shù)有二十多萬條,這樣高維的特征空間對于幾乎所有的分類算法來說都偏大[2].為了提高分類的效率和精度,在分類之前必須進行特征抽取來剔除那些表現(xiàn)力不強的詞匯.在主題詞的選擇過程中,給出如下的定義:

定義1訓(xùn)練集:由專家系統(tǒng)篩選出來的,具有某相近主題的文檔集合.本文用S來表示訓(xùn)練集.

定義2主題詞:最能代表訓(xùn)練集的一些詞條.本文用T來表示主題詞.

定義3主題詞權(quán)重:主題詞Ti在文檔中的重要程度.本文用TWi來表示第i個主題詞權(quán)重.

符號定義:

A:包含詞條t且屬于類別c的文檔頻數(shù).

B:包含t但是不屬于c的文檔頻數(shù).

C:屬于c但是不包含t的文檔頻數(shù).

N:語料中文檔總數(shù).

有了上面的定義后,主題詞的選擇步驟如下:

(1)對訓(xùn)練集中所有的文檔進行分詞,分詞后得到的詞條,都作為候選主題詞.

(2)采用互信息的方法選取主題詞.互信息是信息論中的概念,它用于度量一個消息中2個信號之間的相互依賴程度[3].對于每個候選主題詞,計算候選主題詞t和訓(xùn)練集類c的互信息量:

式中:I(t,c)表示候選主題詞和類別c之間的互信息量;P(t^c)表示候選主題詞t和類別c同時出現(xiàn)的概率;p(t)表示候選主題詞t出現(xiàn)的概率;p(c)表示類別c出現(xiàn)的概率;p(t|c)表示類別c里出現(xiàn)候選主題詞的概率.

(3)對訓(xùn)練集中的所有候選主題詞,依據(jù)上面計算的互信息量進行排序.

(4)依據(jù)詞的互信息量大小,抽取一定數(shù)量的詞作為主題詞.

1.2 段落權(quán)重計算以及主題句選擇

同一篇文章中,不同的段落,具有不同的重要程度,段落中所包含的主題詞數(shù)量、段落的長度,都決定著段落在整篇文檔中的重要性.此外,經(jīng)過對大量文檔的觀察,我們發(fā)現(xiàn),一個句子是否能夠成為主題句,不僅與句子所在的段落的重要性有關(guān),而且和句子的長度(SL)、句子在段落中的位置(SP)以及句子中所包含的主題詞個數(shù)(f)有著密切的聯(lián)系.

在主題句的選擇過程中給出如下的定義:

定義4段落:是按照中文習(xí)慣所形成的語言段落.本文用P來表示段落.

定義5段落權(quán)重:一個段落在整篇文檔中的重要程度.本文用PW來表示段落權(quán)重.

定義6句子:按照中文標(biāo)點符號分割成的,由字、詞、詞組所組成的語言單位.本文用S來表示句子.

定義7句子權(quán)重:句子在整篇文檔中的重要程度.本文用SW來表示句子權(quán)重.

主題句產(chǎn)生的步驟如下:

(1)對用戶提交的待摘要文檔進行段落劃分,形成段落集{P1,P2,P3…Pi…Pn}.

(2)對段落Pi進行中文分詞,計算每個段落的權(quán)重.計算公式如下:

式中:WTi為段落中出現(xiàn)的主題詞的權(quán)重;fi為該主題詞在段落中出現(xiàn)的頻率;PLi為段落的長度;DL為整篇文檔的長度.

(3)計算句子SWi的權(quán)重.計算公式如下:

式中:PW為主題詞所在段落的權(quán)重;fi為該主題詞在段落中出現(xiàn)的頻率;SL為段落的長度;PL為主題詞所在段落的長度.

(4)對所有句子,依照權(quán)重大小進行排序,選擇權(quán)重最大的N個句子作為主題句.N的大小跟生成的文摘長度有關(guān).

1.3 文摘的生成

自動文摘應(yīng)該以盡可能少的文字,最大程度地體現(xiàn)原文所表達的意思.通過以上2個步驟所得到的主題句,并不能完全作為文摘提交給用戶.因為經(jīng)過系統(tǒng)初步篩選出的主題句,往往具有較多的冗余信息.常見的冗余信息有以下3種:

(1)語意相似.比如下面2個語意相似的句子:①吳文俊老師在拓?fù)鋵W(xué)領(lǐng)域取得了豐碩的成果;②吳文俊老師在拓?fù)鋵W(xué)方面獲得了驕人的成就.(2)同一主語.除了語意相似產(chǎn)生的信息冗余外,相鄰主題句如果主語相同,也會產(chǎn)生文摘的信息冗余.比如下面2個句子:

①吳文俊是著名的數(shù)學(xué)家,他的研究工作涉及到數(shù)學(xué)的諸多領(lǐng)域;

②吳文俊的主要成就表現(xiàn)在拓?fù)鋵W(xué)和數(shù)學(xué)機械化2個領(lǐng)域.

(3)過渡性詞語.在主題句里,有時會出現(xiàn)一些承上啟下的連詞或者轉(zhuǎn)折詞,這些詞條對文摘沒有任何意義,只是在原文中起到一種過渡的作用.比如:“因為”,“也就是說”,“對我來說”.

基于以上原因,我們還要對主題句經(jīng)過相似度比較并且對主題句進行壓縮,對于語意相似的句子,進行刪減;對于主語相同的相鄰主題句,保留一個主語;對于過渡性詞語,在分詞時利用停止詞表進行剔除.對主題句經(jīng)過上面步驟處理后,按照主題句在原文中的順序進行輸出,最終產(chǎn)生較為理想的文摘.

2 系統(tǒng)實現(xiàn)

在上述分析的基礎(chǔ)上,我們采用VC++6.0開發(fā)平臺,設(shè)計出了一個自動文摘系統(tǒng)原型.本系統(tǒng)包含主題詞生成模塊、文摘生成模塊、用戶接口模塊.系統(tǒng)結(jié)構(gòu)圖如圖1所示.

圖1 自動文摘系統(tǒng)模型

下面對系統(tǒng)中各模塊作簡要介紹:

(1)主題詞生成模塊.從詞典數(shù)據(jù)庫里讀出詞條,按照漢字的 GBK編碼在機器內(nèi)存中建立詞典.從網(wǎng)頁庫里依次讀出所有的主題網(wǎng)頁,按照最大匹配法的分詞方法(未登錄詞的識別按照統(tǒng)計的方法)對網(wǎng)頁進行分詞.對分詞得到的所有詞條去掉停止詞后,進行特征提取,提取出最能表現(xiàn)該領(lǐng)域主題的特征詞,即主題詞.

(2)文摘生成模塊.其功能是將對用戶提交的文檔進行段落劃分,計算段落的權(quán)重,依照詞條的權(quán)重以及主題詞所在段落的權(quán)重,確定一個句子是否能成為主題句.對主題句進行冗余信息消除后,生成文摘.

(3)用戶接口模塊.該模塊為用戶提供可視化的查詢輸入和結(jié)果輸出界面.在輸入界面中,用戶可以提交待摘取的文檔.在輸出界面中,系統(tǒng)提交給用戶較為理想的文摘.

3 實驗結(jié)果及分析

目前,還沒有一種很好的自動文摘的評價方法,我們采用了文獻[4]所提到的一種評價指標(biāo):主題覆蓋度,即原文中的主題內(nèi)容被文摘句所覆蓋的百分比.主題覆蓋度的值可通過多個人工專家分別打分,所取得分的平均值來確定.這里假設(shè)人工專家主題覆蓋度為100%,經(jīng)過實驗形成如表1所示的數(shù)據(jù).

表1 實驗結(jié)果

從表1可以看出,本文中的方法在時間性能上要優(yōu)于基于理解的方法,而在主題覆蓋度上又優(yōu)于機械統(tǒng)計的方法.因此,本文中所提出的方法,在提高了文摘主題覆蓋度的同時,又兼顧了時間性能,具有一定的實用性.

4 結(jié) 語

隨著互聯(lián)網(wǎng)的迅猛發(fā)展以及無紙化辦公的普及,會涌現(xiàn)出大量的電子文檔,如何快速準(zhǔn)確地從繁多的文檔中提取“主題思想”,已經(jīng)成為自動文摘需要迫切解決的一個課題.本文提出了一種基于訓(xùn)練集的文摘自動生成方法,實驗結(jié)果表明,該方法所產(chǎn)生的主題句能夠較好地體現(xiàn)原始文檔的中心思想,能較全面地表達原文檔的內(nèi)容.該系統(tǒng)生成的文摘,比較適合一些對文摘實時性要求較高,但對文摘質(zhì)量不是過于苛刻的場合.

[1]傅間蓮,陳群秀.基于規(guī)則和統(tǒng)計的中文自動文摘系統(tǒng)[J].中文信息學(xué)報,2006,20(5):10-16.

[2]代六玲.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報,2004,24(1):26-32.

[3]李粵,李星,劉輝,等.一種改進的文本網(wǎng)頁分類特征選擇方法[J].計算機應(yīng)用,2004,24(7):119-121.

[4]胡拍,何婷婷,姬東鴻.基于主題區(qū)域發(fā)現(xiàn)的中文自動文摘研[J].計算機應(yīng)用,2005,32(1):177-181.

Research of Automatic Abstraction Method Based on Training Set

This paper p roposes a method of automatic abstraction based on training set.Keyword is p roduced acco rding to training set,and a new paragraph w eighting fo rmula and a new sentence impo rtance w eight formula are designed.Abstraction obtained through the elimination of redundant topic sentence.Experiments show that the system has a certain utility.

training set;topic words;topic sentence;automatic abstraction

CHENG Chuan-peng
(Zhongyuan University of Technology,Zhengzhou 450007,China)

TP391.1

A

10.3969/j.issn.1671-6906.2011.01.017

1671-6906(2011)01-0062-04

2011-01-03

程傳鵬(1977-),男,河南鄭州人,講師,碩士.

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国内精品小视频福利网址| 亚洲免费播放| 视频二区亚洲精品| 在线免费观看a视频| 亚洲婷婷丁香| 99尹人香蕉国产免费天天拍| 精品无码一区二区三区电影| 日韩精品亚洲人旧成在线| 自拍偷拍欧美日韩| 亚洲AV无码不卡无码| 国产成人高清在线精品| 久久精品女人天堂aaa| 日韩成人在线视频| 亚洲人成网址| 午夜高清国产拍精品| 无码中文AⅤ在线观看| 欧美专区在线观看| 亚洲第一黄片大全| 国产精女同一区二区三区久| 亚洲高清国产拍精品26u| 992tv国产人成在线观看| 国产三级国产精品国产普男人 | 国产亚洲精品在天天在线麻豆| 青青操视频在线| 久久综合久久鬼| 天天躁夜夜躁狠狠躁图片| 色妞永久免费视频| 大学生久久香蕉国产线观看| 宅男噜噜噜66国产在线观看| 日韩无码黄色| 亚洲中文字幕无码mv| 日韩精品久久无码中文字幕色欲| 成人亚洲国产| 日韩第九页| 欧美亚洲国产日韩电影在线| 午夜a级毛片| 99热国产这里只有精品无卡顿" | 日本国产在线| 国产乱码精品一区二区三区中文| 国产免费人成视频网| 美女黄网十八禁免费看| 亚洲成人免费在线| 日韩精品一区二区三区视频免费看| 尤物视频一区| 久久精品国产免费观看频道| 丁香六月激情综合| 国内老司机精品视频在线播出| 亚洲小视频网站| 国产在线八区| 免费a在线观看播放| 免费国产不卡午夜福在线观看| 久久国产精品电影| 国产香蕉97碰碰视频VA碰碰看| 狠狠干综合| 男女精品视频| 欧美笫一页| 亚洲色欲色欲www网| 亚洲国模精品一区| 国产成人精品视频一区视频二区| 日本一区二区三区精品视频| 4虎影视国产在线观看精品| 国产永久无码观看在线| 超碰精品无码一区二区| 日本亚洲成高清一区二区三区| 国产微拍精品| 亚洲三级a| 亚洲精品午夜无码电影网| 亚洲国产中文精品va在线播放| 日韩久草视频| 亚洲天堂视频网站| 国产va在线| 97免费在线观看视频| 国产jizz| 免费看a级毛片| 日韩福利视频导航| 日韩国产综合精选| 中文字幕乱妇无码AV在线| 久久久久久高潮白浆| 中文字幕人妻无码系列第三区| 亚洲无码91视频| 亚洲第一成年网| 69精品在线观看|