999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多文檔自動文摘綜述

2016-07-13 07:58:07劉柏清
大科技 2016年36期
關鍵詞:文本信息方法

劉柏清

(河南省平頂山市魯山縣第一高級中學 467300)

多文檔自動文摘綜述

劉柏清

(河南省平頂山市魯山縣第一高級中學 467300)

隨著社會發展進入信息時代,海量信息的到來,自動文摘技術的誕生和發展為人們進行文獻處理提供了便利。本文主要介紹了自動文摘技術的誕生背景及多文檔自動文摘的定義,并就目前主要的多文檔自動文摘技術方法做了介紹和簡要分析。

多文檔自動文摘;自然語言處理;情報科學

當今信息時代的一大特點是信息爆炸,信息數量呈現指數級增長趨勢,但是噪聲和冗余信息也相應的增多。為了獲取有用的信息,對信息的進一步加工處理就尤為重要。如何讓用戶直接獲取同一主題下經過提煉和濃縮并能全面概括該主題下各方面主要信息的簡要信息,多文檔摘要成為解決這一困境的方法之一。

1 多文檔文摘的定義

多文檔集合是同一主題下不同文檔的集合,各文檔包含的信息雖然與主題相關但并不相同,其中也具有較多的重復信息和冗余信息。以多文檔集合為處理對象的自動文摘技術稱為多文檔自動文摘。其目的是將多文檔集合中重復和冗余的信息進行合理的凝練、整合和抽取,生成一篇能充分表達該主題的文摘,以方便用戶快速準確地獲取該文檔集合表達的主題信息。

相比較而言,多文檔集合的冗余信息更多,句子的時序和邏輯矛盾甚至是相反信息的處理更為復雜。但與單文檔自動文摘相似,多文檔自動文摘也需要對文本進行分析和理解。因此,可以利用單文檔自動文摘的方法對多文檔集合進行初步的聚類處理,然后將多文檔集合作為一個文本根據文本的形式特征,如詞頻、標題、位置、句法結構、提示詞、指示性短語等,抽取文本單元。換句話說,多文檔摘要技術可以看作是單文檔文摘技術的擴展。

2 研究現狀

多文檔自動文摘方法的研究最早在20世紀80年代開始,國內外相關的研究不勝枚舉,但基本沿襲了單文檔自動文摘,經歷幾十年的研究,按照摘要的生成方式大致可以分為以下兩類:

(1)抽取式,即摘要中的內容都是從原文中直接抽取現成的句子。此類方式下常用的方法有兩種:基于統計的自動文摘和基于結構的自動文摘。①基于統計的自動文摘此方法也稱自動摘錄,其核心思想是以處理線性序列的方式處理文本,即將文本視為句子的線性序列,將句子視為詞的線性序列。在處理過程中,首先對輸入到計算機的原始文本進行詞頻統計,并根據詞頻賦予詞一定的權重。然后根據句子中包含的詞的情況計算句子的權重。在確定句子的權重之后,對所有句子按照權值高低降序排列,選取權值較高的若干句子作為文摘句輸出,形成文摘;②基于結構的自動文摘又稱基于多文檔集合特征的自動文摘方法,即將多文檔集合作為一個整體進行研究,將其視為多文檔集合中句子的關聯網絡,按照句義進行聚類,然后從中抽取文摘句。

(2)生成式,即摘要中的內容并非全部來自原文,也包括原文中沒有出現的詞或句子。生成式的方法對自然語言處理技術要求非常高,此類方式下,目前常用的方法有兩種:基于理解的自動文摘和基于信息抽取的自動文摘。①基于理解的自動文摘是以自然語言處理技術為核心,借助一定的分析工具和方法,在對文本進行語法結構分析的同時,結合背景領域知識,通過一定的推理判斷,得到文摘句的語義描述,根據語義描述自動生成摘要。其中,最重要的環節包括語法分析、語義分析和句法分析,這種方法采用了復雜的自然語言理解和生成技術,對文獻意義把握更準確,因此生成的摘要更接近人工處理的摘要水平,質量較好,具有簡潔精練、全面準確、可讀性強等優點。但該方法需要對文章進行全面的分析,生成詳盡的語義表達,還需要事先表達和組織各種背景、領域知識,這對于大規模真實文本處理來說難度巨大。因此,目前這種方法的應用領域十分局限;②基于信息抽取的自動文摘是將自然語言處理技術與信息抽取技術結合,并基于人工制定的模板而實現的,相比于單純基于自然語言理解的自動文摘技術,基于信息抽取的自動文摘方法只需要對部分文本進行有限深度的分析,具有較高的效率和更強的靈活性。但是人工制定模板需要較大的人力,并且不易更新,僅適用于特定領域,不宜推廣,且利用模板生成的文摘語言千篇一律,十分呆板。目前該方法的發展方向是融合單文檔自動文摘技術,研究自動獲取模板的方法,但是這要求計算機進行較多的語料學習,且可以預見到該方法最終生成的文摘會存在較多的語法問題。

3 總結

從紛繁復雜的信息中提煉出有用的信息是一項極富挑戰性的工作。盡管單文檔文摘的研究已經進行了幾十年,但多文檔自動文摘技術目前還是一個相對較新的研究領域,對于該技術的研究,無論是對于文獻處理,還是搜索技術的發展,都具有重要意義。目前,學界主要的研究精力集中于對已有方法的細化和改進。但是也應看到,“自動文摘的研究是跨學科領域的,它的誕生源于情報科學發展的需要,它的發展受到語言學、人工智能、數學和邏輯學的影響。”多文檔自動文摘脫胎于自動文摘技術,因此與各學科的發展進步密不可分。而多文檔自動文摘技術的進步也將反哺各學科的發展。

[1]馬慧芳,祁云平,楊小東.一種基于文本關系圖的多文檔自動摘要技術[J].情報雜志,2007,26(3):67~69.

[2]劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進行句子抽取的多文檔自動摘要系統 SBGA[J].中文信息學報,2006,20(6):48~55.

[3]程娟.中文文檔自動摘要技術[D].山東大學,2006.

[4]秦 兵,劉 挺,李 生.多文檔自動文摘綜述[J].中文信息學報,2005,19(6):15~22,58.

[5]曹 洋,成 穎,裴 雷.基于機器學習的自動文摘研究綜述[J].圖書情報工作,2014,58(18):122~130.

TP391.1

A

1004-7344(2016)36-0268-01

2016-11-20

劉柏清(1999-),漢族,魯山一高高三學生,學習成績優異,愛好鉆研理工科類課題。

猜你喜歡
文本信息方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲美女久久| 97视频在线精品国自产拍| 午夜福利在线观看入口| 日韩无码黄色| 国产成人在线无码免费视频| 91九色视频网| 中文字幕在线观看日本| 久久国产黑丝袜视频| 好吊妞欧美视频免费| 国产综合网站| 久久男人资源站| 成年午夜精品久久精品| 一级毛片基地| 亚洲综合在线网| 国产麻豆永久视频| 午夜影院a级片| 亚洲国产天堂在线观看| 亚洲AV无码一区二区三区牲色| 伊人激情久久综合中文字幕| 久青草免费视频| 亚洲男人的天堂在线| 国产超薄肉色丝袜网站| 麻豆精选在线| 中文字幕亚洲另类天堂| 91久久偷偷做嫩草影院免费看| 中文字幕无线码一区| 亚洲欧美日韩中文字幕在线| 亚洲欧美不卡中文字幕| 国产精品自在在线午夜| 美女被操91视频| 青草91视频免费观看| 性色在线视频精品| 国产精品理论片| 亚洲天堂精品在线| 在线观看无码av五月花| 国产精品自拍合集| 伊人成人在线| 亚洲视频欧美不卡| 欧洲日本亚洲中文字幕| 亚洲av无码成人专区| A级全黄试看30分钟小视频| 国产白浆视频| 99热亚洲精品6码| 国产精品亚洲αv天堂无码| 国产综合精品日本亚洲777| 欧美在线精品一区二区三区| 国产精品综合色区在线观看| 国产三级韩国三级理| 国产乱子伦精品视频| 一本大道AV人久久综合| 欧美午夜在线播放| 国产成人91精品免费网址在线| 18禁影院亚洲专区| 青青操国产视频| 一级成人a毛片免费播放| 国产喷水视频| 中国精品久久| 久久精品这里只有国产中文精品| 亚洲第七页| 中国国产高清免费AV片| 五月激情综合网| 亚洲天堂成人| 日韩最新中文字幕| 亚洲第一成年人网站| 国产高潮视频在线观看| 一本久道久综合久久鬼色| 久久美女精品| 在线精品亚洲一区二区古装| 99色亚洲国产精品11p| 四虎成人精品在永久免费| 欧洲熟妇精品视频| 亚洲国产高清精品线久久| 一本色道久久88综合日韩精品| A级毛片无码久久精品免费| 91无码视频在线观看| 精品無碼一區在線觀看 | 麻豆精品视频在线原创| 国产精品夜夜嗨视频免费视频| 国产成人亚洲日韩欧美电影| 玖玖精品在线| 91无码视频在线观看| 免费a在线观看播放|