999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多文檔自動文摘綜述

2016-07-13 07:58:07劉柏清
大科技 2016年36期
關鍵詞:文本信息方法

劉柏清

(河南省平頂山市魯山縣第一高級中學 467300)

多文檔自動文摘綜述

劉柏清

(河南省平頂山市魯山縣第一高級中學 467300)

隨著社會發展進入信息時代,海量信息的到來,自動文摘技術的誕生和發展為人們進行文獻處理提供了便利。本文主要介紹了自動文摘技術的誕生背景及多文檔自動文摘的定義,并就目前主要的多文檔自動文摘技術方法做了介紹和簡要分析。

多文檔自動文摘;自然語言處理;情報科學

當今信息時代的一大特點是信息爆炸,信息數量呈現指數級增長趨勢,但是噪聲和冗余信息也相應的增多。為了獲取有用的信息,對信息的進一步加工處理就尤為重要。如何讓用戶直接獲取同一主題下經過提煉和濃縮并能全面概括該主題下各方面主要信息的簡要信息,多文檔摘要成為解決這一困境的方法之一。

1 多文檔文摘的定義

多文檔集合是同一主題下不同文檔的集合,各文檔包含的信息雖然與主題相關但并不相同,其中也具有較多的重復信息和冗余信息。以多文檔集合為處理對象的自動文摘技術稱為多文檔自動文摘。其目的是將多文檔集合中重復和冗余的信息進行合理的凝練、整合和抽取,生成一篇能充分表達該主題的文摘,以方便用戶快速準確地獲取該文檔集合表達的主題信息。

相比較而言,多文檔集合的冗余信息更多,句子的時序和邏輯矛盾甚至是相反信息的處理更為復雜。但與單文檔自動文摘相似,多文檔自動文摘也需要對文本進行分析和理解。因此,可以利用單文檔自動文摘的方法對多文檔集合進行初步的聚類處理,然后將多文檔集合作為一個文本根據文本的形式特征,如詞頻、標題、位置、句法結構、提示詞、指示性短語等,抽取文本單元。換句話說,多文檔摘要技術可以看作是單文檔文摘技術的擴展。

2 研究現狀

多文檔自動文摘方法的研究最早在20世紀80年代開始,國內外相關的研究不勝枚舉,但基本沿襲了單文檔自動文摘,經歷幾十年的研究,按照摘要的生成方式大致可以分為以下兩類:

(1)抽取式,即摘要中的內容都是從原文中直接抽取現成的句子。此類方式下常用的方法有兩種:基于統計的自動文摘和基于結構的自動文摘。①基于統計的自動文摘此方法也稱自動摘錄,其核心思想是以處理線性序列的方式處理文本,即將文本視為句子的線性序列,將句子視為詞的線性序列。在處理過程中,首先對輸入到計算機的原始文本進行詞頻統計,并根據詞頻賦予詞一定的權重。然后根據句子中包含的詞的情況計算句子的權重。在確定句子的權重之后,對所有句子按照權值高低降序排列,選取權值較高的若干句子作為文摘句輸出,形成文摘;②基于結構的自動文摘又稱基于多文檔集合特征的自動文摘方法,即將多文檔集合作為一個整體進行研究,將其視為多文檔集合中句子的關聯網絡,按照句義進行聚類,然后從中抽取文摘句。

(2)生成式,即摘要中的內容并非全部來自原文,也包括原文中沒有出現的詞或句子。生成式的方法對自然語言處理技術要求非常高,此類方式下,目前常用的方法有兩種:基于理解的自動文摘和基于信息抽取的自動文摘。①基于理解的自動文摘是以自然語言處理技術為核心,借助一定的分析工具和方法,在對文本進行語法結構分析的同時,結合背景領域知識,通過一定的推理判斷,得到文摘句的語義描述,根據語義描述自動生成摘要。其中,最重要的環節包括語法分析、語義分析和句法分析,這種方法采用了復雜的自然語言理解和生成技術,對文獻意義把握更準確,因此生成的摘要更接近人工處理的摘要水平,質量較好,具有簡潔精練、全面準確、可讀性強等優點。但該方法需要對文章進行全面的分析,生成詳盡的語義表達,還需要事先表達和組織各種背景、領域知識,這對于大規模真實文本處理來說難度巨大。因此,目前這種方法的應用領域十分局限;②基于信息抽取的自動文摘是將自然語言處理技術與信息抽取技術結合,并基于人工制定的模板而實現的,相比于單純基于自然語言理解的自動文摘技術,基于信息抽取的自動文摘方法只需要對部分文本進行有限深度的分析,具有較高的效率和更強的靈活性。但是人工制定模板需要較大的人力,并且不易更新,僅適用于特定領域,不宜推廣,且利用模板生成的文摘語言千篇一律,十分呆板。目前該方法的發展方向是融合單文檔自動文摘技術,研究自動獲取模板的方法,但是這要求計算機進行較多的語料學習,且可以預見到該方法最終生成的文摘會存在較多的語法問題。

3 總結

從紛繁復雜的信息中提煉出有用的信息是一項極富挑戰性的工作。盡管單文檔文摘的研究已經進行了幾十年,但多文檔自動文摘技術目前還是一個相對較新的研究領域,對于該技術的研究,無論是對于文獻處理,還是搜索技術的發展,都具有重要意義。目前,學界主要的研究精力集中于對已有方法的細化和改進。但是也應看到,“自動文摘的研究是跨學科領域的,它的誕生源于情報科學發展的需要,它的發展受到語言學、人工智能、數學和邏輯學的影響。”多文檔自動文摘脫胎于自動文摘技術,因此與各學科的發展進步密不可分。而多文檔自動文摘技術的進步也將反哺各學科的發展。

[1]馬慧芳,祁云平,楊小東.一種基于文本關系圖的多文檔自動摘要技術[J].情報雜志,2007,26(3):67~69.

[2]劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進行句子抽取的多文檔自動摘要系統 SBGA[J].中文信息學報,2006,20(6):48~55.

[3]程娟.中文文檔自動摘要技術[D].山東大學,2006.

[4]秦 兵,劉 挺,李 生.多文檔自動文摘綜述[J].中文信息學報,2005,19(6):15~22,58.

[5]曹 洋,成 穎,裴 雷.基于機器學習的自動文摘研究綜述[J].圖書情報工作,2014,58(18):122~130.

TP391.1

A

1004-7344(2016)36-0268-01

2016-11-20

劉柏清(1999-),漢族,魯山一高高三學生,學習成績優異,愛好鉆研理工科類課題。

猜你喜歡
文本信息方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产超碰在线观看| 亚洲国产亚洲综合在线尤物| 国产亚洲欧美日韩在线观看一区二区| 亚洲欧洲一区二区三区| 国产一级在线播放| 亚洲国产综合自在线另类| 国产真实二区一区在线亚洲| 热伊人99re久久精品最新地| 亚洲av无码成人专区| 国产欧美中文字幕| 精品国产自在在线在线观看| 国产日韩欧美一区二区三区在线| 精品久久高清| 二级特黄绝大片免费视频大片| 999国内精品视频免费| 伊人网址在线| 亚洲无码在线午夜电影| 国产一区在线观看无码| 在线视频97| 免费国产小视频在线观看| 国产一级二级三级毛片| 狠狠色噜噜狠狠狠狠色综合久 | 日本色综合网| 国产精品女同一区三区五区| 性网站在线观看| 国产精品视频999| 国产无码性爱一区二区三区| 国产丝袜无码精品| 伊人久久久久久久| 午夜在线不卡| 国产在线视频欧美亚综合| 一级毛片免费观看久| 波多野结衣久久精品| 欧美国产日韩在线| 九九热这里只有国产精品| 国产香蕉97碰碰视频VA碰碰看| 成人综合久久综合| 亚洲伊人天堂| 中文字幕永久在线看| 亚洲无码高清免费视频亚洲| 久久99热这里只有精品免费看 | 亚洲国产成人综合精品2020| 日韩av电影一区二区三区四区| 国产91视频免费观看| 无码久看视频| 手机成人午夜在线视频| 国产1区2区在线观看| 国产女人18水真多毛片18精品| 伊大人香蕉久久网欧美| 亚洲天堂.com| 亚洲精品午夜无码电影网| 谁有在线观看日韩亚洲最新视频| 久一在线视频| a色毛片免费视频| 亚洲最猛黑人xxxx黑人猛交| 呦女精品网站| 91久久偷偷做嫩草影院电| 色综合久久无码网| 国产亚洲欧美在线视频| 国产高清在线精品一区二区三区| 99人体免费视频| a级毛片视频免费观看| 欧美日韩国产高清一区二区三区| 国产呦视频免费视频在线观看| 日本一本正道综合久久dvd| 99这里只有精品免费视频| 欧美在线中文字幕| 最新亚洲av女人的天堂| 国产视频久久久久| 久久黄色一级片| 午夜不卡视频| 國產尤物AV尤物在線觀看| 亚洲日韩第九十九页| 欧美性天天| 欧美色视频日本| 国产一区二区精品福利| 片在线无码观看| 亚洲香蕉在线| 久久性视频| 2022精品国偷自产免费观看| 国产波多野结衣中文在线播放| 亚洲第一中文字幕|