劉柏清
(河南省平頂山市魯山縣第一高級中學 467300)
多文檔自動文摘綜述
劉柏清
(河南省平頂山市魯山縣第一高級中學 467300)
隨著社會發展進入信息時代,海量信息的到來,自動文摘技術的誕生和發展為人們進行文獻處理提供了便利。本文主要介紹了自動文摘技術的誕生背景及多文檔自動文摘的定義,并就目前主要的多文檔自動文摘技術方法做了介紹和簡要分析。
多文檔自動文摘;自然語言處理;情報科學
當今信息時代的一大特點是信息爆炸,信息數量呈現指數級增長趨勢,但是噪聲和冗余信息也相應的增多。為了獲取有用的信息,對信息的進一步加工處理就尤為重要。如何讓用戶直接獲取同一主題下經過提煉和濃縮并能全面概括該主題下各方面主要信息的簡要信息,多文檔摘要成為解決這一困境的方法之一。
多文檔集合是同一主題下不同文檔的集合,各文檔包含的信息雖然與主題相關但并不相同,其中也具有較多的重復信息和冗余信息。以多文檔集合為處理對象的自動文摘技術稱為多文檔自動文摘。其目的是將多文檔集合中重復和冗余的信息進行合理的凝練、整合和抽取,生成一篇能充分表達該主題的文摘,以方便用戶快速準確地獲取該文檔集合表達的主題信息。
相比較而言,多文檔集合的冗余信息更多,句子的時序和邏輯矛盾甚至是相反信息的處理更為復雜。但與單文檔自動文摘相似,多文檔自動文摘也需要對文本進行分析和理解。因此,可以利用單文檔自動文摘的方法對多文檔集合進行初步的聚類處理,然后將多文檔集合作為一個文本根據文本的形式特征,如詞頻、標題、位置、句法結構、提示詞、指示性短語等,抽取文本單元。換句話說,多文檔摘要技術可以看作是單文檔文摘技術的擴展。
多文檔自動文摘方法的研究最早在20世紀80年代開始,國內外相關的研究不勝枚舉,但基本沿襲了單文檔自動文摘,經歷幾十年的研究,按照摘要的生成方式大致可以分為以下兩類:
(1)抽取式,即摘要中的內容都是從原文中直接抽取現成的句子。此類方式下常用的方法有兩種:基于統計的自動文摘和基于結構的自動文摘。①基于統計的自動文摘此方法也稱自動摘錄,其核心思想是以處理線性序列的方式處理文本,即將文本視為句子的線性序列,將句子視為詞的線性序列。在處理過程中,首先對輸入到計算機的原始文本進行詞頻統計,并根據詞頻賦予詞一定的權重。然后根據句子中包含的詞的情況計算句子的權重。在確定句子的權重之后,對所有句子按照權值高低降序排列,選取權值較高的若干句子作為文摘句輸出,形成文摘;②基于結構的自動文摘又稱基于多文檔集合特征的自動文摘方法,即將多文檔集合作為一個整體進行研究,將其視為多文檔集合中句子的關聯網絡,按照句義進行聚類,然后從中抽取文摘句。
(2)生成式,即摘要中的內容并非全部來自原文,也包括原文中沒有出現的詞或句子。生成式的方法對自然語言處理技術要求非常高,此類方式下,目前常用的方法有兩種:基于理解的自動文摘和基于信息抽取的自動文摘。①基于理解的自動文摘是以自然語言處理技術為核心,借助一定的分析工具和方法,在對文本進行語法結構分析的同時,結合背景領域知識,通過一定的推理判斷,得到文摘句的語義描述,根據語義描述自動生成摘要。其中,最重要的環節包括語法分析、語義分析和句法分析,這種方法采用了復雜的自然語言理解和生成技術,對文獻意義把握更準確,因此生成的摘要更接近人工處理的摘要水平,質量較好,具有簡潔精練、全面準確、可讀性強等優點。但該方法需要對文章進行全面的分析,生成詳盡的語義表達,還需要事先表達和組織各種背景、領域知識,這對于大規模真實文本處理來說難度巨大。因此,目前這種方法的應用領域十分局限;②基于信息抽取的自動文摘是將自然語言處理技術與信息抽取技術結合,并基于人工制定的模板而實現的,相比于單純基于自然語言理解的自動文摘技術,基于信息抽取的自動文摘方法只需要對部分文本進行有限深度的分析,具有較高的效率和更強的靈活性。但是人工制定模板需要較大的人力,并且不易更新,僅適用于特定領域,不宜推廣,且利用模板生成的文摘語言千篇一律,十分呆板。目前該方法的發展方向是融合單文檔自動文摘技術,研究自動獲取模板的方法,但是這要求計算機進行較多的語料學習,且可以預見到該方法最終生成的文摘會存在較多的語法問題。
從紛繁復雜的信息中提煉出有用的信息是一項極富挑戰性的工作。盡管單文檔文摘的研究已經進行了幾十年,但多文檔自動文摘技術目前還是一個相對較新的研究領域,對于該技術的研究,無論是對于文獻處理,還是搜索技術的發展,都具有重要意義。目前,學界主要的研究精力集中于對已有方法的細化和改進。但是也應看到,“自動文摘的研究是跨學科領域的,它的誕生源于情報科學發展的需要,它的發展受到語言學、人工智能、數學和邏輯學的影響。”多文檔自動文摘脫胎于自動文摘技術,因此與各學科的發展進步密不可分。而多文檔自動文摘技術的進步也將反哺各學科的發展。
[1]馬慧芳,祁云平,楊小東.一種基于文本關系圖的多文檔自動摘要技術[J].情報雜志,2007,26(3):67~69.
[2]劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進行句子抽取的多文檔自動摘要系統 SBGA[J].中文信息學報,2006,20(6):48~55.
[3]程娟.中文文檔自動摘要技術[D].山東大學,2006.
[4]秦 兵,劉 挺,李 生.多文檔自動文摘綜述[J].中文信息學報,2005,19(6):15~22,58.
[5]曹 洋,成 穎,裴 雷.基于機器學習的自動文摘研究綜述[J].圖書情報工作,2014,58(18):122~130.
TP391.1
A
1004-7344(2016)36-0268-01
2016-11-20
劉柏清(1999-),漢族,魯山一高高三學生,學習成績優異,愛好鉆研理工科類課題。