摘要:討論了現有的自動文摘評價方法,并具體分析了內部評價方法的缺陷,由此提出了基于文本相似度的自動文摘評價方法。同時,通過基于VSM(支持向量機)相似度和基于語義相似度兩種相似度方法來比較評價方法的性能。實驗表明,基于相似度的方法實現簡單、效果良好,是一種更接近自然模型的評價方法。
關鍵詞:自動文摘; 評價方法; 相似度; 向量空間模型
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2007)08-0097-03
隨著科技的進步和Internet的發展,自動文摘以其簡潔精練的特點越來越受到人們的重視。在最近二十年中,國內外已有很多效果不錯的自動文摘系統,其運用領域也是多種多樣的。然而,對于如何更有效地評估系統的性能卻沒有得到充分的關注,現在還沒有一種讓大家普遍公認的客觀評價方法。這也在一定程度上制約了自動文摘的發展。
國內外一些會議曾對當前的自動文摘系統進行了綜合評測。例如國外的文本理解會議中(http://duc.nist.gov)就采用外部評價方法來評測各個科研機構研究的自動文摘系統;我國2004年度漢語自動文摘評測是完全采用人工打分方式。
1傳統的評價方法與問題
1.1 傳統評價方法
目前,自動文摘的評價方法大致分為兩類[1]:a)內部評價(intrinsic)方法,通過直接分析摘要的質量來評價文摘系統,主要采用準確率、召回率等性能指標;b)外部評價(extrinsic)方法,一種間接的方法,通過測試文摘系統完成某一特殊任務的效果來評價文摘系統。
兩種評價方法都有其優勢和劣勢,這也是導致自動文摘沒有一個客觀公認方法的主要原因。外部評價方法需要具體設計任務的方式和評價,往往很耗時間和人力,而且每次評價只針對一個特定任務,局限性太大,只適用于大規模地對多個文摘系統進行綜合評價。內部評價方法則需要與理想文摘進行比較,而理想文摘的獲取較難,一般都請幾位專家給定,但專家往往很難達成一致的意見。這種方法的主觀性太強,但其方法簡單、容易實現,適用于研究者對自己的文摘系統進行評價。
由于外部評價方法主要是針對大規模文摘系統的評價,不適合于研究者們對文摘方法的改進。本文就主要針對內部評價進行討論。
1.2內部評價的缺陷
內部評價方法[2]是按信息的覆蓋面和正確率來評價文摘質量的,通常采用與理想文摘相比較的方法。這種評價方法源于信息抽取技術。它將機器摘要與理想文摘在召回率(recall)、準確率(precision)等幾個指標上進行比較,這種評價方法簡稱為P/R方法。召回率和準確率的計算公式[3,4]如下:
現在所采用的理想文摘一般都是由專家對原文進行抽取得到的。為了避免一個專家抽取摘要時過多地引入個人觀點,通常是請多個專家為同一篇文章進行手工摘要,然后對他們所得到的摘要句子集合進行交集運算,或是取大多數意見構成理想文摘句子集合。然而,專家的一致性意見是很低的[5,6]。這主要有兩個原因:當兩個句子大約等價時,專家很可能隨機選擇其中一個進入摘要句;專家對文章主要內容意見不一致,則選擇的摘要句也不相同。這就導致了這種摘要方式具有很強的主觀性和隨機性,其細微差別都將對后面的評價產生巨大影響。
b)P/R的缺陷。
從準確率和召回率公式中可以發現,它采用的是布爾值來判斷一個句子。也就是說,機器摘要與理想文摘的句子是同一句話就為真;否則為假。下面通過一個簡單的實例來具體說明P/R方法存在的問題。
取一篇題為“關于學習科技知識”的短小議論文作為實例,它共有10個句子。本文按壓縮比為20%提取摘要句子,其理想文摘和機器摘要獲取的句子如下:
理想文摘:“②當今時代,科技進步對一個國家經濟社會的發展越來越具有決定性的作用。③我們必須堅定不移地實施科教興國戰略,真正把加速科技進步放在經濟社會發展的關鍵地位,盡快形成自己的科技創新體系,著力促進科技成果切實轉化為現實生產力。”
機器摘要(系統1):“②當今時代,科技進步對一個國家經濟社會的發展越來越具有決定性的作用。⑤我們學習科技知識,首先是要通過這種學習把握世界發展的大勢,加強做好工作的緊迫感和責任感?!豹?/p>
機器摘要(系統2):“①科學技術是第一生產力。②當今時代,科技進步對一個國家經濟社會的發展越來越具有決定性的作用?!豹?/p>
機器摘要(系統3):“⑤我們學習科技知識,首先是要通過這種學習把握世界發展的大勢,加強做好工作的緊迫感和責任感。⑦對于一切代表未來經濟發展和科技進步方向的事物,我們都要及時地加以把握。”
上面的摘要句子選擇,可以通過表1來更清楚地表達。
從表2來看,系統1和2的性能是相同的,系統3的性能很差。但實際情況未必如此。
本文對系統3進行分析,發現它雖然所選的句子與理想文摘不相同,但卻有著很大的相關性,得到0的結果對系統3是很不公平的。再分析系統1和2,它們所選的句子不一樣,與理想文摘的句子相關性也不一樣,但卻得到了相同的結果。
這樣就可以明顯地發現,P/R方法的三個不足:用不同的句子表達相同的意思將會得到完全不同的結果;選擇不完全等價的句子卻得到相同的結果;如果與理想文摘中的句子沒有重合,將會得到很差的結果。這與實際情況不符合。
2新的評價方法
既然P/R方法有著以上的缺陷,本文就針對上述缺陷提出新的方法來解決這些問題。該方法簡單易行,其主要思想是通過與專家文摘進行相似度比較來判斷摘要的性能,系統的性能值取與多個專家文摘相似度的平均值。這樣既解決了專家意見不一致難以獲得理想文摘的困難,又解決了使用P/R布爾值判斷造成的缺陷。
相似度的方法目前也有很多種,本文主要考慮使用基于VSM的相似度方法和基于語義的相似度方法,通過分析和實驗來說明本文方法的有效性。
2.1基于VSM的相似度方法
向量空間模型的提出具有重要意義,它很好地解決了將非結構化的文檔結構化的問題,可以利用成熟的數學工具對大規模真實文本進行處理,極大地提高了自然語言文檔的可計算性和可操作性。VSM將文本看做是一組正交詞條所組成的矢量空間,每個文檔D表示為其中的一個范化特征矢量空間
從表3中可以發現,系統1的效果稍微優于系統2,不會像P/R方法那樣得到相同的結果;同時,系統3的性能也只是低于前兩個,而并非很差。通過這種相似度比較的方法將會更加真實地反映系統的性能,也是一種更自然的評價模型。
同時,使用基于VSM相似度和基于語義相似度方法的結果是不相同的。分析一下這兩種方法:a)基于VSM相似度的評價方法只利用了文章的表層信息(詞頻、詞性),缺乏考慮語義的相似性和整體結構的相似性,但其實現方法簡單、運行速度很快。b)基于語義相似度的評價方法利用近義詞詞典,增加了語義方面的信息,準確率要比前一種方法稍優,但其運行速度有所下降。
3實驗
下面使用更多的實驗數據來說明文本相似度評價方法的可用性。本實驗所采用的數據來源于哈爾濱工業大學信息檢索研究室單文檔標注語料(http://ir.hit.edu.cn/)。它包含了各種文體(記敘文、議論文、說明文等)的20篇文章,分別請五位專家按10%的壓縮比進行摘要的抽取。實驗中取三位專家的意見作為參考,并選擇大部分專家都選定的句子作為標準文摘的摘要句子。
系統1是采用統計方法開發實現的文摘系統;系統2是采用Microsoft Word中自帶的自動編寫摘要。首先比較兩種相似度方法的效果(表4);然后再運用P/R方法和相似度方法來測試系統性能(表5)。
其中:P/R方法是比較系統產生的F值;而相似度方法則比較了它們之間的相似性。表中的相似度值是三個專家文摘相似度的平均值,通過它來評價各系統的性能。
從表5中可以發現:系統1的效果要優于系統2;采用相似度的計算方法更加符合實際情況,而不像P/R方法得到的效果那么低。
4結束語
本文分析了自動文摘現有的評價方法,并指出了這些評價方法的缺陷,提出了一種基于文本相似度的文摘評價方法。實驗證明,該方法實現簡單,能更真實地反映系統性能,適合于研究者評價與比較文摘性能。另外,本文使用的文本相似度方法是較常用的,它們實現簡單、性能穩定,但也存在著一定的局限性。將來的工作將繼續針對文本相似度進行研究,以尋找到一種更適合于文摘評價的方法。
參考文獻:
[1]MANI I, MAYBURY M T. Advances in automatic text summarization[M]. Cambridge, MA: MIT Press,1999.
[2]郭燕慧, 鐘義信, 馬志勇, 等. 自動文摘綜述[J]. 情報學報, 2002,21(5):582-591.
[3]王萌, 何婷婷, 姬東鴻, 等. 基于HowNet概念獲取的中文自動文摘系統[J]. 中文信息學報, 2005,19(3):87-93.
[4]季姮, 羅振聲, 萬敏, 等. 基于概念統計和語義層次分析的英文自動文摘研究[J]. 中文信息學報, 2003,17(2):14-20.
[5]DONAWAY R L, DRUMMEY K W, MATHER L A, et al. A comparison of rankings produced by summarization evaluation measures[C]//Proc of the Workshop on Automatic Summarization, ANLPNAACL2000.2000:69-78.
[6]RADEV D R, JING Hongyan, STYS M, et al. Centroidbased summarization of multiple documents[J]. Information Processing and Management,2004,40:919-938.
[7]GONG Yihong, LIU Xin. Generic text summarization using relevance measure and latent semantic analysis[C]//Proc of ACM SIGIR’01.New Orleans:ACM Prss,2001:19-25.
[8]胡珀, 何婷婷, 姬東鴻. 基于主題區域發現的中文自動文摘研究[J]. 計算機科學, 2005,32(1):177-181.
[9]金博, 史彥軍, 滕弘飛. 基于語義理解的文本相似度計算[J]. 大連理工大學學報, 2005,45(2):291-297.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”