基于事件圖的新聞標題生成研究

2017-06-08 05:50:39孫銳

樂山師范學院學報 2017年4期

關鍵詞：詞匯方法

孫銳

（樂山師范學院計算機科學學院，四川樂山 614000）

基于事件圖的新聞標題生成研究

孫銳

（樂山師范學院計算機科學學院，四川樂山 614000）

為新聞自動生成標題是一個極具挑戰的任務。文章基于事件圖，提出一種有效的無監督標題生成方法。給定一篇新聞文檔，首先為其構造事件圖以表示整個篇章，然后采用圖排序方法以計算每個事件的顯著性得分。隨后為排序后的多個事件，抽取其在文中的依存片段作為候選標題，最后設計一個目標優化函數以搜索最終的標題。在英文和中文數據集上的實驗結果表明，文章提出的方法能有效地學習顯著性事件并能較好地生成標題。

事件抽取；互增強原則；標題生成

0 引言

文本標題能幫助讀者快速地從新聞報道中抓住主旨和感興趣的內容。例如，Google新聞報道Ukraine Delays Announcement of New Government，讀者可直觀地了解該報道為烏克蘭延遲新政府成立宣告。然而，標題的生成和評估都是非常有挑戰性的，其原因是在長度受限的情況下標題應要求包含重要信息，同時也要具備可讀性。

表1 新聞片段示例

觀察Google News不同時段的新聞標題，超過95%的標題包含至少一個事件，且正文大多圍繞事件來組織。根據報道者書寫習慣的不同，主旨事件可能在正文的不同位置出現（通常出現在首句），而其他相關事件通過公共角色或實體與主旨事件產生聯系。表1給出的新聞片段，描述了一個名叫Chris Scott Gilliam的恐怖主義者想殺掉每個人。容易看出，文中有大量與殺人相關的事件，如“sending mail bombs”“arresting”和“testifying”等。此外，該新聞的主角參與了包括主旨事件在內的大多數事件。因此，從文中學習主旨事件對標題生成是有意義的。一方面，主旨事件中的詞或短語可以確保標題的信息度；另一方面，事件可以為各個短語提供語義上的約束。

本文工作旨在為單篇新聞文檔從事件出發生成標題。因此，如何學習主旨事件是關鍵研究環節。首先，從文中提取詞匯鏈和事件以構造事件圖，該圖可以看作是文章的壓縮表示。不同于傳統事件圖[1]，本文事件圖并不描述事件間的因果或時序關系，而是論元間的語義關系。其次，利用圖的排序方法來習得事件的顯著性。最后將事件所在的依存片段作為候選標題并利用優化算法來搜索最終的標題。

本文利用結構化事件來生成標題，并對比了多種排序方法來學習顯著性事件。在中英文兩種語料上的實驗結果表明本文方法能取得有效的性能。

1 標題生成

本文方法主要分為三個步驟：1）基于詞匯鏈和事件集合來構建文章的事件圖，該圖描述了文章的篇章大意；2）采用圖的排序方法學習顯著性事件；3）抽取事件依存片段并搜索最終標題。

1.1 事件圖構建

圖1 篇章事件圖示例

如圖1所示，本文的事件圖可以抓住新聞的主旨，從圖中直觀地發現新聞主角以及其參與的事件集合。圖中，每個結點表示文檔中的一條詞匯鏈，邊則表示事件中成分間的關系。因此，在事件圖構建前需進行詞匯鏈和事件的抽取。

本文詞匯鏈的抽取采用以下原則：1）詞干化后形態相同的詞被視為同一個詞；2）擁有相同頭詞的短詞應在同一鏈中；3）代詞應根據其同指關系加入相應詞匯鏈；4）在詞典中處于同一語義集合的詞匯須在同一鏈中。根據以上原則，表1可生成詞匯鏈：{Chris Scott Gilliam_3_2，he_5_2， He_2_3，Gilliam_10_7，Gilliam_4_9，Gilliam_4_11，Gilliam_8_13，Gilliam_3_14}，鏈中第一次提及可視為代表詞，即Chris Scott Gilliam。對詞匯鏈初始權重的度量可使用兩個特征：詞匯鏈的長度和所跨行數。即采用如下公式計算：

其中t表示詞匯鏈，函數len和span分別表示詞匯鏈長度和所跨行數，分別反映了詞匯鏈中詞的出現頻率及分布。

本文事件采用三元組形式的定義。不同于標準事件抽取方法，本文采用一種簡單且有效的方法進行事件抽取。該方法基于依存分析的結果，利用nsubj和dobj等動詞依存關系。事件的論元是細粒度的。如表1中語句S14，“someone should kill the FBI sniper”可由依存關系“nsubj(kill-10，someone-8)”和“dobj(kill-10，sniper-13)”，組合成事件“someone kill snipper”。

一旦所有事件抽取完成后，即可構建篇章事件圖。每個結點表示一條詞匯鏈，每條有向邊代表觸發詞與其論元間的關系。因此，一個事件至多可以對應圖中的兩條邊。如圖1所示，圖中從主語到賓語的一條路徑代表一個事件。不同于傳統的篇章表示，篇章事件圖并不關注語句元間的語義關系，而關注于篇章事件的分析，其事件間的關系通過公共的事件論元來呈現。

1.2 顯著事件學習

直觀地，類似于PageRank或HITS的傳統圖排序方法可用于在事件圖中抽取最重要的事件。結點的權重與其在圖中的度有關。本文首先采用一種類似于PageRank的方法在事件圖中進行事件排序。不同地，結點權重不需要分散到其他結點。結點度越大，其權重越大。一個事件包含一個觸發詞和至多兩個論元，因而事件權重可通過累加事件元素的權重獲得，即：

其中t表示事件e中每個元素，函數dg(.)表示圖中結點n的度。該方法為GraphR。

GraphR中主要考慮了詞匯鏈對事件權重計算的貢獻，但事實上，事件對詞匯鏈的權重也應同時考慮。因此，本文引入互增強原則來同時學習事件和詞匯鏈的權重。互增強模型的關鍵是如何度量事件和詞匯鏈的關系。

給定一篇新聞文檔，假設有n個事件{e1，e，...，en}和m條詞匯鏈{t1，t2，...，tn}。各自的權重分別定義為[w(e1)，w(e2)，...，w(en)]和[w(t1)，w(t2)，...，w(tn)]。關系矩陣r用于描述事件ei和詞匯鏈tj間的關系。以往的研究表明多數標題出現在文章的開始，相應地出現在文章開始的事件也越重要，因而出現在ei的詞匯的頻率及事件的位置信息可用于度量事件和詞匯的關系。關系矩陣定義如下：

其中w(tj)可用式1計算，t表示事件中的詞匯鏈；line和N分別表示事件所在行號和文章總行數。因此，可定義迭代算法按下式來計算權重：

其中K表示最大迭代次數。從初始w(t)0開始，重復迭代過程直至權重向量移民定。參數在開發集上調節，當w(t)0和K分別設置為1.0和10時權重向量趨于穩定。

1.3 事件擴展

直觀地，排序算法得到的顯著事件更可能出現在標題中。觀察顯著事件所在語句的依存樹，可發現如下一些現象。首先，事件論元中的指代須用相應詞匯鏈的頭詞替換；第二，與事件論元有著語義關系的重要詞匯可能因依存錯誤而丟失；第三，與標題直接相關的事件不一定能得到更高的排名。

因此，每個顯著性事件需要擴展為一個依存片段。每個片段可視為一個候選標題，標題生成的過程即為搜索過程，目標函數可作如下定義：

其中，I為候選標題數目，而ci和CS分別表示第i個候選和候選集合。Fit(.)函數可從兩個方面度量。一是候選所包含的詞匯鏈權重，另一個是該候選的排名。因而，該函數可定義如下：

具體地，每個事件候選的生成采用如下方法生成：1）構建詞匯池，初始時包含了事件的所有論元；2）搜索所有與池中詞匯有著直接語義關系的詞，將權重最高的詞匯加入到池中；3）如詞匯池已滿或沒有詞匯再被選中則結束，否則返回第2步；4）池中的所有詞匯按其在文中出現的位置形成候選標題。以上過程是一種貪心的策略。如表中語句3，事件“he kill everybody”可擴展為片段“Chris Scott Gilliam wanted to kill everybody”。最后得分最高的候選即可作為最終的標題，本文方法為MutualR。

2 實驗

2.1 實驗設置

實驗在中英文兩個數據集上進行。英文語料為DUC04任務1標準評估語料，包括500篇文章。中文語料為新華社人民日報語料，包括800篇文章。DUC07語料中前100篇文章作為開發集。統計結果表明，測試集中有低于5%的抽象程度較高的標題，每篇文章約50個事件，由此可見本文方法在這些數據集上是適用且有意義的。

表2 中英文語料上不同方法的性能評估

系統評估采用Rouge方法[2]，其中Rouge1和Rouge2用于評估標題的信息度和流暢度。因為需要進行中文數據集的評估，我們基于同義詞詞林擴展版重現了Rouge1和Rouge2的計算。

2.2 基線系統

TopWords：Lead10[3]方法簡單地從首句中提取前10個詞作為標題。盡管該方法簡單，但它在標準評測數據上超過了以往了一些機器學習方法。

FirstSent：為驗證事件擴展的有效性，直接在文章首句上執行了本文相同的實驗。

2.3 結果

由表2所示的實驗結果可見，MutualR在兩個數據集上均取得比基線系統更好的性能。First-Sent方法總體性能和TopWords方法相當，驗證了事件擴展可以有效地找回丟失信息。由于新聞報道中大多在篇章開始處直接呈現主題，主流的標題生成方法均將第一條語句作為候選標題。但英文數據集上的實驗結果表明數據集中約30%的標題并不是直接來源于首句。如表1中示例的標題來源于語句S3。因此，標題生成任務更應該被視為篇章分析任務。如圖2所示，MutualR方法總體效果均高于GraphR，由此可見基于互增強的排序方法優于傳統方法。其主要原因在于GraphR簡單地考慮了結點權重，而忽略了詞和事件間的相互關系。此外，基于主旨事件的擴展既能抓住重要信息，也能在一定程度上保障標題的語法。

圖2 GraphR和MutualR在英文數據上的性能比較

3 分析和討論

實驗結果證明了方法的有效性。從事件圖中習得的主旨事件能抓住篇章主旨。表3呈現了中英文語料上的一些生成結果。

從第一個示例可以看出參考標題和機器生成標題從語義上是大體相似且與篇章語義緊密相關的，然而，評估得分卻因為缺乏共同詞匯而并不理想。顯然，采用能從語義推理進行標題生成評估的方法更符合實際。觀察第二個示例可見，參考標題中并沒有特定的事件，此時本文的方法僅能通過事件論元來提升信息度得分。統計結果表明，極端情況下評估得分為零。此類現象在中文中出現較多。因為中文依存分析性能的影響，特別是指代消解等問題，事件抽取結果存在一些論元丟失或錯誤的情況。故在中文標題生成領域仍有許多工作需要開展。

表3 中英文語料上不同方法的標題生成結果示例

為進一步評估基于圖的排序方法的性能，也進行了事件顯著性學習比較的實驗。候選事件的個數I分別從1變化到15。圖3給出了實驗的結果。顯然，候選越多，得分應趨近于一個極值。當I等于 15時，Rouge得分分別達到 0.4717和0.2404。近似地，互增強模型中，91%的主旨事件出現在前5位，98%的事件出現在前10位，因而這種基于事件圖的方法仍有很大的上升空間。

圖3 不同候選個數下英文數據集的性能比較

4 相關工作

新聞標題生成的方法大體分為兩類：抽取式和生成式。抽取式方法采用自頂向下的策略，在重要語句上實施語句壓縮技術以達到標題長度的要求。Dorr等[4]利用語言學的策略，提出了Hedge算法。Zajic等[5]則在Hedge算法的基礎上利用無監督的主題發現方法組合了文檔的一個或多個主題詞。這些方法不需要過多的語言分析，一些重要的語法成分可能被錯誤的刪除掉。

生成式方法通常分為兩個階段：內容選擇和標題合成。首先識別出能反映篇章主題的候選詞或短語，然后再利用語句合成技術將這些候選成果組合成一條滿足語法規則且連貫的標題。Woodsend等[6]基于偽同步語法提出了一種聯合模型。該模型中使用整數線性規則以優化內容選擇和語句生成。受自然語言生成技術的影響，基于短語和詞的合成仍無法確保語句的可讀性。Alfonseca等[7]首先基于現有知識庫Freebase生成事件模板，再利用“噪聲或”模型為一組相類新聞文檔集合生成標題。受該工作的啟發，本文從事件的角度出發為單篇新聞生成標題。顯著性事件組合了一些顯著性詞匯或短語，并且事件的擴展基于依存關系進行，因而能為標題生成提供一定的性能保障。

5 結論

本文基于事件圖來學習篇章主旨事件，并在事件的基礎上，設計了優化函數以生成最終的標題。該方法無需標注數據和背景知識，是一個輕量級的生成方法。實驗結果表明該方法是有效且有潛力的。然而，在某些情況下，單個事件仍不足以表達篇章主題，尤其是在中文領域。因此，基于事件的融合是未來需要深入研究的目標。

[1]ARNOLD H.Buss.Modeling with event graphs[C].Proceedings of the 1996 Winter Sirnulation Conference，1996：153-160.

[2]LIN Chin-Yew.Rouge：A package for automaticevaluation of summaries[C].Text SummarizationBranckes Out：Proceedings of the ACL-04 Workshop，2004：74-81.

[3]SORICUT R.MARCU D.Abstractive headlinegeneration using WIDL-expressions[J].Information Processing and Management，2007：43（6），1536-1548.

[4]DORR B，ZAJIC D，SCHWARTZ R.Hedge trimmer：A parse-and-trim approachto headline generation[C].Proceedings of the HLT-NAACL 03 on Text summarization workshop，2003，5：1-8.

[5]ZAJIC D，DORR B，SCHWARTZ R.Headline generation for written and broadcast news[R].lamp-tr-120，cs-tr-4698，2005.

[6]WOODSEND K，FENG Y S，LAPATA M.Title generation with quasi-synchronousgrammar[C].Proceedings of the 2010 Conferenceon Empirical Methods in Natural Language Processing，2010：513-523.

[7]ALFONSECA E，PIGHIN D，GARRIDO G.HEADY：News headline abstractionthrough event pattern clustering[C].Proceedings ofthe 51st Annual Meeting of the Association for ComputationalLinguistics，2013：1243-1253.

Research on News Headline Generation Based on Event Graph

SUN Rui

（School of Computer Sciences，Leshan Normal University，Leshan Sichuan 614000，China）

Automatically generating news headline is a challenging task.This paper proposes an effective unsupervised method for this task based on event graph.Given a news report，firstly，a discourse event graph is constructed for it，and then graph ranking algorithms are used to compute the salient score for each event.Then，the dependency fragment in the text as the candidate title is extracted，and a target optimization function is designed to search the final headline.Experimental results on English and Chinese datasets demonstrate that the proposed method can effectively learn the salient events based on the discourse event graph and generate headlines.

Event Extraction；Mutual Reinforcement Principle；Headline Generation

TP391

1009-8666（2017）04-0042-05

10.16069/j.cnki.51-1610/g4.2017.04.009

［責任編輯、校對：王興全］

2017-01-16

孫銳（1977—），男，四川眉山人。樂山師范學院計算機科學學院講師，博士，研究方向：自然語言處理。