999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于事件圖的新聞標題生成研究

2017-06-08 05:50:39孫銳
樂山師范學院學報 2017年4期
關鍵詞:詞匯方法

孫銳

(樂山師范學院 計算機科學學院,四川 樂山 614000)

基于事件圖的新聞標題生成研究

孫銳

(樂山師范學院 計算機科學學院,四川 樂山 614000)

為新聞自動生成標題是一個極具挑戰的任務。文章基于事件圖,提出一種有效的無監督標題生成方法。給定一篇新聞文檔,首先為其構造事件圖以表示整個篇章,然后采用圖排序方法以計算每個事件的顯著性得分。隨后為排序后的多個事件,抽取其在文中的依存片段作為候選標題,最后設計一個目標優化函數以搜索最終的標題。在英文和中文數據集上的實驗結果表明,文章提出的方法能有效地學習顯著性事件并能較好地生成標題。

事件抽取;互增強原則;標題生成

0 引言

文本標題能幫助讀者快速地從新聞報道中抓住主旨和感興趣的內容。例如,Google新聞報道Ukraine Delays Announcement of New Government,讀者可直觀地了解該報道為烏克蘭延遲新政府成立宣告。然而,標題的生成和評估都是非常有挑戰性的,其原因是在長度受限的情況下標題應要求包含重要信息,同時也要具備可讀性。

表1 新聞片段示例

觀察Google News不同時段的新聞標題,超過95%的標題包含至少一個事件,且正文大多圍繞事件來組織。根據報道者書寫習慣的不同,主旨事件可能在正文的不同位置出現(通常出現在首句),而其他相關事件通過公共角色或實體與主旨事件產生聯系。表1給出的新聞片段,描述了一個名叫Chris Scott Gilliam的恐怖主義者想殺掉每個人。容易看出,文中有大量與殺人相關的事件,如“sending mail bombs”“arresting”和“testifying”等。此外,該新聞的主角參與了包括主旨事件在內的大多數事件。因此,從文中學習主旨事件對標題生成是有意義的。一方面,主旨事件中的詞或短語可以確保標題的信息度;另一方面,事件可以為各個短語提供語義上的約束。

本文工作旨在為單篇新聞文檔從事件出發生成標題。因此,如何學習主旨事件是關鍵研究環節。首先,從文中提取詞匯鏈和事件以構造事件圖,該圖可以看作是文章的壓縮表示。不同于傳統事件圖[1],本文事件圖并不描述事件間的因果或時序關系,而是論元間的語義關系。其次,利用圖的排序方法來習得事件的顯著性。最后將事件所在的依存片段作為候選標題并利用優化算法來搜索最終的標題。

本文利用結構化事件來生成標題,并對比了多種排序方法來學習顯著性事件。在中英文兩種語料上的實驗結果表明本文方法能取得有效的性能。

1 標題生成

本文方法主要分為三個步驟:1)基于詞匯鏈和事件集合來構建文章的事件圖,該圖描述了文章的篇章大意;2)采用圖的排序方法學習顯著性事件;3)抽取事件依存片段并搜索最終標題。

1.1 事件圖構建

圖1 篇章事件圖示例

如圖1所示,本文的事件圖可以抓住新聞的主旨,從圖中直觀地發現新聞主角以及其參與的事件集合。圖中,每個結點表示文檔中的一條詞匯鏈,邊則表示事件中成分間的關系。因此,在事件圖構建前需進行詞匯鏈和事件的抽取。

本文詞匯鏈的抽取采用以下原則:1)詞干化后形態相同的詞被視為同一個詞;2)擁有相同頭詞的短詞應在同一鏈中;3)代詞應根據其同指關系加入相應詞匯鏈;4)在詞典中處于同一語義集合的詞匯須在同一鏈中。根據以上原則,表1可生成詞匯鏈:{Chris Scott Gilliam_3_2,he_5_2, He_2_3,Gilliam_10_7,Gilliam_4_9,Gilliam_4_11,Gilliam_8_13,Gilliam_3_14},鏈中第一次提及可視為代表詞,即Chris Scott Gilliam。對詞匯鏈初始權重的度量可使用兩個特征:詞匯鏈的長度和所跨行數。即采用如下公式計算:

其中t表示詞匯鏈,函數len和span分別表示詞匯鏈長度和所跨行數,分別反映了詞匯鏈中詞的出現頻率及分布。

本文事件采用三元組形式的定義。不同于標準事件抽取方法,本文采用一種簡單且有效的方法進行事件抽取。該方法基于依存分析的結果,利用nsubj和dobj等動詞依存關系。事件的論元是細粒度的。如表1中語句S14,“someone should kill the FBI sniper”可由依存關系“nsubj(kill-10,someone-8)”和“dobj(kill-10,sniper-13)”,組合成事件“someone kill snipper”。

一旦所有事件抽取完成后,即可構建篇章事件圖。每個結點表示一條詞匯鏈,每條有向邊代表觸發詞與其論元間的關系。因此,一個事件至多可以對應圖中的兩條邊。如圖1所示,圖中從主語到賓語的一條路徑代表一個事件。不同于傳統的篇章表示,篇章事件圖并不關注語句元間的語義關系,而關注于篇章事件的分析,其事件間的關系通過公共的事件論元來呈現。

1.2 顯著事件學習

直觀地,類似于PageRank或HITS的傳統圖排序方法可用于在事件圖中抽取最重要的事件。結點的權重與其在圖中的度有關。本文首先采用一種類似于PageRank的方法在事件圖中進行事件排序。不同地,結點權重不需要分散到其他結點。結點度越大,其權重越大。一個事件包含一個觸發詞和至多兩個論元,因而事件權重可通過累加事件元素的權重獲得,即:

其中t表示事件e中每個元素,函數dg(.)表示圖中結點n的度。該方法為GraphR。

GraphR中主要考慮了詞匯鏈對事件權重計算的貢獻,但事實上,事件對詞匯鏈的權重也應同時考慮。因此,本文引入互增強原則來同時學習事件和詞匯鏈的權重。互增強模型的關鍵是如何度量事件和詞匯鏈的關系。

給定一篇新聞文檔,假設有n個事件{e1,e,...,en}和m條詞匯鏈{t1,t2,...,tn}。各自的權重分別定義為[w(e1),w(e2),...,w(en)]和[w(t1),w(t2),...,w(tn)]。關系矩陣r用于描述事件ei和詞匯鏈tj間的關系。以往的研究表明多數標題出現在文章的開始,相應地出現在文章開始的事件也越重要,因而出現在ei的詞匯的頻率及事件的位置信息可用于度量事件和詞匯的關系。關系矩陣定義如下:

其中w(tj)可用式1計算,t表示事件中的詞匯鏈;line和N分別表示事件所在行號和文章總行數。因此,可定義迭代算法按下式來計算權重:

其中K表示最大迭代次數。從初始w(t)0開始,重復迭代過程直至權重向量移民定。參數在開發集上調節,當w(t)0和K分別設置為1.0和10時權重向量趨于穩定。

1.3 事件擴展

直觀地,排序算法得到的顯著事件更可能出現在標題中。觀察顯著事件所在語句的依存樹,可發現如下一些現象。首先,事件論元中的指代須用相應詞匯鏈的頭詞替換;第二,與事件論元有著語義關系的重要詞匯可能因依存錯誤而丟失;第三,與標題直接相關的事件不一定能得到更高的排名。

因此,每個顯著性事件需要擴展為一個依存片段。每個片段可視為一個候選標題,標題生成的過程即為搜索過程,目標函數可作如下定義:

其中,I為候選標題數目,而ci和CS分別表示第i個候選和候選集合。Fit(.)函數可從兩個方面度量。一是候選所包含的詞匯鏈權重,另一個是該候選的排名。因而,該函數可定義如下:

具體地,每個事件候選的生成采用如下方法生成:1)構建詞匯池,初始時包含了事件的所有論元;2)搜索所有與池中詞匯有著直接語義關系的詞,將權重最高的詞匯加入到池中;3)如詞匯池已滿或沒有詞匯再被選中則結束,否則返回第2步;4)池中的所有詞匯按其在文中出現的位置形成候選標題。以上過程是一種貪心的策略。如表中語句3,事件“he kill everybody”可擴展為片段“Chris Scott Gilliam wanted to kill everybody”。最后得分最高的候選即可作為最終的標題,本文方法為MutualR。

2 實驗

2.1 實驗設置

實驗在中英文兩個數據集上進行。英文語料為DUC04任務1標準評估語料,包括500篇文章。中文語料為新華社人民日報語料,包括800篇文章。DUC07語料中前100篇文章作為開發集。統計結果表明,測試集中有低于5%的抽象程度較高的標題,每篇文章約50個事件,由此可見本文方法在這些數據集上是適用且有意義的。

表2 中英文語料上不同方法的性能評估

系統評估采用Rouge方法[2],其中Rouge1和Rouge2用于評估標題的信息度和流暢度。因為需要進行中文數據集的評估,我們基于同義詞詞林擴展版重現了Rouge1和Rouge2的計算。

2.2 基線系統

TopWords:Lead10[3]方法簡單地從首句中提取前10個詞作為標題。盡管該方法簡單,但它在標準評測數據上超過了以往了一些機器學習方法。

FirstSent:為驗證事件擴展的有效性,直接在文章首句上執行了本文相同的實驗。

2.3 結果

由表2所示的實驗結果可見,MutualR在兩個數據集上均取得比基線系統更好的性能。First-Sent方法總體性能和TopWords方法相當,驗證了事件擴展可以有效地找回丟失信息。由于新聞報道中大多在篇章開始處直接呈現主題,主流的標題生成方法均將第一條語句作為候選標題。但英文數據集上的實驗結果表明數據集中約30%的標題并不是直接來源于首句。如表1中示例的標題來源于語句S3。因此,標題生成任務更應該被視為篇章分析任務。如圖2所示,MutualR方法總體效果均高于GraphR,由此可見基于互增強的排序方法優于傳統方法。其主要原因在于GraphR簡單地考慮了結點權重,而忽略了詞和事件間的相互關系。此外,基于主旨事件的擴展既能抓住重要信息,也能在一定程度上保障標題的語法。

圖2 GraphR和MutualR在英文數據上的性能比較

3 分析和討論

實驗結果證明了方法的有效性。從事件圖中習得的主旨事件能抓住篇章主旨。表3呈現了中英文語料上的一些生成結果。

從第一個示例可以看出參考標題和機器生成標題從語義上是大體相似且與篇章語義緊密相關的,然而,評估得分卻因為缺乏共同詞匯而并不理想。顯然,采用能從語義推理進行標題生成評估的方法更符合實際。觀察第二個示例可見,參考標題中并沒有特定的事件,此時本文的方法僅能通過事件論元來提升信息度得分。統計結果表明,極端情況下評估得分為零。此類現象在中文中出現較多。因為中文依存分析性能的影響,特別是指代消解等問題,事件抽取結果存在一些論元丟失或錯誤的情況。故在中文標題生成領域仍有許多工作需要開展。

表3 中英文語料上不同方法的標題生成結果示例

為進一步評估基于圖的排序方法的性能,也進行了事件顯著性學習比較的實驗。候選事件的個數I分別從1變化到15。圖3給出了實驗的結果。顯然,候選越多,得分應趨近于一個極值。當I等于 15時,Rouge得分分別達到 0.4717和0.2404。近似地,互增強模型中,91%的主旨事件出現在前5位,98%的事件出現在前10位,因而這種基于事件圖的方法仍有很大的上升空間。

圖3 不同候選個數下英文數據集的性能比較

4 相關工作

新聞標題生成的方法大體分為兩類:抽取式和生成式。抽取式方法采用自頂向下的策略,在重要語句上實施語句壓縮技術以達到標題長度的要求。Dorr等[4]利用語言學的策略,提出了Hedge算法。Zajic等[5]則在Hedge算法的基礎上利用無監督的主題發現方法組合了文檔的一個或多個主題詞。這些方法不需要過多的語言分析,一些重要的語法成分可能被錯誤的刪除掉。

生成式方法通常分為兩個階段:內容選擇和標題合成。首先識別出能反映篇章主題的候選詞或短語,然后再利用語句合成技術將這些候選成果組合成一條滿足語法規則且連貫的標題。Woodsend等[6]基于偽同步語法提出了一種聯合模型。該模型中使用整數線性規則以優化內容選擇和語句生成。受自然語言生成技術的影響,基于短語和詞的合成仍無法確保語句的可讀性。Alfonseca等[7]首先基于現有知識庫Freebase生成事件模板,再利用“噪聲或”模型為一組相類新聞文檔集合生成標題。受該工作的啟發,本文從事件的角度出發為單篇新聞生成標題。顯著性事件組合了一些顯著性詞匯或短語,并且事件的擴展基于依存關系進行,因而能為標題生成提供一定的性能保障。

5 結論

本文基于事件圖來學習篇章主旨事件,并在事件的基礎上,設計了優化函數以生成最終的標題。該方法無需標注數據和背景知識,是一個輕量級的生成方法。實驗結果表明該方法是有效且有潛力的。然而,在某些情況下,單個事件仍不足以表達篇章主題,尤其是在中文領域。因此,基于事件的融合是未來需要深入研究的目標。

[1]ARNOLD H.Buss.Modeling with event graphs[C].Proceedings of the 1996 Winter Sirnulation Conference,1996:153-160.

[2]LIN Chin-Yew.Rouge:A package for automaticevaluation of summaries[C].Text SummarizationBranckes Out:Proceedings of the ACL-04 Workshop,2004:74-81.

[3]SORICUT R.MARCU D.Abstractive headlinegeneration using WIDL-expressions[J].Information Processing and Management,2007:43(6),1536-1548.

[4]DORR B,ZAJIC D,SCHWARTZ R.Hedge trimmer:A parse-and-trim approachto headline generation[C].Proceedings of the HLT-NAACL 03 on Text summarization workshop,2003,5:1-8.

[5]ZAJIC D,DORR B,SCHWARTZ R.Headline generation for written and broadcast news[R].lamp-tr-120,cs-tr-4698,2005.

[6]WOODSEND K,FENG Y S,LAPATA M.Title generation with quasi-synchronousgrammar[C].Proceedings of the 2010 Conferenceon Empirical Methods in Natural Language Processing,2010:513-523.

[7]ALFONSECA E,PIGHIN D,GARRIDO G.HEADY:News headline abstractionthrough event pattern clustering[C].Proceedings ofthe 51st Annual Meeting of the Association for ComputationalLinguistics,2013:1243-1253.

Research on News Headline Generation Based on Event Graph

SUN Rui

(School of Computer Sciences,Leshan Normal University,Leshan Sichuan 614000,China)

Automatically generating news headline is a challenging task.This paper proposes an effective unsupervised method for this task based on event graph.Given a news report,firstly,a discourse event graph is constructed for it,and then graph ranking algorithms are used to compute the salient score for each event.Then,the dependency fragment in the text as the candidate title is extracted,and a target optimization function is designed to search the final headline.Experimental results on English and Chinese datasets demonstrate that the proposed method can effectively learn the salient events based on the discourse event graph and generate headlines.

Event Extraction;Mutual Reinforcement Principle;Headline Generation

TP391

A

1009-8666(2017)04-0042-05

10.16069/j.cnki.51-1610/g4.2017.04.009

[責任編輯、校對:王興全]

2017-01-16

孫銳(1977—),男,四川眉山人。樂山師范學院計算機科學學院講師,博士,研究方向:自然語言處理。

猜你喜歡
詞匯方法
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
學習方法
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
本刊可直接用縮寫的常用詞匯
主站蜘蛛池模板: 最新午夜男女福利片视频| 国产福利免费视频| 亚洲中文字幕在线观看| 精品国产aⅴ一区二区三区| 无码国产伊人| 欧美精品啪啪一区二区三区| 亚洲第一视频免费在线| 国产精品手机在线观看你懂的| 91小视频在线播放| 波多野结衣久久高清免费| 亚洲精品在线观看91| 国产极品美女在线播放| 久久毛片网| 国产精品短篇二区| 国产欧美日韩va| jizz在线观看| 少妇被粗大的猛烈进出免费视频| 国产美女精品一区二区| 色悠久久综合| 久久99热这里只有精品免费看| 特级做a爰片毛片免费69| 国产亚洲视频播放9000| 一本视频精品中文字幕| 欧美国产成人在线| 青青久视频| 欧美日韩福利| 高潮毛片免费观看| 91九色视频网| 97久久免费视频| 国产99精品久久| 国产成人做受免费视频| 免费国产高清精品一区在线| 日韩欧美国产另类| 亚洲欧美国产高清va在线播放| 五月婷婷精品| 亚洲日韩精品伊甸| 日韩欧美国产区| 欧美人与动牲交a欧美精品| 69视频国产| 天天婬欲婬香婬色婬视频播放| www.亚洲一区| 成·人免费午夜无码视频在线观看| 午夜精品一区二区蜜桃| av色爱 天堂网| 亚洲欧美综合在线观看| 亚洲成人精品久久| 亚洲一级毛片| 免费 国产 无码久久久| 国产swag在线观看| 91网在线| 国产一级毛片网站| 青青青视频91在线 | 色欲国产一区二区日韩欧美| 欧美亚洲国产一区| 国产精品理论片| 国内精品小视频福利网址| 亚洲人成色77777在线观看| 亚洲无码精彩视频在线观看| 久久www视频| 国产亚洲视频中文字幕视频| 午夜久久影院| 国产美女无遮挡免费视频网站| 18禁色诱爆乳网站| 五月六月伊人狠狠丁香网| 黄色在线不卡| 丝袜美女被出水视频一区| 亚洲中文字幕av无码区| 亚洲中文字幕无码mv| 国产精品lululu在线观看| 欧美在线观看不卡| 98精品全国免费观看视频| 国产成人精品亚洲日本对白优播| 国产成人精品视频一区视频二区| 国产91视频免费观看| 亚洲国产午夜精华无码福利| 91福利片| 日本在线免费网站| 国产又黄又硬又粗| 亚洲成a∧人片在线观看无码| 国产理论最新国产精品视频| 99久久国产精品无码| 免费可以看的无遮挡av无码 |