999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

篇章關系分析研究綜述

2016-05-03 13:12:02嚴為絨朱珊珊姚建民朱巧明
中文信息學報 2016年4期
關鍵詞:語義文本結構

嚴為絨,徐 揚,朱珊珊,洪 宇,姚建民,朱巧明

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

篇章關系分析研究綜述

嚴為絨,徐 揚,朱珊珊,洪 宇,姚建民,朱巧明

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

篇章關系研究,旨在推斷同一篇章內相鄰或跨度在一定范圍內的文本片段之間的語義連接關系。語義連接關系對篇章內容理解和結構分析都具有重要作用,成為目前篇章分析領域的重點研究內容。該文針對三個中英文篇章關系研究領域的語料庫: 基于修辭結構理論的篇章樹庫(Rhetorical Structure Theory Discourse Treebank,RSTDT)、賓州篇章樹庫(Penn Discourse Treebank,PDTB)和哈爾濱工業大學中文篇章關系語料庫(HIT Chinese Discourse Treebank,HIT-CDTB),主要介紹篇章關系分析理論的語料資源與研究背景、標注與評測體系以及國內外研究現狀。此外,總結相關工作,指出目前篇章關系,尤其是隱式篇章關系研究的主要難題。

篇章關系;篇章修辭結構;RSTDT;PDTB;CDTB

1 引言

自然語言處理(Natural Language Processing,NLP)的研究從表層詞匯理解延伸到更深層次的句法語義,研究粒度從單個詞的語義發展到短語、句子,直至篇章。其中,篇章分析的研究主要基于篇章間潛在樹形結構,重點研究樹的內部節點及其對應的屬性,后期傾向于更復雜的圖結構。

目前,篇章關系分析的研究尚未成熟,主要包括: 篇章語義關系識別(Discourse Relation Recognition,DRR)和基于修辭結構理論(Rhetorical Structure Theory,RST)的篇章結構及修辭關系分析等。本文針對篇章級語義分析,尤其是句間語義關系研究進行綜述,對比分析研究現狀與意義,并提出這一研究的關鍵難點。篇章關系的研究意義主要體現在以下兩個方面。

(1) 有利于篇章文本結構化

篇章不是由句子堆積成的簡單序列,而是由一系列結構銜接[1]、語義連貫[2]的短語、子句、句子或段落構成的具有獨立語義的自然語言文體。篇章內部的層次關系可實現篇章文本結構化。結構化關系樹不僅有利于理解篇章的語義關系,而且可用于深層次的篇章分析,如計算篇章間語義相似度等。

(2) 具有廣泛的應用價值

篇章的因果關系用于自動問答和事件關系抽取[3-4];對比關系用于研究情感分析[5];擴展關系用于自動文摘和篇章關鍵詞抽取[6]。另外,在機器翻譯中也得到廣泛應用[7]。

本文組織結構如下,第二節介紹與篇章分析研究相關的三種權威語言學資源RSTDT、PDTB和HIT-CDTB;第三節概括篇章關系分析任務及評測方法;第四節回顧國內外篇章關系的研究現狀;第五節分析目前篇章關系研究所要解決的關鍵問題和研究難點;第六節總結。

2 語料資源

本節首先介紹與篇章分析尤其是篇章關系分析研究緊密相關的三種語言學資源RSTDT、PDTB和HIT-CDTB之間的差異,其次介紹三種語料的標注過程、基本組成及相應的實例分析。

2.1 三種語言學資源的區別

顯而易見,三種語言資源間存在著下列不同之處。

(1) 語言種類不同

RSTDT和PDTB是由美國南加州大學和美國賓夕法尼亞大學在語言數據聯盟(Linguistic Data Consortium,LDC)*http://www.ldc.upenn.edu/上分別于2002年和2008年發布的兩種英文篇章關系分析語言學資源。HIT-CDTB*http://ir.hit.edu.cn/hit-cdtb/index.html則是由哈爾濱工業大學于2013年發布的中文篇章關系分析語言學資源。

(2) 語料來源和規模不同

RSTDT和PDTB兩種語料均選自PTB*賓州樹庫(PTB)是對WSJ語料進行句法結構標注的公認語料資源http://www.cis.upenn.edu/~treebank/(Penn Treebank)[8]語料,根據各自定義的規則及目標進行標注。PTB語料內容來自美國《華爾街日報》(Wall Street Journal,WSJ)的新聞報道,包含多種不同的新聞主題,例如商業經濟、文化報道及理財投資等。PDTB相較于RSTDT來說,語料規模更大。HIT-CDTB語料針對OntoNotes*https://catalog.ldc.upenn.edu/LDC2011T03語料的中文文檔進行標注,語料內容來源于廣播新聞、雜志和網絡等。

(3) 關系體系不同

RSTDT主要針對篇章中的修辭結構關系進行標注,共定義18種修辭結構關系,有的修辭關系在篇章中只能出現一次且橫跨整個篇章,如“摘要關系”;有的修辭關系在篇章中可能出現多次且跨度在一定范圍內,如“對比關系”。

PDTB對篇章內毗鄰或跨度在一定范圍內的各片段之間,以連接詞為核心,構成整體篇章關系的層次結構。PDTB共定義五種關系體系: 顯式關系Explicit、隱式關系Implicit、可被推導而加入連接詞則表達冗余的篇章關系AltLex、不可推導篇章關系且后一論元擴充前一論元實體信息EntRel、既不存在篇章關系且無論元間的實體一致性NoRel。

與PDTB類似,HIT-CDTB也凸顯了連接詞的重要性,但是HIT-CDTB中只定義顯式和隱式兩種關系體系,并根據不同的顆粒度,將篇章關系的語義結構類型分為六大類。

2.2 RST篇章樹庫(RSTDT)*http://www.isi.edu/~marcu/discourse概述

基于Mann和Thompson等[9]1988年提出的修辭結構理論(RST),標注篇章修辭結構關系的語料資源RSTDT[10]于2002年由LDC發布。該語料庫基于RST框架,標注文本的修辭結構,用于表示文本一致性類別、連貫性及文本各片段的獨立作用。其中,修辭結構是指篇章內各片段間,依靠語義修辭關系進行相互連接,構成整體篇章關系層次結構。RSTDT是標注多層語言學信息的大規模、高質量語料庫,為研究子句間的結合形式及各自功能、隱式銜接間的篇章結構與修辭關系提供基礎資源。

? 構建過程

RSTDT主要對WSJ中的385篇文章進行標注,其中53篇(13.8%)被重復標記,目的是檢測不同標注者標記結果的一致性。語料庫構建過程主要包括兩個基本子任務。

1) 對篇章文本進行切分,目的是形成若干句型獨立且能表達一定語義的片段,稱為基本篇章單元(Elementary Discourse Units,EDU)。

2) 構建修辭結構樹,確定同一篇章內相鄰單元間修辭關系,層層疊加最終形成樹形結構,樹中葉節點是上一步切分的EDU,內部節點表示具有具體修辭關系的一段連續文本跨度。

? 基本組成

RSTDT將篇章中的修辭結構關系分為兩種: 單核(Mononuclear)和多核(Multinuclear)。

單核是指包含修辭關系的兩個EDU間存在主次之分,體現出一種“中心-衛星”理論(Nucleus- Satellite Theory)。其中,“中心”指修辭中心,稱為“核”;而“衛星”則是修飾襯“中心”,從屬于“核”。每個“中心-衛星”結構包含兩種狀態NS(左單元為Nucleus,右單元為Satellite)和SN則反之。

多核是指包含修辭關系的兩個或多個EDU之間,彼此權重相等,例如,修辭關系“列表(List)”中,各EDU屬于并列關系,無主次之分。該結構只有一種狀態NN(左右單元都為Nucleus)。

RSTDT語料共78種(53種單核與25種多核)篇章修辭關系。根據修辭關系之間的相近程度,將其劃分為18種類別,并附加核狀態信息(NS、SN、NN)共得到41種不同的關系,如表1所示。

? 實例分析

針對RSTDT中定義的修辭結構關系,列舉實例如圖1所示。根據上述標注方法, 首先根據文本語義將原句切分為三個EDU;然后識別相鄰EDU間的修辭關系,并將原句表示成層次化的樹形結構。如圖1所示,EDU2與EDU3存在“對比(Contrast)”關系,而EDU2和EDU3整體與EDU1存在“時序-之后(Temporal-After)”關系,形成修辭關系結構樹。根據“衛星-中心”理論,箭頭由表示修飾的輔助成分(Satellite)指向語義關系的中心(Nucleus)。

表1 18個類別及其核狀態形成的41種關系

圖1 RSTDT修辭結構關系實例

2.3 賓州篇章樹庫(PDTB)*http://www.seas.upenn.edu/~pdtb/概述

PDTB 2.0[11]是LDC于2008年發布的針對篇章關系標注的語料資源,該語料覆蓋WSJ中近 2 500篇文章,共標注40 600個篇章關系實例,是目前篇章分析領域規模最大的語言學資源。

? 構建過程

PDTB主要參照命題庫(PropBank)中的“謂詞-論元(Predicate-Arguments)”結構,將篇章中帶有篇章語義關系的文本片段標記為“連接詞-論元(Connective-Arguments)”結構。其中,由連接詞銜接的兩個片段稱為論元,由連接詞引導的論元記為Arg2,另一論元記為Arg1,由Arg1和Arg2組成的整體稱作“論元對”。

標注過程包括論元邊界劃分,對于顯式實例(即“包含連接詞”),直接判別連接詞的關系屬性,指定論元篇章關系類型。然而,對于隱式實例(即“不包含連接詞”)首先預估論元對的篇章關系,然后指定具有這一關系的連接詞。

? 基本組成

顯隱式篇章關系,是PDTB根據論元間是否包含連接詞進行劃分的。顯式關系表示直接由顯式連接詞觸發的篇章關系;而隱式關系是指相鄰句子間不出現顯式連接詞,但根據上下文語義信息以及相關領域知識可自行推理的篇章關系。

PDTB針對顯式、隱式和AltLex[12]篇章關系定義具體的語義關系類型體系。根據不同粒度,將篇章關系分為三層: 第一層4類,第二層16類,第三層23類,共43類。第一層為四種主要的關系類型: Temporal、Comparison、Contingency和Expansion;

第二層和第三層分別在上一層基礎上進一步細分,如表2所示。

表2 PDTB三層篇章語義關系體系

? 實例分析

針對目前研究重點關注的顯式與隱式關系類型,具體實例分析如下: PDTB中的顯式關系,如例1所示,由連接詞“but(但是)”引導的Arg1和Arg2間的篇章關系屬于“對比(Comparison)”關系。相對地,隱式關系如例2所示,論元對之間無連接詞,但能根據語義推斷論元對之間屬于“時序(Temporal)”關系。例2中用方括號注明的“Implicit=atthetime”是人為添加的,表明論元間的隱式連接詞為“atthetime(當時)”。

例1 bridges need to be repaired or replaced

Arg2:butthere’s disagreement over how to do it

Relation: Comparison.Contrast.Juxtaposition

例2 Arg1: By 1982, he was selling thousands of tires

Arg2: [Implicit=atthetime] Newspapers published articles about him, and he was hailed as “the tire king”

Relation: Temporal.Synchrony

由以上分析可知,PDTB語料明確區分顯式與隱式篇章關系,并對各種關系類型給出嚴格的層次定義,為篇章語義關系研究提供重要的基礎資源。

2.4 中文篇章樹庫(HIT-CDTB)*http://ir.hit.edu.cn/hit-cdtb/概述

由于英文體系對中文語義覆蓋不完整、英文體系對某些關系分類不清和英文時態關系平移困難等。哈爾濱工業大學對此作出分析,于2013年發布中文篇章關系語料資源HIT-CDTB,是目前國內首次公布的大規模篇章分析領域語言學資源。

? 構建過程

HIT-CDTB參照PDTB的標注準則,將篇章關系分為顯式和隱式,并按照文本片段的粒度將篇章關系分為分句、復句和句群三種。分句篇章關系是指由篇章關系銜接的兩個文本片段位于同一句子內;復句篇章關系是指由篇章關系銜接的兩個文本片段是兩個獨立的句子;句群篇章關系是指由篇章關系銜接的兩個文本片段都是句子集合。

與PDTB類似,HIT-CDTB以關聯詞(連接詞)為核心,對篇章語義關系進行標注。該語料將常見的顯式關聯詞分為以下三個類別: 可以單獨使用來標識篇章關系的普通關聯詞,如“不論”;普通關聯詞與副詞可搭配使用的帶修飾的關聯詞,如“或許,因為”等;以及由兩個或以上部分組成的平行關聯詞,如“雖然…但是…”等。其中,普通關聯詞和帶修飾關聯詞共870種,平行關聯詞共517種。同時,顯式和隱式關聯詞分別有1 472種和533種。

? 基本組成

HIT-CDTB定義了Explicit和Implicit兩種關系,并根據不同粒度,對篇章關系的語義結構進行多層分類。在PDTB的基礎上,將第一層關系類型從四種調整為六種: 時序、因果、條件、比較、擴展和并列,如表3所示。

表3 HIT-CDTB中文篇章語義關系體系

? 實例分析

針對HIT-CDTB中的顯式與隱式關系類型,具體實例(已分詞)分析如下: 顯式關系實例,如例3所示,由平行關聯詞“不僅…同時…”引導的Arg1和Arg2間的篇章關系屬于“擴展.遞進”關系。相對地,隱式關系如例4所示,其兩個關系元素之間無關聯詞,但能根據語義推斷Arg1和Arg2之間屬于“時序.異步.后序”關系。

例3 Arg1: 他/不僅/是/一/名/小說家/和/劇作家

Arg2: 同時/也/是/一/名/畫家

顯式篇章關系: 擴展.遞進

例4 Arg1: 現年/60/歲/的/高行健

Arg2: [之前]在/1987年/逃離/了/中國/,/流亡/到/法國

隱式篇章關系: 時序.異步.后序

3 篇章關系分析任務及評測方法

根據三種篇章級語料庫的側重點,將篇章關系研究分為兩個方面: 基于RSTDT的篇章修辭結構關系和基于PDTB和HIT-CDTB的篇章語義關系。

3.1 修辭結構關系分析

目前篇章修辭結構關系分析,著重把握篇章的整體脈絡,理解篇章層次結構。

? 任務定義

基于RSTDT的篇章結構關系分析過程與標注過程一致,主要包括文本結構劃分和篇章結構生成兩個部分。其中,由整體到局部是指將整個文本根據語義結構切分成若干基本篇章單元;而由局部到整體則是指借助篇章單元之間的修辭關系類型,實現由局部單元自底向上構建整體篇章的樹形結構。修辭結構關系分析即是通過修辭結構樹表示篇章文本間的語義結構信息,將篇章轉換為基本篇章單元間的結構化組合。

? 評測方法

由于以上兩個基本步驟需順序執行,即后一步工作的輸入依賴于前一步工作的輸出。目前的篇章修辭結構關系分析任務,為獨立評估每項工作的性能,對各步驟的輸出結果分別進行評測,包括基本篇章單元的切分準確性以及各單元之間修辭關系類型判別的準確性。具體評測方法一般采用準確率P、召回率R、F值及精確率Accuracy四項常用指標[13]。

3.2 篇章語義關系分析

目前篇章語義分析,主要針對篇章片段中的語義連接關系進行識別并分類。

? 任務定義

PDTB和HIT-CDTB語料都是針對篇章語義分析研究展開標注的。其中,關于顯隱式篇章關系的研究較多,下面以PDTB為例進行介紹。

例5 [No wonder he does well in his all subjects,]s1 [he is studying so hard.]s2 [He wants to get a scholarship,]s3because[he had no money to pay his tuition fee.]s4

1) 識別篇章中所有顯式連接詞C,如例5中的“because”,然后對顯式連接詞進行消歧[14];

2) 針對每個顯式連接詞C,定位其Arg1與Arg2的位置以及范圍邊界,如例5中文本片段s3和s4即是由連接詞“because”所引導的論元組范圍[15];

3) 判斷每組顯式實例中論元間的顯式關系類型;

4) 識別同一篇章任意相鄰片段間是否包含隱式關系,如例3中文本片段s1和s2之間存在某種隱式關系,并將其分別標記為Arg1和Arg2;

5) 檢測每組論元對之間的隱式篇章關系類型。

? 評測方法

相關研究分別針對各個篇章語義關系的分類性能及篇章語義關系分類的整體性能進行評測。其中,通過構建多個分類器預測各個篇章語義關系的分類結果。如評估因果關系的分類性能,可將該類別的實例作為正例,其它關系類別的實例作為負例,由此構建二元分類器。通過準確率P、召回率R、F值等評測指標,分析該篇章語義關系分類器性能[16]。另外,在評估篇章語義關系整體分類性能時采用多元分類器,通過精確率衡量分類性能[17]。

4 研究現狀

早期篇章關系研究,缺少權威語言學資源,使篇章關系類型定義以及關系類型判別方法的評測欠缺統一標準。自RSTDT語料發布后,篇章結構類型得到明確定義,判別方法統一。此后,PDTB語料的發布,更深層次的篇章關系類型得到明確定義,篇章分析的研究任務和評價策略也隨之細化,從而推動篇章分析的進一步發展。HIT-CDTB語料的發布,使中文篇章分析研究迎來更大的突破和挑戰。本節首先回顧基于修辭理論的篇章結構關系研究,然后重點分析篇章語義關系研究現狀。

4.1 修辭結構關系研究

1988年Mann[18]提出的修辭結構理論(Rhetorical Structure Theory,RST)認為篇章中各句子并非孤立存在,而是通過相互間的修辭關系進行組合,構成篇章內容的連貫性。Marcu等[19]基于RST提出篇章修辭結構分析概念,并針對如何自動地將篇章文本映射到樹形結構展開論述。

Soricut等[20]著重對句子內部的修辭結構進行識別和分類,將詞匯與句法特征結合,對句子進行片段切分以及結構關系構建。LeThanh等[21]結合句法結構及線索短語,在句子結構劃分以及句子內部修辭關系分類方面,均獲得相對較優的性能。DuVerle 等[13]和Hernault等[22]基于LeThanh的高質量片段切分方法,重點研究片段間修辭關系類型的判定。最終在EDU劃分上獲得F值為93.8%,在修辭結構和修辭關系分類上精確率達到85%和66.8%。

Feng等[23]在Hernault方法上,通過增加更多有效的語言學特征,如上下文的修辭關系、篇章產生式規則、片段之間語義相似度和線索短語特征,最終提高篇章分析的性能。Joty等[24]結合句內和句間的修辭結構對文本層次的篇章進行分析,句內采用動態CRF模型對修辭關系和修辭結構進行聯合訓練,句間采用前向后向算法進行修辭結構構建,最終性能獲得提升。由于Joty方法時間復雜度較高,Feng等[25]將Joty的句內修辭關系和修辭結構聯合模型拆分為兩個線性鏈CRF模型,并對句內和句間模型進行編輯,最終篇章分析性能達到58.2%。

此外,針對中文篇章修辭關系的研究,Zhang等[26]基于啟發式規則和向量空間模型提出一種混合型的漢語篇章結構自動分析方法,該方法利用連接成分作為求解篇章結構的形式特征,最終提高處理精度。Tu等[27]采用序列標注的方法對漢語篇章單元進行切分,通過最大熵模型自動學習篇章結構并判定篇章修辭關系,最終篇章語義單元切分的F值達到89.1%。

4.2 篇章語義關系研究

隨著PDTB語料庫的發布,篇章語義關系研究衍生出三個子任務: 顯式連接詞消歧、論元邊界檢測以及篇章關系識別。

4.2.1 連接詞分類與消歧

由于部分顯式連接詞存在一詞多義現象。Miltsakaki等[14]對顯式連接詞歧義進行局部研究,分析“since”、“while”和“when”三種連接詞的歧義性,利用句中的助動詞,情態動詞和動詞時態等特征,基于最大熵模型進行簡單消歧。隨后,Pitler等[28]指出,篇章連接詞的歧義性主要體現在以下兩個方面: 1)該詞在篇章中是否起連接作用;2)該詞在表示具體連接關系類型時是否存在歧義。通過提取有效的句法特征進行連接詞消歧。Lin等[15]在句法特征的基礎上,增加顯式連接詞的上下文特征,包括單詞以及詞性序列特征。與Pitler的方法相比,最終性能提高近2%,準確率達到96.02%。

4.2.2 論元定位與范圍檢測

識別篇章關系的前提條件是已知連接詞的論元范圍。Prasad等[12]在標記PDTB時發現,Arg1與Arg2的位置及其各自跨越的文本范圍具有很強的靈活性,主要體現在以下三個方面。

1) Arg1與Arg2相對位置不固定,主要有三種情況: Arg1與Arg2出現在同一句子中;Arg1出現在Arg2前面句子中;Arg1出現在Arg2后面句子中。

2) Arg1與Arg2間距不固定: 相鄰、嵌套甚至間隔一定距離。

3) Arg1與Arg2本身跨越范圍不固定: 可能是子句、句子甚至多個句子。

由于Arg2在句式結構上與連接詞緊密相連,其位置和范圍較容易判定,而Arg1的出現位置相對隨機。論元范圍檢測的主要任務是自動定位Arg1并精確檢測其邊界范圍。

Wellner等[29]和Elwell等[30]等提出采用機器學習的方法識別Arg1和Arg2的中心詞,盡管該方法能夠準確地定位論元,尤其是Arg1的位置,卻不能精確標識Arg1與Arg2的具體邊界。其中,Wellner等對論元中心詞的識別精確率達到69.8%。Prasad[12]單獨針對Arg1與Arg2出現在不同句中的情況,通過識別包含Arg1的句子,間接檢測其精確范圍,但也僅定位到論元所在句子,最終Arg1的范圍檢測準確率為86.3%。然而Lin等[15]不僅對Arg1進行定位和范圍檢測,而且提取識別的論元文本跨度。主要方法是增加顯式連接詞上下文的單詞和詞性特征,對PDTB中所有連接詞的論元予以定位,并利用句法樹中內部節點的最高概率特征確定論元范圍,論元定位與范圍檢測結果見表4。

表4 Lin等論元定位與范圍檢測結果

4.2.3 篇章關系識別

PDTB語料庫的發布為篇章關系的研究提供了有利條件,下面分別介紹顯式和隱式關系類型的具體判定方法。

? 英文顯式關系類型判定

Pitler等[31]通過研究證明,絕大多數連接詞不存在歧義,可直接根據連接詞推斷其顯式關系類型,在顯式篇章關系的識別準確率達到93.09%。然而,對應的隱式篇章關系由于缺少連接詞特征等直接線索,只能從句法、語義、上下文中抽取相關特征進行分析判斷。由于上下文信息的不確定性、句子結構的復雜性和語義關系的歧義性,從而影響隱式篇章關系的推理過程。

相對于顯式篇章關系而言,目前隱式關系推理系統的性能仍然不高。因此,隱式篇章關系判別成為目前篇章關系分析領域的重點研究內容。

? 英文隱式關系類型判定

1) 基于語言學特征的監督學習

現有的基于PDTB的隱式篇章關系類型判別研究,均是采用監督學習的方法。如Pitler等[32]首次單獨針對PDTB中隱式篇章關系進行分類,提取句子中的情感詞極性、動詞短語、句子首尾單詞等特征,最終的分類結果優于隨機分類的性能。Lin等[33]細化上下文、句法樹和依存樹,對隱式關系的第二層關系進行分類,最終精確率達到40.2%。Wang等[17]基于樹核函數的方法以擴充句法結構特征,盡管分類性能有所提升,但整體性能仍然偏低。

Park等[34]通過特征集優化算法進行特征選擇,分類性能有所提高,但句法樹和上下文特征在非新聞領域以及問答系統中很難被利用。Biran等[35]提出一種聚合單詞對特征,并融入其它語言學特征,最終性能接近Park等的性能。Lan等[36]在交互結構優化多任務學習框架下,基于論元的動詞、極性等基本語言學特征,分別使用現實語境的隱式論元對數據和人造偽隱式論元對,訓練主分類器和輔分類器,提升隱式關系推理系統性能至42.30%。

2) 基于統計學知識的概率推理

Marcu等[37]首次將概率統計方法應用于篇章關系分析,利用共現詞特征與篇章關系的隱射概率,估計論元對間的顯式連接詞。Saito等[38]繼承了Marcu的推理機制,驗證短語的共現概率特征能提高日文隱式篇章關系推理的性能。Zhou等[39]將統計語言模型應用于隱式論元對間的連接詞預測,使用三元語法模型預測共現概率最高的顯式連接詞,利用多種語言學特征并輔加預測的連接詞特征推理隱式關系。與Saito等的方法相比,Zhou等最終分類精確率在Contingency和Temporal上有所提升,分別達到70.79%和70.51%。

? 中文篇章關系研究

目前,國內的篇章關系研究仍處于初級階段。Xue等[40]提出構建中文篇章樹庫(Chinese Discourse Treebank,CDPB)的任務,并分析了中文連接詞的分布特征以及存在的歧義性問題,指出論元范圍鑒定是標注CDPB過程中最主要的困難。

Zhou等[41]結合PDTB語料的標注特征以及中文特點,提出具體的中文篇章關系標注準則,在跨語言篇章關系標注任務中發揮了良好的作用。

Huang等[42]根據中文文本特點,參照PDTB中定義的篇章關系類型,初步構建面向中文的篇章關系分析數據,并采用句子長度特征、標點符號特征、詞語特征以及詞性特征對中文的四種主要關系類型進行分類,最終判別精確率和F值分別達到88.28%和63.69%。

由于英文語料與中文語料存在顯著的區別,比如英文語料中經常出現顯式連接詞,而中文語料反之;Li等[43]利用中英文語料之間的區別,通過英文關系輔助中文篇章關系推理。

? 其他小語種的篇章關系研究

隨著篇章關系研究在英文中逐漸盛行,部分研究者嘗試將篇章分析研究擴展到其它語言。如土耳其語[44]、北印度語[45]等。但由于其它語言缺少公認語料,主要采用基于規則的方法,從生語料或維基百科等大規模網絡語料中抽取篇章關系論元對進行篇章分析。Alsaif等[46]提出自動識別阿拉伯文本中的顯式連接詞,采用最優句法特征時,識別性能近似人工標注。

5 關鍵問題及研究難點

綜上所述,雖然對篇章結構化劃分和顯式語義關系識別等任務已經取得顯著效果,但對于諸如篇章修辭關系分類,以及隱式語義關系推理仍難以得到有效提高。本節針對現有篇章關系分析尚存的關鍵問題和難點予以介紹。

? 關鍵問題

1) 篇章修辭關系分類

目前,文本結構化劃分已取得較優性能,但篇章修辭關系的分類性能仍然偏低,主要是由于篇章內容和結構的復雜性、不確定性,修辭關系類型的多樣性、交叉性造成的。因此,篇章修辭關系識別,以及如何由各層關系構建篇章整體結構,仍然是篇章分析領域待解決的關鍵問題。

2) 隱式語義關系推理

由于各關系類別的數據不平衡現象,容易導致樣本稀疏的類別難以被正確分類,導致整體分類性能大幅度下降。雖然目前已有一些針對數據不平衡問題的解決辦法,例如重采樣、半監督學習等,但整體效果依然不理想。借助監督的機器學習算法,對訓練語料具有較強的依賴性,很難保證方法的可擴展性和健壯性,而無監督的關系推理研究在國內外尚屬空白。

? 研究難點

1) 歧義性與主觀性

觀察發現,在語料構建過程中,由于標注者自身存在主觀性,造成不同標注者的標記結果之間存在歧義。因此,如何依據上下文,以及選取多少上下文進行篇章關系消歧已經成為隱式篇章關系分析過程中的主要難點。

2) 上下文特征抽取

針對具有歧義性的文本片段,若不考慮上下文,則很難正確識別其篇章關系類型,尤其在隱式關系推理過程中,上下文特征發揮著重要作用。但若要挖掘更多相關上下文必將包含更復雜的特征分析,甚至會引入部分噪聲。所以,如何抽取有效的上下文特征輔助推理篇章關系也是至今隱式篇章關系分析過程中的重要難點。

6 總結

本文主要介紹篇章關系識別的研究背景、研究意義以及任務描述,并基于已標注的國際公認語料RSTDT、PDTB和HIT-CDTB,詳細論述國內外在該領域的現有研究方法。目前篇章關系研究在國內外仍然處于發展階段,如隱式篇章關系分析仍然無法滿足實際應用的需要。但隨著語義研究的不斷深入和語用研究的不斷多元化,篇章關系分析將成為自然語言處理領域中的重要研究方向,具有極高的研究價值和廣泛的應用前景。

[1] E Pitler, A Nenkova. Revisiting readability: A unified framework for predicting text quality[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2008:186-195.

[2] Z Lin, H T Ng, M Y Kan. Automatically Evaluating Text Coherence Using Discourse Relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT), 2011: 997-1006.

[3] M Riaz, R Girju. Another look at causality: Discovering scenario-specific contingency relationships with no supervision[C]//Proceedings of the 4th International Conference on Semantic Computing (ICSC), 2010:361-368.

[4] Q X Do, Y S Chan, D Roth. Minimally supervised event causality identification[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2011:294-303.

[5] L Zhou, B Li, W Gao, Z Wei, et al. Unsupervised discovery of discourse relations for eliminating intra-sentence polarity ambiguities[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2011:162-171.

[6] 王繼成,武港山. 一種篇章結構指導的中文Web文檔自動摘要方法[J].計算機研究與發展, 2003, 40(3):398-405.

[7] D Y Xiong, D Yang, M Zhang, et al. Lexical Chain Based Cohesion Models for Document-Level Statistical Machine Translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2013:1563-1573.

[8] M P Marcus, M A Marcinkiewicz, B Santorini. Building a large annotated corpus of English: The Penn Treebank[J].Computational linguistics, 1993, 19(2): 313-330.

[9] W C Mann, S A Thompson. Rhetorical Structure Theory: Toward a functional theory of text organization[J].Text, 1988, 8(3):243-281.

[10] L Carlson, D Marcu, M E Okurowski. Building a discourse-tagged corpus in the framework of Rhetorical Structure Theory[C]//Proceedings of 2nd SIGdial Workshop on Discourse and Dialogue, 2001:1-10.

[11] R Prasad, N Dinesh, A Lee, et al. The Penn Discourse TreeBank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC), 2008:2961-2968.

[12] R Prasad, A Joshi, B Webber. Exploiting scope for shallow discourse parsing[C]//Proceedings of the 7th International Conference on Language Resources and Evaluation (LREC), 2010:2076-2083.

[13] D A DuVerle, H Prendinger. A novel discourse parser based on support vector machine classification[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 2009:665-673.

[14] E Miltsakaki, N Dinesh, R Prasad, et al. Experiments on sense annotations and sense disambiguation of discourse connectives[C]//Proceedings of the 4th Workshop on Treebanks and Linguistic Theories (TLT), 2005:1-12.

[15] Z Lin, H T Ng, M Y Kan. A PDTB-Styled End-to-End Discourse Parser[J]. Natural Language Engineering, 2012, 1(1):1-35.

[16] M Lan, Y Xu, Z Y Niu. Leveraging Systhetic Discourse Data via Multi-task Learning for Implicit Discourse Relation Recognition[C]//Proceeding of the 51st of ACL, 2013: 476-485.

[17] W T Wang, J Su, C L Tan. Kernel Based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010:710-719.

[18] W C Mann, S A Thompson, Rhetorical Structure[J], Theory: Toward a Functional Theory of Text Organization Text, 1988,8:(3): 243-281.

[19] D Marcu. The rhetorical parsing of natural language texts[C]//Proceedings of the 8th conference on European chapter of the Association for Computational Linguistics (EACL), 1997:96-103.

[20] R Soricut, D Marcu. Sentence level discourse parsing using syntactic and lexical information[C]//Proceedings of the Human Language Technology and North American Association for Computational Linguistics Conference (HLT-NAACL), 2003:149-156.

[21] H LeThanh, G Abeysinghe, C Huyck. Generating discourse structures for written texts[C]//Proceedings of the 20th International Conference on Computational Linguistics, 2004:329-335.

[22] HHernault, H Prendinger, A D Verle. HILDA: A discourse parser using support vector machine classification[J].Dialogue and Discourse, 2010, 1(3):1-33.

[23] V W Feng, G Hirst. Text-level Discourse Parsing with Rich Linguistic Features[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL). 2012:60-68.

[24] S Joty, G Carenini, R Ng. Combining Intra- and Multi-sentential Rhetorical Parsing for Document-level Discourse Analysis[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL). 2013:486-496.

[25] V W Feng, G Hirst. A Linear-Time Bottom-Up Discourse Parser with Constraints and Post-Editing[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL). 2014:511-521.

[26] 張益民, 陸汝占, 沈李斌. 一種混合型的漢語篇章結構自動分析方法[J].軟件學報, 2000, 11(11): 1527-1533.

[27] 涂眉, 周玉, 宗成慶. 基于最大熵的漢語篇章結構自動分析方法[J].北京大學學報:自然科學版, 2014,50(1):125-132.

[28] E Pitler, A Nenkova. Using syntax to disambiguate explicit discourse connectives in text[C]//Proceedings of the ACL-IJCNLP Conference, 2009:13-16.

[29] B Wellner, J Pustejovsky. Automatically identifying the arguments of discourse connectives[C]//Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007:92-101.

[30] R Elwell, J Baldridge. Discourse connective argument identification with connective specific rankers[C]//Proceedings of the IEEE International Conference of Semantic Computing, 2008: 198-205.

[31] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[R].Technical Reports (CIS), 2008:884.

[32] E Pitler, A Louis, A Nenkova. Automatic Sense Prediction for Implicit Discourse Relations in Text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP (ACL-AFNLP), 2009:683-691.

[33] Z Lin, M Y Kan, H T Ng. Recognizing Implicit Discourse Relations in the Penn Discourse Treebank[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2009:343-351.

[34] Park J, Cardie C. Improving Implicit Discourse Relation Recognition Through Feature Set Optimization[C]//Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL), 2012:108-112.

[35] Biran O, McKeown K. Aggregated Word Pair Features for Implicit Discourse Relation Disambiguation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL), 2013:69-73.

[36] Lan M, Xu Y, Niu Z Y. Leveraging Synthetic Discourse Data via Multi-task Learning for Implicit Discourse Relation Recognition[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 2013:476-485.

[37] D Marcu, A Echihabi. An Unsupervised Approach to Recognizing Discourse Relations[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL), 2002: 368-375.

[38] M Saito, K Yamamoto, S Sekine. Using Phrasal Patterns to Identify Discourse Relations[C]//Proceedings of the Human Language Technology Conference of the NAACL, 2006: 133-136.

[39] Z M Zhou, Y Xu, Z Y Niu. Predicting Discourse Connectives for Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd International Conference on Computational Linguistics (CL): Posters, 2010:1507-1514.

[40] N Xue. Annotating discourse connectives in the Chinese Treebank[C]//Proceedings of the Workshop on Frontiers in Corpus Annotations II: Pie in the Sky, 2005:84-91.

[41] Y Zhou, N Xue. Pdtb-style discourse annotation of Chinese text[C]//Proceedings of the 50th Annual Meeting of the ACL, 2012:69-77.

[42] H H Huang, H H Chen. Chinese Discourse Relation Recognition[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP), 2011:1142-1146.

[43] J Li, M Carpuat, A Nenkova. Cross-lingual Discourse Relation Analysis A corpus study and a semi-supervised classification system[C]//Proceedings of the 25th International Conference on Computational Linguistics: Technical Papers (COLING), 2014:577-587.

[44] D Zeyrek, B Webber. A Discourse Resource for Turkish: Annotating Discourse Connectives in the METU Corpus[C]//Proceedings of the 2nd International Joint Conference on Natural Language Processing (IJCNLP), 2008.

[45] U Oza, R Prasad, S Kolachina, et al. Experiments with Annotating Discourse Relations in the Hindi Discourse Relation Bank[C]//Proceedings of the 7th International Conference on Natural Language Processing (ICON), 2009.

[46] A Alsaif, K Markert. Modelling discourse relations for Arabic[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2011:736-747.

A Survey to Discourse Relation Analyzing

YAN Weirong, XU Yang, ZHU Shanshan, HONG Yu, YAO Jianmin, ZHU Qiaoming

(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China)

The research on discourse relation is aimed at inferring the inter-sentential semantic relationship which occurs in the same discourse. This relation plays an important role in discourse content understanding and structure analyzing, becoming research focus in the field of discourse analysis. In this paper, we introduce the corpus and background, annotation and evaluation system as well as in this field based three corpora: Rhetorical Structure Theory Discourse Treebank (RSTDT), Penn Discourse Treebank (PDTB) and HIT Chinese Discourse Treebank (HIT-CDTB). Finally, through analyzing current work, we summarize the main difficulty and challenge in recognizing discourse relation especially implicit discourse relation.

discourse relation; discourse rhetoric structure; RSTDT; PDTB; CDTB

嚴為絨(1988-),碩士研究生,主要研究領域為自然語言處理、篇章分析。E-mail:sallyrong8521@gmail.com徐揚(1993—),碩士研究生,主要研究領域為自然語言處理、事件抽取及關系分析。E-mail:andreaxu41@gmail.com朱珊珊(1992—),碩士研究生,主要研究領域為自然語言處理、篇章分析。E-mail:zhushanshan063@gmail.com

1003-0077(2016)04-0001-11

2014-09-25 定稿日期: 2015-01-05

國家自然科學基金(61373097, 61272259, 61272260, 90920004);教育部博士學科點專項基金(2009321110006, 20103201110021);江蘇省自然科學基金(BK2011282);江蘇省高校自然科學基金(11KJA520003);蘇州市自然科學基金(SH201212)

TP391

A

猜你喜歡
語義文本結構
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
語言與語義
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
論《日出》的結構
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
認知范疇模糊與語義模糊
主站蜘蛛池模板: 欧美一级高清视频在线播放| 无码中字出轨中文人妻中文中| 国产第四页| 国产第一页亚洲| 特级做a爰片毛片免费69| 最新精品国偷自产在线| 亚洲男人天堂2018| 久久先锋资源| 久久一本日韩精品中文字幕屁孩| 中文字幕日韩久久综合影院| 精品乱码久久久久久久| 亚洲人成网站色7777| 日本精品αv中文字幕| 欧洲高清无码在线| 精品少妇人妻无码久久| 日本不卡在线| av在线人妻熟妇| 欧美日韩精品一区二区在线线 | 国产在线拍偷自揄拍精品| 色偷偷综合网| yjizz国产在线视频网| av在线无码浏览| 国产成人免费手机在线观看视频| 欧美三级自拍| 久久精品一卡日本电影| 白丝美女办公室高潮喷水视频| 毛片免费高清免费| 成人精品亚洲| 国产精品林美惠子在线观看| 精品福利视频网| 色视频国产| 69av在线| 欧美高清日韩| 四虎成人精品| 国产SUV精品一区二区6| 亚洲日产2021三区在线| 91久久夜色精品| 精品偷拍一区二区| 国产精品亚洲综合久久小说| 亚洲自拍另类| 国产成人毛片| 啦啦啦网站在线观看a毛片| 97亚洲色综久久精品| 大陆精大陆国产国语精品1024 | 国产精品成| 亚洲a级在线观看| 国产又黄又硬又粗| 国产女人水多毛片18| 国产成人亚洲精品无码电影| 国产探花在线视频| 在线精品亚洲一区二区古装| 天天爽免费视频| 免费网站成人亚洲| 国产丝袜第一页| 国产黄视频网站| AV无码一区二区三区四区| 波多野结衣中文字幕一区| 免费播放毛片| 久久国产精品77777| 国产无码高清视频不卡| 国产AV毛片| 日韩视频免费| 亚洲天堂视频在线免费观看| 女人毛片a级大学毛片免费| 四虎影视8848永久精品| 无码内射在线| 免费无遮挡AV| 在线观看精品国产入口| 无码免费视频| 国产精品成人AⅤ在线一二三四| 欧美日韩福利| 欧洲高清无码在线| 午夜老司机永久免费看片| 亚洲无码高清免费视频亚洲| 国产男女XX00免费观看| 国产在线第二页| 全裸无码专区| 一本综合久久| 国产啪在线91| 国产爽爽视频| 免费国产福利| 欧美激情视频在线观看一区|