張牧宇 秦兵 劉挺



摘 要:篇章關系(Discourse Relation)是篇章語義分析的重要內容,本文在英文篇章關系研究的基礎上分析了中英文間的差異,總結了中文篇章語義分析的特點,并在此基礎上提出面向中文的層次化篇章關系體系,對其關系類型進行詳細描述。在其基礎上,研究構建包含1 096篇語料的中文篇章關系語料庫,為進一步的篇章語義分析工作奠定基礎。
關鍵詞:語義分析;篇章關系;中文篇章關系體系;語料標注;
中圖分類號:TP391 文獻標識號:A 文章編號:2095-2163(2015)06-
Chinese discourse relation analysis and data annotation
ZHANG Muyu, QIN Bing1, LIU Ting1
( School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: Discourse Relation is an important part of discourse semantic analysis. This paper analyses the differences between Chinese and English, then presents the first Chinese discourse relation hierarchy based on the English discourse relation researches with explanation in details. Based on the analysis, the paper further construct a large-scale Chinese Discourse Relation corpus, which consists of 1 096 documents. The corpus together with the related analysis during the data annotation lays a foundation for the future discourse semantic analysis.
Keywords: semantic analysis; discourse relation; Chinese discourse relation system; data annotation
0 引言
隨著詞匯語義、句子語義研究的逐漸成熟,篇章語義逐漸成為學界熱點,作為篇章語義分析的重要內容,篇章關系研究(Discourse Relation)也開始受到越來越多的關注。本文選擇篇章關系分析作為篇章分析研究的切入點,原因在于:文檔內的各部分內容并不是孤立存在的,而是通過某種關系與其上下文構成聯系,從而更好地被讀者接受與理解[1]。因此,篇章分析領域中的焦點問題之一就是識別兩個文本塊之間的篇章關系。在前期的工作中,研究人員已經證明篇章關系的有效識別可以顯著改善很多自然語言處理任務的性能,對自動文摘[2]、自動問答[3]、傾向性分析[4]以及文本質量評價[5]、文本連貫性評價[6]等許多NLP任務均將起到重大的幫助補益作用。
近幾年來,這一任務引起了很多研究人員的興趣,一個重要的原因就是大規模篇章關系樹庫的發布,其中最具代表性的則是賓州篇章樹庫(Penn Discourse Treebank,PDTB)[7]和修辭結構理論樹庫(Rhetorical Structure Theory Treebank,RST-DT)[8]。總地來說,RST-DT采用了基于修辭結構理論的方法,將待分析文檔轉化為一棵完整的篇章修辭結構樹。這種設置理論完善,表現力很強。但是無論是樹庫構建過程,還是自動分析過程,都面臨明顯的歧義問題,操作難度較大。為了求解以上問題,提高理論的可操作性,PDTB隨即采用了一種基于詞匯的方法,以篇章關聯詞(例如:但是)為核心標注篇章關系。這種設置使得篇章關系的標注歧義減小,一致性提高,結果比較可靠。雖然不可避免地會丟失一部分信息,但相比于篇章完全結構標注過程中存在的歧義和困難,這種基于詞匯的設置不失為一個良好的選擇和有效的突破。
目前已有的PDTB相關研究大部分都集中在英文上,雖然也有一些討論中文篇章關系語料的研究陸續涌現,但迄今尚無大規模的中文篇章關系語料的成果問世,這也已然成為了限制中文相關研究發展的關鍵問題。目前,中文篇章關系語料的構建嘗試大多聚焦于標注顯式篇章關系方向,對隱式篇章關系也并未給予足夠關注。唯一的例外是Zhou和Xue在2012年開展的工作,嘗試進行了中文篇章關系的標注,其中包括相鄰句子之間的隱式篇章關系標注。隨后,Zhou和Xue在前述分析的基礎上標注了164篇文檔,包括顯式關系和隱式關系兩類。然而,這些工作在分析隱式關系時都僅局限在相鄰單元之間進行,實際上隱式關系卻大量分布于不相鄰的文本單元之間。根據統計,不相鄰單元之間的隱式關系占到了所有隱式關系的46.66%,而這部分信息在已有的研究中都發生了丟失。另一方面,由于缺乏中文篇章關系語料庫,加之篇章分析問題本身的復雜性,使得中文篇章關系分析模型的相關研究僅是取得了緩慢進展。
本文首次提出面向中文的篇章關系體系,將基于篇章關系的語義分析方法應用在中文,通過分析中英文的差異指出中文體系的必要性,詳細介紹面向中文的關系體系并通過語料標注證明了中文體系的一致性和完備性。余下內容組織如下:第二部分論證了中英文的差異,說明中文體系的必要性;第三部分介紹本文提出的中文篇章關系體系;第四部分研究了中文篇章關系語料標注及問題分析;第五部分給出結論。