漢語篇章級小句關系的標注體系

2015-04-21 08:33:29吳云芳徐藝峰王愷然

中文信息學報 2015年3期

關鍵詞：語義

吳云芳，徐藝峰，王愷然

(計算語言學教育部重點實驗室(北京大學) 北京 100871)

漢語篇章級小句關系的標注體系

吳云芳，徐藝峰，王愷然

(計算語言學教育部重點實驗室(北京大學) 北京 100871)

句際關系自動分析屬于篇章語義學研究的范疇，雖然英語句際關系的研究已有大量工作，但漢語句際關系的自動分析還只是剛剛起步。該文在RST理論框架下，結合漢語特點，提出了完整的漢語篇章級小句關系標注體系。將漢語話題和邏輯關系置于同一個框架下進行描述，將小句關系劃分為事件附屬關系和事件邏輯關系兩大類。邏輯關系又包括6個中類、15個小類。目前已在人民日報語料上完成了8 000個句子的小句關系標注。抽取出其中1 000個句子檢測了雙盲標注的一致性，揭示了漢語意合性語言小句關系標注的困難；并基于標注數據對關系類型進行了定量分析，指示了漢語句際關系自動分析將面臨的重點和難點。

句際關系；小句關系；語料庫標注

1 引言

句際關系分析旨在探討句子之間存在的或并列、或因果、或轉折等多種邏輯關系，是實現文本內容深層理解的必需環節。句際關系的研究屬于篇章分析(discourse analysis)的范疇。修辭結構理論(Rhetorical Structure Theory, RST)[1]將篇章結構劃分為兩個層級：高層是整篇文本的結構框架(schema)，基層是局部段落中句子與句子之間的連貫關系(coherence relations)，篇章的整體關系就由這兩個層次搭建起來。廖秋忠[2]指出，篇章研究可以分為兩大類：篇章連貫與篇章結構的研究。句際關系自動分析即是研究篇章微觀層面的意義連貫。從發展趨向看，中文信息處理研究由字、詞、句拓展到篇章層面，具有重要的理論意義。

句際關系自動分析有著廣泛的實踐應用價值，可應用于文本摘要、語篇生成、智能問答、情感分析、機器翻譯等，能顯著提升相關應用系統的性能。Louis 和Nenkova[3]基于實例關系和闡釋關系來自動判別概括句和具體句，應用于文本摘要。Lin et al.[4]自動識別出句際關系，利用句際關系的轉移矩陣對句子重新排序，比前人方法的錯誤率下降了29%。Girju[5]基于WordNet的語義類，利用詞匯模式自動識別因果關系，將其嵌入到一個問答系統中，對因果類問句的準確率提升了25%。張志昌等[6]處理Why型問題回答時，利用關聯標記、特定語義角色、詞間蘊涵來識別句子之間的因果關系。Wang 和Wu[7]擬合不同句際關系的權值，使篇章級情感分析的性能得到了顯著提升。Guzman et al.[8]研究表明，句際結構分析可以提升自動機器翻譯評測的性能。

句際關系的自動分析研究強烈依賴于句際關系標注語料庫，另一方面近年來句際關系標注語料庫的建設大大刺激了句際關系的研究熱潮。面對國外語言信息處理篇章語義關系的研究熱潮，學界急切期待有廣泛影響的、全面系統的、信息處理用的漢語句際關系標注語料庫。而高質量語料庫建設的基礎和前提是科學的標注體系和完善的標注規范。

面向大規模高質量漢語句際關系標注語料庫的建設，本文提出了信息處理用漢語篇章級小句關系的標注體系，并報告了真實文本中小句關系的標注實踐。第2節評述了國內外句際關系標注語料庫的建設狀況；第3節闡釋了小句關系的標注原則；第4節設定了小句關系的關系類型；第5節描述了對1 000個句子的雙盲標注及其一致性檢驗；第6節基于標注語料對句際關系進行了定量分析；第7節是本文總結和進一步工作的展望。

2 相關工作

2.1 句際關系語料庫的建設

近年來，在篇章語義研究熱潮的帶動下，英語等國外語言都紛紛建設句際關系語料庫，漢語也曾有句際關系語料庫構建的一些初期嘗試。

英語中的句際關系標注語料庫主要有兩個。(1) 英語篇章標注語料庫(RST-DT)，是由Carlson et al.[9]依據修辭結構理論RST構建的，設定了78種修辭關系，標注了賓州樹庫中的385篇華爾街日報文檔。(2)賓州篇章樹庫(Penn Discourse TreeBank, PDTB)，標注了2 159篇共計100萬詞的華爾街日報文檔，先于2006年發布了第一版，后又于2008年發布了第二版[10]。另外，其他語言例如印地文、土耳其語、捷克語、哥本哈根語、阿拉伯語也紛紛仿效PDTB構建了句際關系語料庫。

漢語中有關句際關系的語料庫主要如下： (1)清華大學構建的漢語樹庫[11]，描述了句際之間11種語義關系，是依附于句法樹庫的一個副產品。(2)Xue[12]依據PDTB的方法，提出了漢語句際關系樹庫建設的主要理念；Zhou and Xue[13]提出了類PDTB(PDTB-Style)的漢語篇章樹庫標注方法，在參照PDTB方法的同時針對漢語特性作出了很多修正。(3)華中師范大學開發的“漢語復句語料庫”[14]，全部收錄的是有關聯標記的復句，共計658 447句，語料主要選摘自《人民日報》和《長江日報》，但未收錄沒有關聯標記的隱性句際關系。(4)浙江大學建設的漢語篇章修辭結構標注語料庫[15]，借助RST的理論體系和標注工具，自底向上構建篇章關系樹，選取的語料主要是財經文本，主要標注句子間的語義關系而未標注小句間的語義關系。(5)臺灣大學依據PDTB的標注理念，在Sinica樹庫的81篇文檔上標注了句際關系[16]，但臺灣的報刊語言和大陸的規范漢語存在著很多詞匯和句法上的差別。(6)2013年底，哈工大構建的漢語篇章關系語料(HIT-CDTB)[17]對外公開。選取了OntoNotes 4.0中的525篇文章。針對每一篇文本，標注了三部分內容：分句篇章關系(篇章關系涉及到的兩個關系元素位于同一個句子內)、復句篇章關系(兩個關系元素是兩個獨立的句子)和句群篇章關系(篇章關系涉及的兩個關系元素都是句子集合)。但是在標注體系上，哈工大語料庫更多依循了PDTB的標注理念，有些方面并不能反映漢語的語言實際。

綜上，現有的漢語句際關系標注語料庫還不能完全滿足中文信息處理的需求。因此，我們將致力于構建一個大規模高質量的漢語句際關系標注語料庫，力爭為漢語句際關系研究提供基礎資源和基準語料。

2.2 漢語復句語義關系的研究

漢語語言學中有關句際關系的探討主要集中于復句研究，是描寫性的而非實證性的，是面向人的而非面向機器的。徐赳赳[18]比較分析了漢語語言學復句研究與修辭結構理論RST的區別：復句研究的理論不夠系統，而后者理論較為完整；復句研究注重關聯詞語的形式標記，而后者注重功能。

前人從不同的角度出發提出了多種不同的分類方法，主要有下面三種代表性的觀點： (1) 呂淑湘和朱德熙[19]提出了直分法，劃分為并行、進一步、交替、比例、比較得失、因果、條件、無條件、讓步、假設等十種關系。(2) 胡裕樹[20]主張“聯合-偏正”二分法，把復句分為聯合和偏正兩大類，聯合類又分為并列、連貫、遞進、選擇四類，偏正類又分為因果、條件、讓步、轉折四類。這種二分法的影響很大，是很多語文教材所采用的分類體系。(3) 邢福義[21]主張“因果-并列-轉折”三分系統，因果類復句又分為因果、推斷、假設、條件、目的五類；并列類復句又分為并列、連貫、遞進、選擇四類；轉折類復句又分為轉折、讓步、假設三類。另外，吳為章和田小琳[22]區分了句子與句子組成句群時的12種語義關系，包括并列、連貫、遞進、選擇、總分、解證、因果、目的、條件、轉折、假設、讓步等，由于漢語中逗號使用的靈活性使復句與句群的界限變得模糊，句群的關系類型一般也適用于描述復句的語義關系。

3 理論支撐與標注原則

3.1 篇章理論支撐

句際關系可以從結構關聯和語義關聯兩個方面來描述。

結構關聯方面，我們選擇修辭結構理論RST作為指導。RST理論將篇章結構分為兩個層級，目前我們只關注基層句與句之間的連貫關系。主要理論主張是： (1)關系性，小句之間存在著各種語義關系，絕大部分關系是不對稱的，可分為“核心成分(nucleus)”和“從屬成分(satellite)”兩類；(2)功能性，小句之間的語義關系是從功能的角度來考量的；(3)層次性，小句之間的關系不是一個扁平結構，而是一個層級結構。RST理論和PDTB理念的最大區別是，RST要求整個文本塊形成一個完整的樹結構，而PDTB在一個局部上下文窗口內來描述邏輯關系。我們在RST框架下來構建漢語篇章樹庫，更符合漢語傳統語言學的理念；而前人所建漢語篇章語料庫大多依循了PDTB框架，并不能反映漢語的實際。

在表征形式上，句際關系形成一顆層級結構樹。為了形式上的統一和處理的方便，我們將多核心的并列關系轉變成了右向的二叉樹結構。例如對下面的例1句子，{n}表示逗號隔開的語言片段的序號)，可用圖1的樹結構來表示，其中，弧上的標簽表示語義關系類型，弧的箭頭指向中心成分。

例1 {1}中國雖然面臨耕地少、人口多、糧食需求壓力大的現實,[轉折,1,2-4]{2}但也存在著巨大的發展潛力,[分述,2,3-4]{3}中國有解決糧食問題的經驗和辦法,[并列,3,4]{4}農民中蘊藏著巨大的生產積極性,[因果,1-4,5-6]{5}完全有理由相信, [屬性,5,6]{6}中國政府和人民有能力依靠自己的力量解決糧食供給問題。

圖1 句際關系樹示例

語義關聯方面，我們借鑒RST、PDTB以及漢語傳統語言學的分類體系，提出了事件附屬關系和事件邏輯關系兩大類關系類型，詳見下文的描述。

3.2 漢語語言理論支撐

前賢語言學家指出[23-24]，漢語是話題優先的語言(topic-prominent)，是篇章取向的語言(discourse-oriented language)；而英語是主語優先的語言(subject-prominent)，是句子取向的語言(sentence-oriented language)。漢語語言的這兩個特性對句際關系自動分析和標注有著重要的影響。

話題優先意味著話題在漢語真實文本中頻繁出現，其語義轄域可能覆蓋到后續的一個或多個句子。話題經常由短語結構(例如名詞短語或者介詞短語)來充當，而不是一個包含主謂結構的句子。話題的廣泛存在使得基本篇章單元(elementary discourse unit, EDU)的切分成為漢語句際關系分析中一個相對困惑的問題，而英語句際關系研究中EDU的識別是一個頗為容易的問題。

篇章取向意味著漢語所謂的句子和篇章之間不存在明顯的界限，漢語的句子不等同于英語中的sentence。雖然形式上是以句點結束，但漢語句子可以包含多套完整的主謂結構，導致一個句子可以很長很復雜。篇章取向混淆了漢語句子和篇章的嚴格區分，使得句子層面的篇章分析(sentence-level

discourse parsing)和文本層面的篇章分析(text-level discourse parsing)疊加在一起。也因此，在本文的行文中，小句關系和句際關系沒有作嚴格的區分。

上述兩個語言特征使漢語句際關系分析一開始就遭遇兩個問題：如何確定一個句子以及如何確定一個基本單元。本文以一種實用的、直觀的方法來解決這兩個問題，以句點顯性標識的一個語言片段稱之為一個句子，其中以逗號分隔的語言片段稱之為小句，一個小句即對應于一個句際關系的基本單元。本文目標是處理句子層面的結構和語義關系，但是漢語的句子有些時候其實就相當于英語的文本級篇章，因此本文描述的小句關系體系可以便捷地遷移到宏觀的篇章層面。我們將逗號分隔的語言片段即看作是一個基本單元，用不同的關系標簽來標示，關于逗號的種種歧義問題期待能在高層的篇章分析層面來聯合解決。

3.3 標注原則

(1) 標注單元

目前階段我們集中于句子范圍內小句之間語義關系的識別和標注。句子的認定遵從“點號標句”的從眾性原則，即以標點符號“。！？；……”等分隔開的語言片段。而更大單元的篇章語義關系識別，例如句群之間的語義關系留待將來的研究。根據我們前期的考察和預標注，句子之間的關系松散且相對簡單，而小句之間的關系緊密且豐富多樣。

小句關系的基本組成單元EDU是“小句”，即形式上以逗號“，”分隔開的語言片段，既可以是一個主謂結構也可以是一個名詞性短語、介詞性短語等。

(2) 顯性和隱性關系

我們將對文本中任意相鄰的兩個小句均標注句際關系，而不論是否有關聯標記的連接。對于有關聯標記的顯性關系，標注者參考關聯標記來標注關系類型。而對于隱性關系，標注者只能通過意義功能的理解來標注關系類型，但不需要像PDTB那樣補充出關聯標記。因為漢語中隱性關系不是關聯標記的簡單省略，而是通過詞匯、句法語義來承載句際語義功能，在很多情形下無法加入一個合適的關聯標記。

(3) 層級結構

漢語小句關系形成一顆有層級結構的樹，不允許有非樹結構的存在，例如共享論元、嵌套論元、交叉論元和重疊論元。

(4) 關系類型

兩個語段之間只能標注唯一的一種關系類型，且需要標注到最細層次的關系類型。

(5) 論元標示

聯合關系都是多核心結構，主從關系都是單核心結構。為了處理上的統一和方便，聯合關系以最右向成分作為核心。這樣，任何一個小句關系都有且僅有兩個論元語段組成，核心論元和從屬論元。

4 漢語小句關系的關系類型

小句關系的本旨在于描述事件之間的各種關系，我們將其分為事件附屬關系和事件邏輯關系兩大類。事件邏輯關系標示了不同事件之間的各種邏輯關系，例如因果、轉折等；而事件附屬關系則交待了事件發生的時間、地點、發出者及其他話語成分。針對漢語特點提出了“事件附屬關系”，是本文體系與前人研究的顯著不同。

前人在研究復句語義關系時，專注于描述事件之間并列、轉折、因果等多種邏輯關系，卻有意無意忽略了復句中存在的描述時間、地點、所屬等語義內容的語言片段。另一方面，前人在研究漢語的話題結構時，專注于證明話題的存在以及說明漢語的“話題-評述”結構，但對于評述結構中又存在的各樣邏輯關系卻不關心。描述同一個語言對象，復句語義關系和話題結構從不同的角度加以關照和描寫，卻像兩條不相交的平行線。而事實上，在實際的語料庫標注過程中，要標注一個完整的句子生成一棵完整的層級結構樹，話題等成分的標注和邏輯關系的標注是缺一不可的。本文體系將話題結構和邏輯關系置于同一個框架下進行描述和標注，充分照顧了漢語特點，使標注體系更加簡潔、完整和有效。

4.1 事件附屬關系

根據對語料的考察，事件附屬關系進一步可劃分為以下三類。

(1) 話題(topic)[TOP]

引出一個話題，或者闡述事件發生的時間地點即時域式話題(如例2)，或者是事件的所屬施動者即所屬式話題(如例3)。話題經常將其轄域延伸至后面多個小句而形成話題鏈。話題是語言類型學上漢語的顯赫范疇之一，將其顯性標示出來，可以凸顯漢語特色。另一方面，話題在漢語真實文本中高頻出現，如果不加標注，則無以形成完整的層級結構樹，人工標注者將無所適從，最終將導致語料的標注一致性非常低。

例2 {1}在未來的世界，[TOP,1,2-3]{2}各個國家和各個民族能夠始終和睦相處、友好合作、共同發展，{3}能夠建立起公正合理的國際政治經濟新秩序。

例3 {1)吉林省梨樹縣女農民蔡淑珍，[TOP,1,2-6]{2}過去不懂技術，{3}養雞雞死，{4}養兔兔亡，{5}賠了幾萬元，{6}險些尋了短見。

(2) 屬性(attribute)[ATT]

表明言談內容的發出者或者意見的持有者。這與PDTB語料是類似的。這樣的標注信息對于有些應用(例如情感計算)非常有用。

例4 {1}朱邦照說，[ATT,1,2-3]{2}中方認為，[ATT,2,3]{3}葉利欽總統辭職是俄羅斯的內部事務。

(3) 標記(marker)[MAR]

話語標記不參與命題意義的表達，在言談當中起組織結構、建立關聯的作用，一般是由詞語性成分或者詞匯化的短語性成分充當。同話題、屬性一樣，話語標記的語義轄域也經常延伸至后面多個小句。以往的研究中，將話語標記常常附加于其后的第一個小句，但不能反映話語標記真正的語義轄域。

例5 {1}同時，[MAR,1,2-3]{2}也希望你們安全生產、經濟調度，{3}實現經濟增長方式的轉變。

4.2 事件邏輯關系

在大量參考前人文獻的基礎上，通過考察真實文本語料，我們設定了表1所示的事件邏輯關系類型。表中“[ ]”內表示英文標記符。

表1 漢語小句邏輯關系類型

表1所示的小句關系包含大、中、小三種關系類型，顯示了不同粒度下的類型區分。大類上(CLASS)區分為“聯合”和“主從”，這符合漢語語言學的一般認識，也符合RST理論關于“核心”與“從屬”成分的論述。中類上劃分為六個類別，最細致的小類上劃分為15個類別。我們在設定具體關系類型時，密切考慮了智能問答、情感計算等自然語言處理應用系統的需求。在上述大、中、小三層語義關系下，進行句際關系分析時可以根據實際應用需求選擇不同的粒度。

(1) 等立 [COOR]

表示同類事物的并列，或者表示類似事件的并存。常用關聯標記是“也”、“又”、“還”，“一方面……另一方面……”等。

例6 {1}舊西藏交通險阻，[COOR,1,2]{2}行路艱辛，{3}貨物運輸、郵件傳遞全靠人背畜馱。

(2) 時序 [TEMP]

表示相關的事件依時間序列先后發生。常用關聯標記是“接著”、“然后”等。

例7 {1}穆罕默德塔拉爾1929年11月1日出生于旁遮普省，[TEMP,1,2-3]{2}1951年畢業于旁遮普大學法學院，[TEMP,2,3]{3}1974年供職于拉合爾高等法院。

(3) 選擇 [ALT]

表示在兩個事件中作出選擇。常用關聯標記是“或者……或者……”等。

例8 {1}主要原因不在于英文或華文難學，[ALT,1,2]{2}或教師教得好，{3}而在于缺少學習動機與缺乏機會使用所學語文。

(4) 遞進 [PROG]

表示兩個事件在量上有增強遞進的關系。常用關聯標記是“不但……而且……”等。

例9 {1}可以肯定，{2}人類在未來仍將與科技為伍，[PROG,2,3]{3}并且會愈來愈依賴它，{4}科技之利與弊仍將伴隨我們進入下一世紀。

(5) 順承 [SUCC]

一個接一個地說出連續的動作或者相關的事件。一般而言，當不存在其他明顯的句內關系時，標注“順承”。

例10 {1}本世紀初，{2}數萬名華人勞工遠涉重洋來到南非，[SUCC,2,3]{3}同當地人民一道為南非的開發作出了貢獻。

(6) 轉折 [CONT]

說明兩個事件在邏輯上有逆轉關系。常用關聯標記是“但是……”等。

例11 {1}主要原因不在于英文或華文難學，{2}或教師教得好，[CONT,1-2,3]{3}而在于缺少學習動機與缺乏機會使用所學語文。

(7) 讓步 [CONC]

前一小句先做出讓步，后一小句作出轉折。常用關聯標記是“即使……也……”等。

例12 {1}即使送出去了，[CONC,1,2]{2}收者也不一定領情。

(8) 因果 [CAUS]

說明事物間的因果聯系，是典型的推論關系。常用關聯標記是“因為……所以……”等。

例13 {1}孤兒是祖國的未來，[CAUS,1,2]{2}也必須得到母愛。

(9) 結果 [RESU]

說明因施行某種行為而產生的結果。常用的連接標記是“導致”“使得”等。

例14 {1}可以肯定，{2}人類在未來仍將與科技為伍，{3}并且會愈來愈依賴它，[RESU,2-3,4]{4}科技之利與弊仍將伴隨我們進入下一世紀。

(10) 目的 [PURP]

說明施行某種行為的目的。常用關聯標記是“為了……”等。

例15 {1}而應當繼續努力，[PURP,1,2]{2}促使經濟進一步回升。

(11) 假設 [HYP]

以某種假設即某種虛擬性條件作為前提從而得出某種結論。常用關聯標記是“如果……就……”等。

例16 {1}沒有法制保障人民主權和個人權利的實現，[HYP,1,2]{2}人民就不會有當家作主的意識。

(12) 條件 [COND]

以某種條件為依據推斷出某種結果。常用關聯標記是“只有……才……”等。

例17 {1}不管遇到什么事情，[COND,1,2]{2}我們必須前進。

(13) 解證 [EXPL]

前一小句說明一個現象或者事實，后面小句從某一角度來進一步闡釋這個現象或者解釋事實。

例18 {1}中國的上海市與夸—納省開展了多領域的經濟合作，[EXPL,1,2]{2}先后建立了家電、五金、搪瓷、文具等企業。

(14) 分述 [LIST]

前一小句是概括，后面的小句列舉其中包含的元素，一般包含兩個以上的元素。

例19 {1}出席茶話會的還有： [LIST,1,2-4]{2}中央軍委委員傅全有、于永波、王克、王瑞林，{3}全國人大常委會秘書長曹志，{4}全國政協秘書長朱訓等有關方面負責人和各界人士共400多人。

(15) 總括 [GENE]

前面的小句陳述一系列相關事情，后面小句總括前面小句的意思。常用關聯詞語有“總而言之”、“一言以蔽之”等。

例20 {1}依法治國、建設法治國家的實質，{2}就是要確保黨和政府依法執政和依法行政，{3}執法司法部門依法辦事，{4}公民依法行使權利和履行義務，[GENE,2-4,5-6]{5}一句話，{6}就是要從法律和制度上保障人權。

5 漢語小句關系的標注實踐

5.1 語料標注

在上述標注體系的指導下，我們設計開發了句際關系標注的計算機輔助軟件。在這款軟件中，標注者可以方便地進行結構的分析和關系的標注，軟件可以對非樹結構進行自動檢測和報錯。實踐證明，計算機輔助標注軟件大大提高了標注速度，減少了人工的誤操作。

我們選取了2000年2月的人民日報語料作為標注文本，目前已完成了一個月語料的所有標注。我們將精選一部分標注語料在北大計算語言學研究所的網站上公布，供研究者免費下載和使用。

語料庫人工標注的一致性(inter-annotator agreement)是衡量語料庫標注質量的重要指標。因此，我們抽取了1 000個句子進行雙盲標注(doubly blind)，即兩個標注者依據標注規范分別獨立標注語料，不可以交流討論，兩個標注者不一致的數據再由第三者進行仲裁，最后生成黃金標注數據。三個標注者均為語言學專業背景。

漢語句際關系的語料標注是一件困難的工作。由于漢語是意合性語言，小句之間常常不用顯性的關聯標記來連接，而是依靠上下文語境、詞匯語義等來承載邏輯關系，由此，不同標注者在“揣測”小句之間的層級結構和邏輯關系時會產生不一致。這些不一致暴露了漢語句際關系標注的困難，有些情形下揭示了句際關系體系設定的不合理之處，提示了標注體系改進和完善的方向。

5.2 層級結構的標注一致性

雙盲標注的1 000個句子中，小句數目大于等于3的句子數是528，即有528個句子包含兩層以上的小句關系，也即所謂“多重復句”。我們對這528個句子來檢測句際層級結構的標注一致性。評測中，使用寬式和嚴式兩種評價指標。

嚴式一致性(strict agreement):

(1)

寬式一致性(looseagreement):

(2)

表2匯報了句際層級結構的標注一致性，嚴式和寬式一致性非常接近。68%的層級結構一致性不是很高，這一方面是由于所選取的語料是人民日報語料，政論性文體中的句子長度普遍偏長且句子結構相對復雜，另一方面也說明，漢語句子的層級結構標注是一件很困難的工作，一致性比較難以把握。

表2 層級結構的標注一致性

5.3 關系類型的標注一致性

關系類型的標注一致性建立在層級結構標注一致的基礎之上，即只有在兩個標注者層級結構標注一致的前提下才能夠計算邏輯關系類型的一致性。由于小句關系是大、中、小三層的層次結構，因此我們在中類和小類兩個不同的粒度上來評價邏輯關系的標注一致性。我們將“話題、屬性、標記”合并為“附屬關系”，看作是與“并列、對比、推論、條件、總分、分總”相平行的中類標簽。句際關系類型一致性的計算公式如下：

(3)

表3 關系類型的標注一致性

表3匯報了關系類型的標注一致性。在小類層次上，語義關系的一致性不盡如人意；而在中類層次上，語義關系的一致性有了顯著提升。句際關系的研究大都集中在中類層次上，因此74.4%的一致性還是比較滿意的。

5.4 關系類型的混淆矩陣

標注體系中關系類別的設定是否合理，某種程度上可以用真實文本標注的實踐來驗證。如果兩個類別混淆度很高，說明這兩個類別界限不清晰，或許應該加以合并；如果某個類別與其他諸多類別都有混淆，說明這個類別定義不清晰、地位不明確，需要重新解釋重做定義。由此，關系類型的混淆矩陣提示了標注體系進一步完善的方向。

為了了解兩個標注者之間不一致性較高的關系類型，我們基于雙盲標注語料統計分析了不同句際關系之間的混淆程度，如表4、表5所示。

表4 中類標注的混淆矩陣

根據表4，在中類關系層次上，1)由于其中一個標注者傾向于判定“并列”關系，使得“并列-推論”、“并列-附屬”的混淆程度較高；2)由于其中一個標注者傾向于判定附屬關系，使得“附屬”與其他諸多類別都發生了混淆；3)從總體上看，“并列”和“附屬”這兩個類別在文本中出現頻度高，且易于別類發生混淆，因此在標注規范中需要更為詳細的說明。

根據表5，在小類關系層次上，1)由于其中一個標注者傾向于判定“順承”關系，使得“順承-結果”、“順承-話題”、“順承-目的”的混淆程度高，因此對于“順承”關系，標注規范中還需詳加描述；2) 由于其中一個標注者傾向于判定“話題”關系，使得“話題-目的”、“話題-解證”、“話題-因果”的混淆程度高；3)“標記-話題”的混淆程度較高；4)由于對“時序”關系的定義不清晰，“時序”語義類的一致性較差。

表5 小類標注的混淆矩陣

6 漢語小句關系的定量分析

在2000年2月的人民日報語料上，已經由一名語言學者標注了所有句子的小句關系，其中抽取1 000個句子進行了嚴格的雙盲標注，又對其中2 000個句子進行了多次的人工校對，現一共有大于等于2個小句的黃金標注數據2 100個句子。基于這2 100個句子，我們統計分析了小句關系的不同分布，以期對漢語句際關系有較為全面的定量認識，提示進一步研究的重點和難點。

6.1 不同關系類型的分布

在不同粒度的層面上，不同關系類型的分布如表6所示。可以看出，在真實的新聞體語料中，不同關系的分布是極不平衡的。在小類關系層次上，分布頻率最高的是“等立”關系，其次是“話題”，兩者分布之和高達41.9%；而“讓步”、“選擇”、“分述”、“假設”、“條件”等關系出現的頻率非常低。在中類關系層次上，分布頻率最高的是“并列”關系，其次是“附屬”關系，然后是“推論”關系，三者分布之和高達85.8%，而“對比”、“條件”、“總分”、“分總”的分布都是比較低的。“話題”的高頻出現驗證了本文設置“事件附屬關系”的合理性和重要性，如果沒有這種關系類型，標注者在標注真實文本時將會無所適從。

表6 不同關系類型的分布

6.2 顯性和隱性關系的分布

關聯標記對于句際關系的類型區分有重要提示作用，前人的復句研究中非常重視關聯標記的作用。參考前賢的研究文獻，我們列出了表征不同語義關系的139個連詞、80個副詞。據此關聯標記詞表，對2 100個句子統計分析了有標記顯性關系和無標記隱性關系的分布，如表7所示。在統計時摒除了三種附屬關系。

表7顯示，顯性關系的比例僅為20.1%，而隱性關系的比例高達79.9%。漢語復句研究中非常重視關聯標記的作用，而事實上在真實文本中，大量分布的是沒有關聯標記的隱性關系。根據英語PDTB

表7 顯性和隱性關系的分布

語料的統計[25]，40 600個句際關系中，顯性關系的比例為45.5%，隱性關系的比例為54.5%。與英語語言相比較，漢語隱性關系的分布比例高出許多。隱性關系的廣泛分布與漢語“意合型語言”的特性是相符合的，即小句之間的語義關系不是依據形式標記而主要是依據內部的邏輯語義來鏈接。因此，關聯標記的作用在大規模漢語真實文本處理中是很受限制的，漢語句際關系自動識別的重點和難點應該是隱性關系而非顯性關系。

6.3 不同類型顯性和隱性關系的分布

進一步地，我們統計了不同語義類型下有標記和無標記的分布，在統計時摒除了三種特殊的附屬關系以及出現次數極少的“讓步”關系，結果如表8 所示，顯示時按照無標記隱性關系的出現頻率由高到低排列。

表8 不同關系顯性和隱性的分布

表8顯示，只有遞進、轉折、選擇這三種邏輯關系顯性多于隱性關系，其余的邏輯關系都是隱性明顯多于顯性關系。順承、分述、結果、總括這四種關系，隱性類型占據的比例均高達90%以上。相比之下，假設、因果、條件這三種邏輯關系顯性和隱性的比例相對平衡。

7 結語

漢語篇章級句際關系的研究才剛剛起步。本文綜述了國內外篇章樹庫構建的狀況，評述了漢語復句的有關研究成果。在此基礎上，我們提出了漢語小句關系的標注體系，針對漢語話題優先的語言特點，明確提出了“事件附屬關系”和“事件邏輯關系”的分類規范。依據這個初步的標注規范，對人民日報語料進行了人工標注，現階段已經標注完成1個月的人民日報語料，并抽取其中1 000個句子進行了雙盲標注檢測。基于標注語料，統計分析了小句關系的不同分布，包括不同語義類型的分布和顯性隱性關系的分布，指出了漢語句際關系自動分析將面臨的重點和難點。

進一步的研究工作將沿三個方向來開展。其一，進一步完善小句關系標注規范，在更大的語料上、組織更多的人力來標注小句關系。其二，將小句關系拓展到句子之間、句群之間甚或段落之間，形成更為全面完善的漢語句際關系標注規范。其三，基于句際關系標注語料庫，開展句際關系自動分析的研究，構建漢語篇章分析器，初步滿足自動文摘、智能問答、情感計算等應用系統的實際需求。

[1] Mann W，Thompson S. Rhetorical structure theory: towards a functional theory of text organization [J], Text, 1998, 8(3)： 243-281.

[2] 廖秋忠. 廖秋忠文集[M]. 北京：北京語言學院出版社,1992.

[3] Louis A， Nenkova A. Automatic identification of general and specific sentences by leveraging discourse annotations[C]//Proceedings of EMNLP, 2011.

[4] Lin Z, Ng H， Kan M. Automatically evaluating text coherence using discourse relations[C]//Proceedings of ACL, 2011.

[5] Girju R. Automatic detection of causal relations for question answering[C]//Proceedings of ACL workshop on multilingual summarization and question answering, 2003.

[6] 張志昌，張宇，劉挺，李生. 基于話題和修辭識別的閱讀理解Why型問題回答[J]. 計算機研究與發展，2011, 48(2):216-223.

[7] Wang F, Wu Y. Exploiting discourse relations for sentiment analysis[C]//Proceedings of COLING, 2012.

[8] Guzman F, Joty S, Marquez L, Nakov P. Using Discourse Structure Improves Machine Translation Evaluation[C]//Proceedings of ACL, 2014.

[9] Carlson L, Marcu D, Okurowski M, Okurowski M. Building a discourse-tagged corpus in the framework of Rhetorical Structure Theory[C]//Proceedings of the 2nd SIGDIAL workshop on discourse and dialogue, 2001.

[10] Prasad R, Dinesh N, Lee A, et al. The Penn Discourse TreeBank 2.0[C]//Proceedings of LREC, 2008.

[11] 周強. 漢語句法樹庫標注體系[J]. 中文信息學報，2004,18(4):1-8.

[12] Xue N. Annotating discourse connectives in the Chinese Treebank[C]//Proceedings of the Workshop on Frontiers in Corpus Annotations, 2005.

[13] Zhou Y, Xue N. PDTB-style discourse annotation of Chinese text[C]//Proceedings of ACL, 2012.

[14] 邢福義，姚雙云.漢語復句語料庫的建設與利用[C]//載朱小健主編《中文信息處理的探索與實踐》. 北京：北京師范大學出版社, 2006.

[15] 樂明. 漢語篇章修辭結構的標注研究[J].中文信息學報, 2008,22(4): 19-23，42.

[16] Huang H， Chen H. Chinese discourse relation recognition[C]//Proceedings of IJCNLP, 2011.

[17] 張牧宇,秦兵,劉挺.漢語篇章級句間語義關系體系及標注[C]//Proceedings of CCIR 2012.

[18] 徐赳赳. 現代漢語篇章語言學[M]. 北京: 商務印書館, 2010.

[19] 呂淑湘，朱德熙. 語法修辭講話(第2版)[M]. 北京：中國青年出版社, 1979.

[20] 胡裕樹(主編). 現代漢語(重訂本)[M]. 上海：上海教育出版社, 1995.

[21] 邢福義. 漢語復句研究[M]. 北京：商務印書館, 2001.

[22] 吳為章，田小琳. 漢語句群[M]. 北京：商務印書館, 2000.

[23] Li N， Thompson A. Subject and topic: a new typology of languages[M]. Li N. (eds). Subject and Topic. New York: Academic Press.1976.

[24] 曹逢甫. 主題在漢語中的功能研究[M]. 北京：語文出版社.1995.

[25] Prasad R, Miltsakaki E Dinesh, et al. The Penn discourse treebank 2.0 annotation manual[C]//Proceedings of IRCS Technical Reports Series, 2008.

Intra-Sentence Relationship Annotation Scheme for Chinese Discourse Analysis

WU Yunfang, XU Yifeng, WANG Kairan

(Key Laboratory of Computational Linguistics, Ministry of Education, Peking University, Beijing 100871, China)

Automatic discourse analysis has aroused strong interests in the recent years. Compared to the bulks of work on English discourse analysis, much less work has been done in Chinese discourse parsing. A non-negligible reason is that there is no well-annotated Chinese discourse corpus publically available. Under the RST-framework, this paper proposes an intra-sentence relationship annotation scheme for Chinese discourse analysis. We consider both the topic and the logic aspect, discriminating the attachment relationship and logic relationship in Chinese intra-sentence relationship. The logic relationship consists of 6 types and 15 subtypes. Up to now, we have annotated 8,000 sentences in thePeopleDailyNews. We check 1,000 sentences in a double-blind manner for the inter-annotator agreement, which may give a hint for the difficulties in this task. Based on the annotated data, we give some statistics analysis and demonstrate some challenges for Chinese automatic discourse analysis.

discourse relation; Intra-Sentence Relationship; corpus annotation

吳云芳(1973—)，博士，副教授，主要研究領域為篇章語義分析，智能問答系統。E?mail：wuyf@pku．edu．cn徐藝峰(1989—)，碩士研究生，主要研究領域為是篇章語義學。E?mail：win1989@126．com王愷然(1988—)，碩士研究生，主要研究領域為篇章語義學。E?mail：wangkairan@pku．edu．cn

1003-0077(2015)03-0071-11

2013-04-08 定稿日期： 2014-11-25

國家自然科學基金(61371129)；國家重點基礎研究發展計劃(2014CB340504); 國家社科基金重大項目(12&ZD227)；網絡文化與數字傳播北京市重點實驗室開放課題(ICDD201402，ICDD201302)

TP391