999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語篇章微觀話題結構建模與語料庫構建

2017-08-31 19:49:08奚雪峰褚曉敏孫慶英周國棟
計算機研究與發展 2017年8期
關鍵詞:結構

奚雪峰 褚曉敏 孫慶英 周國棟

1(蘇州大學計算機科學與技術學院 江蘇蘇州 215000) 2(蘇州科技大學計算機科學與工程系 江蘇蘇州 215009) 3 (蘇州市虛擬現實智能交互及應用技術重點實驗室 江蘇蘇州 215009) (xfxi@mail.usts.edu.cn)

漢語篇章微觀話題結構建模與語料庫構建

奚雪峰1,2,3褚曉敏1孫慶英1周國棟1

1(蘇州大學計算機科學與技術學院 江蘇蘇州 215000)2(蘇州科技大學計算機科學與工程系 江蘇蘇州 215009)3(蘇州市虛擬現實智能交互及應用技術重點實驗室 江蘇蘇州 215009) (xfxi@mail.usts.edu.cn)

篇章話題結構分析是自然語言理解的前沿基礎,而大規模高質量的適用于漢語篇章分析的語料資源缺乏,嚴重制約了相關篇章話題計算模型的研究.針對上述問題,首先研究了漢語篇章話題結構的理論表示體系.分析了主述位理論、英語修辭結構理論和賓州篇章樹庫體系的優勢,結合漢語復句句群理論以及漢語自身特點,提出了一種基于主述位理論的漢語篇章微觀話題結構表示方式,并借助微觀話題鏈構建了漢語篇章話題結構表示體系.隨后,在此基礎上,采用自頂向下、后向搜索的標注策略和人機結合的語料庫標注方式,構建了基于篇章微觀話題表示體系的漢語篇章話題結構語料庫(Chinese discourse topic corpus, CDTC).CDTC共包含500個文檔,對其進行了詳細統計分析并展示了語料庫的標注情況.與賓州篇章樹庫體系、廣義話題結構理論的對比表明,所提篇章微觀話題結構表示體系在理論上具有一定的優越性,并且符合漢語特點;一致性檢驗表明CDTC能夠充分體現漢語篇章話題分析問題本身的難度,并能夠為相關研究提供語料資源支持.

篇章話題結構;主位-述位理論;主位推進;話題鏈;語料庫構建

讓機器準確地理解自然語言文本篇章主題,甚至能夠理解篇章作者想要表達的意圖,是人工智能發展的重大挑戰任務之一.而在當前自然語言理解的研究工作中,篇章話題結構分析是前沿核心基礎,主要任務是從篇章整體層次上分析篇章話題結構及其組成單元之間的語義關系,并利用上下文理解篇章.

然而由于大規模高質量的適用于漢語篇章分析的標注語料嚴重缺乏,制約了相關篇章話題計算模型的研究,近年來漢語篇章語料庫資源建設已經逐漸成為研究重點.盡管已有研究者或基于英語篇章分析理論體系,或基于漢語的復句、句群理論和廣義話題結構理論,對漢語篇章話題結構分析資源庫展開了有益的探索[1-4],然而總體來看,漢語篇章話題結構語料庫構建研究依然較為匱乏,這使得面向漢語的篇章話題結構研究受到極大的制約.

基于此,我們面向漢語篇章話題結構開展了針對性研究.基于主述位理論,提出了一種篇章微觀話題結構形式化表示模型,并基于該模型完成了篇章話題結構語料庫構建.

1 相關研究

1.1漢語篇章話題結構分析

在漢語篇章話題研究方面,趙元任[5]首先在漢語結構分析研究中引入話題(topic)概念,他采用了“話題”和“說明”來闡釋漢語的“主語”和“謂語”結構.曹逢甫[6]則強調了話題的篇章本性.在漢語篇章中,通過采用話題的代詞化和省略形式,可以把話題的語義范圍拓展到小句之外,而這種方式恰好有助于構建話題的鏈結構,體現篇章的銜接性;進一步,曹逢甫提出了漢語話題鏈(topic chain)的概念,并研究了在控制小句連接過程中,話題鏈所起到的作用.話題鏈的形成主要依賴各種指代回指(anaphor)形式,即零形回指(zero anaphor, ZA)、代詞回指(pronoun anaphora, PA)和名詞回指(nominal anaphor, NA)的選擇方法.屈承熹[7]綜合分析了已有研究成果,將話題鏈定義為“一組以零回指ZA形式的話題連接起來的小句”,從而提供了較強的可計算性.

話題鏈在篇章結構分析中的獨特作用,不僅在漢語篇章分析中存在,而且在英語篇章中也有類似效果.基于小規模人工標注的漢英篇章并行語料庫,劉禮進對比研究了在宏觀語義結構描述上,漢英篇章中存在的話題鏈所表現出的功能差異性[8].

王建國也分析了漢英篇章中話題鏈的不同特點,并拓展了話題鏈的定義,將其描述為“由同一話題引導的系列語句”,這把話題鏈的作用范圍延伸到句群和篇章層面[9].周強和周驍聰[10]定義了話題評述關系集合,結合關聯詞語及已有的連貫形式描述機制,構建了一種新的話題鏈描述形式.

漢語與英語相比有很大不同,就篇章結構而言,從基本篇章單元、篇章結構的組織、篇章關系的分類,到連接詞的形式與分布均有所不同,因此面向英語篇章結構分析的修辭結構理論和賓州篇章樹庫體系并不能直接套用到漢語篇章結構分析應用中.

就漢語而言,具有“本土特征”的復句句群理論雖然著眼點不是篇章理論,但是徐赳赳[11]對比研究了復句句群理論和RST理論,發現兩者研究的對象、內容、方法及其表現形式等都有相通之處,因而推斷在漢語篇章分析層面,復句句群理論應該還有很大的潛在應用價值.

此外,宋柔等人針對漢語篇章話題結構進行了比較深入的研究,提出了廣義話題結構(generalized topic structure, GTS)的概念和相應的表示方法[1-2,12].依據這一理論,他們以標點句為基本篇章單位,開展了漢語篇章的話題結構標注工作.這一研究成果是漢語篇章分析領域的一項開創性工作.

相對于西方語言(特別是英語)篇章分析的長期研究,漢語篇章話題分析的研究剛剛起步,目前主要處于理論體系探索和語料庫資源建設階段.

1.2漢語篇章結構語料庫及計算模型

由于大規模高質量的適于漢語篇章分析的標注語料嚴重缺乏,制約了相關篇章話題計算模型的研究,近年來建立漢語篇章語料庫資源日益成為研究者關注的焦點.相關工作主要包括2類:1)在參考RST和PDTB體系的基礎上,結合漢語復句和句群理論的研究成果,對漢語篇章結構的標注體系進行探索;2)針對漢語篇章話題結構,開展相應語料庫建設實踐.

第1類代表性工作有:樂明[13]根據RST理論,面向漢語篇章結構,結合漢語句群和復句理論開展了標注探索,主要工作包括以標點符號為邊界,定義了篇章修辭結構分析的基本單元;定義了47種漢語修辭關系集用于區分核心單元;定義了篇章結構標注的具體規則;在此基礎上,選取來自大陸主要媒體中的97篇財經評論文章開展了修辭結構標注,探索了中文篇章分析中采用RST的可行性.此外,Xue[14]分析了漢語中篇章連接詞的分布情況,并對漢語篇章連接詞的意義消歧和變形等問題進行了探討,他采用類PDTB標注體系,面向中文樹庫篇章連接詞標注問題,尤其是顯式連接詞標注開展了標注實踐及相關研究.在此基礎上,Zhou等人[15]在PDTB標注體系下對來自中文樹庫的98個文件進行了標注,并對漢語和英語在該體系下的差異進行了分析.漢語句子中由于缺省較多連接詞,因此無法直接采用面向英語的PDTB體系開展相關研究.Huang等人[16]提出一種彈性的漢語篇章結構標注框架并完成了網上標注系統的開發;結合此標注框架及PDTB體系,標注者完成了隱式或顯式、跨句及句內等篇章關系,以及情感信息的標注.張牧宇等人選取LDC發布的OntoNotes 4.0中的1 096篇漢語文本按照PDTB體系進行了分句、復句和句群3個層次的篇章關系的標注[17].標注內容包括顯式篇章關系的關系連接詞、關系元素和關系類別信息;以及隱式關系的可插入的連接詞和篇章關系類別信息.他們將篇章關系分為時序、因果、條件、比較、擴展和并列6類,標注的關系連接詞共有1 273個.

作者所在的蘇州大學自然語言課題組結合PDTB和RST體系的優勢,在充分考慮漢語篇章特點的基礎上,將基本篇章單位和連接詞分別采用樹結構的葉子節點及中間節點的形式加以表示.高級篇章單位相對分層:最底層由各基本篇章單元組成;組合底層的篇章單位,構建次高級的篇章;重復組合,不斷產生更高級的篇章單位,最終將漢語篇章修辭結構表示成一棵篇章結構樹[18].在此方案指導下,該課題組標注完成了中文樹庫上500篇文章的篇章修辭結構,其中涉及基本篇章單位、篇章結構邊界、篇章連接詞、篇章分層關系及主次篇章單位等.

第2類代表性工作是宋柔課題組基于他們提出的廣義話題結構的概念,把標點句看作基本篇章單位,開展了漢語篇章的話題結構標注工作,已標注了《圍城》、《鹿鼎記》和其他語料(涉及章回小說、現代小說、百科全書、法律法規、散文、操作說明書等不同語體),共約40萬字,其數據仍在修訂整理中.其中,《鹿鼎記》第1回的廣義話題結構標注及其說明已經在網上公開發布*http://clip.blcu.edu.cn/.

2 基于主述位理論的漢語篇章微觀話題結構

形式化表示體系是語料庫資源建設的基礎.結合主述位理論[19]、漢語復句理論[20]、廣義話題結構理論[21]等的研究,我們采用一種主述位形式表示漢語的篇章話題結構,并基于主位推進模式構建漢語的篇章話題聯接關系體系,用以指導構建一個結構表示清晰、便于擴展對比、標注統一的漢語篇章話題結構語料庫.

為便于說明問題,我們給出例1及其篇章話題結構的可視化表示如圖1所示.

Fig. 1 Chinese discourse topic structure visualization representation for example 1圖1 例1的漢語篇章話題結構可視化表示體系

例1. a[李四]T1比較年輕,||b[]T2〈而且〉工作經驗也不足,|||c[]T3學歷也又不高,|d但是[]T4不論做啥事情,|||e[他]T5都認真負責,||f[所以,領導]T6非常器重他.

從圖1中(b)部分內容可見,例1由多個篇章基本單元組成,各單元之間通過語義銜接關系相連接,為進一步開展篇章話題分析提供了表示基礎.

面向圖1中所示的篇章話題結構表示形式,我們從形式化表示及可計算角度給出定義.

定義1. 篇章基本話題(elemental discourse topic unit, EDTU).是最小的獨立表達意圖性的單位,通常是一個含主謂的獨立句子.

例2. 1) 兩名俄羅斯航天員進入航天飛機.

2) 兩名俄羅斯航天員進入航天飛機開始準備升空.

例2中1)表示一個基本話題,主語是“兩名俄羅斯航天員”,謂語是“進入(航天飛機)”;而例2中2)則包含了2個基本話題,主語相同,謂語分別是“進入(航天飛機)”和“開始(準備升空)”.

在圖1表示例1的漢語篇章話題結構中,篇章基本話題共有6個,分別表示例1中的a~f標注段.這里所提到的篇章基本話題結構(EDTU),從形式上與有關篇章修辭結構中所標注的篇章子句(EDU,圖1中(a)部分)是一致的[18],這也有利于開展篇章修辭結構與篇章話題結構的統一聯合研究.

篇章微觀話題結構以篇章基本話題(EDTU)為組成部分,借鑒主述位理論,給出篇章微觀話題結構定義.

定義2. 篇章微觀話題結構(micro-topic scheme, MTS).是一個四元組,

MTS=(Sn,Sn+1,V,δn),

其中,Sn∈T∪R,Sn+1∈T∪R,T為一個篇章中的篇章基本話題(EDTU)的主位(theme)集合;V為連接成立的置信函數,V(Sn,Sn+1)∈[0,1];R為同一個篇章中的篇章基本話題(EDTU)的述位(rheme)集合;δn∈Γ,Γ為同一個篇章中的微觀話題聯接(micro-topic link)的集合.

定義3. 置信函數V.?V,當且僅當V≥Threshold,0≤Threshold≤1,δn才能成立.

這里Threshold表示連接成立的閾值,δn成立即表示MTS成立.

例3. 1) 這份文件是瑪利亞留下的;

2) 她剛剛走開.

例3中,篇章基本話題1)與篇章基本話題2)之間即通過微觀話題聯接構成一個篇章微觀話題結構.其中,“是瑪利亞留下的”是基本話題1)中的述位,而“她”則是基本話題2)中的主位.

有關主位、述位以及微觀話題聯接的定義見定義4~定義6.

定義4. 篇章微觀話題結構中的主位(theme).是指包含在一個篇章基本話題(EDTU)之中的謂詞前面的成分,一般包含主語;篇章基本話題(EDTU)中剩余部分,即為述位(rheme).

漢語重意合,在子句中會大量出現缺省主語(或賓語等)的情況,因此也帶來了包含主語的主位(或包含賓語的述位)的缺省.

定義5. 隱式主位.一個篇章基本話題中缺省的主位,稱為隱式主位;缺省的述位稱為隱式述位.

需要特別說明的是,由于自然語言中句子包含陳述句、一般疑問句、復雜疑問句、反問句、祈使句等多種句型,相應的主述位定義也有所不同.為降低初始研究的復雜性,定義4~5中的主述位概念,均限定在陳述句范疇內.后續將對其他句型分類展開形式化定義研究.

例3中,基本話題2)的主位“她”與基本話題1)的述位中的“瑪利亞”形成指代關系.這里的指代關系即為一種語義關聯,形成微觀話題聯接(micro-topic link).

定義6. 微觀話題聯接(micro-topic link, MTLink).是一種上下文篇章基本話題(EDTU)內主述位之間語義關聯的可信度表示,體現篇章之間的銜接特性,主要包含照應(指代)、省略、替代、重復、同義、反義、具體抽象化(下義轉上義)、抽象具體化(上義轉下義)、局部整體化、整體局部化、搭配共11種類型,形式化為

MTL=(CT,CV),

其中,CT是一種銜接類型,CT∈{照應、省略、替代、重復、同義、反義、具體抽象化、抽象具體化、局部整體化、整體局部化、搭配};CV是銜接類型成立的可信度,取值為實數,其值區間表示為0≤CV≤1.

下面分別對11種銜接類型加以說明:

1) 照應.指的是一個主述位作為另一個篇章基本話題(EDTU)中主述位的參照點,如例4中的人稱代詞“他”指前面出現的“彼得”.

例4. 彼得有一個妻子,非常愛他.

2) 省略.指的是把一個篇章基本話題(EDTU)中的主述位忽略不計,從而避免重復.這種銜接類型有利于突出新信息,形成上下緊湊的語篇關系.如例5中,“看到一只貓前”省略了“我”.

例5. 我早上出門,看到一只貓.

3) 替代.指的是用替代詞去取代篇章基本話題(EDTU)中的主述位,替代詞的語義來自于所替代的成分.

4) 重復.指的是篇章基本話題(EDTU)中的主述位多次出現,如例6中的“熊”.

例6. 安哥拉碰到了一只熊,這只熊顯然非常饑餓.

5) 同義.指的是關聯上下2個篇章基本話題(EDTU)中的主述位是一對同義詞.

6) 反義.指的是關聯上下2個篇章基本話題(EDTU)中的主述位是一對反義詞.

7) 具體抽象化.指的是存在關聯關系的兩個篇章基本話題(EDTU)中的主述位,上一個主述位是下一個主述位的具體表示(或者是子類),下一個主述位是上一個主述位的抽象表示(或者是父類).如例7中,上一個主述位所標注的“哺乳動物”屬于“動物”的一種,“動物”是“哺乳動物”的父類.

例7. 哺乳動物/是動物的一種,這里的動物/大多屬于能夠自主移動的生命體.

8) 抽象具體化.指的是存在關聯關系的2個篇章基本話題(EDTU)中的主述位,上一個主述位是下一個主述位的抽象表示(或者是父類),下一個主述位是上一個主述位的具體實例表示(或者說是子類).如例8中,上一個主述位所標注的“哺乳動物”是“馬”的抽象表示,“馬”是一種具體的“哺乳動物”.

例8. 哺乳動物/存在一類食草動物,馬/就是這類動物的典型代表.

9) 整體局部化.指的是下一個篇章基本話題中的主述位是上一個篇章基本話題主述位的局部表示.如下例9中的“臉”,“身”和“手”,可以同上文提到的“一個老頭”形成局部與整體的語義關系.

例9. 前面走來一個老頭,滿臉皺紋,身披破棉襖,手中拿著個搪瓷碗.

10) 局部整體化.指的是下一個篇章基本話題中的主述位是上一個篇章基本話題主述位的整體表示.如例10中的“這輛自行車”可以同上文中提到的“輪轂”、“車身”形成整體與局部的語義關系.

例10. 輪轂/變形了,車身架子/斷裂了,這輛自行車/基本報廢了.

11) 搭配.指的是詞匯同現,即一組語義上有聯系的詞匯關聯上下篇章基本話題(EDTU)結構中的主述位.例如2組詞:(冰天雪地,白色)和(夜晚,星星).

在圖1表示的例1的漢語篇章話題結構中,篇章微觀話題結構(MTS)共有5個,分別以微觀話題聯接(圖1中(b)部分的箭頭)相關聯,可以表示為(T1,T2,V,δ1),(T2,T3,V,δ2),(T3,T4,V,δ3),(T4,T5,V,δ4),(T5,R6,V,δ5),其中置信函數V的取值都是大于閾值的.

定義7. 篇章話題結構(discourse topic structure, DTS).由n(n≥1)個篇章微觀話題結構(MTS)組成,且篇章微觀話題結構(MTS)之間也通過篇章微觀話題聯接(MTLink)相關連.

實質上,篇章話題結構是一種遞歸定義,可以表示如下規則為:

1) 篇章微觀話題結構是篇章話題結構;

2) 通過篇章微觀話題聯接(MTLink)相關聯的兩個篇章話題結構也是篇章話題結構;

3) 篇章話題結構,當且僅當有限次使用規則1和規則2所構成.

定義8. 篇章話題鏈.在一個篇章話題結構中,多個相關聯的篇章微觀話題聯接(MTLink)構成了一個篇章話題鏈(discourse topic chain, DTC).

在圖1表示的例1漢語篇章話題結構中,δ1,δ2,δ3,δ4,δ5構成了一個篇章話題鏈.

主位推進理論中的主位推進模式直觀地反映了篇章話題演變關系,將其應用于漢語篇章話題鏈的識別即可構建一個完整的篇章話題結構體系.本文把篇章話題演變關系作為一個獨立模塊進行研究,資源標注部分同時也涉及話題結構體系.兩者的關系在于,在標注資源上對篇章基本話題進行話題鏈的識別,即可獲得篇章話題動態演變模型.這里需要研究的問題是如何對話題鏈進行形式化表示,從而獲得一個邏輯性強,并且應用廣泛的篇章話題結構體系.鑒于此,我們提出一個基于微觀話題結構的主位推進模式(MTS-TPs).

定義9. 微觀話題主位推進模式.在一個篇章微觀話題結構中,根據微觀話題聯接(MTLink)所連接的上下篇章基本話題中的不同主位或述位,可以構成不同的微觀話題主位推進模式(MTS-based thematic progression patterns, MTS-TPs),其實質也是一種微觀話題結構.形式化表示為MTS-TPs∈{MTS}.

與傳統主位推進模式表示不同的是,我們在判斷上下子句之間的主述位關系時,不僅包含傳統主述位語義相等關系,而且還提出了包含其他具有篇章之間銜接關系的微觀話題聯接(MTLink)的概念(見定義6),即主述位之間只要形成微觀話題聯接,上下句之間的關聯關系就能成立.具體共定義了4種不同的微觀話題主位推進模式見定義10~定義13.圖2給出了4種微觀話題主位推進模式的可視化表示圖.

定義10. 放射型主位推進模式.在一個篇章微觀話題結構中,微觀話題聯接(MTLink)所連接的上一個端口是篇章基本話題中的主位,下一個端口連接的也是篇章基本話題中的主位,則構成放射型主位推進模式(MTS-based constant thematic progression, MTS-CosTP).其形式化表示為

MTS-CosTP=(Tn,Tn+1,V,δn),

其中,Tn∈T,Tn+1∈T,T為一個篇章中的篇章基本話題(EDTU)的主位(theme)集合;V為連接成立的置信函數,V(Tn,Tn+1)∈[0,1];δn∈Γ,Γ為同一個篇章中的微觀話題聯接(MTLink)的集合.

例11. 兩個綁匪(T1)躲藏了起來(R1),他們(T2=T1)綁住了小米的手腳(R2).

例11中,第2句中的主位,即人稱代詞“他們”與上一句中的主位“兩個綁匪”,存在指代關系,T2→T1,構成一個微觀話題聯接.

定義11. 集中型主位推進模式.在一個篇章微觀話題結構中,微觀話題聯接(MTLink)所連接的上一個端口是篇章基本話題中的述位,下一個端口連接的也是篇章基本話題中的述位,則構成集中型主位推進模式(MTS-based centralized thematic progression, MTS-CenTP).其形式化表示為

MTS-CenTP=(Rn,Rn+1,V,δn),

其中,Rn∈R,Rn+1∈R,R為一個篇章中的篇章基本話題(EDTU)的述位(rheme)集合;V為連接成立的置信函數,V(Rn,Rn+1)∈[0,1];δn∈Γ,Γ為同一個篇章中的微觀話題聯接(MTLink)的集合.

例12. 孩子們(T1)笑了(R1),然后他們的母親(T2)也笑了(R2=R1).

例12中,上下句述位包含“笑了”,存在重復關系,R2→R1,構成一個微觀話題聯接.

定義12. 延續型主位推進模式.在一個篇章微觀話題結構中,微觀話題聯接(MTLink)所連接的上一個端口是篇章基本話題中的述位或述位的一部分,下一個端口連接的是篇章基本話題中的主位,則構成延續型主位推進模式(MTS-based simple linear thematic progression, MTS-SimTP).其形式化表示為

MTS-SimTP=(Rn,Tn+1,V,δn),

其中,Rn∈R,Tn+1∈T,R為一個篇章中的篇章基本話題(EDTU)的述位(rheme)集合;T為同一個篇章中的篇章基本話題(EDTU)的主位(theme)集合;V為連接成立的置信函數,V(Rn,Tn+1)∈[0,1];δn∈Γ,Γ為同一個篇章中的微觀話題聯接(MTLink)的集合.

例13. 我們的學校(T1)是一個大花園(R1),花園里(T2=R1)長滿了各種花草(R2).

例13中,后一句的主位中核心詞“花園”,包含在前一句的述位中,T2→R1,構成一個微觀話題聯接.

定義13. 交叉型主位推進模式.在一個篇章微觀話題結構中,微觀話題聯接(MTLink)所連接的上一個端口是篇章基本話題中的主位,下一個端口連接的是篇章基本話題中的述位或述位的一部分,則構成交叉型主位推進模式(MTS-based crossed thematic progression, MTS-CrsTP).其形式化表示為

MTS-CrsTP=(Tn,Rn+1,V,δn),

其中,Tn∈T,Rn+1∈R,T為一個篇章中的篇章基本話題(EDTU)的主位(theme)集合;R為同一個篇章中的篇章基本話題(EDTU)的述位(rheme)集合;V為連接成立的置信函數,V(Tn,Rn+1)∈[0,1];δn∈Γ,Γ為同一個篇章中的微觀話題聯接(MTLink)的集合.

Fig. 2 Visual representation of four thematic progression patterns based on micro-topic scheme圖2 4種微觀話題主位推進模式可視化表示圖

例14. 這只小貓(T1)非常可愛(R1),小朋友們(T2)都非常喜歡它(R2=T1).

例14中,后一句的述位中核心詞“它”,與前一句主位“小貓”存在回指關系,R2→T1,構成一個微觀話題聯接.

在圖1表示的例1漢語篇章話題結構中,前4個篇章微觀話題聯接,滿足MTS-CosTP主位推進模式要求;最后第5個滿足MTS-CrsTP主位推進模式要求.

3 篇章微觀話題結構語料庫(CDTC)

基于第2節微觀話題結構形式化表示,為開展面向篇章理解的話題結構研究提供必要的語料資源,我們構建了漢語篇章話題結構語料庫(Chinese discourse topic coupus).

CDTC共包含500篇文檔,其中原始自然句子(以句號或感嘆號等結尾)共有6 648個.每個自然句子標注切分為多個篇章基本話題(EDTU),共得到10 147個篇章基本話題;每個篇章基本話題內部再次切分為主位和述位2部分.根據定義2,由篇章基本話題(EDTU)及微觀話題聯接(MTLink)構建本語料庫的微觀話題結構(MTS),共標注5 095個MTS;利用篇章話題結構內的微觀話題聯接(MTLink)構成1 698條篇章話題鏈(DTC);平均每個有效標注的篇章話題鏈連接5.98個EDTU.

3.1語料庫構建

3.1.1 語料資源

為便于研究比較,我們構建CDTC的生語料資源來自賓州漢語樹庫6.0版(chtb0001-chtb0325,chtb0400~chtb0657).之所以采用上述CTB中的文檔作為生語料,原因主要有3個:

1) 賓州漢語樹庫采用PDTB體系,自發布以來,在多類篇章結構分析任務中得到應用,具有較高的認可度;在該語料上完成微觀話題結構的標注,有利于和其他已有研究開展比對.

2) 我們前期在結合PDTB和RST體系的基礎上,提出了一種使用連接依存樹的形式表示漢語篇章修辭結構的標注方案;并在此方案的指導下,已經選取上述中文樹庫CTB6.0上的500篇文檔進行了篇章修辭結構的標注,這部分工作主要側重為篇章連貫性研究提供語料資源.本文選用同樣的500篇文檔,采用微觀話題結構標注體系,主要側重為篇章銜接性研究提供語料資源,兩者互為補充,為篇章話題結構提供聯合研究資源.

3) 從應用角度考慮,篇章話題結構的研究,離不開組成篇章的字、詞、句法等不同層次的特征.充分利用CTB6.0原有標注資源,結合我們的微觀話題結構標注,為將來開展篇章有關的自然語言處理任務提供充分的語法、語義等多方面特征資源.

3.1.2 語料標注策略

總體指導原則是:一切從便于篇章理解的角度出發,制定相應的標注規范;采用計算機輔助人工半自動標注方法.根據主述位篇章微觀話題結構及基于主位推進模式的微觀話題聯接機制,在一定規模的語料上試標注,針對包含照應、省略、替代等微觀話題聯接的標注及微觀話題鏈識別提出具體的標注規范.標注規范注重可操作性,分別從判定原則、動態聯接方法等方面入手制定,并給出例子詳細說明,初步制定標注規范.進一步在較大規模語料上,實施和驗證標注規范的科學性,適當做出調整,最終形成一套完整的漢語篇章微觀話題結構標注規范.

針對不同階段的標注對象,采用了2類具體的標注策略:用于篇章微觀話題結構標注的自頂向下標注策略(top-down strategy)和用于篇章微觀話題鏈標注的后向搜索標注策略(chain-backtracking strategy).

1) 自頂向下的語料標注策略.根據定義2可知,篇章微觀話題結構的主要組成部分是篇章基本話題單元(EDTU),進一步包括篇章基本話題單元中的主位和述位.自頂向下的標注策略是指:對一段篇章內容,首先識別出全文中心主題,根據中心主題劃分子主題所包含的主要的段落;之后,從每個段落中劃分基本話題單元,層層遞進,最后對其中包含的主位和述位進行切分.

在篇章微觀話題結構的標注中使用自頂向下的策略,主要考慮:①由于篇章的話題結構呈現分層次特性,這種策略有利于自上而下在宏觀上把握話題整體結構;②自頂向下的標注策略比較符合人類對篇章話題理解的一般心理過程,在漢語篇章連貫性分析和話題抽取研究中經常采用;③采用這種策略,相近子話題及相異子話題邊界明晰,有利于提高篇章微觀話題結構中篇章基本話題單元上下文之間的微觀話題聯接的標注準確率.很顯然,微觀話題聯接更容易在相同或相近子話題內的篇章基本話題單元之間形成.這同時也有利于下一步篇章微觀話題鏈的標注.

2) 后向搜索的語料標注策略.篇章微觀話題鏈的標注是指多個微觀話題聯接形成連貫的鏈狀結構.理論上來看,一條鏈的標注形成,可以分解為多個兩兩關聯的微觀話題聯接的標注,這樣一來,鏈標注的形成可以轉化為微觀話題聯接的標注.對于微觀話題聯接,因為需要根據下文的主位或述位所表達出的話題含義,來回溯尋找上文所對應可能聯接的主位或述位,因此,我們采用后向搜索的標注策略,即每次標注當前的主位或述位的微觀話題聯接,必定是回頭看上文的對應主位或述位.所以,采用這種后向搜索標注策略,是由鏈結構本身特點所決定.

在采用這個策略進行標注的過程中,向后搜索幾個篇章基本單元,即后向搜索的步數問題,是一個需要注意的關鍵問題.大多數情況下,標注者僅需要向上回溯一步即可,但也不排除某種特殊情形,需要回溯者向上搜索多步.如針對存在隱式主位或述位的情況下,有必要向后多步搜索.如例15所示.

例15. (c)對此,[浦東][不是簡單的采取…的做法,](d)[?][而是吸取…經驗,](e)[?][聘請…專家,](f)[?][及時、迅速地制定和推出…文件,](g)[?][讓這些經濟活動…歸入…處理流程.]

(c) In response to this,(Pudong) is not simply adopting an approach of “… ”(d) (Instead,Pudong) is taking advantage of the experience of … (e) [by hiring appropriate domestic and foreign scholars and specialists], (f) [by actively and promptly formulating and issuing regulatory documents], (g) [and by ensuring that these economic activities are incorporated into …the legal system…]

Fig. 3 Examples of multi-steps backward-searching for micro-topic linking圖3 后向多步搜索微觀話題聯接的例子

圖3描述了例15的主述位標注結構.圖3中主位(d)只需向后回溯一步即可找到微觀話題聯接的對象“浦東”;但是由于隱式主位(缺省主語)的存在,對于中文主位(e),(f),(g)要找到語義上的聯接對象,就需要分別向上回溯2步、3步、4步,才能找到“浦東”這個聯接對象了.英文平行語料的情況與中文相比略有不同,但也有類似缺省的情況.

3.1.3 人機結合的語料標注過程

CDTC語料的標注工作主要由5位漢語言文學的本科生和5位計算機專業的本科生分成2組,在標注規范的指導下進行標注;本文作者和一位語言學專家指導核對,形成最終標準語料.標注分4階段進行:

1) 為確保標注質量及其通用性,我們制定了初步的標注規范并用來培訓標注者,同時完成了計算機輔助標注工具的開發;

2) 為確保標注一致,所有參與的標注人員首先分別標注相同的50篇文檔,然后集中逐一校對討論,討論內容包括篇章基本話題單元、微觀話題結構識別及其構成的話題鏈識別等在內的所有標注內容,統一重新修訂完成新的標注規范;

3) 標注人員分組完成語料的標注,這個數據用來計算語料標注的一致性;制定標注規范和開展標注實踐,必須反復迭代進行,多輪完善后才能得到較為合適的標注規范;

4) 根據最終的標注規范,逐一校對標注語料,最終合并形成可發布的漢語篇章話題結構語料庫CDTC.

在CDTC語料庫標注時,首先導入我們前期已經完成的篇章修辭結構標注處理的語料,作為需要話題結構標注的生語料,然后利用計算機輔助工具生成語料的可視化篇章結構,以輔助人工分析話題結構;通過人工分析識別主述位,尋找候選主述位,建立話題鏈接關系.為評估多人標注完成的語料是否達到一致性要求,我們利用一致性檢驗方法完成了相應的一致性計算,并統計分析了所完成的標注語料結果.此外,為了克服手工標注生文本費時費力,且容易出錯的問題,我們設計開發了漢語篇章微觀話題結構計算機輔助標注系統,如圖4所示,功能模塊包含有篇章結構預處理、計算機輔助可視化結構生成、語料半自動標注、標注結果生成、語料自動統計和一致性自動計算等.其中在核心功能語料半自動標注模塊中,還細分為微觀話題結構中主述位標注、微觀話題鏈識別標注等操作.

Fig. 4 Processing flow of annotation platform for Chinese discourse micro-topic scheme圖4 漢語篇章微觀話題結構標注平臺處理流程

3.2標注規范

CDTC語料庫定義了獨立的標注規范,由標注者根據自己對語料的理解進行標注,標注內容包括篇章基本話題單元和篇章微觀話題結構.篇章基本話題的標注較為簡單,我們要求標注者首先確認包含且僅包含一個謂詞的獨立子句,然后根據該子句是否為最小的獨立表達意圖性的單位來確認其是否為篇章基本話題.然而,由于篇章微觀話題結構標注需要涉及篇章基本話題中的主位和述位識別、上下篇章基本話題之間的微觀話題聯接及其銜接類型識別,因此標注難度極大,為此我們為標注者制訂了一整套標注規范,主要是針對篇章微觀話題結構的標注進行說明.

3.2.1 標注總則

首先我們通過一個具體的例子來分析我們標注方案中標注的篇章微觀話題結構具體內容.

例16. 1)[[浦東]Satellite(T1)開發開放]T1[是一項…工程,]R12)[[null]Satellite(T2)(因此)大量面對的]〈Satellite(T2)=T1〉[是…新狀況、新事務.]R23)[(對此),[浦東]〈T3=Satellite(T2)〉]T3[不是簡單的采取…的做法,]R34)[null]〈T4=T3〉[而是吸取…發展經驗,]R45)[null]〈T5=T4〉[聘請…專家,]R56)[null]〈T6=T5〉[及時、迅速地制定和推出…文件,]R67)[null]〈T7=R6〉[讓這些經濟活動…被歸入合法的處理流程.]R7

例16所示篇章微觀話題結構采用圖形化表示的例子如圖5所示,其中例16中字母所標記的語段表示篇章基本話題(EDTU),Tn前面的語段表示主位,Tn后面的語段表示述位,用Rn表示;各篇章基本話題通過連接主述位的微觀話題聯接組合后形成微觀話題結構,進而通過再組合形成更高一級篇章話題結構(其組合過程也是微觀話題聯接構建微觀話題鏈的過程);如此層層組合,最后形成中心篇章話題結構,并且形式上表現為微觀話題鏈.從圖5可知,例16所示篇章最后可以由2條虛線構成的箭頭作為鏈的頭結點表示(由圖5中指向中心圓的2條虛線構成的箭頭作為鏈的頭結點表示),并形成整個篇章的核心話題.

Fig. 5 The Instance of Micro-Topic Scheme for Example 16圖5 例16的微觀話題結構實例圖

3.2.2 篇章微觀話題結構標注

結合主述位理論、RST、PDTB、漢語復句理論、漢語句群理論和廣義話題結構理論等的研究,我們提出用主述位構建微觀話題鏈的形式表示漢語的篇章話題結構,主要針對的是篇章微觀話題結構的標注,其標注方案如下.

〈EDTU ID=[1..N]〉

TYPE=[Entity|Event] /*實體、事件*/

POSITION=[Theme|Rheme] /*主位、述位*/

LOCATION=[Root|NotR] /*初次出現、非初次出現*/

KEY=[Complex|Satellite|Nucleus] /*組合、輔助、核心*/

RTYPE=[NotZ|Zero] /*非零主述位、零主述位*/

LINKID=[0..N] /*微觀話題聯接的上級ID號*/

LINKTYPE=[***] /*銜接的類型*/

USETIME=[Numbers] /*標注用時統計,體現標注評定難度,單位:秒*/

>主位或述位對象〈/MTS〉……

〈/EDTU〉

基于上述篇章微觀話題結構的標注方案,我們標注篇章基本話題、篇章微觀話題結構,其中篇章微觀話題結構包含聯合主/述位,核心主/述位,篇章微觀話題聯接及其聯接關系類型,相關標注說明如下.

EDTU中的ID表示當前標注對象在當前文檔中的唯一標識號,起始號為1,增幅為1,逐步遞增.這里的標注對象是指當前篇章中的EDTU.

例17表示的即為一個獨立EDTU,其中包含且僅包含一個“是”作為謂詞結構.

例17. 〈EDTU ID=“1”〉浦東開放建設是一項…工程〈/EDTU〉.

MTS中的ID表示當前標注對象在當前文檔中的唯一標識號,起始號為1,增幅為1,逐步遞增.這里的標注對象是指包含在當前EDTU中的主位或述位.

例17中的“浦東開放建設”識別為主位,用T1表示;剩余部分“是一項…工程”識別為述位,用R1表示,如例18中1)所示;采用XML標記對正式標注形成例18中2).

例18. 1) [浦東開放建設]T1[是一項…工程]R1.

2) 〈MTS ID=“1”…〉浦東開放建設〈/MTS〉〈MTS ID=“2”…〉是一項…工程,〈/MTS〉

MTS中的TYPE表示當前標注對象的類型,共有2類取值,分別為“Entity”,“Event”,分別表示“實體”、“事件”.這里的標注對象是指包含在當前EDTU中的主位或述位.有關實體、事件的定義,我們采用PDTB體系的同類概念.

例19所示即為“實體”的標注類型.其中的“上海浦東”識別為主位,TYPE值為“Entity”,即表示“實體”類型;剩余部分“近年來頒布實行了…文件”識別為述位.從詞性角度來看,標注為實體的主位或述位一般是名詞或名詞短語.

例19. 〈MTS ID=“1” TYPE=“Entity”…〉上海浦東〈/MTS〉近年來頒布實行了…文件.

從詞性角度來看,標注為事件的主位或述位一般是動詞、動+賓、動詞短語等.例20中1)所示即為標注為“事件”類型的述位結構,其中的“動+賓”結構,“…采取…做法”識別為述位,TYPE值為“Event”,即表示“事件”類型.而例20中2)所示即為標注為“事件”類型的主位結構,其中“浦東開放建設”核心詞是“開放建設”,從詞性角度來看,屬于動賓短語結構.

例20. 1) …,浦東〈MTS ID=“6” TYPE=“Event”…〉不是簡單的采取…做法,〈/MTS〉

2) 〈MTS ID=“1” TYPE=“Event”…〉浦東開放建設〈/MTS〉是一項…工程

MTS中的POSITION表示當前標注對象的位置類型,共有2類取值,分別為“Theme”、“Rheme”,分別表示“主位”、“述位”.

例21所示POSITION取值“Theme”,即表示帶有“主位”標注類型的標注語料.

例21. 〈MTS ID=“1” TYPE=“Entity” POSITION=“Theme”…〉蘇州經濟建設〈/MTS〉取得可喜成果.

例22所示POSITION取值“Rheme”,即表示帶有“述位”標注類型的標注語料.

例22. 西藏金融工作〈MTS ID=“1” TYPE=“Event” POSITION=“Rheme”…〉取得顯著成績.〈/MTS〉

MTS中的LOCATION表示當前標注對象是否初次出現,共有2類取值,分別為“Root”、“NotR”,分別表示“初次出現”、“非初次出現”.

例23表示2個相鄰EDTU,分別以例23中1)和例23中2)為編號.其中例23中1)所標注對象“世界上最大的…國際承包商”的屬性LOCATION取值為“Root”,即表示該對象為初次標注;后續例23中2)能夠與之形成相關聯的微觀話題鏈,則例23中1)所含標注對象為鏈首結點.例23中2)所標注對象“其中不少公司”與上文例23中1)所標注對象存在關聯關系,所以認定當前例23中2)所標注對象不是首次出現,其屬性LOCATION取值為“NotR”.

例23. 1) 〈EDTU ID=“1”〉〈MTS ID=“18” TYPE=“Entity” POSITION=“Theme” LOCATION=“Root”…〉世界上最大的…國際承包商〈/MTS〉已進入中國,〈/EDTU〉

2) 〈EDTU ID=“2”〉〈MTS ID=“19” TYPE=“Entity” POSITION=“Theme” LOCATION=“NotR”…〉其中不少公司〈/MTS〉與中國公司合資合作進行建設.〈/EDTU〉

MTS中的KEY表示當前標注對象在意圖表達上的重要程度,共有3類取值,分別為“Complex”,“Nucleus”,“Satellite”,分別表示“組合標注”、“核心標注”、“輔助標注”.這里的標注對象是指包含在當前EDTU中的“主位”或“述位”.

組合標注是當前標注屬性KEY的默認取值.組合標注內部可以包含核心標注和輔助標注,也可以不包含其他任何標注;但是核心標注或輔助標注必須包含在組合標注內部.

核心標注所標注的對象,能夠體現外圍組合標注所標注對象的意圖,是其核心語義的體現.輔助標注所標注的對象,是核心標注所標注對象的輔助成分,不是外圍組合標注對象的意圖.

例24所示即為不包含其他2個標注的組合標注類型;例25和例26分別表示含有核心標注和輔助標注的組合標注類型.

例24. 〈MTS ID=“1” TYPE=“Entity” POSITION=“Theme” LOCATION=“Root” KEY=“Complex”…〉中國三資企業人民幣貸款余額〈/MTS〉近一千億元.

例25所示即為包含核心標注的組合標注類型,其中ID為1.1的標注對象“中國進出口銀行”即為ID為1的標注對象“去年十月,中國進出口銀行”的核心語義體現,換句話說,在標注ID為1的這個標注對象中,作者主要的意圖是表達“中國進出口銀行”這個實體.

例25. 〈MTS ID=“1” TYPE=“Entity” POSITION=“Theme” LOCATION=“Root” KEY=“Complex”…〉去年十月,〈MTS ID=“1.1” TYPE=“Entity” POSITION=“Theme” LOCATION=“Root” KEY=“Nucleus”…〉中國進出口銀行〈/MTS〉〈/MTS〉聘請日本野村證券公司作顧問,

例26所示即為包含輔助標注的組合標注類型,其中ID為18.2的標注對象“目前,”即為核心標注“外商投資企業”的輔助,表示時間狀態.

例26. 〈MTS ID=“18” TYPE=“Entity” POSITION=“Theme” LOCATION=“Root” KEY=“Complex”…〉〈MTS ID=“18.2” TYPE=“Entity” POSITION=“Theme” LOCATION=“Root” KEY=“Satellite”…〉目前,〈/MTS〉約有十五萬家〈MTS ID=“18.1” TYPE=“Entity” POSITION=“Theme” LOCATION=“NotR” KEY=“Nucleus”…〉外商投資企業〈/MTS〉〈/MTS〉在中國銀行開立帳戶.

MTS中的RTYPE表示當前標注對象是否屬于缺省,共有2類取值:“NotZ”,“Zero”,分別表示“非零結構”或“零結構”.這里的標注對象是指包含在當前EDTU中的“主位”或“述位”.我們把零結構這種情況也稱為隱式主位或隱式述位現象;對應非零結構則稱為顯式主位或顯式述位.

從對當前EDTU完整理解的角度來看,“零結構”表示當前標注對象處于缺省或省略狀態,而缺省或省略的內容,可以從上文中關聯得到.例27表示了這種關聯情況,其中例27中1)所示為“非零結構”的類型,而例27中2)則表示了“零結構”的類型,兩者是上下文關聯的.

例27. 1) 〈EDTU ID=“1”〉〈MTS ID=“1” TYPE=“Event” POSITION=“Theme” LOCATION=“Root” KEY=“Complex” RTYPE=“NotZ”…〉…外商投資項目〈/MTS〉近二十五點九萬個,〈/EDTU〉

2) 〈EDTU ID=“2”〉〈MTS ID=“3” TYPE=“Event” POSITION=“Theme” LOCATION=“NotR” KEY=“Complex” RTYPE=“Zero”…〉null〈/MTS〉實際利用外資…美元.〈/EDTU〉

和“非零結構”相反,不存在顯式內容的標注對象即為“零結構”,如例27中2)所示.其中,零結構所標注對象不存在,我們用“null”來代替該標注對象.此外,零結構和上文非零結構的關聯關系,我們也有標注體現,主要采用MTS中的LINKID和LINKTYPE兩個屬性來表示,相關內容詳見第3.2.4節有關話題鏈的特殊標注規則.

MTS中的USETIME表示標注者在識別當前標注對象過程中思考分析所用的時間,反映標注對象的語義理解難度,它由標注輔助程序自動計算得到.這里的標注對象是指包含在當前EDTU中的主位或述位.

USETIME的計算方法是由標注輔助程序自動計算從上一個標注結束開始,到當前這個標注結束時的間隔時間,單位為s,例28所示其中標注時間USETIME為15 s.

例28. 〈MTS ID=“1” TYPE=“Entity” POSITION=“Theme” LOCATION=“NotR” KEY=“Complex” RTYPE=“NotZ” USETIME=“15”…〉蘇州海關駐張家港辦事處〈/MTS〉于日前成立.

3.2.3 篇章微觀話題鏈標注

MTS中的LINKID和LINKTYPE是一對相關屬性.

MTS中的LINKID表示與當前標注對象存在微觀話題聯接(micro-topic link)關系的上文標注對象的ID號.這里的標注對象是指包含在當前EDTU中的主位或述位.LINKID屬性的取值受到上文MTS中ID的約束,也就是說,上文出現的ID屬性值是當前LINKID屬性的取值范圍.但是也有特殊情況,就是當前標注對象是首次出現,則默認當前LINKID屬性取值為“0”,即MTS中的LOCATION屬性取值為“Root”時,如例29中1)所示.例29中2)表示了正常情況下的LINKID取值.

例29中1)標注的主位內容是“…保稅區”,該內容在全文中首次出現,所以LOCATION取值為“Root”,對應LINKID取值為“0”.

例29. 1) 〈EDTU ID=“1”〉〈MTS ID=“1”…USETIME=“10” LINKID=“0” LINKTYPE=“Empty”〉…保稅區〈/MTS〉今后五年將充分發揮…優勢,〈/EDTU〉

2) 〈EDTU ID=“2”〉〈MTS ID=“3”…USETIME=“17” LINKID=“1”…〉null〈/MTS〉以高新技術產業為先導,〈/EDTU〉.

例29中2)和例29中1)是上下文關系.例29中2)中標注的主位是缺省主位,屬性LINKID取值為“1”,即代表例29中1)中的主位標記屬性ID的值,其指向例29中1)中的主位標注內容,即“…保稅區”.如果將例29中1)的主位標注內容填入例29中2),即可構成完整的一個篇章基本話題(EDTU):“…保稅區以高新技術產業為先導,”.

屬性LINKID關聯了上下文EDTU,其實質作用是實現了篇章之間的銜接(Cohesion)關系.

MTS中的LINKTYPE表示當前標注對象與上文標注對象之間存在的話題聯接關系的類型,分為“照應”、“省略”、“替代”、“重復”、“同義”、“反義”、“具體抽象化”、“抽象具體化”、“整體局部化”、“局部整體化”、“搭配”共11種類型,分別取值為“Reference”,“Ellipsis”,“Substitution”,“Repetition”,“Synonym”,“Antisense”,“Abstraction”,“Instantiation”,“Partialization”,“Integration”,“Collocation”(詳細定義見第2節).此外,特殊情況下,當LINKID取值為“0”時,LINKTYPE取值為“Empty”,表示不存在任何話題聯接關系,如上文例29中1)中的LINKTYPE取值即屬于這種特殊情況.這里的標注對象是指包含在當前EDTU中的主位或述位.

當存在正常話題聯接時,話題聯接關系如下文例30~例39所示.

1) 照應.例30中1)和例30中2)屬于同一篇章中的上下文.例30中1)中標注的述位是一個包含核心標注(nucleus)的組合標注(complex)述位,其中下劃線劃出的內容就是核心標注的內容,即“九百九十五點六億元”;該核心標注內容與下文例30中2)中的主位標注“這一數字”形成照應關系.從例子30中2)中對這個主位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“2.1”即等于例30中1)所標注照應語(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Reference”即表示當前話題聯接關系的類型為“照應”.

例30. 1) 〈EDTU ID=“1”〉〈MTS ID=“1”…LINKTYPE=“Empty”〉…人民幣貸款余額〈/MTS〉〈MTS ID=“2”…LINKTYPE=“Empty”〉已達〈MTS ID=“2.1”…LINKID=“0” LINKTYPE=“Empty”〉九百九十五點六億元〈/MTS〉〈/MTS〉,〈/EDTU〉

2) 〈EDTU ID=“2”〉〈MTS ID=“3”…LINKID=“2.1” LINKTYPE=“Reference”〉這一數字〈/MTS〉比上年末增加二百零三點三億元,〈/EDTU〉.

2) 省略.例31中1)和例31中2)屬于同一篇章中的上下文.例31中1)中標注的主位是一個包含核心標注(nucleus)的組合標注(complex)主位,其中下劃線劃出的內容就是核心標注的內容,即“去年蘇州臺資企業繳納的所得稅”;該核心標注內容與下文例31中2)中的主位空標注“null”形成省略關系.從例子31中2)中對這個主位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“9.1”即等于例31中1)所標注照應語(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Ellipsis”即表示當前話題聯接關系的類型為“省略”.

例31. 1) 〈EDTU ID=“5”〉〈MTS ID=“9”…LINKTYPE=“Empty”〉據…統計,〈MTS ID=“9.1”…LINKID=“0” LINKTYPE=“Empty”〉去年蘇州臺資企業繳納的所得稅〈/MTS〉〈/MTS〉〈MTS ID=“10”…LINKTYPE=“Empty”〉達三點六七億元,〈/MTS〉〈/EDTU〉

2) 〈EDTU ID=“6”〉〈MTS ID=“11”…LINKID=“9.1” LINKTYPE=“Ellipsis”〉 null〈/MTS〉比上年增長百分之五十七點一.〈/EDTU〉

3) 替代.例32中1)和例32中2)屬于同一篇章中的上下文,但并非直接相鄰上下文.例32中1)中標注的主位是一個包含核心標注(nucleus)和輔助標注(satellite)的組合標注(complex)主位,其中下劃線劃出的內容就是輔助標注的內容,即“西藏”;該輔助標注內容與下文例32中2)中的主位標注“全區”形成替代關系.從例子32中2)中對這個主位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“1.1.1”即等于例32中1)所標注輔助標注內容(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Substitution”即表示當前話題聯接關系的類型為“替代”.

例32. 1) 〈EDTU ID=“1”〉〈MTS ID=“1”…LINKTYPE=“Empty”〉…期間,〈MTS ID=“1.1”…LINKTYPE=“Empty”〉〈MTS ID=“1.1.1”…LINKID=“0” LINKTYPE=“Empty”〉西藏〈/MTS〉金融〈/MTS〉體制改革〈/MTS〉堅持…方針,〈/EDTU〉…

2) 〈EDTU ID=“4”〉〈MTS ID=“7”…LINKTYPE=“Empty”〉去年,〈MTS ID=“7.1”…LINKID=“1.1.1” LINKTYPE=“Substitution”〉全區〈/MTS〉各項存款〈/MTS〉首次突破…大關.〈/EDTU〉

4) 重復.例33中1)和例33中2)屬于同一篇章中的上下文.例33中1)中標注的主位是一個包含核心標注(nucleus)的組合標注(complex)主位,其中下劃線劃出的內容就是核心標注的內容,即“韓國”;該核心標注內容與下文例33中2)中的述位輔助標注“韓國”(下劃線劃出內容)形成重復關系.從例子33中2)中對這個述位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“3.1”即等于例33中1)所標注內容(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Repetition”即表示當前話題聯接關系的類型為“重復”.

例33. 1) 〈EDTU ID=“2”〉〈MTS ID=“3”…LINKTYPE=“Empty”〉截止…,〈MTS ID=“3.1”…USETIME=“8”LINKID=“0” LINKTYPE=“Empty”〉韓國〈/MTS〉〈/MTS〉在華投資企業總數為…家,〈/EDTU〉

2) 〈EDTU ID=“3”〉〈MTS ID=“5”…LINKTYPE=“Empty”〉中國〈/MTS〉〈MTS ID=“6”…LINKTYPE=“Empty”>已成為〈MTS ID=“6.1”…USETIME=“14” LINKID=“3.1” LINKTYPE=“Repetition”〉韓國〈/MTS〉最大的投資對象國.〈/MTS〉〈/EDTU〉

5) 同義.例34中1)和例34中2)屬于同一篇章中的上下文.例34中1)中標注的述位是一個組合標注(complex)述位,其中下劃線劃出的內容就是標注的內容,即“已投入使用,”;該標注內容與下文例34中2)中的述位“運轉正常,”(下劃線劃出內容)形成同義關系.從例子34中2)中對這個述位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“12”即等于例34中1)所標注內容(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Synonym”即表示當前話題聯接關系的類型為“同義”.

例34. 1) 〈EDTU ID=“6”〉〈MTS ID=“11”…LINKTYPE=“Empty”〉二千門程控電話〈/MTS〉〈MTS ID=“12”…LINKID=“0” LINKTYPE=“Empty”〉已投入使用,〈/MTS〉〈/EDTU〉

2) 〈EDTU ID=“7”〉〈MTS ID=“13”…LINKTYPE=“Empty”〉十千伏高壓電路〈/MTS〉〈MTS ID=“14”…LINKID=“12” LINKTYPE=“Synonym”〉運轉正常,〈/MTS〉〈/EDTU〉

6) 反義.例35中1)和例35中2)屬于同一篇章中的上下文.例35中1)中標注的述位是一個包含核心標注(nucleus)的組合標注(complex)主位,其中下劃線劃出的內容就是核心標注的內容,即“一個默默無聞的小漁村”;該核心標注內容與下文例35中2)中的述位核心標注“一個現代化都市的框架”(下劃線劃出內容)形成反義關系,或者說是一種對比反差關系.從例子35中2)中對這個述位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“2.1”即等于例35中1)所標注內容(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Antisense”即表示當前話題聯接關系的類型為“反義”.

例35. 1) 〈EDTU ID=“1”〉〈MTS ID=“1”…LINKTYPE=“Empty”〉數年前,北海〈/MTS〉〈MTS ID=“2”…LINKTYPE=“Empty”〉還是北部灣〈MTS ID=“2.1”…LINKTYPE=“Empty”〉一個默默無聞的小漁村〈/MTS〉,〈/MTS〉〈/EDTU〉

2) 〈EDTU ID=“2”〉〈MTS ID=“3”…USETIME=“12” LINKID=“1” LINKTYPE=“Repetition”〉然而三五年時間北海〈/MTS〉〈MTS ID=“3”…USETIME=“12” LINKID=“2” LINKTYPE=“Antisense”〉已建成了〈MTS ID=“3”…USETIME=“12”LINKID=“2.1” LINKTYPE=“Antisense”〉一個現代化都市的框架〈/MTS〉,〈/MTS〉〈/EDTU〉

7) 具體抽象化.例36中1)和例36中2)屬于同一篇章中的上下文.例36中1)中標注的主位是一個包含輔助標注(satellite)的組合標注(complex)主位,其中下劃線劃出的內容就是輔助標注的內容,即“齊寶芳”;該標注內容與下文例36中2)中的主位組合標注“韓國”(下劃線劃出內容)形成重復關系.從例子36中2)中對這個述位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“3.1”即等于例36中1)所標注內容(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Abstraction”即表示當前話題聯接關系的類型為“具體抽象化”.

例36. 1) 〈EDTU ID=“2”〉〈MTS ID=“3”…LINKTYPE=“Empty”〉〈MTS ID=“3.1”…LINKTYPE=“Empty”〉齊寶芳〈/MTS〉個人投資〈/MTS〉共計….〈/EDTU〉

2) 〈EDTU ID=“3”〉〈MTS ID=“5”…USETIME=“8”LINKID=“3.1” LINKTYPE=“Abstraction”〉像齊家這樣…的農民〈/MTS〉在當地并不在少數.〈/EDTU〉

8) 抽象具體化.例37中1)和例37中2)屬于同一篇章中的上下文.例37中1)中標注的主位是一個組合標注(complex)主位,其中下劃線劃出的內容就是組合標注的內容,即“一個主營電信設備的民營科技企業”;該組合標注內容與下文例37中2)中的主位輔助標注“深圳華為技術有限公司”(下劃線劃出內容)形成一種抽象與具體的關系,即“一個…民營科技企業”是個抽象的概念,而“深圳華為技術有限公司”是其具體的一個實例.從例子37中2)中對這個主位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“3”即等于例37中1)所標注內容(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Instantiation”即表示當前話題聯接關系的類型為“抽象具體化”.

例37. 1) 〈EDTU ID=“2”〉〈MTS ID=“3”…LINKID=“0”…〉一個…民營科技企業〈/MTS〉創造了…發展速度.〈/EDTU〉

2) 〈EDTU ID=“3”〉〈MTS ID=“5”…LINKID=“0”…〉〈MTS ID=“5.1”…USETIME=“10”LINKID=“3” LINKTYPE=“Instantiation”〉深圳華為技術有限公司〈/MTS〉今年銷售收入〈/MTS〉達一百億元人民幣,

9) 整體局部化.例38中1)和例38中2)屬于同一篇章中的上下文.例38中1)中標注的是一個組合標注(complex)主位,其中下劃線劃出的內容就是標注的內容,即“地處長江中游的湖南省”;該標注內容與下文例38中2)中的主位組合標注“境內湘江、資江、沅江和澧水”(下劃線劃出內容)形成整體與局部的關系.因為從地理區劃角度,“湘江、資江、沅江和澧水”都是“湖南省”的一部分.從例子38中2)中對這個主位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“1”即等于例38中1)所標注內容(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Partialization”即表示當前話題聯接關系的類型為“整體局部化”.

例38. 1) 〈EDTU ID=“1”〉〈MTS ID=“1”…USETIME=“8”…〉地處長江中游的湖南省〈/MTS〉,是中國江河湖泊水系最復雜的省份之一,〈/EDTU〉…

2) 〈EDTU ID=“3”〉〈MTS ID=“5”…USETIME=“8”LINKID=“1” LINKTYPE=“Partialization”〉境內湘江、資江、沅江和澧水〈/MTS〉經洞庭湖流入長江.〈/EDTU〉

10) 局部整體化.還可以分成“一對一”整體化和“多對一”整體化.“一對一”整體化是指構成聯接關系的上下文都是單獨一個標注對象;而“多對一”整體化,則指構成聯接關系的上文有多個標注對象,而下文只有一個標注對象.“多對一”整體化情況比較特殊,我們在3.3.4節詳細說明;“一對一”整體化如下例39所示.

11) “一對一”整體化.例39中1)和例39中2)屬于同一篇章中的上下文.例39中1)中標注的主位是一個包含輔助標注(satellite)的組合標注(complex)主位,其中下劃線劃出的內容就是組合標注的內容,即“湄洲灣開發區”;該輔助標注內容與下文例39中2)中的主位標注“湄州灣”(下劃線劃出內容)形成一種局部和整體的關系,即“湄洲灣開發區”是“湄洲灣”的一部分,“湄洲灣”是“湄洲灣開發區”的整體表述.從例子39中2)中對這個主位標注的屬性LINKID和LINKTYPE取值可以看到,LINKID的取值“11.1”即等于例39中1)所標注內容(下劃線標出部分)所在MTS標注的ID取值;而LINKTYPE的取值“Integration”即表示當前話題聯接關系的類型為“局部整體化”.

例39. 1) 〈EDTU ID=“6”〉〈MTS ID=“11”…LINKID=“0”…〉屆時,〈MTS ID=“11.1”…LINKID=“0” LINKTYPE=“Empty”〉湄州灣開發區〈/MTS〉的工業產值〈/MTS〉與目前福建全省的經濟實力基本相當.〈/EDTU〉

2) 〈EDTU ID=“7”〉〈MTS ID=“13”…LINKID=“11.1” LINKTYPE=“Integration”〉湄州灣〈/MTS〉位于…的中點,〈/EDTU〉

3.2.4 特殊標注規則

3.2.2和3.2.3節分別介紹了篇章微觀話題結構和篇章微觀話題鏈標注的基本規則,其標注的2個對象之間的關系都是“一對一”的關系.然而,在某些特殊情況下,后續對象語義的具體內容會包含前續多個標注對象,形成“多對一”的包含關系.本節介紹這種情況,如例40所示.

例40. 1)~4)屬于同一篇章中的上下文.

1) 監督體系不健全.

2) 產品質量低劣,

3) 假冒偽劣屢禁不絕,

4) 對中國經濟和社會發展造成嚴重危害.

例40中1)~4)分別表達3個篇章基本話題(EDTU),而在行文到4)時,采用了缺省表示的方式,缺省的內容正是上文1)~3)所表達的話題.如果補充完整,可以加上個缺省代詞“這”,即第4)句話可以補充為“[這]對…造成嚴重危害.”此時,這里的“這”指代前面3個基本話題的合并內容,而不僅僅是單個基本話題.我們把這種情況稱為微觀話題的聯合指代現象.

聯合指代現象在我們的標注規則中,主要涉及2個標注標記:1)在MTS中的屬性LINKTYPE的取值需要為“Integration”;2)在MTS中的屬性LINKID需要包含多個取值,并利用這些取值與上文篇章基本話題建立關聯關系.

以例40所示內容開展標注形成例41所示,即為“聯合指代”的標注類型.例41中1)中的劃線內容“監督體系”識別為主位,MTS ID取值為“23”;例41中2)中的劃線內容“產品質量”識別為主位,MTS ID取值為“25”;例41中3)中的劃線內容“假冒偽劣”識別為主位,MTS ID取值為“27”.上述3個標注對象聯合表示,成為下文例41中4)中的缺省主位.而在例41中4)中,則通過LINKID取多個值“23,25,27”將缺省主位與上文的標注對象形成關聯關系.

例41. 1) 〈EDTU ID=“12”〉〈MTS ID=“23”…USETIME=“13” LINKID=“0” LINKTYPE=“Empty”〉監督體系〈/MTS〉不健全.〈/EDTU〉

2) 〈EDTU ID=“13”〉〈MTS ID=“25”…USETIME=“15” LINKID=“0” LINKTYPE=“Empty”〉產品質量〈/MTS〉低劣,〈/EDTU〉

3) 〈EDTU ID=“14”〉〈MTS ID=“27”…USETIME=“8” LINKID=“0” LINKTYPE=“Empty”〉假冒偽劣〈/MTS〉屢禁不絕,〈/EDTU〉

4) 〈EDTU ID=“15”〉〈MTS ID=“29”…USETIME=“31”LINKID=“23,25,27” LINKTYPE=“Integration”〉null〈/MTS〉對…造成嚴重危害.〈/EDTU〉

3.3語料庫統計與分析

目前CDTC共有500個文檔(chtb001-chtb0657),原始自然句子(以句號或感嘆號等結尾)共有6 648個.每個自然句子標注切分為多個篇章基本話題(EDTU);每個篇章基本話題內部再次切分為2部分,即組合主位(complex theme)和組合述位(complex rheme).根據定義2,由篇章基本話題(EDTU)及微觀話題聯接(MTLink)構建本語料庫的微觀話題結構(MTS),共標注5 095個MTS;由MTS再次通過MTLink遞歸構建形成1 698篇章話題鏈,平均每個有效標注的篇章話題鏈連接5.98個EDTU.

下面分別從篇章基本話題(EDTU)、篇章基本話題中的主位(theme)和述位(rheme)、微觀話題聯接(MTLink)、微觀話題結構(MTS)、篇章話題結構(DTS)等方面對CDTC語料庫進行詳細的統計分析.

3.3.1 語料庫統計

3.3.1.1 篇章基本話題(EDTU)統計

篇章基本話題是本語料庫的基礎單元,共有效標注10 147個篇章基本話題;共有500個自然篇章文本,每個文本平均包含約20.3個篇章基本話題.表1是對篇章基本話題的統計.

Table 1 Distribution of the Elemental Discourse Topic Unit表1 篇章基本話題在篇章中的分布統計

其中,包含EDTU的自然句子共有5 591個(另有1 057個句子僅包含篇章首部的作者信息、篇章尾部的固定詞等,故排除在外),3 153個自然段落.

3.3.1.2 主位-述位(Theme-Rheme)統計分析

CDTC語料庫中每個篇章基本話題都一分為二,分別形成10 147個獨立的組合主位(complex theme)和10 147個獨立的組合述位(complex rheme),如表2統計所示.其中,對于部分組合主位或組合述位,內部還標注了核心(nucleus)和輔助(satellite)兩種類型的子主位和子述位,這體現對組合主位或組合述位在語義上的影響重要程度;也體現對下文篇章主位推進過程中可能存在的參與作用.

Table 2 Distribution of Theme/Rheme表2 主位/述位類型分布

實體和事件在傳統篇章語義分析中占有重要的地位,是組成話題的主要成分.為了體現主位/述位與實體事件之間的聯系性,我們在主位/述位標注中從實體事件角度引入了標注屬性Type,用來表示某個標注單元屬于實體或事件的特點.表3統計了本語料庫中,屬于實體或事件類型的組合主位和組合述位單元的數量及比例.從中可以看出,屬于實體的主位占比遠大于屬于事件的主位,達到了92.07%.這主要是因為,主位結構的劃分,是在小句中的謂詞前方內容,體現的是句子的主語成分,采用名詞或名詞短語這一類實體表示主語的概率相當高.而述位結構的劃分,則是包含了謂詞及其后方內容,即一般含動賓結構的成分居多,顯然屬于事件表示的概率要高.

Table 3 Distribution of Event and Entities in Theme & Rheme表3 組合主位實體事件類型分布

漢語重意合,在子句中會大量出現缺省主語(或賓語等)的情況,因此也帶來了包含主語的主位(或包含賓語的述位)的缺省.我們把這種情況稱為隱式主位(zero theme)或隱式述位(zero rheme)現象;對應則稱為顯式主位(explicit theme)或顯式述位(explicit rheme).表4統計了本語料庫中隱式組合主位和顯式組合主位所占比例.

可以看出,隱式主位比例接近30%,占有較大比例;而顯式主位比例占比約70%.顯式占比大約為隱式占比的2.5倍.此外,表4還統計了隱式組合述位的缺省情況,相對于顯式組合述位,占比更低.這主要是因為述位的成分在句法結構而言主要是謂詞結構,從詞法成分來看主要是動賓結構,而謂詞結構組成了一個句子的核心成分,一般而言不會缺省.

Table 4 Distribution of Zero or Explicit Theme & Rheme表4 組合主位隱式顯式類型分布

3.3.1.3 篇章微觀話題結構(MTS)統計與分析

篇章微觀話題結構是一個四元組,其構建過程主要包括篇章基本話題中的主位和述位的識別、以及前后基本話題之間的聯接識別.在一個篇章微觀話題結構中,根據微觀話題聯接(MTLink)所連接的上下篇章基本話題中的不同主位或述位,可以構成不同的微觀話題主位推進模式.

主位推進模式反映篇章的演變規律,是作者表達意圖的重要方式.同時,不同體裁的篇章,也通過不同的主位推進模式反映表達風格.如中文小說、散文等,在行文時講究“抑揚頓挫,曲徑通幽”,一般不會直接引出主題;而新聞類文章,則為了表達清晰簡明的需要,一般會直奔主題,避免“繞彎子”.上述不同文體的篇章,在主位推進模式中都有不同體現.

根據定義10~13,我們在語料庫中標注了放射型、集中型、延續型和交叉型共4種主位推進模式.

從表5所示統計可以看出,放射型主位推進模式占比相當高,達到了95.75%;其后是交叉型,占比較小,僅約3.83%;余下2種模式所占數量則幾乎可以忽略不計.這部分體現了新聞類篇章在上下文銜接過程中的特點,即結構比較簡單,主要由主位(主語)結構引導,線性展開文章的意圖.

Table 5 Distribution of Thematic Progression Patterns表5 主位推進模式分布

3.3.1.4 篇章話題結構(DTS)統計與分析

由第2節關于篇章話題結構的定義可知,通過微觀話題聯接(MTLink)遞歸連接微觀話題結構(MTS),即可以形成篇章話題結構(DTS).微觀話題聯接(MTLink)體現了篇章的話題演變過程,而主位推進理論中的主位推進模式直觀地反映了篇章話題演變關系,將其應用于漢語篇章話題鏈的識別即可構建一個完整的篇章話題結構體系.

篇章話題鏈的節點數量及其排列拓撲關系是篇章話題鏈的主要特征,決定了不同篇章話題鏈的形態模式,間接反映了篇章的銜接性.表6統計分析了本語料庫中的篇章話題鏈節點數量.

鏈節點的數量多少能夠直觀地反映作者表述一個話題的復雜程度.很顯然,復雜的話題需要加以描述或解釋的語句相對要多,進而形成微觀話題結構的數量要多,形成多個鏈節點的概率相對就要高得多.從表6可以看出,本語料庫中占據多數的節點數量不多,以2~4個鏈節點比例最高,總數約占到75%,表明本語料庫新聞語料所表述的話題總體來看并不復雜,這與新聞語料篇章追求簡單快捷、通俗易懂地傳播新聞消息的要求是吻合的.此外,從表6的統計數據還可以看出,鏈節點的數量與使用的頻率基本上呈現線性遞減關系:鏈包含的節點數量越多,在篇章中使用的頻率越少.這體現出本語料中圍繞同一個子話題討論分析的過程不會太久,這也符合新聞語料短小精悍的特點.

Table 6 Distribution of Discourse Topic Chains withDifferent Number of Nodes

3.3.2 標注一致性分析

在語料標注過程中,盡管不同標注者遵循同一標注規范,但依然存在由于個體主觀性差異而導致標注語料結果的不一致.一致性檢驗即用來驗證這種差異程度,并反映問題的本質難易程度.常用的一致性檢驗方法是Kappa檢驗.

Kappa檢驗借助觀察一致率(observed agreement)和偶然一致率(agreement by chance)兩個參數來計算用來反映標注語料一致性的Kappa值,

其中,P0表示觀察一致率,Pc表示偶然一致率.Kappa值∈[-1,1].在評估一致性時,如果Kappa>0.75,一般認為標注具有較好一致性;如果Kappa≤0.4,則表明一致性較差.為符合常規要求,我們采用Kappa方法來檢驗語料標注質量.

我們以篇章基本話題(子句)為單位,當微觀話題結構中的鏈式結構,即鏈式結構兩端的主位或述位完全相同時,認為微觀話題結構的標注結果一致.在語料上分別計算主要標注對象,如篇章基本話題(EDTU)、主述位(themerheme)以及微觀話題結構(MTS)的Kappa值.表7給出了語料庫中主要標注對象的標注一致性檢驗,均值Kappa>0.75,因此,我們認為該語料的標注結果是可靠的;一致性檢驗表明CDTC能夠充分體現漢語篇章話題分析問題本身的難度,并能夠為相關研究提供語料資源支持.

Table 7 Label Consistency Checking表7 標注一致性檢驗

3.4CDTC語料庫在自然語言處理領域的應用分析

3.4.1 同類語料庫比對分析

從基本單元、聯接詞、關系表示結構等方面,將我們提出的基于篇章微觀話題結構構建的漢語篇章語料庫體系CDTC與PDTB中文標注體系以及漢語廣義話題結構體系(GTS)[2]進行比較,結果表明CDTC體系吸收了PDTB體系和廣義話題結構體系的優勢,具有合適的篇章話題結構分析粒度,可以滿足篇章話題結構分析的需求.具體結果如表8所示:

Table 8 Comparison of Chinese Discourse Topic Structures表8 同類漢語篇章話題結構體系比較

語料庫的研究,我們認為一般可以分為3個階段:1)利用語料庫分析發現語言現象,總結語言規律的過程;2)在此基礎上,擴大語料規模,在不同領域驗證語言規律的過程;3)進一步擴大語料規模,為具體應用提供充分的語料資源.從研究階段來看,本文所討論的語料庫資源建設及其語言模型計算,尚處于第1階段.這個一方面是遵循語料庫研究的基本規律,另一方面也由于篇章話題結構的復雜性及研究難度,難以快速逾越,還需要持續深入一個時期的研究.

同時,對比參考目前實際面向應用的典型語料庫建設來看,在語料規模和覆蓋領域2個方面都有不同建設特點.例如語料標注規模并非很大的知名語料庫就有修辭結構篇章樹庫、篇章圖庫等.修辭結構篇章樹庫RST-DT共包含385篇文章,由美國南加州大學標注,于2002年經Linguistic Data Consortium(LDC)正式發布,為修辭結構理論RST研究提供了研究資源.篇章圖庫(discourse graph bank,DGB)是根據Wolf & Gibson提出的圖結構表示篇章的方法加以標注的語料庫,共標注了135篇文章,用作篇章結構分析的語料資源.

相對而言語料規模比較龐大的典型語料庫也有,如賓州篇章樹庫PDTB,包括了《華爾街日報》的2 304篇文章,于2008年正式發布,共標注4類篇章關系.OntoNotes語料庫包含廣播和脫口秀節目、新聞、網絡日志、電話用語等各種體裁的語料;根據來源,語料可以分為來自英語通訊社、中國通訊社、中國廣播新聞、英語廣播新聞等,累計包含290多萬個詞.其中英語通訊社以《華爾街日報》為主,中國通訊社以新華社為主,中國廣播新聞主要包括中國中央電視臺、中央人民廣播電臺、中國電視系統等,英語廣播新聞也是主流的如美國廣播公司、CNN、NBC的公共國際廣播電臺和美國之音等,因此能夠確保語料來源的權威性.

上述不同規模和覆蓋領域的語料庫資源,事實上都在自然語言處理的不同研究領域、不同階段發揮著不同程度的影響和作用.

3.4.2 CDTC語料庫基礎應用分析

從后續應用來看,基于我們的篇章話題結構分析結果,在自動摘要、文本分類、信息抽取和機器翻譯等領域的應用方法都有應用價值.比如在自動摘要中,通過話題結構的主述位推進,可以反映話題的變化規律,從而推斷作者表達的意圖及重點內容,為自動摘要研究提供語料資源.又如在文章體裁分類中,不同體裁的文章所采用的篇章話題結構推進模式是不同的,其中蘊含著某種結構規律,這個可以為體裁分類提供新的特征.又如在機器翻譯領域,統計翻譯方法可以考慮詞對齊、短語對齊、子句對齊,那是否也可以基于主述位結構的對齊方法呢?基于主述位結構的對齊反映已知信息和未知信息、原有話題和新話題的變化規律,能夠從篇章層面提供更為準確的語義對齊.

4 結束語

本文提出了一種漢語篇章話題結構的形式化表示模型,并基于此模型構建了漢語篇章話題結構語料庫(CDTC).考慮到標注語料的認可度以及開展篇章銜接性和連貫性聯合研究的需要,我們選取了CTB6.0中的生語料資源進行標注.為確保標注的規范性和一致性,我們制定了一整套標注規范,并采用合理的標注策略和人機結合的標注方法進行語料的標注工作.我們對CDTC語料庫進行了系統的統計分析和一致性檢測,結果表明,該語料庫能夠較好地反映出篇章話題結構的語言現象和特點,其質量能夠達到相關研究對語料的要求.最后,我們還通過比較同類典型語料庫的特點,說明了CDTC語料庫在基本語料單元、語料庫結構等方面具有的優勢,以及為自然語言處理應用所提供的重要支撐作用.

目前我們的CDTC語料主要來自新聞類文本.考慮到篇章話題結構的復雜性,我們下一步的研究工作重點將擴大語料標注的規模和文本篇章的類型,以便為篇章話題結構提供更為充分的研究資源.

[1] Shang Ying, Song Rou, Lu Dawei. General topic structure theory perspective self-sufficient in topic sentences and study[J]. Journal of Chinese Information Processing, 2014, 28(6): 107-113 (in Chinese)(尚英, 宋柔, 盧達威. 廣義話題結構理論視角下話題自足句成句性研究[J]. 中文信息學報, 2014, 28(6): 107-113)

[2] Song Rou. Chinese chapter generalized topic structure model of the water[J]. Studies of the Chinese Language, 2013(6): 483-494 (in Chinese)(宋柔. 漢語篇章廣義話題結構的流水模型[J]. 中國語文, 2013(6): 483-494)

[3] Song Yang, Wang Houfeng. Chinese zero anaphora resolution with Markov logic[J]. Journal of Computer Research and Development, 2015, 52(9): 2114-2122 (in Chinese)(宋洋, 王厚峰. 基于馬爾可夫邏輯的中文零指代消解[J]. 計算機研究與發展, 2015, 52(9): 2114-2122)

[4] Zhang Muyu, Li Yaobing, Qin Bing, et al. Based on the center word matching refers to dissolve[J]. Journal of Chinese Information Processing, 2011, 25(3): 3-8 (in Chinese)(張牧宇, 黎耀炳, 秦兵, 等. 基于中心語匹配的共指消解[J]. 中文信息學報, 2011, 25(3): 3-8)

[5] Chao Yuanren. A grammar of spoken Chinese[M]. Berkeley, CA: University of California Press, 1968

[6] Cao Fengfu. Clause and sentence structure in Chinese: A functional perspective[R]. Taipei: Student Book Co, 1990

[7] Qu Chengxi. Chinese Discourse Grammar[M]. Translated by Pan Wengua, et al. Beijing: Beijing Language and Culture University Press, 2006 (in Chinese)(屈承熹. 漢語篇章語法[M]. 潘文國等譯. 北京: 北京語言大學出版社, 2006)

[8] Liu Lijin. Comparative Study Between English and Chinese Discourse Structure Mode[M]. Guangzhou: Sun Yat-sen University Press, 2011: 166-178 (in Chinese)(劉禮進. 英漢篇章結構模式對比研究[M]. 廣州: 中山大學出版社, 2011: 166-178)

[9] Wang Jianguo. A Continuation of the Theory of Topic: Based on the Topic Chain of Chinese-English Discourse Research[M]. Shanghai: Shanghai Jiao Tong University Press, 2013 (in Chinese)(王建國. 論話題的延續: 基于話題鏈的漢英篇章研究[M]. 上海: 上海交通大學出版社, 2013)

[10] Zhou Qiang, Zhou Xiaocong. Based on the topic of Chinese discourse coherence description system[J]. Journal of Chinese Information Processing, 2014, 28(5): 102-110 (in Chinese)(周強, 周驍聰. 基于話題鏈的漢語語篇連貫性描述體系[J]. 中文信息學報, 2014, 28(5): 102-110)

[11] Xu Jiujiu. Chapter in Modern Chinese Linguistics[M]. Beijing: The Commercial Press, 2010 (in Chinese)(徐赳赳. 現代漢語篇章語言學[M]. 北京: 商務印書館, 2010)

[12] Jiang Yuru, Song Rou. Based on the theory of generalized topic sentence recognition[J]. Journal of Chinese Information Processing, 2012, 26(5): 114-119 (in Chinese)(蔣玉茹, 宋柔. 基于廣義話題理論的話題句識別[J]. 中文信息學報, 2012, 26(5): 114-119)

[13] Le Ming. Chinese discourse rhetoric structure tagging research[J]. Journal of Chinese Information Processing, 2008, 22(4): 19-24 (in Chinese)(樂明. 漢語篇章修辭結構的標注研究[J]. 中文信息學報, 2008, 22(4): 19-24)

[14] Xue Nianwen. Annotating discourse connectives in the Chinese Treebank[C] //Proc of the Workshop on Frontiers in Corpus Annotations Ⅱ: Pie in the Sky. Stroudsburg, PA: ACL, 2005: 84-91

[15] Zhou Yuping, Xue Nianwen. PDTB-style discourse annotation of Chinese text[C] //Proc of the Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2012: 69-77

[16] Huang Henhsen, Chen Hsinhsi. Contingency and comparison relation labeling and structure prediction in Chinese sentences[C] //Proc of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue. Stroudsburg, PA: ACL, 2013: 261-269

[17] Zhang Muyu, Song Yuan, Qin Bing, et al. Chiese discourse relation recognition[J]. Journal of Chinese Information Processing, 2013, 27(6): 51-57 (in Chinese)(張牧宇, 宋原, 秦兵, 等. 中文篇章級句間語義關系識別[J]. 中文信息學報, 2013, 27(6): 51-57)

[18] Li Yancui. Research of Chinese discourse structure representation and resource construction[D]. Suzhou: Soochow University, 2015 (in Chinese)

(李艷翠. 漢語篇章結構表示體系及資源構建研究[D]. 蘇州: 蘇州大學, 2015)[19]Halliday M A K, Christian M. An Introduction to Functional Grammar[M]. London: Hodder Education Press, 2004

[20] Xing fuyi. The Study of Chinese Sentence[M]. Beijing: The Commercial Press, 2001 (in Chinese)(邢福義. 漢語復句研究[M]. 北京: 商務印書館, 2001)

[21] Song Rou. Chinese chapter generalized topic structure model of the water[J]. Studies of the Chinese Language, 2013 (6): 483-494 (in Chinese)(宋柔. 漢語篇章廣義話題結構的流水模型[J]. 中國語文, 2013 (6): 483-494)

CorpusConstructionforChineseDiscourseTopicviaMicro-TopicScheme

Xi Xuefeng1,2,3, Chu Xiaomin1, Sun Qingying1, and Zhou Guodong1

1(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215000)2(DepartmentofComputerScienceandEngineering,SuzhouUniversityofScienceandTechnology,Suzhou,Jiangsu215009)3(VirtualRealityKeyLaboratoryofIntelligentInteractionandApplicationTechnologyofSuzhou,Suzhou,Jiangsu215009)

Currently discourse topic structure analysis is the fundamental research of natural language understanding. Due to the lack of a large number of high-quality discourse corpus resources, which are suitable for Chinese discourse analysis, it has seriously restricted the research of the relevant discourse topic computing models. In order to solve the above problems, we firstly study the theoretical representation system of Chinese discourse topic structure. From the theme-rheme theory, theory of English rhetorical structure and Pennsylvania discourse treebank system, research of Chinese complex sentence and sentence group, combined with Chinese characteristics, we propose a Chinese discourse micro-topic scheme based on theme-rheme theory and construct a Chinese discourse topic structure representation model based on the topic chain. Then, on the basis of the above, we adopt the top-down and backward search annotation strategy and the combination of the human machine and the corpus annotation method to construct the Chinese discourse topic corpus (CDTC). Moreover, we carry out a detailed statistical analysis of the CDTC which contains a total of 500 documents. Compared with the OntoNotes corpus and the generalized topic structure theory, this micro-topic scheme representation model has some advantages in theory and is consistent with the Chinese characteristics. Finally, the consistency test shows that CDTC can fully reflect the difficulty of Chinese discourse topic analysis, and can provide support for the relevant research.

discourse topic structure; theme-rheme theory; thematic progression; topic chain; corpus construction

Xi Xuefeng, born in 1978. PhD candidate, associate professor. Member of CCF. His main research interests include natural language understanding, machine learning.

Chu Xiaomin, born in 1981. PhD candidate at Soochow University. Her main research interests include natural language processing and discourse analysis.

Sun Qingying, born in 1982. PhD candidate at Soochow University. Her main research interests include natural language processing, sentiment analysis, stance detection and social computing.

Zhou Guodong, born in 1967. Professor, PhD supervisor. Senior member of CCF. His main research interests include natural language understanding, Chinese computing, and information extraction.

2017-05-23;

:2017-06-21

國家自然科學基金項目(61331011,61673290,61472264) This work was supported by the National Natural Science Foundation of China (61331011, 61673290, 61472264).

周國棟(gdzhou@suda.edu.cn)

TP391

猜你喜歡
結構
DNA結構的發現
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
循環結構謹防“死循環”
論《日出》的結構
縱向結構
縱向結構
我國社會結構的重建
人間(2015年21期)2015-03-11 15:23:21
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 久一在线视频| 国产欧美精品午夜在线播放| 成人在线不卡视频| 欧美亚洲国产精品第一页| 亚洲天堂视频网| 婷婷色丁香综合激情| 精品福利国产| 亚洲高清无在码在线无弹窗| 成人午夜在线播放| 婷婷综合缴情亚洲五月伊| 国产精品成人观看视频国产| 久久这里只精品国产99热8| 国产尹人香蕉综合在线电影| 黄色网址手机国内免费在线观看 | 日韩国产综合精选| 亚洲专区一区二区在线观看| 久久亚洲日本不卡一区二区| 毛片网站在线看| 999精品色在线观看| 伊人天堂网| 永久在线精品免费视频观看| 五月综合色婷婷| 亚洲成年人网| 欧美日韩v| 久久影院一区二区h| 国产精品天干天干在线观看 | 国产剧情国内精品原创| 欧美日本中文| 欧美日韩高清| 丰满人妻久久中文字幕| 免费jizz在线播放| 色综合天天娱乐综合网| 色播五月婷婷| 欧美一级夜夜爽| 制服丝袜亚洲| 欧美在线国产| 国模极品一区二区三区| 99热国产在线精品99| 激情在线网| 国产精品久久国产精麻豆99网站| 国产网站免费| 最新国产精品第1页| 超清无码一区二区三区| 国产在线自乱拍播放| 国产综合精品日本亚洲777| 在线观看国产网址你懂的| 九九热精品在线视频| 91在线一9|永久视频在线| 国产亚洲精| 真人免费一级毛片一区二区| 91免费国产高清观看| 456亚洲人成高清在线| 天堂va亚洲va欧美va国产| 色综合久久88| 农村乱人伦一区二区| 欧美啪啪一区| 亚洲中文久久精品无玛| 亚洲AⅤ无码国产精品| 40岁成熟女人牲交片免费| 精品国产成人国产在线| 欧美成a人片在线观看| 欧美成人综合视频| 免费国产一级 片内射老| 国产在线精彩视频论坛| 亚洲欧美一区在线| 欧美亚洲欧美区| 国产在线视频欧美亚综合| 综合久久久久久久综合网| 成人国产精品网站在线看| 视频一本大道香蕉久在线播放 | 亚洲精品第五页| 亚洲αv毛片| 亚洲av成人无码网站在线观看| 特级毛片免费视频| 欧美精品成人一区二区视频一| av一区二区无码在线| 国产成人毛片| 国产网站免费观看| 国产男人天堂| 91蜜芽尤物福利在线观看| 免费99精品国产自在现线| 91视频日本|