一個面向信息抽取的中英文平行語料庫*

2016-01-26 06:46:23惠浩添,李云建,錢龍華等

計算機工程與科學 2015年12期

一個面向信息抽取的中英文平行語料庫*

通信地址：215006 江蘇省蘇州市蘇州大學計算機科學與技術學院Address:School of Computer Science & Technology,Soochow University,Suzhou 215006,Jiangsu,P.R.China

惠浩添，李云建，錢龍華，周國棟

(1.蘇州大學自然語言處理實驗室，江蘇蘇州 215006；2.蘇州大學計算機科學與技術學院，江蘇蘇州 215006)

摘要：除了機器翻譯，平行語料庫對信息檢索、信息抽取及知識獲取等研究領域具有重要的作用，但是傳統(tǒng)的平行語料庫只是在句子級對齊，因而對跨語言自然語言處理研究的作用有限。鑒于此，以OntoNotes中英文平行語料庫為基礎，通過自動抽取、自動映射加人工標注相結合的方法，構建了一個面向信息抽取的高質量中英文平行語料庫。該語料庫不僅包含中英文實體及其相互關系，而且實現(xiàn)了中英文在實體和關系級別上的對齊。因此，該語料庫將有助于中英文信息抽取的對比研究，揭示不同語言在語義表達上的差異，也為跨語言信息抽取的研究提供了一個有價值的平臺。

關鍵詞：命名實體；語義關系；雙語映射；平行語料庫

1引言

信息抽取是指從自然語言文本中抽取出有用的實體、關系和事件等信息，并把它們存放到一個結構化的數(shù)據(jù)庫中。根據(jù)ACE的定義[1]，信息抽取包括三個主要任務：命名實體識別(Named Entity Recognition)、實體關系抽取(Relation Extraction)和事件抽取(Event Extraction)等。信息抽取對問題回答、文本摘要、信息融合、知識獲取等自然語言處理應用領域有著重要的研究意義。

主流的信息抽取研究都采用統(tǒng)計機器學習方法，因而語料庫的規(guī)模和質量對信息抽取的性能至關重要，但是人工標注大規(guī)模的語料庫是一件費時又費力的事情。另一方面，在自然語言處理中往往存在著多種語言的可比較或平行語料庫，有效利用這些多語言語料庫是提高信息抽取性能的途徑之一。Chen Y等[2]在中英文平行語料之間進行命名實體的聯(lián)合識別和對齊，旨在同時提高兩種語言的命名實體識別性能。Kim S等[3]利用平行語料庫來實現(xiàn)從英文到韓文的跨語言關系抽取，即將源語言中識別出來的實體和關系映射到目標語言中。Qian L等[4]利用機器翻譯的方法將中英文語料庫互相翻譯，并將一種語言的實體和關系映射到另一種語言中，從而同時促進兩種語言中關系抽取的性能。

上述研究說明，平行語料庫對于提高跨語言信息抽取的性能具有重要的作用，但是目前的平行語料庫一般都在句子級對齊[5~7]，并沒有實現(xiàn)在實體和關系級對齊，因而在實體和關系的雙語映射過程中存在著一定的錯誤。而在信息抽取中廣泛使用的ACE語料，盡管標注了多語種的實體和關系，但并不是平行的。為了彌補現(xiàn)有平行語料庫中存在的不足，本文從OntoNotes中英文平行語料庫出發(fā)，以ACE 2005中文語料庫的標注規(guī)則為基本指南，通過自動抽取和手工標注相結合的方法構建了一個面向信息抽取的平行語料庫。盡管受OntoNotes語料庫的限制，該平行語料庫的規(guī)模比較小，我們?nèi)韵Ｍ撜Z料庫可以為揭示中英文語言表達上的差異和跨語言信息抽取的研究提供一個基準的平臺。

2中英文平行語料庫的構建

本節(jié)首先對標注目標和任務進行說明，然后指出標注過程中的挑戰(zhàn)以及解決辦法，接著詳細描述中文語料庫的構建方法，最后評估語料庫的一致性。

2.1　標注目標和任務

本文的目標是要構建一個面向信息抽取(主要是實體和關系)的中英文平行語料庫，以便于中英文雙語實體識別和關系抽取的研究。該語料庫應包含完整的中英文對齊的實體和關系標注信息(目前還沒有考慮事件標注信息)。實體標注信息包括實體類型、指稱范圍、指稱級別和實體類別等；關系標注信息包括關系類型、句法結構、關系時態(tài)等。除此之外，還應該實現(xiàn)指代鏈的標注。下面是一對中英文平行句對：

(c1)[乍得]1-1新 [總統(tǒng)]2-2[依迪斯·代比]2-3十二日到達 [巴黎]3-4訪問。[密特朗]4-5[總統(tǒng)]4-6同 [他]2-7進行了半小時秘密會談。

(e1)[Chad]1-1's New [President]2-2[Idriss Deby]2-3arrived in [Paris]3-4on the 12th for a visit .[President]4-5[Mitterrand]4-6had a half-hour 's secret meeting with [him]2-7．

其中，方括號內(nèi)的內(nèi)容表示實體指稱，下標表示其編號，而底劃線表示左面實體和右面實體具有一定的語義關系。該平行句對中包含7個實體指稱、4個實體(其中2-2、2-3和2-7是實體2的不同指稱，4-5和4-6是實體4的不同指稱)，2個語義關系(實體1和實體2 之間具有ORG-AFF.Employment關系；而實體2和實體3之間具有PHYS.Located關系)。

2.2　標注難點及解決方法

一般而言，只要找到中英文平行語料庫，然后參考ACE的標注規(guī)范分別進行實體及其關系的標注，最后將實體和關系對齊即可得到中英文平行語料庫。但是，這樣做需要大量的人力，花費的時間也很長。本文從下面四個方面來討論在標注中遇到的關鍵問題及其解決方法。

2.2.1　語料庫的選擇

傳統(tǒng)的面向機器翻譯的平行語料庫雖然數(shù)量很多，但均沒有在雙語上對齊的實體及關系標注信息，將它們標注成面向信息抽取的雙語平行語料庫工作量太大。本文選擇OntoNotes中的新華社中英文平行語料(共有325篇文章)，它不僅具有較高的句子對齊率，而且也標注了部分實體信息，這將顯著減輕標注工作量。不過，即使是這樣，通過對已有標注信息的觀察，我們發(fā)現(xiàn)還存在著以下的問題：

(1) 實體指稱類型單一：OntoNotes僅標注了命名實體，即指稱級別為NAM的實體，所有的名詞性指稱(Nominal)和代詞指稱(Pronoun)均沒有標注，這不符合一個面向信息抽取的語料庫的要求。

(2) 指代鏈未完全合并：雖然OntoNotes標注了指代鏈信息，但不完整。比如句子“據(jù) [泰國] 官員透露,1995年,緬 [泰] 兩國貿(mào)易總額超過 3億美元。”中的“泰”和“泰國”應屬于同一個實體，但目前的標注并沒有合并到同一個指代鏈中。

為了解決上述問題，同時減輕標注工作量，本文遵循“自動+手工”的原則來構建雙語平行語料庫，充分利用OntoNotes語料的平行句對和現(xiàn)有標注信息，其主要步驟包括兩個方面：

(1) 中文語料的標注：即從中文OntoNotes語料庫中產(chǎn)生已標注的實體信息，調(diào)整中文實體標注信息，標注中文實體間語義關系；

(2) 英文語料的映射：即將中文的實體及其關系標注信息映射到英文中，并調(diào)整英文的實體及關系標注信息。

2.2.2　實體的嵌套

實體嵌套是一個比較普遍的現(xiàn)象，比如中文短語“[[寧波]國際發(fā)展信托投資公司]”中包含了兩個實體。在ACE的標注規(guī)范中，為了簡化問題將它作為一個實體，即不考慮被嵌套的實體。這樣做的缺點是丟失了許多命名實體及其語義關系，因為嵌套的實體之間一般都存在語義關系，這將會對今后的命名實體識別及關系抽取任務造成一定的影響。本文考慮了中文的實體左嵌套現(xiàn)象和英文的左右嵌套現(xiàn)象，從而提高了語料中命名實體和實體關系的數(shù)量，同時也便于今后命名實體識別及關系抽取工作的進行。

2.2.3　實體類型的辨析

某些實體在不同的上下文中會呈現(xiàn)不同的角色，例如GPE類型的實體可以代表相應的地區(qū)、組織或人物，在ACE的標注規(guī)范中以角色來表明這種差別。我們發(fā)現(xiàn)另一個實體類型ORG也具有相似的特點，例如：

今天在 [上海國際金融學院] 正式舉行開學典禮,參加開學典禮的有 [學院] [院長] …

其中，實體“上海國際金融學院”在前一子句中強調(diào)設施，因此具有FAC的角色，而在后一子句中則表示ORG本身。ACE標注規(guī)范沒有區(qū)分這種差異，從而在某些情況下導致ORG和FAC類型出現(xiàn)混亂。為了解決這個問題，本文對ORG實體類型同樣引入了角色這個概念，它包含ORG和FAC兩種角色。

2.2.4　關系類型的辨析

在某些情況下，區(qū)別實體關系類型變得很困難。在ACE2005的中文語料庫中，不同的標注者對類似的語言表達式往往給出不同的語義類型，甚至同一個標注者也會出現(xiàn)不一致的情況。為了提高標注的一致性，本文整理了易混淆的關系類型對，并針對它們分別制定了可操作的標注規(guī)則。表1列出了這些易混淆的關系類型對及其區(qū)分規(guī)則。

Table 1　Types of relation that are easy to be

注UOIM：全稱為User-Owner-Inventor-Manufacturer。

2.3　中文語料的標注

首先從OntoNotes中抽取中文實體標注信息，但由于這些標注信息極不完整，因此還需要手工調(diào)整實體標注信息，并標注實體間語義關系。

2.3.1　中文實體標注信息的產(chǎn)生

中文OntoNotes語料以嵌入標記的形式標注了文本中出現(xiàn)的命名實體和指代鏈，分別以后綴名name和coref存儲在兩個文件中，其中指代鏈中不僅標明了實體的指代關系，也標明了概念之間的指代關系。標注信息的產(chǎn)生過程包括以下三個步驟：

(1) 從name文件中讀出實體標注信息；

(2) 從coref文件中讀出實體的指代鏈信息；

(3) 將實體標注信息和實體指代信息合并為統(tǒng)一的標注信息。

2.3.2　中文實體及關系的標注

為了方便快捷地標注實體和關系信息，我們利用Java語言開發(fā)了專門的標注工具，其主界面如圖1所示。它由左右兩個部分組成。左面是所有文件列表，右面是該文件所對應的文本內(nèi)容，其中不同的前景色表示不同類型的實體，而兩個實體之間的底劃線表示它們之間存在語義關系。

當要增加和修改實體指稱，進入圖2a所示的實體標注界面，標注者可以調(diào)整實體類型、實體類別和指稱級別等信息。要增加和修改實體關系時，進入圖2b所示的關系標注界面，標注者同樣可以修改關系的類型、句法結構和時態(tài)等信息。

Figure 1　Main interface圖1　主界面

2.4　英文語料的映射

在中文實體和關系標注完之后，就需要把這些信息映射到英文中，從而獲得英文的實體及關系標注信息。這個映射分為三個步驟：句子對齊、實體映射和關系映射等。

2.4.1　句子對齊

OntoNotes語料庫雖然是中英文平行的，但它只提供了文件之間的對齊，并沒有提供句子之間的對齊關系，因此映射的第一步便是句子對齊工作。考慮到新華社新聞語料的翻譯質量較高，本文采用相似度計算方法來實現(xiàn)自動句子對齊，即逐個比較中英文句子之間的相似度，然后再人工調(diào)整對齊結果。

Figure 2　Interface of entity and relation annotation 圖2　實體和關系標注界面

(1)句對相似度的計算。

在計算中英文句子之間的總體相似度時，考慮了表2所示的四種相似度，并對它們進行加權平均，即：

其中ST為總體相似度，Si為某一個特征的相似度，wi為該相似度的權值，權值由實驗來確定。

(2)平行句對的產(chǎn)生。

得到中英文句子間的兩兩相似度后，就可以在此基礎上進行句子對齊。平行句子的對齊方法有動態(tài)編程及分裂聚類策略[8]、基于詞匯的Champollion對齊方法[9,10]和針對非單調(diào)句子的半監(jiān)督對齊方法[11]。考慮到語料庫的質量較好，中英文之間嚴格按照句子順序對齊，因此本文采用分段對齊法。其基本思想是首先找出相似度最高的句對作為平行句對，然后用該句對分隔句子范圍，再在各自范圍內(nèi)繼續(xù)匹配。具體算法如下：

Table 2　Similarity features of sentence alignment

算法1句子對齊

輸入：Sim[M][N],中英文句子間的兩兩相似度,M為中文句子數(shù),N為英文句子數(shù);

輸出:Pairs[]中英文平行句對集合。

初始化:Ranges([1,M][1,N]),中英文句子范圍;

步驟：

從Ranges中彈出句子范圍range;

在范圍range中根據(jù)找出相似度最高的句對(i,j);

將(i,j)加入到句對集合Pairs中;

將range按照(i,j)分隔成上下兩個范圍,各自加入到Ranges中;

直到為空;

需要說明的是，為了避免相似度過低的句對被識別為平行句對，本文設置了根據(jù)實驗獲得的最低閾值α=0.35，低于該閾值的不能作為平行句對。

(3)人工調(diào)整。

由于采用OntoNotes新華社新聞專線中的325篇平行語料，翻譯質量較高，因而句子對齊率較高(約95%)，人工調(diào)整并不需要消耗太多的時間和精力；而且其英文翻譯語法規(guī)范、句法結構清晰，這將非常有利于實體和關系的映射。

2.4.2　實體映射

在實體對齊之前，首先要進行詞對齊。常用的詞對齊的算法有Brown P F等[12]提出的IBM模型和Vogel S等[13]提出的隱馬爾科夫模型。另外，F(xiàn)eng D等[14]提出了最大熵結合自舉算法進行命名實體對齊。本文是將自動抽取及人工標注的中文實體映射到英文中，因而先采用Giza++工具進行詞對齊，然后再映射實體及人工調(diào)整。考慮到OntoNotes的平行語料庫規(guī)模不大，可能會影響到詞對齊效果，因此本文將OntoNotes語料和FBIS語料結合起來一起進行詞對齊，最后再將其分離開單獨處理。對于詞對齊的效果，本文從中隨機抽取25句對進行分析，這里以中文為源語言、英語為目標語言，最終的詞對齊準確率約為80%，召回率約為72%，造成召回率較低的原因主要是中英文語言的差異。

詞對齊完成后，接著便是實體對齊。由于并非所有的實體指稱都是單個詞次構成，所以本文利用如下啟發(fā)式規(guī)則：

(1) 中文實體指稱的詞次連續(xù)，則對應英文實體指稱的詞次也必將連續(xù)；

(2) 不存在多個中文實體指稱對應一個英文實體指稱。

根據(jù)以上兩個啟發(fā)式規(guī)則，將中文中的實體盡可能地映射到英文中，就初步得到英文語料中的實體標注信息。為了對實體對齊的正確率進行分析，本文隨機抽取13篇文章進行分析，發(fā)現(xiàn)實體對齊的準確率約為79%，召回率約為73%，這與詞對齊的效果相差無幾。這說明基本上是詞對齊錯誤導致了實體的丟失。因此，下一步的工作是人工進行進一步調(diào)整，最終實體對齊率可以達到93%左右。

2.4.3　實體關系映射

實體映射及其手工調(diào)整完成之后，接下來的關系映射就比較簡單，但也需要考慮以下三個問題：

(1) 關系實例的兩個論元必須處于一個句子中。由于平行句對中存在一對多的情況，原來中文中處于同一句的兩個實體有可能映射到兩句不同的英文中。在這種情況下，丟棄該關系實例。

(2) 關系實例的兩個論元的前后順序是否交換。如果交換了順序，則必須改變關系類型的正逆性。

(3) 關系映射后的句法結構是否變換。由于中英文對同一語義關系的表達方式存在差異，因此關系實例的句法結構可能會發(fā)生變化，并且也無法準確預測新的句法結構，因此對關系實例的句法結構有必要進行人工調(diào)整。

至此，經(jīng)過中文語料標注和英文語料的映射后，包括實體和關系對齊信息的中英文平行語料庫就全部構建完畢。

2.5　語料標注的一致性

語料標注的一致性體現(xiàn)了標注的難度和語料的質量。為了保證標注質量，我們招募了兩名志愿者，分兩個階段標注中文實體及其關系：

(1) 第一階段：兩名志愿者首先對25篇文章中的實體或關系進行標注，然后由一名仲裁者檢查標注的差異，改正共同的錯誤，并允許存在有爭議的差異，最后計算兩名標注者之間的一致性；

(2) 第二階段：兩名志愿者分別標注剩下的300篇文章，每人大約標注一半。

在衡量實體標注的一致性時，只考慮實體指稱的中心詞和實體大類，采用常規(guī)的準確率(P)、召回率(R)和調(diào)和平均(F1)；在衡量關系標注的一致性時，只考慮關系小類，同樣采用常規(guī)的準確率(P)、召回率(R)和調(diào)和平均(F1)。表3列出了兩名標注者在調(diào)整前后的實體和關系標注的一致性指標。

從表3中可以看出，調(diào)整前實體的召回率較低，這是因為兩位標注者對實體標注的某些要求(如實體類別等)不夠了解。而經(jīng)過調(diào)整后，無論是實體還是關系的一致性已達到可接受水平。

Table 3　Consistency of entity and relation annotation

3平行語料庫統(tǒng)計分析

為了更好地揭示中文和英文在表達實體、關系等方面的語言差異，本文分別就對齊率、實體指稱缺失情況、關系句法結構的變化等三個方面進行統(tǒng)計和分析。

3.1　中英文對齊率

為了考察在中文到英文的對齊過程中標注信息的保留情況，表4統(tǒng)計了實體指稱、實體和關系在中文中的數(shù)量，對齊到英文后的數(shù)量以及對齊的百分比。由于在英文的翻譯過程中，很多文本標題行被省略了，從而導致平行句對的丟失，因此為了分析標注信息丟失的真正原因，表中也列出了在句子對齊情況下的統(tǒng)計數(shù)據(jù)。例如，“全部實體指稱”是指語料庫中標注的所有實體指稱，而下面一行“全部實體指稱(句子對齊)”表示出現(xiàn)在平行句對中的實體指稱。

Table 4　Entity mentions and the total number of entities

從表4中可以看出：

(1) 實體對齊率最高，實體指稱對齊率次之，而關系對齊率最低。這是因為只要實體的任一個指稱能對齊，則實體就能對齊；而只有一個關系的兩個實體指稱都對齊，關系實例才能對齊。

(2) 無論對于何種統(tǒng)計指標，句子對齊情況下的對齊率均高于全部語料庫情況下的對齊率，并且對齊率均超過95%。這說明如果僅考慮平行句對中的對齊情況，那么可以認為標注信息的對齊是相當成功的。因此，在后續(xù)表格中，本文丟棄非平行句對中的標注信息，從而便于更準確地分析語言之間的真正差別。

3.2　實體指稱缺失

從表4中可以看到，在實體指稱映射中存在缺失現(xiàn)象，即一個中文實體指稱沒有對應的英文實體指稱，從而影響到關系的對齊。表5把244個實體指稱的缺失原因進行分類，并列出了各個原因所占的比例。

Table 5　Reasons for the absence of entity mentions

由表5可以發(fā)現(xiàn)，約2/3的實體缺失是由于中英文語言差異造成的，而約1/3的實體缺失是由句法和翻譯問題所致，只有極少部分是由規(guī)則不允許中間嵌套造成的，具體為：

(1)語義缺失。語義缺失是指缺失的實體被本句中的其他指稱表述，并不需要再贅述；或者是本句中的某個實體可以暗含多個實體。例如，在(c2)句中，[中國]與[自己]為“中國”的不同指稱，而在(e2)句中，“中國”一詞的指稱，并未像中文句子中出現(xiàn)兩次，這是因為在英文中一個指稱完全可以表達句意。

(c2)[中國] 愿意為不斷加深這種友誼作出 [自己] 的努力。

(e2)[China] is willing to make efforts to continually deepen this type of friendship ．

(2)句法缺失。句法缺失是指由于中英文在詞法和句法上的差異而導致的實體指稱的丟失，約占到10%以上。分析表明，其原因有兩個方面：一是專有名詞縮寫，即中英文在某些專有名詞縮寫上具有一定的差異性，即某些中文名稱是從英文縮寫中翻譯過來的。例如，中文“ [聯(lián)合國] [安理會]” 中包含兩個實體，而其對應的英文“ [UNSC]” 卻只有一個實體。二是HLS表述差異，所謂HLS引用類多集中在 “…個”“…的”“…家”“…之一”等詞，而在英文中并未有與“個”“的”“家”相對應的詞。

(3)翻譯缺失。有將近1/3的實體缺失是由于翻譯原因而引起的，即英文中未將相應的中文實體翻譯出來，而且并不能被其他實體的指稱所表述或暗含。例如，在(c3)中的[河南省] 并未在(e3)中出現(xiàn)。

(c3)記者從 [[河南省] 文物考古研究所] …其中有肋骨、趾骨等。

(e3)This reporter has learnt from the [Archaeological Institute of Cultural Relics] ...such places as Hutou Hill,Yangcheng Township,Xixia county,etc ．

(4)規(guī)則問題。為了盡可能多地標注嵌套實體，同時也便于處理，我們規(guī)定對于中文實體只考慮左嵌套情況，而對于英文實體，左嵌套和右嵌套都要考慮，這就導致某些實體無法對齊。例如在“[[上海] 施貴寶]”中存在兩個實體，而在其英文“[Squibb 's-LRB-Shanghai-RRB-] ”中，由于“Shanghai”這個實體沒有出現(xiàn)在最右側，因此不被標注為一個實體。

3.3　關系句法結構

分析中英文在實體關系語言表達方式上的句法差異對關系抽取研究具有很好的指導作用。表6統(tǒng)計了中文關系實例映射到英文關系實例時句法結構發(fā)生變化的實例數(shù)量，其中行和列分別表示中英文句法結構類型，需要注意的是英文比中文多出兩個句法結構類型，即所有格和介詞。從表6中可以看出：

(1) 多于一半的中文前修飾結構發(fā)生了變換，主要變換為介詞(約40%)以及所有格結構(約11%)，并且當前者發(fā)生時，往往還伴隨著關系論元先后順序的交換。例如，中文中的“[外交部] [副部長]”，英文翻譯為[vice minister] of the [Ministry of Foreign Affairs]，句法結構由前修飾轉換為介詞。

(2) 中文的公式結構映射到英文時，仍然為公式結構。這是由于公式結構通常都是新聞報道中的固定模式，即使翻譯成英文，也不會發(fā)生變化。

(3) 相當一部分中文分詞結構(超過40%)轉換為英文的介詞結構。這是由于中文中前置的分詞結構(如“駐”“在”“來自”和“遍布”等)在英文中往往被翻譯成后置的介詞結構或分詞結構，因此兩個關系論元的位置也會發(fā)生變化。

(4) 在中文謂詞結構中，也有少部分轉換為英文的介詞結構(約7%)和分詞結構(約7%)。例如，在(c4)-(e4)中，由謂詞結構轉換為介詞結構。而在(c5)-(e5)中，由謂詞結構轉換為分詞結構。

(c4)最后一批俄羅斯 [軍隊] 撤離 [德國] 的儀式 31日在柏林舉行。

(e4)The ceremony for the withdrawal of the last group of Russian [troops] from [Germany] was held in Berlin on the 31st ．

(c5)[德國] 領土上存在 [占領軍] 的狀態(tài) 行將結束。

(e5)The [occupying armies] existing in [German] territory will end soon ．

最后一個值得注意的現(xiàn)象是，由于中文句法結構到英文句法結構的轉換在各個類型并不均勻，因而導致中英文關系實例中句法結構的主導類型不同。在中文中，約65%的關系實例都是前修飾結構；而在英文中，前修飾結構和介詞結構的關系實例均占29%左右。不同的句法結構可能會導致中英文關系抽取的難度不一樣。

Table 6　Syntactic structure transform from Chinese to English

4結束語

本文在已有的OntoNotes中英文平行語料庫基礎上，結合ACE實體和關系標注中存在的問題，制定了一些額外的標注原則，通過自動抽取和映射，再加人工調(diào)整的方法完成了一個包含實體和關系對齊信息的中英文平行語料庫，該語料庫具有較高的標注一致性。通過對語料庫的統(tǒng)計表明，盡管從中文到英文的翻譯過程中存在著成分缺失的現(xiàn)象，但實體對齊率和關系對齊率均達到了95%以上，這說明平行句對之間的關系信息能基本保留；另一方面，中英文語言在表達語義關系的句法結構上有一定差異，中文有65%以上都通過前修飾結構來表達，而英文則還通過介詞結構來表達。

今后的工作，我們將利用本文構建的實體關系平行語料庫，比較中英文關系抽取的差異性；還將利用該平行語料庫進行跨語言信息抽取等方面的研究，如雙語協(xié)同訓練、雙語主動學習等。

參考文獻:

[1]Doddington G R,Mitchell A,Przybocki M A,et al.The automatic content extraction (ACE) program-tasks,data,and evaluation[C]∥Proc of LREC, 2004:837-840．

[2]Chen Y,Zong C,Su K Y.On jointly recognizing and aligning bilingual named entities[C]∥Proc of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:631-639．

[3]Kim S,Jeong M,Lee J,et al.Cross-lingual annotation projection for weakly-supervised relation extraction[J].ACM Transactions on Asian Language Information Processing (TALIP),2014,13(1):1-26．

[4]Qian L,Hui H,Hu Y,et al.Bilingual active learning for relation classification via pseudo parallel corpora[C]∥Proc of ACL, 2014:582-592．

[5]Xiao R.The babel English-Chinese parallel corpus[DB/OL].[2013-02-13].http:∥www.lancaster.ac.ukfassprojects/corpus/babel/babel.htm．

[6]Ma Xiao-yi.Hong Kong parallel text LDC2004T08[R].Philadelphia:Linguistic Data Consortium,2004．

[7]United States.Joint Publications Research Service,United States.Foreign Broadcast Information Service.JPRS Report:China[M].Washington DC:Foreign Broadcast Information Service,1993．

[8]Deng Y,Kumar S,Byrne W.Segmentation and alignment of parallel text for statistical machine translation[J].Natural Language Engineering,2007,13(3):235-260．

[9]Ma X.Champollion:A robust parallel text sentence aligner[C]∥LREC 2006:Fifth International Conference on Language Resources and Evaluation, 2006:489-492．

[10]Li P, Sun M, Xue P. Fast-Champollion:A fast and robust sentence alignment algorithm[C]∥Proc of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:710-718．

[11]Quan X,Kit C,Song Y.Non-monotonic sentence alignment via semisupervised learning[C]∥Proc of ACL, 2013:622-630．

[12]Brown P F,Pietra V J D,Pietra S A D,et al.The mathematics of statistical machine translation:Parameter estimation[J].Computational Linguistics,1993,19(2):263-311．

[13]Vogel S,Ney H,Tillmann C.HMM-based word alignment in statistical translation[C]∥Proc of the 16th Conference on Computational Linguistics,1996:836-841．

[14]Feng D,Lü Y,Zhou M.A new approach for English-Chinese named entity alignment[C]∥Proc of EMNLP’04,2004:372-379．

惠浩添(1991-),男，江蘇徐州人，碩士生，研究方向為信息抽取。E-mail:20134227019@stu.suda.edu.cn

HUI Hao-tian,born in 1991,MS candidate,his research interest includes information extraction.

李云建(1991-),男，江西撫州人，碩士生，研究方向為信息抽取。E-mail:20145227020@stu.suda.edu.cn

LI Yun-jian,born in 1991,MS candidate,his research interest includes information extraction.

錢龍華(1966-),男，江蘇蘇州人，博士，副教授，CCF會員(E200014271M)，研究方向為自然語言處理。E-mail:qianlonghua@suda.edu.cn

QIAN Long-hua,born in 1966,PhD,associate professor,CCF member(E200014271M),his research interest includes natural language processing.

周國棟(1967-),男，江蘇常州人，博士后，教授，CCF會員(E200008769S)，研究方向為自然語言處理。E-mail:gdzhou@suda.edu.cn

ZHOU Guo-dong,born in 1967,post doctor,professor,CCF member(E200008769S),his research interest includes natural language processing.

A Chinese-English parallel corpus for information extraction

HUI Hao-tian，LI Yun-jian，QIAN Long-hua，ZHOU Guo-dong

(1.Natural Language Processing Lab,Soochow University,Suzhou 215006;

2.School of Computer Science & Technology,Soochow University,Suzhou 215006,China)

Abstract:In addition to machine translation, parallel corpora play an important role in information retrieval, information extraction and knowledge acquisition, etc. However, traditional parallel corpora are aligned at sentence level, thus their significance for research on cross-language natural language processing is limited. In view of this, on the basis of the OntoNotes, we construct a high quality Chinese and English parallel corpus for information extraction by combining automatic extraction, automatic mapping and manual annotation. The corpus contains the entities and their mutual relations, and achieves the alignment between Chinese and English both on entity and relation levels. This corpus therefore can facilitate comparative study of information extraction in Chinese and English, reveal the difference of semantic expressions between languages, and also provide a valuable platform for research on cross-language information extraction.

Key words:named entity;semantic relation;bilingual mapping;parallel corpus

作者簡介:

doi:10.3969/j.issn.1007-130X.2015.12.021

中圖分類號：TP391

文獻標志碼：A

基金項目：國家自然科學基金資助項目(61373096，90920004)；江蘇省高校自然科學研究重大項目(11KJA520003)

收稿日期：修回日期：2015-10-21

文章編號：1007-130X(2015)12-2331-08

計算機工程與科學2015年12期

計算機工程與科學的其它文章: 考慮優(yōu)先級的廣義猶豫模糊信息集成方法*; 一種基于同態(tài)濾波器與Radon變換的光照不變?nèi)四樧R別方法*; 基于稀疏圖表示的特征選擇方法研究*; 一種基于項目屬性評分的協(xié)同過濾推薦算法*; 基于跨語言語料的漢泰詞分布表示*; 利用AdaBoost-SVM集成算法和語塊信息的韻律短語識別*

一個面向信息抽取的中英文平行語料庫*

2.1 標注目標和任務

2.2 標注難點及解決方法

2.2.1 語料庫的選擇

2.2.2 實體的嵌套

2.2.3 實體類型的辨析

2.2.4 關系類型的辨析

2.3 中文語料的標注

2.3.1 中文實體標注信息的產(chǎn)生

2.3.2 中文實體及關系的標注

2.4 英文語料的映射

2.4.1 句子對齊

2.4.2 實體映射

2.4.3 實體關系映射

2.5 語料標注的一致性

3.1 中英文對齊率

3.2 實體指稱缺失

3.3 關系句法結構

2.1　標注目標和任務

2.2　標注難點及解決方法

2.2.1　語料庫的選擇

2.2.2　實體的嵌套

2.2.3　實體類型的辨析

2.2.4　關系類型的辨析

2.3　中文語料的標注

2.3.1　中文實體標注信息的產(chǎn)生

2.3.2　中文實體及關系的標注

2.4　英文語料的映射

2.4.1　句子對齊

2.4.2　實體映射

2.4.3　實體關系映射

2.5　語料標注的一致性

3.1　中英文對齊率

3.2　實體指稱缺失

3.3　關系句法結構