王東明,徐金安,陳鈺楓,張玉潔
(北京交通大學(xué) 計算機與信息技術(shù)學(xué)院,北京 100044)
?
基于單語語料的面向日語假名的日漢人名翻譯對抽取方法
王東明,徐金安,陳鈺楓,張玉潔
(北京交通大學(xué) 計算機與信息技術(shù)學(xué)院,北京 100044)
命名實體的翻譯等價對在跨語言信息處理中非常重要。傳統(tǒng)抽取方法通常使用平行語料庫或可比語料庫,此類方法受到語料庫資源的質(zhì)量和規(guī)模的限制。在日漢翻譯領(lǐng)域,一方面,雙語資源相對匱乏;另一方面,對于漢字命名實體,通常使用漢字對照表;對于日語純假名的命名實體,通常采用統(tǒng)計翻譯模型,此類方法受到平行語料庫的質(zhì)量和規(guī)模的限制,且精度低下。針對此問題,該文提出了一種基于單語語料的面向日語假名的日漢人名翻譯對自動抽取方法。該方法首先使用條件隨機場模型,分別從日語和漢語語料庫中抽取日語和漢語人名;然后,采用基于實例的歸納學(xué)習(xí)法自動獲取人名實體的日漢音譯規(guī)則庫,并通過反饋學(xué)習(xí)來迭代重構(gòu)音譯規(guī)則庫。使用音譯規(guī)則庫計算日漢人名實體之間的相似度,給定閾值判定人名實體翻譯等價對。實驗結(jié)果表明,提出的方法簡單高效,在實現(xiàn)系統(tǒng)高精度的同時,克服了傳統(tǒng)方法對雙語資源的依賴性。
機器翻譯;命名實體;日語假名;歸納學(xué)習(xí)法;音譯
命名實體是標(biāo)識某一特定實體的詞或詞組,其主要包括人名、地名和組織機構(gòu)名等[1],是自然語言的重要信息載體,在機器翻譯、信息檢索、問答系統(tǒng)以及跨語言信息處理等研究領(lǐng)域至關(guān)重要。
雙語命名實體翻譯等價對是指來自兩種不同語言的具有互譯關(guān)系的命名實體對。在日語中,假名是表音文字。“假”即“借”,“名”即“字”。意即只借用漢字的音和形,而不用它的意義。在日漢機器翻譯研究領(lǐng)域,由于日語純假名人名所占比例約為27%[2],且日語純假名多為歐美等國的外來語,此類實體對漢語而言,同屬于外來語。例如,“伊莎貝拉”和“イサベラ”,來源于西班牙語的外來詞“Isabel”。因此,面向日語純假名的命名實體的日漢翻譯對的自動獲取,蘊含了外來語到日語和漢語的音譯規(guī)則,而由于日語和漢語在構(gòu)詞規(guī)則和發(fā)音上的差異,增加了日語假名的日漢雙語實體對自動抽取的技術(shù)難度。
雙語命名實體翻譯等價對的自動獲取方法很多[3],其中,最直接的方法是用機器翻譯系統(tǒng)直接進(jìn)行翻譯,即利用已知的源語言命名實體,通過翻譯直接得到目標(biāo)語言對應(yīng)的命名實體。鄒波等[4]對英漢人名的音譯方法進(jìn)行了研究,詳細(xì)比較了兩種機器學(xué)習(xí)方法和兩種統(tǒng)計機器翻譯模型在英漢人名音譯上的應(yīng)用效果,實驗結(jié)果表明雖然這些方法取得了一定的效果,但仍然有較大的改善空間。體現(xiàn)在基于純統(tǒng)計的方法對英漢人名進(jìn)行音譯是遠(yuǎn)遠(yuǎn)不夠的,需要其他技術(shù)手段來獲取更好的音譯結(jié)果。李婷婷等[2]對日本人名的識別和翻譯做了研究,針對日本人名的翻譯,將日本人名分為假名人名和漢字人名,漢字人名的翻譯通過建立日本人名常用漢字翻譯詞典實現(xiàn),而假名人名的翻譯通過Moses系統(tǒng)訓(xùn)練翻譯模型實現(xiàn),實驗結(jié)果表明對于漢字人名部分的翻譯正確率達(dá)到了100%,這是因為其所建立的“日本人名常用漢字翻譯字典”質(zhì)量很好,對日本人名常用漢字的覆蓋率很高,而對于假名人名部分的翻譯正確率只有47.34%,這說明僅使用統(tǒng)計機器翻譯的方法來處理假名人名效果是不理想的。
另一種方法是給定源語言的命名實體,通過網(wǎng)絡(luò)挖掘輔助翻譯的方法得到目標(biāo)語言對應(yīng)的命名實體[5]。此方法屬于直譯方法的一種擴展形式。近年來,互聯(lián)網(wǎng)高速發(fā)展,其中的語料資源越來越豐富,很多研究者都在利用互聯(lián)網(wǎng)的語料資源來提取命名實體等價對,Jiang 等[6-7]利用音譯模型和網(wǎng)絡(luò)挖掘來得到目標(biāo)語言對應(yīng)的命名實體,首先利用音譯模型生成一個候選翻譯,繼而利用音譯信息配合網(wǎng)絡(luò)挖掘獲得更多的候選翻譯,最后使用最大熵模型綜合考慮源語言和候選的目標(biāo)語言命名實體的各種特征,得到最終的結(jié)果。實驗結(jié)果顯示該方法取得了一定的成效。
第三種方法是從平行語料庫或可比語料庫里批量抽取命名實體翻譯等價對,Huang等[8]提出了一種基于多特征的最小代價的命名實體翻譯對自動抽取方法,實驗結(jié)果表明該方法對命名實體翻譯等價對的抽取取得了較好的效果,但該方法對平行語料庫有較大依賴,大規(guī)模的雙語資源相對匱乏,構(gòu)建成本高。
第四種方法是利用漢字對照表和歸納學(xué)習(xí)方法從單語語料庫中抽取命名實體翻譯等價對[9-10],此類方法對日漢漢字命名實體翻譯等價對的抽取簡單高效,有效解決了對日漢雙語資源的依賴性。但是,該方法對日語純假名的日漢實體等價對的抽取具有一定的局限性。
綜上所述,傳統(tǒng)方法中,基于機器翻譯的方法對翻譯系統(tǒng)的性能具有依賴性;基于雙語語料庫或可比語料庫的方法,其性能受限于語料庫的質(zhì)量和規(guī)模。而基于日語和漢語漢字對照表或詞典的方法,無法有效解決日語純假名的實體的日漢翻譯等價對的自動抽取。
為了解決上述問題,本文提出了一種基于單語語料的面向日語假名的日漢人名翻譯等價對自動抽取方法。首先,該方法使用條件隨機場模型,分別從日語和漢語語料庫中抽取日語和漢語人名;然后,采用基于實例的歸納學(xué)習(xí)法[11]自動獲取人名實體的日漢音譯規(guī)則庫,通過反饋學(xué)習(xí)來迭代重構(gòu)音譯規(guī)則庫。然后,使用音譯規(guī)則庫計算日漢人名實體之間的相似度,給定閾值判定人名實體翻譯等價對。實驗結(jié)果表明,提出方法簡單高效,抽取的假名人名翻譯等價對正確率高,可以達(dá)86%以上。本方法在實現(xiàn)系統(tǒng)高精度的同時,克服了傳統(tǒng)方法對雙語資源的依賴性。
本文的組織結(jié)構(gòu)如下: 第二節(jié)介紹歸納學(xué)習(xí)法;第三節(jié)詳細(xì)描述本文提出的方法;包括基于條件隨機場的單語命名實體識別、基于歸納學(xué)習(xí)法的規(guī)則獲取、以及反饋學(xué)習(xí)和校正處理等;第四節(jié),實驗部分,先給出一種基于統(tǒng)計機器翻譯模型的日語純假名日漢翻譯等價對的抽取方法,作為本論文的基線系統(tǒng),然后給出實驗結(jié)果和分析討論;最后,給出結(jié)論和未來工作。
歸納學(xué)習(xí)法由日本學(xué)者荒木健治等[11]提出,其基本思路主要包括兩個方面,其一是對兩個具有相似性的實例中的相同部分和差異部分進(jìn)行遞歸式抽取以獲取規(guī)則;其二是通過校正和反饋處理,對抽取的規(guī)則進(jìn)行篩選,更新規(guī)則庫。該方法通過歸納學(xué)習(xí)獲取實例間的內(nèi)在規(guī)則,確定字符串之間的對應(yīng)關(guān)系,表1為從未知字符串抽取對應(yīng)關(guān)系規(guī)則的例子。
表1的輸入1和輸入2存在著對應(yīng)關(guān)系,以下劃線的形式將其標(biāo)出。隨后, 將兩邊的不同部分按照先后順序?qū)R。其結(jié)果如表1所示,段1、段2、段3分別構(gòu)成對應(yīng)關(guān)系。兩個字符串間不同部分的對應(yīng)關(guān)系,除表1所示的順序?qū)?yīng)外還有可能是逆序?qū)?yīng)關(guān)系。至于采用順序?qū)?yīng)還是逆序?qū)?yīng),將取決于所研究的具體問題,在本文中,基于如上所述的假名人名的特點,我們采用順序?qū)?yīng)。

表1 從未知字符串抽取對應(yīng)關(guān)系
按照同樣的方法可以從段抽取出共同部分并將段分解為基元。從段中抽取基元的例子如表2所示。將段1、2中用下劃線標(biāo)注的共同部分作為基元2抽取出來,并將其兩側(cè)的不同部分分別看成基元1和基元3。如此,通過分離共同部分和不同部分,可以得到三個基元。

表2 從段中抽取基元
因為可以通過組合的方式將基元還原成段,所以這三個基元就成了兩個段的完全替代品。這種抽取方式通常還需要借助確定對應(yīng)關(guān)系的經(jīng)驗法則。本手法基于實例分階段地抽取異同部分,從而獲取知識,是一種歸納學(xué)習(xí)的方法。
現(xiàn)有的命名實體翻譯等價對抽取方法,通常使用平行語料庫或可比語料庫,因而,受限于雙語語料庫的質(zhì)量和規(guī)模。本文提出的方法旨在突破此限制,并有效提高日語假名實體等價對的抽取精度。提出的方法的系統(tǒng)架構(gòu)如圖1所示。
首先,我們使用條件隨機場模型(CRFs),分別從日語和漢語單語語料庫中抽取日語和漢語人名實體集合,再將其轉(zhuǎn)換成羅馬字[12]音節(jié)列表和漢語拼音列表;然后,使用音譯規(guī)則庫計算日漢人名實體之間的相似度,得到相似度列表。針對相似度高的人名實體對實例,篩選出來,利用歸納學(xué)習(xí)法,通過反饋學(xué)習(xí)來獲取新的人名實體的日漢音譯規(guī)則,經(jīng)過數(shù)次迭代重構(gòu),得到最終的音譯規(guī)則庫。并根據(jù)規(guī)則庫,通過相似度計算獲取雙語實體等價對。

圖1 系統(tǒng)架構(gòu)圖
3.1 單語命名實體抽取
傳統(tǒng)的單語命名實體抽取方法,主要包括基于規(guī)則、基于詞典和基于統(tǒng)計的方法[13]。由于所需額外知識少,移植性好,基于統(tǒng)計的方法正成為研究者所使用的主流方法。基于統(tǒng)計的方法大量使用了機器學(xué)習(xí)領(lǐng)域的各種算法,主要包括,隱馬爾可夫模型(HMM)、最大熵馬爾科夫模型(MEMM)、條件隨機場模型(CRFs)等。
條件隨機場( Conditional Random Fields,簡稱CRFs) 是一種用于序列數(shù)據(jù)標(biāo)注的條件概率模型,由 Lafferty 等[14]于 2001 年提出,它是通過定義標(biāo)記序列和觀察序列的條件概率來預(yù)測最可能的標(biāo)記序列的。條件隨機場模型(CRFs)是近年來在序列標(biāo)注問題中應(yīng)用的比較多,也是效果最好的一種模型。它沒有隱馬爾可夫模型那樣嚴(yán)格的獨立性假設(shè),因而可以容納任意的上下文信息。同時,由于CRFs計算全局最優(yōu)輸出節(jié)點的條件概率,克服了最大熵馬爾科夫模型和其它非生成的有向圖模型所固有的標(biāo)記偏置的缺點。CRFs是在給定需要標(biāo)記的觀察序列的條件下,計算整個標(biāo)記序列的聯(lián)合概率分布,而不是在給定當(dāng)前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。
條件隨機場是以給定的觀察值為條件,從而計算輸出狀態(tài)的概率的條件概率模型。其中最簡單的CRFs是一個稱為鏈圖或線圖的無向圖(如圖2所示),稱為線鏈CRFs(linear-chain CRFs),也是最常用的一種條件隨機場模型。

圖2 線鏈CRFs結(jié)構(gòu)圖
假設(shè)O=o1,o2,……,on是一個長度為n的觀察序列,線鏈CRFs的參數(shù)Λ={λ1,λ2,……,λk},則此模型輸出詞位序列S=s1,s2,……,sT的條件概率為式(1)。
(1)
其中,Zo是歸一化因子,作用是確保所有可能的詞位標(biāo)記序列的條件概率和為1,其定義如式(2)所示。
(2)
公式(1)中的f通常是一個二值表征函數(shù),用于表達(dá)上下文可能的語言特征,其定義為式(3)。
(3)
CRFs模型通過特征函數(shù)能夠整合任何特征,包括可觀察序列O在時刻t時由當(dāng)前字及其上下文組成的字串序列特征,以及上下文中隱含詞位的轉(zhuǎn)移特征st-1→st,λk。λk是一個訓(xùn)練過程中需從訓(xùn)練語料中學(xué)習(xí)的參數(shù),表示的是相應(yīng)的特征函數(shù)fk(st-1,st,o,t) 的權(quán)重,其取值范圍可以是-∞到+∞。對于一個由公式(1)給定的條件隨機場模型,對任意的一個輸入字串,其最可能的標(biāo)記序列可以由公式(4)求出:
(4)
可以使用Viterbi算法對公式(4)進(jìn)行解碼,從而求出使得PΔ(S|O)最大的標(biāo)記序列。
本文所采用的命名實體識別工具是實驗室獨自研發(fā)的基于CRFs的單語命名實體識別工具,該系統(tǒng)選取較為復(fù)雜的特征模板進(jìn)行識別,性能較高,其從中日雙語的維基百科數(shù)據(jù)庫的單語語料庫中抽取漢語人名和日語假名人名。
3.2 歸納學(xué)習(xí)
日語假名屬于外來詞,大多是通過音譯得到的,而其對應(yīng)的漢語人名,同樣屬于外來詞,也是通過音譯而來的。因此,從發(fā)音規(guī)律上來講,彼此之間存在一定的對應(yīng)關(guān)系[15]。為了探索和發(fā)現(xiàn)其規(guī)律,可以將假名人名對應(yīng)的漢字和日語假名分別轉(zhuǎn)換為對應(yīng)的中文拼音和羅馬字,例如,“路易斯恩里克”和“ルイスエンリケ”分別轉(zhuǎn)換為“l(fā)u|yi|si|en|li|ke”和“ru|i|su|e|n|ri|ke”,在這里我們將中文拼音以每個漢字拼音進(jìn)行分詞,而日語假名對應(yīng)的羅馬字以其發(fā)音的音節(jié)進(jìn)行分詞,通過分析,我們可以簡單地得到這樣的規(guī)則對,“l(fā)u~ru”,“yi~i”,“si~su”,“en~e|n”,“l(fā)i~ri”,“ke~ke”,如表3中所示,值為“1”的即是漢字拼音和假名羅馬字的規(guī)則對。我們希望在更多的漢日假名人名對中得到更多這樣的規(guī)則對,以用來識別我們未知的漢日假名人名翻譯等價對。

表3 漢字拼音和假名羅馬字的對應(yīng)圖
我們將抽取得到的日漢假名人名分別轉(zhuǎn)換成羅馬字音節(jié)序列和漢語拼音序列。對于音譯而來的假名人名,它的漢語發(fā)音和日語發(fā)音都是順序的,不會出現(xiàn)逆序的情況。因此,給出如下處理步驟:
1. 假設(shè)實體等價對之間的首尾發(fā)音音節(jié)具有對應(yīng)關(guān)系。例如,“l(fā)u|yi|si|en|li|ke”和“ru|i|su|e|n|ri|ke”,它們的首尾有“l(fā)u~ru”,“ke~ke”的對應(yīng)關(guān)系。
2.為了確定一個漢字拼音對應(yīng)幾個羅馬字音節(jié),給定窗口設(shè)置,在一定范圍內(nèi)獲取候選漢字拼音和羅馬字音節(jié)之間的對應(yīng)關(guān)系規(guī)則對,例如,設(shè)窗口為2,我們可以從上例中抽取到“l(fā)u~ru”、“l(fā)u~ru|i”、“ke~ke”和“ke~ri|ke”這些規(guī)則對。
為了提高歸納學(xué)習(xí)法的效率,本文采用一定規(guī)模的既有假名人名翻譯等價對作為學(xué)習(xí)數(shù)據(jù),得到候選的漢字拼音和羅馬字音節(jié)的規(guī)則對的初始集合,然后使用根據(jù)獲取規(guī)則的權(quán)重,設(shè)定閾值過濾部分低置信度的規(guī)則獲取高置信度的漢字拼音和羅馬字音節(jié)規(guī)則表,之后,根據(jù)相似度計算,獲取實體等價對,再進(jìn)行校正處理和反饋學(xué)習(xí),通過迭代生成新的音譯規(guī)則,并更新規(guī)則的權(quán)重。表4給出了一個規(guī)則庫實例。

表4 規(guī)則庫實例
本方法在利用既有假名人名翻譯等價對作為學(xué)習(xí)數(shù)據(jù)構(gòu)建初始漢字拼音與羅馬字音節(jié)的規(guī)則庫之后,我們從日漢雙語的單語語料庫中使用基于CRFs的單語命名實體識別工具分別進(jìn)行假名人名的識別,得到兩個單語的假名人名集合,通過預(yù)處理得到分好“詞”的假名人名拼音列表和羅馬字音節(jié)列表,使用上述初始的漢字拼音和羅馬字音節(jié)規(guī)則庫,計算候選的假名人名翻譯等價對的相似度,相似度計算如公式(5)所示。
(5)
其中,nac為假名人名拼音序列,naj為假名羅馬字音節(jié)序列,k為候選假名人名對在規(guī)則庫中找到的規(guī)則對的個數(shù),ci為規(guī)則對中拼音個數(shù),ji為規(guī)則對中羅馬音節(jié)個數(shù),m為假名人名拼音個數(shù),n為假名羅馬字音節(jié)個數(shù)。

然后,選取相似度大的候選假名人名翻譯等價對進(jìn)行歸納學(xué)習(xí)、人工校正和反饋處理,通過迭代處理得到新的候選規(guī)則,對規(guī)則給定閾值,獲取可信度大的候選規(guī)則更新規(guī)則庫,再利用更新的規(guī)則庫迭代計算相似度,直到收斂為止。對于一對多或多對一的規(guī)則情況,本文采用了計算其之間的編輯距離來進(jìn)行過濾。針對所產(chǎn)生的新規(guī)則,根據(jù)語言學(xué)知識進(jìn)行判定和校正處理,以提高規(guī)則的正確性。
4.1 基線系統(tǒng)
本文采用之前在命名實體翻譯等價對中比較常見的統(tǒng)計機器翻譯系統(tǒng)作為基線系統(tǒng)。如文獻(xiàn)[2]中所述的方法,采用基于短語的統(tǒng)計機器翻譯實現(xiàn)日語假名人名到中文的翻譯。具體使用Moses[16]訓(xùn)練翻譯模型來實現(xiàn)假名人名的翻譯,基線系統(tǒng)實驗數(shù)據(jù)共包括13 032對日漢假名人名對,實驗中將數(shù)據(jù)分為訓(xùn)練集、開發(fā)集、測試集三部分,其中測試數(shù)據(jù)與下文實驗中數(shù)據(jù)一致。基線實驗所用的實驗數(shù)據(jù)如表5所示。

表5 基線系統(tǒng)實驗數(shù)據(jù)
如文獻(xiàn)[2]中所述,實驗結(jié)果評價指標(biāo)不用BLEU值來估計,直接用翻譯準(zhǔn)確率如公式(6)來測試,表6是測試結(jié)果,這也與文獻(xiàn)[2]中的實驗結(jié)果相近。

正確率 (6) 表 6 實驗結(jié)果
4.2 實驗設(shè)置
4.2.1 實驗語料
實驗中所用的單語語料庫來源于中日雙語的維基百科數(shù)據(jù)庫,本實驗從日語單語篇章和漢語單語篇章中使用本實驗室基于CRFs的命名實體工具進(jìn)行識別,共識別漢語人名88 203個,日語人名73 322個,并從中抽取13 032個假名人名日語條目,并手工進(jìn)行詞對齊的校正工作,作為實驗的數(shù)據(jù)。
4.2.2 實驗工具
實驗中用到的工具包括,基于CRFs的單語命名實體識別工具,由本實驗室研究小組自主開發(fā),其他還有GIZA++工具[17],漢字轉(zhuǎn)拼音工具[18],假名轉(zhuǎn)羅馬字工具[19]等。
4.2.3 參數(shù)設(shè)定
實驗中的參數(shù)設(shè)定,主要是指對規(guī)則抽取的閾值的設(shè)定,在迭代過程中,該閾值應(yīng)逐漸放寬,否則,隨著迭代次數(shù)的增加,難以獲取新規(guī)則。然而在初始時,該閾值卻不能選的較低,否則將導(dǎo)致規(guī)則庫過冗余。另外,對于相似度的閾值設(shè)定,實驗中我們?nèi)〕踔禐?.3,隨著迭代的進(jìn)行,我們進(jìn)行動態(tài)的調(diào)整。
4.2.4 評價方法
實驗結(jié)果指標(biāo)采用準(zhǔn)確率(P),召回率(R)和F值來作為評分標(biāo)準(zhǔn),其中P,R和F的計算方式如公式(7),(8)和(9)所示。
(7)
(8)
(9)
其中,Numcorrect為抽取到的正確的條目,Nummined為抽取到的所有條目,Numttotal為語料中存在的所有正確條目,當(dāng)β=1時,表示準(zhǔn)確率(P)和召回率(R)權(quán)重相同,就是一般所說的F1值。本文我們認(rèn)為準(zhǔn)確率和召回率同等重要取β=1。
4.3 實驗結(jié)果
本實驗從中日雙語的維基百科數(shù)據(jù)庫中的日語單語篇章和漢語單語篇章中,使用本實驗室基于CRFs的命名實體工具進(jìn)行識別,共識別漢語人名88 203個,日語人名73 322個,實驗中基于CRFs的單語命名實體識別工具的識別效果分別如表7和表8所示。并從中抽取13 032個假名人名日語條目,并手工對齊,作為實驗的數(shù)據(jù)。其中訓(xùn)練數(shù)據(jù)12 032個,測試數(shù)據(jù)1 000個。

表7 中文人名識別效果

表8 日語假名人名識別效果
在本文中,我們提出了一種基于單語語料的面向日語假名的日漢人名翻譯對自動抽取方法。采用基于實例的歸納學(xué)習(xí)法自動獲取人名實體的日漢音譯規(guī)則庫,通過反饋學(xué)習(xí)來迭代重構(gòu)音譯規(guī)則庫。使用音譯規(guī)則庫計算日漢人名實體之間的相似度判定人名實體翻譯等價對。實驗結(jié)果見表9.

表9 實驗二結(jié)果

表10 實驗三結(jié)果
在表9中,在每次迭代對所取的相似度閾值不同,通過多次對比實驗,采用貪心算法進(jìn)行參數(shù)優(yōu)化。對于每次迭代,對不同相似度閾值下的結(jié)果進(jìn)行比較,取最優(yōu)結(jié)果。實驗中,第一次迭代和第二次迭代的相似度閾值取0.3.第三次迭代取0.4,第四、五、六次迭代取0.5。
由實驗二的結(jié)果,我們可以看出,使用本文所提出的方法,從單語語料中抽取假名人名對的效果較之使用統(tǒng)計機器翻譯系統(tǒng)的方法準(zhǔn)確率提高了很多。例如,我們使用機器翻譯系統(tǒng)翻譯“伊云尼斯域”并不能得到正確的結(jié)果“イワニセビッチ”,而用本文的方法容易抽取到這樣的命名實體翻譯對。隨著迭代次數(shù)的增加,經(jīng)迭代重構(gòu)的規(guī)則庫越完備,取得實驗效果越好。實驗證明所提方法簡單高效。當(dāng)然,由于語料的局限性,某些命名實體對也可能抽取不出來,例如,“寬”和“クアン”,這種情況下我們可以通過對規(guī)則庫進(jìn)行人工校正來解決。由于抽取規(guī)則的不確定性,實驗中,我們對規(guī)則庫做了少量的人工校正,對于明顯不符的規(guī)則如“dang~mu”,直接剔除,對于有稍許偏失的規(guī)則予以修正,對未能提取到的規(guī)則直接加入規(guī)則庫,由表10中可以看到校正后,實驗的效果會有所提高。
本文提出了一種基于單語語料的面向日語假名的日漢人名翻譯對自動抽取方法。首先,該方法使用條件隨機場模型,分別從日語和漢語語料庫中抽取日語和漢語人名;然后,采用基于實例的歸納學(xué)習(xí)法自動獲取人名實體的日漢音譯規(guī)則庫,通過反饋學(xué)習(xí)來迭代重構(gòu)音譯規(guī)則庫。使用音譯規(guī)則庫計算日漢人名實體之間的相似度判定人名實體翻譯等價對。實驗結(jié)果表明,提出方法簡單高效,在實現(xiàn)系統(tǒng)高精度的同時,克服了傳統(tǒng)方法對雙語資源的依賴性。我們下一步的工作,將考慮利用更多的特征,如詞長度信息,編輯距離,所屬文本的文體等特征來對單語語料中的命名實體翻譯等價對進(jìn)行自動抽取;同時,我們嘗試采用規(guī)則獲取和其他統(tǒng)計方法相結(jié)合的方法來解決此類問題;使用本方法,我們還將對地名、組織結(jié)構(gòu)名稱等其他純假名命名實體對的自動獲取進(jìn)行擴展。
[1] D Bikel, S Miller, R Schwartz, et al. A high-performance learning name-finder[C]//Proceedings of Applied Natural Language Processing,Washington DC:1997.
[2] 李婷婷,趙鐵軍,張春越. 基于統(tǒng)計的日本人名的識別和翻譯[J]. 智能計算機與應(yīng)用, 2012, 2(1) :4-7.
[3] 趙軍. 命名實體識別、排歧和跨語言關(guān)聯(lián)[J]. 中文信息學(xué)報,2009,23(2):3-17
[4] 鄒波,趙軍. 英漢人名音譯方法研究[A]. 第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C],2008:24-30.
[5] Jenq-Haur Wang, Jei-Wen Teng, Pu-Jen Cheng,et al. Translating unknown cross-lingual queries in digital libraries using a web-based approach[C]//Proceedings of the 4th ACM/IEEE-CS Joint Conference on Digital Libraries.ACM,2004:108-116
[6] Jiang L,Zhou M,Chien L F,et al.Named entity translation with web mining and Tansliteration[C]//Proceedings of the IJCAI.2007,7:1629-1634
[7] 蔣龍,周明,簡立峰. 利用音譯和網(wǎng)絡(luò)挖掘翻譯命名實體[J].中文信息學(xué)報,2007,21(1):23-28.
[8] Huang F, Vogel S, Waibel A. Automatic Extraction of Named Entity Translingual Equivalence Based on Multi-Feature Cost Minimization[C]//Proceeding of Association of Computational Linguistics, Sapporo,Japan,2003.
[9] 茹曠. 日漢雙語命名實體對獲取方法及其應(yīng)用研究[D]. 北京交通大學(xué),2014.
[10] Ru K,Xu J,Zhang Y,et al.A Method to Construct Chinese-Japanese Named Entity Translation Equivalents Using Monolingual Corpora[A].Natural Language Processing and Chinese Computing. Springer Berlin Heidelberg,2013:164-175
[11] 荒木健治,高橋祐治,桃內(nèi)佳雄,等.帰納的學(xué)習(xí)を用いたかな漢字変換[C]//電子情報通信學(xué)會論文誌,1996,J79-D-Ⅱ(3):391-402.
[12] 羅曉瑩. 日語假名羅馬字標(biāo)記法的歷史及發(fā)展[J]. 鄭州航空工業(yè)管理學(xué)院學(xué)報(社會科學(xué)版). 2014.
[13] 孫鎮(zhèn),王惠臨. 命名實體識別研究進(jìn)展綜述[J]. 現(xiàn)代圖書情報技術(shù),2010,(6):42-47.
[14] John Lafferty, Andrew McCallum, Fernando C N Pereira, Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, 2001.
[15] 何功星. 日語中日漢人名的聲調(diào)規(guī)則[J]. 科技信息,2011,(17).
[16] http://www.statmt.org/moses/
[17] http://code.google.com/p/giza-pp/downloads/detail?name=giza-pp-v1.0.7.tar.gz
[18] http://www.aies.cn/pinyin.htm
[19] http://o-oo.net.cn/katakana-Roman.asp
Monolingual Corpora Based Japanese-Chinese Translation Extraction for Kana Names
WANG Dongming, XU Jin’an, CHEN Yufeng, ZHANG Yujie
(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)
Named entity translation equivalents play a critical role in cross-language information processing. The traditional method is usually based on large-scale parallel or comparable corpus, which is limited by the size and quality of the corpus resources. In Japanese-Chinese translation, the bilingual corpora resources are relatively scarce: the Chinese Hanzi and Japanese Kanji mapping table is often adopted to deal with Chinese named entity and a SMT model to deal with the Japanese named entities in pure kana. In this paper, we propose a monolingual corpora based approach. Firstly, the conditional random field model is adopted to extract Japanese and Chinese names from monolingual corpus. Then the Japanese-Chinese transliteration rule base is developed by instance based inductive learning in a iterative process employing the feedback learning. Experimental results show that the proposed method is simple and efficient, leverging the severely dependency on bilingual resource by the classical methods.
machine translation;named entities;Japanese kana;inductive learning method;transliteration

王東明(1985—),碩士研究生,主要研究領(lǐng)域為自然語言處理、統(tǒng)計機器翻譯。E-mail:13120428@bjtu.edu.cn徐金安(1970—),副教授,主要研究領(lǐng)域為自然語言處理和機器翻譯。E-mail:jaxu@bjtu.edu.cn陳鈺楓(1981—),副教授,主要研究領(lǐng)域為自然語言處理和機器翻譯。E-mail:chenyf@bjtu.edu.cn
1003-0077(2015)05-0084-07
2015-08-14 定稿日期: 2015-10-09
國家自然科學(xué)基金 (61370130,61473294);中央高校基本科研業(yè)務(wù)費專項資金 (2015JBM033);國家國際科技合作專項資助(2014DFA11350)
TP391
A