孫曉迪

內(nèi)容摘要:雙語平行語料庫對(duì)翻譯研究、語言對(duì)比以及自然語言處理等領(lǐng)域有重要的影響。目前國內(nèi)外對(duì)于雙語語料庫的研究已經(jīng)較為成熟,但是仍存在很多問題,使其應(yīng)用結(jié)果受到限制。本文主要考察現(xiàn)有的漢英雙語語料庫,并指出構(gòu)建雙語語料庫需要考慮特定的語言特點(diǎn)對(duì)并且應(yīng)該易于分析和操作,同時(shí)就漢英雙語而言,本文提出以漢語標(biāo)點(diǎn)句為對(duì)齊單位構(gòu)建雙語語料庫。
關(guān)鍵詞:漢語標(biāo)點(diǎn)句 漢英 雙語語料庫
1.引言
雙語語料庫是指源語文本和它所對(duì)應(yīng)的目標(biāo)語言翻譯文本構(gòu)成的文本集合,兩種語言對(duì)應(yīng)的文本對(duì)之間語言形式雖然不同,但是表達(dá)的內(nèi)容是一致的,是一種雙語對(duì)齊的語料庫。雙語語料庫對(duì)翻譯研究、語言對(duì)比以及自然語言處理等領(lǐng)域有重要的參考價(jià)值。
構(gòu)建雙語語料庫的關(guān)鍵技術(shù)之一是雙語對(duì)齊,從已有的雙語語料庫的研究來看,有段落、句子、短語、詞匯等不同語法層級(jí)的對(duì)齊,但更多的是句對(duì)齊雙語語料庫,例如最著名的雙語對(duì)齊語料庫就是英語與法語間的句對(duì)齊雙語語料庫(王斌,1999)。漢英雙語句對(duì)齊語料庫也是參照該語料庫建立的,雖然國內(nèi)語料庫對(duì)于國外起步較晚,但是有關(guān)漢英雙語語料庫的建設(shè)及其研究也取得了一定的成就,如燕山大學(xué)劉澤權(quán)支持建立的“《紅樓夢(mèng)》中英文平行語料庫”、北京外國語大學(xué)王克非主持研制的一億詞規(guī)模的“中國英漢平行語料庫”以及上海交通大學(xué)楊慧中教授主持建立的JDEST科技英語語篇語料庫等。
目前對(duì)漢英雙語語料庫研究都集中于句對(duì)齊算法和模型的研究,但是漢語自身的獨(dú)特性使得僅對(duì)雙語對(duì)齊模型和算法研究是遠(yuǎn)遠(yuǎn)不夠的,應(yīng)該從語言本身出發(fā),考察特定語言的語言特點(diǎn)。同時(shí),句子為單位構(gòu)建漢英雙語語料庫的準(zhǔn)確率遠(yuǎn)遠(yuǎn)不如屬于同一語系的英法對(duì)齊之間的準(zhǔn)確率高。如Brown(1993)在加拿大Hansard語料進(jìn)行法英句對(duì)齊,其準(zhǔn)確率可以達(dá)到99.6%,而漢英對(duì)齊準(zhǔn)確率卻僅90.6%(李維剛,2006)。
基于以上原因,本文總結(jié)分析已有的漢英雙語語料庫,指出構(gòu)建漢英雙語語料庫從漢英兩種語言的語言特點(diǎn)出發(fā),并提出以漢語標(biāo)點(diǎn)句為參照構(gòu)建漢英雙語語料庫的設(shè)想。本文接下來的章節(jié)分別是第二章總結(jié)現(xiàn)有的漢英對(duì)齊語料庫,第三章描述以漢語標(biāo)點(diǎn)句為基礎(chǔ)構(gòu)建漢英雙語語料庫的過程,第四章是對(duì)全文的總結(jié)。
2.漢語標(biāo)點(diǎn)句
漢語與英語不同,存在著很多省略的現(xiàn)象,尤其是對(duì)于主語的省略,此外,漢語句與句間的邏輯關(guān)系也少有顯化的詞來體現(xiàn)。因此,為使?jié)h語和英語處于同一語法層級(jí)上,本文提出以漢語標(biāo)點(diǎn)句為參照構(gòu)建漢英雙語語料庫。
標(biāo)點(diǎn)句是指漢語書面語篇章中鄰近的兩個(gè)標(biāo)點(diǎn)之間的詞串。這里所說的標(biāo)點(diǎn),包括逗號(hào)、句號(hào)、分號(hào)、嘆號(hào)、問號(hào)以及直接引語前的冒號(hào)。頓號(hào)、書名號(hào)、連接號(hào)、間隔號(hào)、著重號(hào)不看作標(biāo)點(diǎn)句的邊界,破折號(hào)和刪節(jié)號(hào)出現(xiàn)較少,所以也不涉及(宋柔,2008)。
在標(biāo)點(diǎn)句中,如果一個(gè)成分或者整個(gè)標(biāo)點(diǎn)句被另一些標(biāo)點(diǎn)句談?wù)摚簿褪乔罢邽楹笳叩脑掝},后者為前者的說明。話題和它的所有說明組成一個(gè)話題結(jié)構(gòu)。(宋柔,2008)例如:
①我們把保增長(zhǎng)與調(diào)結(jié)構(gòu)緊密結(jié)合起來;
②加快解決制約經(jīng)濟(jì)發(fā)展的結(jié)構(gòu)性矛盾。
上句中有兩個(gè)標(biāo)點(diǎn)句,其中標(biāo)點(diǎn)句①具有完整的主謂結(jié)構(gòu),標(biāo)點(diǎn)句②則缺少主語,其主語是標(biāo)點(diǎn)句①中的“我們”。在話題結(jié)構(gòu)中,“我們”被稱為話題,該話題被標(biāo)點(diǎn)句②共享,標(biāo)點(diǎn)句②的內(nèi)容是對(duì)于話題“我們”的說明。
基于以上分析,標(biāo)點(diǎn)句①具備了完整的話題和說明成分,因此是話題自足句,標(biāo)點(diǎn)句②則只有說明部分,并不是一個(gè)完整的話題說明結(jié)構(gòu),但是由于其共享了標(biāo)點(diǎn)句①的話題,因此被稱作是潛在的話題自足句。大量的漢語語料分析顯示,漢語標(biāo)點(diǎn)句中絕大部分都是話題自足句或是潛在的話題自足句,這是以標(biāo)點(diǎn)句為參照構(gòu)建雙語語料庫的基本依據(jù)。
上句對(duì)應(yīng)的英文譯文是:
①We closely integrated sustaining economic growth with economic restructuring,
②and moved more quickly to resolve structural problems limiting economic development.
從英文譯文看,漢語標(biāo)點(diǎn)句①對(duì)應(yīng)英文①,標(biāo)點(diǎn)句②對(duì)應(yīng)英文譯文②,英文譯文②也是缺少了主語,其主語共享了前一句的主語“We”。從結(jié)構(gòu)上看,譯文①是一個(gè)完整的主謂句,譯文②補(bǔ)足主語后,依然是一個(gè)完整的主謂句,且兩個(gè)主謂句內(nèi)部不再嵌套其他主謂句,也就是說兩部分譯文的結(jié)構(gòu)都具有單一性,都可以獨(dú)立成為更大語言單位的組成部分。
綜上所述,漢語標(biāo)點(diǎn)句具備使得漢英能夠?qū)崿F(xiàn)較高質(zhì)量對(duì)齊的基本性質(zhì),即:(1)漢語標(biāo)點(diǎn)句是可操作、高覆蓋的。漢語的句子不易界定,但是標(biāo)點(diǎn)句基本上沒有歧義。(2)每一個(gè)標(biāo)點(diǎn)句本身是(或潛在是)一個(gè)話題自足句,一個(gè)話題句就是一個(gè)成分完整的命題,而命題具有完整的語義內(nèi)容,能夠較好地在雙語之間建立起對(duì)應(yīng)關(guān)系,是較為理想的雙語對(duì)齊單位。
3.基于漢語標(biāo)點(diǎn)句的漢英雙語語料庫創(chuàng)建
語料庫創(chuàng)建包括預(yù)料采集、語料對(duì)齊以及語料標(biāo)注等步驟。
本文自建的語料庫是以語言研究為目的專門語料庫,雖然理論上語料庫的規(guī)模應(yīng)該盡可能大,但是現(xiàn)實(shí)因素限制該語料庫的規(guī)模不可能實(shí)現(xiàn)盡可能大,能夠滿足研究目標(biāo)既可。為使其能充分代表整體并具有平衡性,本文選取近十年《政府工作報(bào)告》及小說《圍城》(部分)為本文研究的語料,語料分為中文及其英語譯文兩部分,共包括16239對(duì)標(biāo)點(diǎn)句對(duì)。
語料對(duì)齊是使語料庫能夠具備語言分析的功能前提。雙語對(duì)齊首先需要選取適合漢英兩種語言的對(duì)齊單位,由于漢語標(biāo)點(diǎn)句本身或者潛在是一個(gè)話題自足句,經(jīng)過標(biāo)注便能與注重形合的英語處于同一語法層面,因此本文選取以漢語標(biāo)點(diǎn)句為雙語對(duì)齊單位進(jìn)行語料庫的構(gòu)建。雙語對(duì)齊分為自動(dòng)對(duì)齊和人工對(duì)齊兩部分。第一步,進(jìn)行機(jī)器對(duì)齊,首先輸入漢英篇章級(jí)對(duì)齊的原始語料,根據(jù)標(biāo)點(diǎn)將漢語切分成標(biāo)點(diǎn)句,為每一個(gè)漢語標(biāo)點(diǎn)句順序?qū)ふ移鋵?duì)應(yīng)的英文譯文,如遇到漢語標(biāo)點(diǎn)句語序與譯文語序不對(duì)應(yīng)的情況,則將漢語標(biāo)點(diǎn)句合并,直到漢英雙方的語序一致為止,最后輸出漢語標(biāo)點(diǎn)句及與之對(duì)應(yīng)的英文譯文。第二步,為了提高對(duì)齊準(zhǔn)確率需在機(jī)器對(duì)齊的基礎(chǔ)上輔以人工校對(duì)。
為使語言特點(diǎn)顯化需要對(duì)語料庫增加文本語言的信息標(biāo)注,包括詞匯、句法、命名實(shí)體、語篇結(jié)構(gòu)等,但具體需要根據(jù)研究目的確定信息的標(biāo)注類型。本文為了能夠更好實(shí)現(xiàn)漢英兩種語言的對(duì)齊,對(duì)語料進(jìn)行信息顯化的標(biāo)注,如:
在上例中,漢語中①、③、④標(biāo)點(diǎn)句都省略了話題“全國各族人民”,為了使每個(gè)標(biāo)點(diǎn)句都變成話題和說明完整的話題自足句,標(biāo)注出其隱藏的語言信息,其對(duì)應(yīng)的英語譯文也是如此,對(duì)①、③、④隱藏的信息“we the Chinese people”添加標(biāo)注。經(jīng)過標(biāo)注的語料庫基本可以實(shí)現(xiàn)中文和英文的一一對(duì)應(yīng),這是以漢語標(biāo)點(diǎn)句為單位構(gòu)建漢英雙語語料庫的優(yōu)點(diǎn),也為進(jìn)一步提高機(jī)器翻譯提供參考。
4.總結(jié)
目前,語料庫成為語言研究的熱點(diǎn)之一,其質(zhì)量也直接影響著語言對(duì)比、翻譯研究甚至自然語言處理的研究效果,而受漢語獨(dú)特性的影響,現(xiàn)存的漢英雙語語料庫存在著一些缺點(diǎn)和不足。本文從漢語本身的特點(diǎn)出發(fā),即每一個(gè)漢語標(biāo)點(diǎn)句都可以是或補(bǔ)充成為話題說明完整的句子,因此以漢語標(biāo)點(diǎn)句為參照構(gòu)建漢英雙語對(duì)齊語料庫,并對(duì)其語言信息進(jìn)行標(biāo)注,可以建立一個(gè)高質(zhì)量的漢英對(duì)齊語料庫,為語言研究及自然語言處理提供更多的語言特征支持。
參考文獻(xiàn)
[1]Brown P F , Lai J C , Mercer R L . Aligning sentences in parallel corpora[C]//Proceedings of the 29th annual meeting on Association for Computational Linguistics, 1991:169-176.
[2]劉冬明.漢英雙語平行語料庫中對(duì)齊方法的研究[D].山西大學(xué),2004.
[3]李維剛,劉挺,張宇,等.基于長(zhǎng)度和位置信息的雙語句子對(duì)齊方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006,38(5):689-692.
[4]牛洪梅.服務(wù)于漢維機(jī)器翻譯系統(tǒng)的雙語句子對(duì)齊的研究[D].新疆大學(xué),2007.
[5]宋柔,葛詩利.面向篇章機(jī)器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學(xué)報(bào),2015,29(05):125-135.
[6]宋柔.現(xiàn)代漢語跨標(biāo)點(diǎn)句句法關(guān)系的性質(zhì)研究[J].世界漢語教學(xué),2008(02):26-44+2.
[7]宋柔.漢語篇章廣義話題結(jié)構(gòu)的流水模型[J].中國語文,2013(06):483-494+575.
[8]宋柔,葛詩利,尚英,盧達(dá)威.面向文本信息處理的漢語句子和小句[J].中文信息學(xué)報(bào),2017,31(02):18-24+35.
[9]尚英,宋柔,盧達(dá)威.廣義話題結(jié)構(gòu)理論視角下話題自足句成句性研究[J].中文信息學(xué)報(bào),2014,28(06):107-113+136.
[10]王斌.漢英雙語語料庫自動(dòng)對(duì)齊研究[D].中國科學(xué)院研究生院(計(jì)算技術(shù)研究所),1999.
(作者單位:青島大學(xué))