凌征華 林澤欣
(江西理工大學 外語外貿學院, 江西 贛州 431000)
語料庫翻譯研究的一個重要領域就是翻譯共性假設及其子假設,這些研究旨在調查翻譯語言的普遍特征。最初提出翻譯共性概念的是英國學者Mona Baker。她將其定義為“翻譯文本而不是源語文本中出現的典型語言特征,這些特征不是特定語言系統干擾的結果”[1]。所謂翻譯共性是指翻譯語言作為一種客觀存在的語言變體,相對于源語言或目標語中原創文本從整體上表現出來的一些規律性語言特征,有時候也特指翻譯語言本身所固有的特征,被稱為“第三語碼”或稱“翻譯腔”[2]。
自Baker(1993)提出基于語料庫的翻譯共性研究以來,圍繞該主題已有不少學者采用單語對應語料庫、雙語平行語料庫的范式進行了大量研究,其中具代表性的有Baker[1][3]、Laviosa[4][5]、vers[6]、Olohan & Baker[7]、Mauranen & Kujamki[8]、柯飛[9]、胡顯耀[10][11]、吳昂[12]、Chen[13]、王克非、肖忠華、戴光榮[14]、胡開寶、肖忠華[15]等,內容大體聚焦在翻譯的四個共性特征,包括簡化、明晰化(顯化)、規范化和均質化等。
Gaspari & Bernardini[16]認為,翻譯共性實際上可能屬于“中介共性"(mediation universal),因為翻譯語言的一些特征也能在非母語文本中找到,兩者都是中介語篇(mediated discourse)。因此,他們提出了系統研究中介語(interlanguage)和翻譯譯文共有特征的思路。也就是說,如果在翻譯和非母語語篇中發現了相類似的語言特征,我們就可以擴展Baker有關翻譯共性的假設,認為翻譯與非母語產出都受語言接觸的影響,因而中介共性(mediation universal)而非翻譯共性更能說明這些特征。為此他們利用意大利語使用者的英語筆語語料建了CONTE(the Corpus of Non-native and Translated English)語料庫,以連接詞therefore為例,對中介共性做了有益的開拓性研究。
考慮到以往的研究主要集中在翻譯共性方面,而Gaspari & Bernardini雖然開始轉向中介共性,但尚未對其作系統的考察,所以本研究自建了CONTEC(Corpus of Non-native and Translated English by Chinese)語料庫,旨在對中介語共性特征進行系統的量化研究,考察漢譯英譯文(TR)與英語母語(NS),非母語英語(NNW)與英語母語(NS),以及漢譯英譯文(TR)與非母語英語(NNW)之間,在新聞和小說兩種語類表現出的共性特征。限于篇幅,本文僅對英譯文(TR)與英語母語(NS)進行比較,以驗證翻譯共性特征中的簡化假設。
本研究原計劃選取fiction,non-fiction,news和academic四種語類創建語料庫,但在創建過程中,由于語料獲取困難,最終建成的CONTECT語料庫由小說和新聞組成,具有“一定的可比性[17]。”CONTEC語料庫的語料均是公開發表、由中國人直接用英文創作(NNW),以及由中國專家從中文翻譯成英文的語料(TR),另外還包括與這兩種語類相對應的英語母語參照語料(NS),總容量近680萬詞(見表1)。語料樣本的出版日期基本上在1991-2001年之間,文本從網上愛問共享資料下載或由紙質出版物掃描,用文字識別軟件ABBYY FineReader轉換成純文本后,用CLAWS4完成詞性標注工作。
表1 CONTEC語料庫選材結構

對于翻譯共性特征的檢驗,以往的研究所采用的測量指標大多只限于平均詞長、平均句長、高頻詞、罕用詞、詞匯密度,以及標準類符/形符比(STTR)等。后來也有其他學者對測量指標進行了補充,比如Williams、胡顯耀[18]利用可讀性(Readability Analysis)進行簡化和均值化的檢驗。本研究試圖在以往研究成果的基礎上,不僅對詞匯層面進行考察,而且利用Lu[19]的語言復雜性指標來檢驗翻譯共性的句法特征。
詞匯密度的常用測量方式有兩種。一種是Stubbs[20]定義的實義詞數量與總詞數之比,用以衡量語篇的信息量。另一種就是語料庫語言學中常用的類符/詞次比(TTR),即所有類符與所有形符數量之比。由于TTR很容易受到文本長度的影響,所以Scott(2004)提出標準化后的類符與形符比,即標準類符/形符比(STTR),用以更加合理地比較不同長度文本中的詞匯差異度。
1.小說語類漢譯英譯文(TR-F)與英文母語的詞匯密度比較
我們首先采用Stubbs的辦法來計算漢譯英譯文(TR)與英語母語語料庫(NS)的詞匯密度。結果顯示漢譯英譯文小說部分(TR-F)的平均詞匯密度(57.27%)略高于英語母語語料庫中的小說部分(NS-F)的平均詞匯密度(55.80%),其均差(-1.47)具備統計上的顯著性(t=-3.996,df=31.987,p≈0.000)。結果雖然與Laviosa[5]和肖忠華[15]關于英譯漢譯文詞匯密度的結論不一致,即譯文的詞匯密度略高于母語的詞匯密度,卻印證了胡顯耀的研究結果“英語文學翻譯語料的詞匯密度還略高于英語文學原創(44.86%〉42.42%)”[18]。本研究呈現的數據表明兩點:一是“從英語的角度而言,來自漢語文學的英語翻譯語料在詞類分布上趨向于漢語(即實詞多虛詞少)”的特征(ibid:62)。其二是由于源語和目標語之間的跨語言差異,不同翻譯方向(即英譯漢與漢譯英)會對譯文的語言特征產生影響。測量詞匯密度的另一種常用方法則是標準類符/形符比。該測量方法主要反映詞匯的豐富性和差異度。本研究統計發現TR-F的詞匯密度(59.43%)也略高于NS-F的詞匯密度(58.74%),但其均差(-0.68158)不具備統計上的顯著性(t=-1.277,df=23.673,p=0.214)。結果也與胡顯耀[18]的研究結果相似,而與Laviosa[5]和肖忠華[15]關于譯文標準類符/形符比的結論也略微相異,即譯文的標準類符/形符比略高于母語的詞匯密度,雖然結果不具備統計上的顯著性。
2.新聞語類(TR-N)漢譯英譯文與英文母語的詞匯密度比較
我們同樣先用Stubbs的方法計算新聞語類漢譯英與母語英文的詞匯密度。結果顯示漢譯英譯文的新聞語類(TR-N)詞匯密度(62.86%)略高于新聞語類母語英文(NS-N)的詞匯密度(61.92%)。其均差(-0.95)不具備統計上的顯著性(t=-2.095,df=10.741,p≈0.059)。
采用標準類符/形符比的方法來測量詞匯密度,結果卻恰好相反。新聞語類漢譯英譯文(TR-N)的平均標準類符/形符比(52.19%)明顯低于母語英文(NS-N)的平均標準類符/形符比(59.73%),其均差(7.54)具有統計上的顯著性(t=17.163,df=10.522,p〈0.001)。與母語英文比較,新聞語類漢譯英用詞相對貧乏,可能是由于語料庫失衡所致。
Laviosa[5]把高頻詞定義為一個詞項出現頻率至少占庫容0.10%以上的詞。在其研究的詞表中,有108個詞項屬于高頻詞,其中大部分屬于功能詞。我們在本研究中,也規定高頻詞所占比例最少為0.10%。

表2 英語母語(NS)和漢譯英(TR)中的頻率統計
表2總結的是英語母語和漢譯英譯文兩個子庫的頻率參數??梢钥闯?,就小說語類來說,兩個子庫的高頻詞數量差不多(124∶133),而新聞語類兩個子庫的高頻詞數量則存在一定的差距(93∶131)。高頻詞占英語母語小說語類(NS-F)的比例與漢譯英小說語類(TR-F)相差不多(55.31%∶54.37%),但高頻詞占英語母語新聞語類(NS-N)的比例明顯低于漢譯英譯文新聞語類(TR-N)(43.92%∶53.95%),這與高頻詞重復率也相吻合。從表2中還可以看出,英語母語新聞語類(NS-N)的高頻詞重復率(11 183.62)遠高于其他子庫,很有可能是因為新聞類翻譯子庫(TR-N)所占總庫的比例(1.78%)明顯低于英語母語(NS-N)(37.75%)造成的,因為高頻詞重復率是基于類符(type),而不是基于形符(token)計算的。
接下來分析高頻詞與罕用詞在兩個語料庫的分布。圖1給出了頻數占所在語料庫詞次(token)總數大于0.5%、0.1%、0.07%、0.05%、0.03%、0.02%和0.01%的高頻詞的數目。圖中可以看到,不論是小說語類還是新聞語類,漢譯英譯文語料子庫中的高頻詞,普遍都比英語母語的都更常用。也就是說,就詞型(type)而言,漢譯英譯文中的高頻詞數量多于英語母語。

圖1 NS與TR子庫中的高頻詞
關鍵詞分析是語料庫語言學中的重要分析手段,本研究中提取漢譯英語料子庫(TR)中的關鍵詞時采用的參照語料庫為對應的英語母語語料子庫(NS),因為這樣提取出來的關鍵詞針對性特別強[15]。這一節考察漢譯英語料子庫中的關鍵詞,包括(正)關鍵詞(即在TR中頻率顯著高于NS中頻率的詞)和負關鍵詞(即在TR中頻率顯著低于NS中頻率的詞)。
1.漢譯英譯文小說語類(TR-F)的關鍵詞分析
TR-F中最顯著的100個關鍵詞中,數量最多的是多次復現的名詞,尤其是在小說故事中具有中國特色的人名、地名(共計65個,如“Tianbao,Liu,mountain,village,Beijing等),其次是縮略形式(共計26個,如don't,didn't,it's,I'm,I'll,there's等),還有極少量的形容詞、副詞和動詞等。這些詞都是表達實際意義的實義詞,它們出現在譯文語料庫的關鍵詞表上可以說是出于表達內容的需要。[15]
研究關注的焦點不在比較英語母語與譯文的內容,而在翻譯體英語的語言形式本身。因此,比上述關鍵詞更有意義的是表3中所列的功能詞。表中可以看出,漢譯英譯文與英語母語相比較多使用代詞(特別是代詞與動詞的縮略形式)、連詞和連接性的副詞,這些詞都是語篇中起銜接作用、比較口語化的詞。

表3 漢譯英子庫TR-F關鍵詞
另一方面,漢譯英譯文語料子庫中的負關鍵詞絕大多數是與內容有關的名詞,如西方人名Thomas,Frank,Brown或與西方習俗有關的其他名詞,如London,lady,Lord,bar等。但從漢譯英譯文TR-F子庫的負關鍵詞中也發現一些有趣的現象,意義模糊、寬泛的副詞、名詞等,語氣較為婉轉的情態詞用得較少,如might,maybe,going,toward,almost,stuff。
關鍵詞類分析與關鍵詞分析相似,只不過是基于詞類信息而不是具體的詞。換句話說,計算關鍵詞類用的是詞類的頻率而非詞頻。[15]表4按統計顯著性高低順序列出了漢譯英譯文子庫TR-F中相對于英語母語子庫NS-F的關鍵詞類和負關鍵詞類。表中可以看出,動詞過去分詞(VVN)、普通名詞(NN)、不定式(VVI)、普通副詞(RR)均是高頻率詞類,反映出小說文體特征,描述故事發生的行為和情景。另外,小說對話中“表示程度的副詞(RG)用得很多,目的在于使話說得準確,或加重語氣,或緩和語氣”[21]。在關鍵詞類排第一的是量詞(NNU),則反映出了漢語的遷移影響,因為漢語量詞豐富,英語中沒有量詞,數詞可以直接和可數名詞連用。

表4 漢譯英語料庫TR-F中的關鍵詞類
2.漢譯英新聞語類(TR-N)的關鍵詞分析

表5 漢譯英子庫TR-N關鍵詞
在漢譯英新聞語類子庫(TR-N)中最顯著的100個關鍵詞中,數量最大的還是譯文語料子庫中提及的名詞(57個,如China,Shanghai,economy,science,Xinhua等),其次是形容詞(9個),動詞(7個),副詞(4個)??傮w上關鍵詞中的功能詞用得較少,集中在限定詞this、such、連詞and和介詞of等。
一般來說,負關鍵詞絕大多數是與內容有關的名詞,TR-N中的負關鍵詞顯示的是另一種情況,僅有少量反映當時西方事件的名詞,如Serb,Palestinian,spokesman,war等。通過其他負關鍵詞,尤其功能詞中,可以一些新聞翻譯語言的偏向:第一,TR-N中可能出現少用含有“交互性/信息性"的詞:諸如第一、二人稱代詞,如we,you等;否定形式not,n't等;其次,TR-N可能少用轉折并列連詞but,與Milton[22]研究相似;TR-N還少用從屬連接詞,如when,after,where,if,before,until等;第三,TR-N中可能出現少用一些介詞,如on,against,about等)?!敖换バ浴笔墙沂究诠P語之間差別的重要維度,新聞語類子庫少用口語詞匯,體現出當時新聞語體的特點,比較正式,少有“采訪式”原始記錄或本語料只是摘譯,而少用從屬連詞則反映出結構簡化的趨勢。
再來看一下關鍵詞類分析。表6是按統計顯著性高低順序列出了TR-N中相對于NS-N的關鍵詞類和負關鍵詞類。漢譯英新聞語類中,常用詞類除了JJ(普通形容詞)和RR(普通副詞)外,最常用關鍵詞類是IO(of介詞)和CC(并列連詞),反映出漢語對英語的遷移或原語滲透效應,因為“漢語常用短句、散句,通常沒有主干和枝杈之分,可以幾個小句平行鋪排。”“漢語要表達較復雜意義時,……按動作發生的時間順序和事理的邏輯順序,逐步交代,層層鋪開,一一道來,呈線性遞進,在句子結構上不具有層次感,呈平面性”[23]?!笆軡h語流水句的影響,中國學生使用英語造句時,往往習慣于寫出簡單句,然后用逗號或用連詞‘and’將其連接起來,并按線性順序將其排列”。[21]這種現象也能在后文句法復雜性分析中得到印證,即漢譯英譯文的并列結構數多于英語母語。在負關鍵詞類中,漢譯英子庫新聞語類TR-N呈現的少用詞類是動詞的過去形式,包括VVD(動詞過去時)、VBDZ(系動詞過去式was)、VHD(動詞過去時had)、VBDR(系動詞過去式were),反映漢譯英中不喜歡使用過去形式報道新聞故事。這種情況很有可能是因為,漢語不存在過去式的曲折形態變化,中國譯者在翻譯的過程中受到原文的影響。另一少用詞類是PPY(第二人稱的人稱代詞)和XX(否定詞not,n't),這與以上關鍵詞分析是一致的,即這些詞體現了“交互性",具有強烈的口語特點,在新聞語體少用實屬正常。本研究新聞語體中少用轉折并列連詞but現象與Milton對香港學生的觀察相吻合。
對句法特征的考察,以往大多數的研究(Laviosa[5]、王克非和秦洪武[22]、McLaughlin、胡開寶)都局限于翻譯文本的平均句長、平均句段長、結構容量、簡單句和復合句的使用頻率等,或者某些典型句子結構的使用頻數。因漢英行文差異,句子的長度不一定說明句子的難度。僅靠平均句長指標并不能有效驗證翻譯共性假設,其結論也會缺乏生態效度,因此需要更為復雜的綜合指標。
自從Hunt(1965)提出T單位概念,并用于評估兒童的語言表現以來,有很多學者對句法復雜度的考察提出了一系列較為有效的測量手段(O'Donnell,et al[24]、Larsen-Freeman[25]、Wolfe-Quintero,et al[26]、Ortega[27]、Lu[19]、鮑貴[20])。比如Lu[19]設計了一項第二語言句法復雜性分析軟件(L2 Syntactic Complexity Analyzer),建構了5類14項句法復雜度測量指標,利用WECCL語料庫數據,對中國英語學習者的句法特征進行了考察,結果顯示了非常高的信度。[19]
第一種類型主要測量子句(MLC)、句子(MLS)和T單位(MLT)的平均長度;第二種類型主要包括句子的復雜比率(C/S);第三種類型主要包括反映從屬性的四種比率:T單位復雜性比率(C/T)、復雜T單位比率(CT/T)、從屬句比率(DC/C)和每T單位的從句數(DC/T);第四種類型主要是測量并列成分的三種比率,它們是:每個子句的并列詞組數(CP/C)、每個T單位的并列詞組數(CP/T)和每個句子的T單位數(T/S);最后一種類型包括三種比率,反映句法結構域更大單位關系的幾種比率:每個子句包含的復雜名詞詞組數(CN/C)、每個T單位包含的復雜名詞詞組數(CN/T)和每個T單位包含的動詞詞組數(VP/T)[19]。本文試圖利用Lu的14種測量指標對漢譯英譯文語料子庫TR和英語母語NS進行比較,考察它們的句法特征。
句法復雜性主要包括單位長度(unit length)和子句密度(clausal density)兩個變量。單位長度最常用的2個測量指標是T單位長度(T-unit length)和子句長度(clausal length);子句密度即句法從屬性,最常用的2個測量指標是T單位復雜性比率(T-unit complexity ratio)和從屬句比率T(dependent clause ratio)。[28]這種分類與Lu[19]的十四種類型分類大同小異,但有助于理解Lu的復雜性指標。
1.漢譯英小說語類的句法復雜度

表7 小說語類漢譯英譯文本與英語母語T檢驗
首先我們采用Lu[19]的方法和他為本研究計算的數據,分析小說語類漢譯英譯文的句法復雜性程度。表7顯示,從第一、二種類型來看,漢譯英譯文的子句(MLC)、句子(MLS)和T單位(MLT)的平均長度以及句子的復雜度(C/S)均顯著高于英語母語相應長度。而從屬句和并列句[第三(C/T、 CT/T、DC/C、DC/T)、四種(CP/C、CP/T、T/S)類型]的比率在漢譯英譯文和英語母語兩個子庫中總體上不存在顯著差別,這與對數似然檢驗值相吻合(LL=-0.015,P=0.902)。從最后一種類型來看,漢譯英譯文的T單位里所包含的復雜名詞詞組和動詞詞組頻數(CN/T、VP/T)高于英語母語?;谝陨蠑祿?,屬于表層的漢譯英譯文中的單位平均長度和從句數(C/S)均高于英語母語,不支持簡化假設。漢譯英譯文里T單位里所包含的復雜名詞詞組頻數高于英語母語顯示出規范化的趨勢,因為目標語英語傾向多使用名詞;而漢譯英譯文里T單位里所包含的復雜動詞詞組高于英語母語則反映了原語干擾或滲透效應。
(1)漢譯英新聞語類的句法復雜度

表8 新聞語類漢譯英譯文本與英語母語T檢驗
接下來討論新聞語類的句法復雜度的各項測量指標。從表8中可以看出,漢譯英譯文的第一類型各項指標的平均長度(MLC,MLS,MLT)均顯著高于英語母語的長度。但漢譯英譯文句子的復雜度(C/S)(第二類型指標)卻低于英語母語。第三類的各項指標(C/T、CT/T、DC/C、DC/T)主要反映從屬句比率,如表8所示,漢譯英譯文從屬性均顯著低于英語母語。但第四類各項指標(CP/C、CP/T、T/S)卻顯示,漢譯英譯文使用并列成分的頻率明顯高于英語母語。類型5顯示:漢譯英譯文中的T單位名詞性詞組和動詞性詞組均高于英語母語。綜合這些句子的各項句法復雜性指標可以看到,就句子長度而言,漢譯英譯文的各項指標高于英語母語;而從句子的深度來看,漢譯英譯文的各項指標低于英語母語。這說明翻譯共性的簡化假設不是那么單純[15],語言使用不精細化也是簡化的表現。
本文利用自建語料庫對比分析了漢譯英譯文和英語母語兩個對應子庫所涉及到的詞匯、語法等各種語言特征。通過對漢譯英譯文和英語母語的比較,發現雖然不同語類之間存在一定的差異性,漢譯英譯文的詞匯密度高于英語母語,似乎不支持簡化假設,而更可能受源語的影響,因為漢語是“實詞多,虛詞少"[18]。由于源語和目標語之間的跨語言差異,不同翻譯方向會對譯文的語言特征產生影響。詞匯的差異度可以用標準類符/形符比來衡量,漢譯英譯文和英語母語兩個子庫的數據說明,漢譯英譯文的詞匯差異低于英語母語,尤其是新聞語體。這就說明原創英語可能比漢譯英譯文更加多樣化。
關鍵詞分析說明,漢譯英譯文與英語母語相比更多使用代詞、動詞的縮略形式、連詞and、介詞of等。這說明與英語母語相比,漢譯英譯文同等數量的文本傳遞更少的信息量,是簡化的表現,也使語法結構更加明晰化,特別是人稱代詞和指示代詞,因為它們具有銜接上下文的語篇結構。[15]
負關鍵詞分析顯示,小說類漢譯英譯文少用模糊限制語(hedges)等,如maybe、almost、might。說明,與英語母語在表達語用穩妥方面,漢譯英譯者的譯文語氣需更加細膩。新聞類漢譯英譯文則少用表示從屬性連接詞,如when、after、where、if、before、until等。
這些均說明翻譯共性的簡化假設不是那么單純[15],語言使用不精細化也是簡化的表現。
在關鍵詞類分析中,小說語體的介詞of 和并列連詞(CC)的超用很有可能反映了漢譯英譯文的特色,這也能在句法復雜性分析中得到印證,即漢譯英譯文的并列結構數多于英語母語。新聞類的度量單位詞(NNU),基數詞(MC)等在漢譯英子庫中的超用,則顯示原語的干擾或原語滲透效應,因為量詞作為漢語的特殊結構在英語中不存在,所以自然會表現在漢譯英中。
句法層面的數據表明,在表層結構上,漢譯英譯文的句子或子句平均長度,并列句使用頻率均高于英語母語,似乎不支持簡化假設。但在能反映從屬性等的深層次結構上,漢譯英譯文句子的復雜程度卻低于英語母語,卻又呈現出簡化趨勢。這進一步說明,翻譯共性的簡化假設不是那么單純,語言使用的復雜性應從多個層面考察。