陳建生 趙佳美
(天津科技大學 外國語學院,天津 300222)
詞匯發展和詞塊運用是衡量學習者寫作質量的重要因素(楊瀅瀅,2014:65)。而在傳統的語言觀下,中國學習者把詞匯僅僅看作獨立的單詞,受語法規則支配而使用。如果習得詞匯只停留在音、形、意上,在真實的語境中就很難正確使用(沈葆春、呂娜, 2016;文旭、匡芳濤,2016)。英語自然話語中的70%是由語義形式比較固定的程式語構成的,因此程式語結構在自然語言交流中占很高的比例(Altenberg & Granger,2001),是否掌握本族語者常用的詞塊就直接關系到學習者語言的準確性和地道性(濮建忠,2003:444)。如果二語或外語學習者能夠掌握大量英語短語和多詞序列,那么學習效率就會隨之提高,從而語言表達更為地道(Nattinger & DeCarrico,1992;Lewis,1997等)。由此可見,詞塊數量的積累和詞塊的運用對學習者語言能力的提升作用不言而喻。程式語不僅可以有效克服母語的負遷移,還可以減少語用誤差,提高語言輸出質量,因此,多詞和詞束將成為二語詞匯習得的趨勢(沈葆春、呂娜, 2016:58)。本研究采用語料庫語言學方法,通過對英語專業學習者作文與英語本族語大學生作文進行對比,將量化的數據與中介語理論結合,探析英語專業學習者作文中非毗鄰式詞塊的使用特征,為研究學習者如何進行文本組織和運用詞塊提供了一個新的視角。
詞塊是短語的主要變體之一,是學習者短語能力的重要衡量依據和顯性載體(黃開勝、周新平,2016:27)。恰當運用詞塊有助于提高交際的流利性和選詞的地道性,因此探討二語學習者如何習得、處理、運用詞塊尤為必要(丁言仁、戚炎,2005:49)。基于Wray(2002)對詞塊的定義,詞塊可以是連續的(continuous),也可以是非連續的(discontinuous)。
目前,國外研究者已嘗試對非連續的詞塊進行研究,但數量不多。Renouf和Sinclair(1991)認為英語中的詞塊可以是非連續的,即高頻功能詞與變化的實義詞詞位(slot)共現(例如the+?+of+the;be+?+to)。Biber(2009:294-295)指出,詞塊的內部結構分為連續的固定序列(continuous fixed sequence)和內部有變化詞位的框架(frames with internal variable slots)。連續的固定序列是指四個詞位或者連續三詞或者連續兩詞固定的詞塊(即1234、123*/*234、12**/**34、*23*);內部有變化詞位的框架有三種類型:(1)第一和第四詞位固定、第二詞位或第三詞位不固定的詞塊(即12*4/1*34);(2)第一和第三詞位或第二和第四詞位固定,其他詞位變化的詞塊(即1*3*/*2*4);(3)只有一詞詞位固定的詞塊(即1***/***4、*2**、**3*)。Biber(2009:299)以語料庫驅動的方法研究對話語篇與學術語篇兩個語域中不同的多詞模式,發現對話語篇中傾向于使用連續的固定序列,*234或123*兩個模式占大多數;學術文本中的大多數多詞模式則為內部有變化詞位的框架,大多數為1*34或12*4兩個模式。del和R?mer(2012:3-34)將在同一位置擁有多種詞匯變化形式的三元或三元以上序列短語(phrase frames,簡稱p-frame)定義為非毗鄰式詞塊,他們基于密歇根州高水平學生論文語料庫(MICUSP)研究了不同學習階段高水平學習者學術論文寫作中非毗鄰式詞塊(p-frame)的共性和差異性,發現高水平學習者之間使用詞塊的頻率和選擇上表現出一致性,只是研二和研三學生比大四和研一學生在緊鄰詞塊的右側詞選擇上更加傾向使用多樣化詞匯。王麗(2014:61-66)采用語料庫頻數驅動方法,考察了中國學習者學位論文引言中非毗鄰式詞塊的頻數、結構以及變體的使用特征,發現碩博論文呈現的共性大于差異性,與國際學者有一定差距,揭示了中國學習者在詞塊習得過程中存在石化現象。綜上所述,國內對非毗鄰式詞塊的研究仍比較少。非毗鄰式詞塊凸顯出了詞串(string of words)中的相對固定和相對靈活的部分,是對毗鄰式詞塊的總結概括,同時非毗鄰式詞塊很大程度上消除了與話題過于相關的毗鄰式詞塊,因此更加凸顯出了組織話語的結構模式,讓研究者更加了解學習者如何組織文本,對學習者提高文本的整體組織以及使其運用地道的表達有著重要的作用(del & R?mer,2012:24)。
本研究采用語料庫語言學方法,通過對英語專業學習者作文與英語本族語大學生作文進行對比,利用定量與定性分析相結合的研究方法,探析英語專業學習者作文中的非毗鄰式詞塊在類符和形符數上,以及詞塊變化詞位類符的選擇及使用上,是否與本族語者作文有顯著差異?如果有,造成差異的原因是什么?
本研究使用四個語料庫:英語專業四級作文庫(簡稱TEM-4)、專業八級作文庫(簡稱TEM-8)、英美大學生議論文庫(簡稱NC)和英美社論庫(簡稱EDI)。語料庫文本容量如表1所示。

表1 本研究使用的四個語料庫情況
本研究使用kfNgram(Fletcher, 2007)對四元(N=4)、出現頻次≥2的非毗鄰式詞塊進行提取。基于del和R?mer(2012:17)對非毗鄰式詞塊的定義,本研究剔除了*234式(即變化詞位出現于詞塊開始處)和123*式(即變化詞位出現于詞塊結尾處)詞塊,只統計符合定義的1*34式詞塊和12*4式詞塊(如the * of the和with the * of)的數據。基于檢索出的頻次,用對數似然比(Log-likelihood Ratio)檢驗統計結果來判定四組語料中非毗鄰式詞塊的類符和形符數是否具有顯著性差異。然后將四個語料庫中含有實詞的非毗鄰式詞塊剔除,統計四組語料僅含有虛詞的非毗鄰式詞塊的類符數和形符數是否具有顯著差異。最后再提取剩余詞塊前30%高頻詞塊,對學習者非毗鄰式詞塊的使用特征做對比分析研究。
本研究主要使用前三組語料庫進行對比分析,即TEM-4、TEM-8及NC。但由于英美大學生對本族語的掌握水平與報紙職業編輯的語言水平之間還有一定的差距,因此為了使研究結果更加可靠,本研究還將英美社論庫作為參照庫,必要時用以對比分析。
將三組語料中的四元非毗鄰式詞塊進行對比,無論從詞塊類符數上看還是從詞塊形符數上看,都表現出英語專業四級作文中使用的詞塊最多,英語專業八級作文次之,英美大學生作文中使用最少的趨勢。

表2 三組語料中詞塊類符數對比統計表

表3 三組語料中詞塊形符數對比統計表
對三組語料詞塊的類符數分別做算對數似然比檢驗,結果表明,三組語料在非毗鄰式詞塊使用上均存在組間顯著性差異,即TEM-4比NC庫中顯著多用非毗鄰式詞塊(LL=3,476.54,p<.001),TEM-8比NC庫中顯著多用非毗鄰式詞塊(LL=422.62,p<.001),同時TEM-4又比TEM-8庫中顯著多用非毗鄰式詞塊(LL=1382.56,p<.001),TEM-8與NC的差異低于TEM-4與NC的差異(LL=422.62<3,476.54)。由此可見,英語專業大四學生在四元非毗鄰式詞塊的使用數量上明顯減少,但是與本族語大學生相比,仍然存在顯著性差異。國外有研究(Reppen,2009;Paquot,2013:392)發現,與本族語者相比,在寫作過程中學習者傾向于使用更多的詞塊進行表達,并且隨著二語熟練度的增加,重復出現的詞語組合會呈現減少的趨勢。王麗(2014:63)認為學習者使用的詞塊比本族語者多可能是因為學習者習得不充分,需要依賴大量的詞塊來進行文本組織和話語表述。例如在進行篇章組織時,學習者多使用詞塊in the * place。該詞塊在TEM-4和TEM-8庫中出現的標準頻數分別為4.78/萬詞、3.43/萬詞,NC庫中出現的標準頻數為0.33/萬詞,而在本族語水平更高的參照庫EDI中則沒有出現。從標準頻數可以反映出學習者在該詞塊的使用上呈遞減趨勢,表明隨著學習者水平的提高,高年級學習者所運用的表達方式增多,不僅僅依賴于某一部分詞塊,但學習者與本族語者相比,更傾向借助詞塊來進行文本組織。TEM-4和TEM-8庫中該詞塊變化詞位上的類符有3個,分別為first、second、third;NC庫中有2個,分別為work、first。從類符來看,仍與本族語者存在差距。NC庫中詞塊in the first place僅出現3例,這可以看出中國英語學習者比本族語者更傾向于使用in the * place變化詞位為序數詞的詞塊來進行篇章組織。下面分別是中國英語學習者和本族語者使用該詞塊的例子:
例1. There are a lot of factors could account for this.In the first place, if the Festival is organized in this way, ...In the second place, for the large number of us, …In the third place, organizing a University Arts Festival in this way can ...(TEM-4)
例2.In the first place, ambition is the lighthouse in the sea, ...In the second place, ambition will force and compel people to go all out to realize their goal ...In the third place, it is ambition that cultivate the spirit advantage of people during the way to succeed ...(TEM-8)
例3. However it is equally clear that ..., the Communities were intended as purely economic entitiesin the first place.(NC)
例4. These people have shown the modern world what womenin the work placecan do.(NC)
通過以上例子可以看出,學習者在使用詞塊in the * place時與本族語者不同。例如學習者使用in the * place時變化詞位多為序數詞,而本族語者使用該詞塊時變化詞位多為實詞work(NC庫中共出現5次)和序數詞first(NC庫中共出現3次)。學習者將in the first place多用于句首,并用來列舉,即“第一”,起到文本組織的作用,而本族語者不常用in the first place進行列舉,而是主要用于句末,表示最重要的點或原因,或者引出事件起始的情況。但是否是由于語料庫總量太小沒有出現類似于學習者用法的例子呢?通過在COCA(Corpus of Contemporary American English)中進一步的驗證性檢索,詞塊in the first place出現的頻數為8,994,in the second place為116,in the third place為17。通過分析,后兩者在COCA中的例句全部用于句首進行文本組織,而詞塊in the first place絕大多數不用在句首,而是用在句末,在COCA學術類篇章分類的前100例中只有2例用于句首。由此可見,學習者在in the * place詞塊且變化詞位為序數詞的使用方面不僅在數量上多于本族語者,而且用法并不地道。
綜上所述,與本族語者相比,學習者更依賴大量詞塊進行文本組織和話語表述,但國內不少研究者發現水平較高的學習者往往能夠借用更多的詞塊(刁琳琳,2004:37;丁言仁、戚炎,2005:52;黃開勝、周新平,2016:30),出現結果不一致的情況可能是由于研究對象或詞塊界定的標準不同所導致的,例如其他研究者的研究對象可能是英語專業本科一至四年級的學生或者僅為英語專業四年級學生;在詞塊的界定上,大多數研究將詞塊界定為連續的n詞序列(contiguous sequences of n words),即毗鄰式詞塊(簡稱n-gram)(del & R?mer,2012:17),這與本研究的研究對象以及本研究對詞塊的界定均不同,因此研究結果不一致。
對僅含有虛詞的四元非毗鄰式詞塊進行與3.1中相同的統計,如下兩個表所示:

表4 三組語料中僅含虛詞的詞塊類符數對比統計表
與包含實詞和虛詞的詞塊相比,三組語料中只包含虛詞的四元非毗鄰式詞塊在類符數上呈現出相同的趨勢,即遞減的趨勢,而形符數并沒有呈現出一定的趨勢。
對三組語料詞塊的類符數分別計算對數似然比,統計分析顯示,TEM-4比NC顯著多用非毗鄰式詞塊(LL=14.89, p<0.001),TEM-8與NC之間不存在顯著性差異(LL=0.40, p>0.05),TEM-4比TEM-8顯著多用非毗鄰式詞塊(LL=9.30,p<0.01),因此總體上看僅TEM-4與NC之間存在顯著性差異。
為了進一步探析學習者與本族語者在四元非毗鄰式詞塊使用上的差異,本研究將三組語料僅含有虛詞的詞塊中的前30%高頻詞塊提取出來做進一步分析研究。發現三組語料共用其中12個詞塊,但排列順序有所差異,分別是the * of the,with the * of,in the * of,in the * and,of the * and,the * and the,in * of the,at the * of ,to * with the,to the * that,as * as the,as a * of。其中在6個詞塊(the * of the,with the * of,in the * of,the * and the,at the * of,as a * of)的使用上與本族語者存在顯著差異,p值均小于0.05。為了使數據分析更加可靠,本研究將參照庫EDI中的相關詞塊頻數加入統計,具體的頻數差異如下表所示:

表6 四組語料共用詞塊中學習者與本族語者存在顯著差異的6個詞塊頻數差異值
注:* 代表 p<.05, ** 代表p<.01, *** 代表p<.001
從表中可以看出,與更高水平的本族語者相比,英語專業大四學生在4個詞塊(with the * of,in the * of,at the * of,as a *of)的使用上與本族語者的差異低于英語專業大二學生與本族語者的差異,而在剩余2個詞塊(the * of the,the * and the)的使用上,英語專業大四學生與本族語者的差異高于英語專業大二學生與本族語者的差異。總體上看,隨著學習者二語熟練程度的提高,其運用詞塊的能力也有所提高,但高水平學習者與本族語者的差異高于低水平學習者與本族語者的差異這樣的現象是否是因為學習者習得不充分?本研究將分別對學習者和本族語者在這2個詞塊的使用情況進行具體分析。
4.2.1 學習者與本族語者關于詞塊the * and the的使用特征
詞塊the * and the三組語料中的標準頻數分別為0.81/萬詞、4.16/萬詞、0.49/萬詞,且已得出英語專業大四學生與本族語者具有顯著差異。從頻數來看,TEM-8中顯著超用該詞塊。這可能與該庫中的作文主題有關,2005年八級考試作文的要求是:Interview is frequently used by employers as a means to recruit prospective employees. As a result, there have been many arguments for or against the interview as a selection procedure. What is your opinion? 而該詞塊變化詞位上的所有類符中與面試相關的類符有7個(employers,employer,company,interviewer,employees,interview,employee),頻數高達61次。這篇考試作文要求學生對面試這種篩選雇員方法的優缺點發表意見,因此作文中必定會高頻出現“雇主和雇員”這樣的表達方法,如the employer(s) and employee(s),導致TEM-8庫中the * and the詞塊高頻出現(如圖1所示)。統計結果表明,在80次the * and the中,the employers and the ... employees就出現了13次。

圖1 八級作文中詞塊the * and the部分實例
此外,與本族語社論撰寫者對比,英語專業大四學生超用該詞塊是因為定冠詞the使用不當。EDI庫中該詞塊變化詞位出現的類符有7個,即poor,economy,government,Kurds,Taliban,union和US。觀察這些類符可以發現除poor外都是專有名詞,the poor指一類人。但是,TEM-8庫中該詞塊的類符如employers,employees前無需添加定冠詞the,且學習者亦可以使用both ... and ... 等表達方式連接這兩個復數名詞,如果這樣,詞塊the * and the在TEM-8庫就不會被超用。因此學習者對定冠詞the的使用的概念比較模糊,這可能與名詞的復雜性有關,學習者分不清泛指名詞和特指名詞,再加上過度推廣冠詞的使用規則,出現了冠詞冗余的現象(李景泉、蔡金亭,2001:61)。
4.2.2 學習者與本族語者關于詞塊the * of the的使用特征
表6中各組間對數似然比顯示,在詞塊the * of the的使用上,NC庫與EDI庫間具有顯著差異,可見英美大學生對該詞塊的使用并不準確,因此需要借助EDI庫中的該詞塊的使用情況進行分析。詞塊the * of the在四組語料中的標準頻數分別為7.35/萬詞、4.11/萬詞、15.31/萬詞、11.40/萬詞,且由表6可得出高水平學習者(TEM-4庫)與本族語者(NC)的差異高于低水平學習者(TEM-4庫)與本族語者(NC)的差異。這從某種程度上說明學習者的文體意識并沒有隨著語言水平的提高而提高,即學習者對文體認識模糊。Halliday(2000)指出,英語書面語與口語的主要區別之一就是在口語中作者要表達的意思總是用一個個小句松散地排列,小句與小句之間以各種不同的方式組合在一起;而在書面語中,原口語中用小句來表達的意思可以并入一個名詞詞組中,使原口語中小句的數目減少。因此,在文體較為正式的文本(如議論文或科技文章等)中,名詞(包括名詞化的動詞)的使用數量要高于動詞的數量。這說明了學習者在寫作時具有口語化傾向。四級作文中該詞塊變化詞位最常用的3個類符為development,purpose,end;八級作文中為development,personality,advantages;英美大學生作文中為invention,end,rest;英美社論中為end,rest,heart。the development of the在四、八級作文中出現最多,四級作文中出現35次,其中29個該詞塊的左一位詞為with和as,八級作文中該詞塊出現16次,其中10個該詞塊的左一位詞為with和as。這里學習者顯然欲表達“隨著……的發展”,應用with,而有的誤用為as。再觀察該詞塊的右一位詞,四級作文中有science (and technology),society,technology,art,country,economy,八級作文中有society,economy (and society),company,service (industry),market (economy),times,selection (procedure)。可以看出八級作文中在詞塊右一位詞的選擇上比四級作文更具多樣性,但學習者在the development of the詞塊使用上與本族語者存在顯著差異,本族語者作文和社論中the development of the各出現一例,因此學習者表現出過度使用該詞塊。該詞塊左一位詞大多為with可能是受漢語的影響。筆者使用總字數為167,722的漢語社論語料庫做進一步驗證,發現“隨著”在其中共出現20次,而且全部都出現在段落或句子的開始,證明學習者過度使用詞塊with the * of且常把該詞塊置于句首是受到了母語的影響。其次,中國許多新聞報道中常用“隨著科學技術的發展”“隨著社會的發展”“隨著經濟的發展”,學習者在寫作時常常會對照著翻譯成英文,用在自己的作文中,因此母語負遷移可能是造成此類詞塊超用的原因。這恰好也解釋了TEM-4和TEM-8庫中詞塊with the * of中變化詞位最常用的類符是development。四級作文中該類符占該詞塊形符數的69.03%,八級作文中占57.14%,而英美大學生作文和英美社論中該詞塊的變化詞位上沒有出現這個類符。在本族語者所寫的文章中,該詞塊左側詞大多為動詞,與with構成搭配,例如社論中61.82%是這樣的用法,而在TEM-4和TEM-8中大多用在句子或段落開頭,尤其在TEM-4中表現顯著。從系統功能語言學的角度來看,學習者主要用詞塊with the * of實現語篇功能,而本族語者主要用該詞塊實現概念功能,如以下例子:
例4.With the improvement ofour living standards, more and more people use phones instead of letter writing.(TEM-4)
例5.With the adventof 21st century, the world has run into a state of flux, the rhythm of work and life is much quicker than before...(TEM-8)
例7. Why should webe concerned with the life ofa violent criminal?(NC)
例6. It is true that ... but by raising self-esteem andkeeping people in touch with the world ofwork they are certainly not a waste of public money.(EDI)
基于對中國英語專業學習者議論文語料庫四元非毗鄰式詞塊進行定量統計和定性分析,本研究探討了中國英語學習者四元非毗鄰式詞塊的使用特征,以及與本族語者的使用存在顯著差異的原因。研究結果顯示,與本族語者相比,中國學習者更傾向使用大量詞塊進行文本組織和話語表述,對各類詞塊在語篇中的功能認識模糊,存在少用、超用、誤用某些詞塊的現象。學習者文體意識不強,在寫作時具有口語化傾向,這與母語的負遷移和二語學習策略有密切的關系。
綜上,無論學習者的二語熟練程度如何,學習者在詞塊運用的準確程度上都不夠高,這與我國傳統的以詞義為主的詞匯教學密切相關,學習者在運用詞塊時經常單純地做“中英翻譯”,而并不了解詞塊的內部結構以及本族語者的地道表達。因此,為了提高學習者運用詞塊的能力以及寫作能力,EFL教師應激發學習者對詞塊的興趣,培養他們的敏感性,向學習者解釋詞塊的適用語域以及作用意義,在設計學習材料時使用學習者語料庫,可了解學習者在某一語境誤用、多用及少用某些詞塊的信息,使詞塊教學有的放矢(雷秀云,2017:48),同時向學習者展示目的語材料,并講授本族語者最常用的詞塊以及詞塊的結構和其中變化詞位上的常用詞匯,多數詞塊有自己的來源背景,引導學習者在文化中學習并掌握詞塊(徐軍、黃永華,2011:59)。教師還可采用不同的教學策略幫助學習者提高詞匯的拓展意識和能力,避免簡單重復,使學習者的產出更地道、更流利,更接近于本族語。本研究只對部分四元非毗鄰式詞塊的使用特征進行了分析,且研究語料比較有限,后續研究可以研究三元非毗鄰式詞塊的使用特征,或選擇其他語料抑或從非毗鄰式詞塊的結構分布上進行研究,以獲得新的發現。