杜雙艷 常榮榮
摘要:詞塊作為一種能將功能與形式融為一體的語言單位,能更好地體現出語用、語法及句法之間的關系。首先收集某高校英語專業學生的54篇畢業論文,并自建平行語料庫。參照Altenberg詞塊分類法,將詞塊分為三類:完整分句、分句成分和不完全詞組。統計數據可知,學生寫作中存在大量詞塊,且呈現詞塊長度越長使用數量越少的分布態勢。其中,分句成分所占的比例最多,不完全詞組次之,完整分句最少。研究分析表明,寫作水平高的同學更能靈活地使用詞塊。
關鍵詞:語料庫;詞塊;寫作;結構類型
中圖分類號:H319.36文獻標志碼:A文章編號:1001-7836(2018)07-0124-03
詞塊指由多詞組成,可以獨立用于構成句子或者話語,實現一定語法、語篇或語用功能的最小的形式和意義的結合體[1]。該結合體是語言語篇寫作的重要組成部分,二語學習者若提高外語寫作水平,還需掌握詞塊的使用狀況并正確地運用詞塊。在綜合運用語言的基礎上,學習者將自身的語法與思維通過寫作呈現出來,而詞塊是寫作過程中語言運用的關鍵。本文擬基于安徽省某高校2016屆英語專業本科畢業生的論文,自建小型語料庫,研究不同的分層次的論文,考察英語學習者寫作水平與詞塊運用之間是否存在關聯。通過使用Emediter,Antconc等語料庫分析軟件輔之以人工篩選對詞塊數據進行分類統計,分析不同層次論文在詞塊數量和結構類型上的差別,總結出英語學習者寫作水平與詞塊運用之間的關系,以期對英語教學與學習提供可行建議。
一、文獻綜述
國外語言學家Becker1975年首次提出“預制語塊”這一概念,指一種特殊的“多詞詞匯現象”,即多個詞匯的組合[2]。Lewis在“The Lexical Approach”中提出“多詞預制詞塊”在語言學習中不可或缺[3]46。Nattinger & DeCarrico提出語言的產出過程就是“對預制語塊進行選擇,然后將這些語塊串聯起來的過程。”[4]國內,有關詞塊的研究多從理論發展至實證研究上。楊玉晨基于國外有關詞塊的研究成果,提出詞塊的定義,即:“詞塊”是固定和半固定的結構化了的“板塊”結構[5]。王立非、張巖基于SWECCL語料庫的作文子庫研究發現中國學生在寫作過程中詞塊運用種類較少,與語言本族語者相差較大[6]。龔成紅研究得出詞塊的運用得體與語篇是否連貫關系緊密且成正相關[7]。在詞塊分類方面,Becker從結構和功能上將詞塊分為六大類,即原文片斷、情景話語、元語篇、聚合詞、句子構造結構和限制性短語[2]。Altenberg從功能和形式上將詞塊分為三大類:完全分句 (不獨立分句和獨立分句)、分句成分(多分句成分和單分句成分)和不完全詞組[8]。目前,國內有關詞塊分類的研究多是基于Altenberg的詞塊分類法。Altenberg是第一個基于語料庫驅動的詞塊研究者,最早采用語料庫頻率信息識別詞塊,對基于語料庫的詞塊研究做出了巨大的貢獻。因此,本文基于該分類標準,對不同層次論文中的詞塊運用進行分析。
二、研究設計
1研究問題
本研究通過考察不同詞長詞塊在論文中的分布狀況,采取Altenberg的詞塊分類法研究安徽省某高校英語專業畢業生論文詞塊的使用狀況。依據論文劃分標準,考察學生寫作水平高低與學生在寫作過程中詞塊運用之間的關聯。本研究試圖回答三個問題:(1)不同寫作水平論文在篇幅長度和詞匯運用上有何差異?(2)3—6字詞長詞塊在不同寫作水平論文中數目及結構類型分布狀況如何?(3)學習者寫作水平與詞塊運用之間是否相關,存在何種關聯?
2語料庫簡介
本研究所使用的語料為研究者自建語料庫,以安徽省某高校2016屆英語專業本科畢業生為研究對象。首先,依據學生畢業論文成績,按照相同比例從優秀、良好及及格三個不同層次的論文庫中隨機抽取54篇論文;然后,依據論文得分進行分組統計,統計標準與該校不同層次論文成績劃分標準相符,即:85分以上為英語寫作水平較高的高分組,85—75分為中分組,75—60分為寫作水平較低的低分組;最后,建立小型研究語料庫。建庫主要經過以下階段:采集語料,刪除冗余信息,校對,保存語料TXT的格式,去噪等語料處理。該語料庫包括高分組、中分組及低分組三個子庫。
3研究方法與步驟
本文基于研究者自建畢業論文語料庫,結合定量與定性的研究方法,探索英語學習者寫作水平與英語語言詞塊運用之間的關系。首先,將高分組、中分組和低分組三個子庫分別導入Antconc語料庫軟件中,統計出三個子庫的形符和類符,并計算出三組論文的形符類符比,即TTR值;然后,利用Antconc軟件中N字語詞頻表功能檢索三組子庫畢業論文中3—6詞長詞塊數據,考察不同水平論文中3—6詞長詞塊數目的使用狀況;最后,研究者根據前文提及Altenberg的詞塊分類法,分析三組論文中3—6詞長詞塊的不同結構類型,統計頻數并考察不同結構類型詞塊的運用情況。
三、研究結果與分析
1三組論文的TTR值
形符(token)類似于我們日常說的“詞”,總形符數是語料庫容量最常用的測量單位。類符(type)作為一個統計量,指語料庫文本中任何一個獨特的詞性(word form)。重復出現的形符只能記作一個類符[9]。形符類符比,即TTR值,是衡量語篇文本詞匯密度的常用辦法,可說明文本中詞匯的運用豐富度。TTR值越大,表明詞匯的使用難度較低,詞匯的多樣性較少,反之,則表明詞匯的使用種類較多且難度大。本文首先利用Emeditor文本編輯器,對高分組、中分組與低分組的語料進行文本降噪處理,清除原始語料中冗余內容,包括論文的致謝、目錄及參考文獻等部分,僅保留論文正文;然后,研究者將語料分別導入Antconc3.2.4w,依次點擊“word list”與“start”按鈕,得出三組論文形符與類符值。具體統計結果如表1:
由表1可知,高分組形符數高達75 295,中分組次之為68 938,低分組形符數最少為67 555。可以看出,三組不同水平畢業論文中,高分組論文篇幅長度最長,中分組略高于低分組,形符差距為1 383,整體呈現寫作水平越高的論文其篇幅越長。論文詞匯難度運用方面,高分組的TTR值最高為13.54%,中分組為12.57%,而低分組最低為11.77%。由于TTR值的高低與詞匯運用多樣性成反比,則可得出高分組中詞匯運用的豐富度低于中分組和低分組且高分組的詞匯變化幅度小。研究結果與該高校論文加分標準中詞匯運用越豐富分數越多的原則相違背。經考察,高分組詞匯豐富度較低的原因是由論文中大量使用功能詞而引起的,如:and,a of,the等詞語。基于上述研究數據,得出三組論文篇幅長度與論文寫作水平呈正相關,論文的詞匯運用多樣性與寫作水平呈負相關。
2三組論文中不同詞長詞塊的分布狀況
詞塊是計算機可以檢索出的以相同形式反復出現的兩詞或多詞的有意義的連續詞組單位。研究者通過Antconc3.2.4w軟件N字語詞頻表功能,檢索出不同詞長的多個具有意義且合符意義的詞塊。利用Antconc軟件工具中的“Cluster”詞群功能,在軟件下方按鈕處分別設置所需檢索的詞長數字,在“Search Term”中選取“N-Grams”項,并在“N-Gram Size”中設置詞長,分別輸入三字詞長、四字詞長、五字詞長及六字詞長。為便于研究,在基于Biber[10]提出詞塊是詞容為100萬詞的語料庫中出現頻率為10次以上的詞語序,研究者結合語料庫庫容,以三個子庫中3—6詞長的連續詞組單位且最低出現的頻率值為5的詞塊作為研究參數,最后點擊“Start”按鈕,得出原始不同詞長詞塊數目,然后人工篩選并刪除非詞塊詞語組合,如can be found in, equal interpersonal relationship with, of interpersonal function of the等意義殘缺且語法錯誤的詞匯組合。得出的最終結果如表2示:
由表2可以看出,不同詞長詞塊在三組論文中分布狀況各不相同。研究發現,得分越高的論文,使用詞塊數量越多。高分組論文運用詞塊數量最多,中分組論文詞塊數量略少于低分組且觀察統計結果,低分組中三字詞長詞塊與四字詞塊均多于中分組,這是由中低兩組論文篇幅長度相近而引起的。從詞塊長度來看,三組論文中,詞塊數量隨著詞塊長度的增加而衰減,詞塊長度越短,其數量越多。如上表所示,高分組中,3字詞塊的數量為5 416,使用頻率高達77.11%,而6字詞塊的數量僅為113,頻率低至1.61%。不同詞長詞塊中,3字詞塊分布最廣,所占比例最大。三組論文中3字詞長詞塊的分布頻率最高為中分組(81.82%),最低為高分組(77.11%);4字詞長詞塊使用數目次于3字詞塊且二者差距較大,三組論文中4字詞長詞塊所占比重最多為高分組(16.37%),最少為中分組(13.26%);5字詞長詞塊的使用分布狀況略高于6字詞長詞塊,高中低三組論文中,5字詞塊的使用頻率分別為:4.91%,3.91%,3.28%;6字詞長詞塊使用頻數遠遠低于其他詞長詞塊,如高分組使用頻數僅為113,頻率為1.61%,中分組與低分組相近,頻率分別為0.91%和1.02%。
對比三組論文不同詞長詞塊使用狀況,發現該校英語專業學生在寫作過程中均使用大量詞塊,其中,3字詞長詞塊使用分布最廣。總體考察中發現寫作水平越高的論文其詞塊使用數量越多,不同長度詞塊的使用呈現出詞塊長度越長使用數量越少的分布態勢。
3三組論文中不同詞塊結構類型的分布狀況
前文提及本文參照Altenberg的詞塊分類法對三組論文中不同詞塊的結構類型進行分析。即形式上將詞塊分為三大類,包括完整分句、分句成分及不完全詞組。完整分句是語言學句法層級最高的語言實體,具有相對完整的主謂結構和語法意義。它包括獨立分句及不獨立分句。獨立分句表達完整的語義可單獨使用,如;I dont know, the plot goes on the following等,從屬分句需與其他分句構成完整句子,如:in my opinions,as the evidence on the aboved等。分句成分可分為單分句成分和多分句成分,如:and others, three years ago等和there are, I believe等。不完全詞組指不具備完全結構與形式的詞組,如:most of them, so as to等。具體詞塊結構類型在三組論文中的分布狀態如表3所示。
從表3可以看出,三組論文中,分句成分結構類型的3—6字詞長詞塊分布最廣,完整分句和不完全詞組結構類型的詞塊使用數目遠遠低于分句成分,其中,不完全詞組的分布數量略低于完整分句。高中低組論文中分句成分結構類型的詞塊使用頻率相近,所占組別總數頻率分別為:73.73%、76.99%、83.87%,其中,多分句成分結構類型詞塊遠遠高于單分句成分詞塊,三組論文多分句成分詞塊和單分句成分詞塊之間的頻率差分別為:32.87%、30.99%、25.01%。三組論文3—6完整分句結構的詞塊使用分布中,高分組和中分組的使用頻率相近,分別為13.6%與13.59%,低分組的使用頻率較少為9.30%,頻數分別為955、462、365。在完整分句結構類型詞塊運用上,獨立分句遠遠高于不獨立分句,二者在三組論文中的使用頻數差分別為:855、438、347。全部詞塊使用數據中不完全詞組結構類型詞塊的使用數目最少,呈現得分越高的論文不完全詞組使用數量越少的特點,具體的使用頻率呈階梯分布狀,其使用頻率分別為:12.67%、9.42%、7.33%。
從3—6詞長詞塊不同結構類型在三組論文中的分布狀況發現,英語專業學習者在英語詞塊運用寫作過程中,大量使用具有分句成分結構詞塊,多是帶有多分句成分結構的詞塊,而完整分句和不完全詞組結構的詞塊運用較少。三組論文完整分句、分句成分及不完全詞組結構詞塊的分布頻率(12.16%,78.03%,9.81%)與Altenberg[8]基于本族語口語語料庫CLL的研究結果(10%,76%,14%)相似。基于不同結構類型詞塊在三組論文中的分布狀況可總結得出,學生英語寫作過程中分句成分結構詞塊運用較多,且水平越高詞塊結構類型越多樣。
四、教學啟示與結語
本研究通過個人自建小型語料庫,統計分類數據得出英語學習者寫作水平高低與詞塊運用豐富度緊密相關。研究結果發現,二語學習者畢業論文篇幅長度及詞匯使用上表現為得分越高,論文篇幅越長,詞塊運用越豐富;在不同詞長詞塊使用頻率上表現為3字詞長詞塊使用頻率最高,6字詞長詞塊使用頻率最低,總體上呈現出詞塊長度越長使用數量越少,論文得分越高,詞塊數量越多的發展特點;在詞塊結構類型上表現為分句成分結構詞塊使用數目最多,完整分句和不完全詞組結構詞塊運用較少,呈現出寫作水平越高,詞塊結構類型運用越豐富。由此表明,英語寫作水平與詞塊運用之間緊密相連,且與詞塊使用數目和結構類型呈正相關。
Michael Lewis[3]47提出語言包含詞塊,當詞塊組合在一起時就產生了連貫的語篇。語篇連貫性是寫作水平高低的重要標志之一,而寫作是教學英語的重要內容,著名語言學家Sinclair也認為詞語在教學中占有中心地位[10]。所以,培養學生的詞塊意識是詞塊教學的關鍵,學生在寫作時需熟練掌握不同詞長及類型詞塊的運用。同時,在教學過程中,教師首先應有意識地培養學生對不同詞長詞塊的識別與應用,促使學生養成良好的詞塊學習習慣;然后,因孤立學習單詞效果不佳,教師應引導學生記憶并理解詞塊搭配及結構,保證學習質量同時促進語言輸出,提高學生語言運用能力和語言使用的準確性;最后,可結合語料庫方法,檢索出教學過程中常用詞塊搭配及相關典型語境,加強詞塊教學與學生英語學習。
參考文獻:
[1]馬廣惠.詞塊的分類與識別[J].解放軍外國語學院學報,2011(34):1—4.
[2]Becker J. The phrasal lexicon. In R. Shank & B. L. Nash-Webber(eds). Theoretical Issues in Natural Language Processing. Cambridge, MA: Bolt Beranek & Newnan, 1975:96.
[3]Lewis M. The Lexical Approach[M].Language Teaching Publications, 1993.
[4]Nattinger J. & Decurrico J. Lexical phrases and Language Teaching[M].Oxford: Oxford University Press, 1992:40.
[5]楊玉晨.英語詞匯的“板塊性”及其對英語教學的啟示[J].外語界,1999(3):24—27.
[6]王立非,張巖.基于語料庫的大學生英語議論文中的詞塊使用模式研究[J].外語電化教學,2006(8):36—41.
[7]龔成紅.非英語專業研究生在不同文體寫作中詞塊變體運用的實證研究[D].蘭州:西北師范大學,2008.
[8]Altenberg B. On the phraseology of spoken English: The evidence of recurrent word-combinations[C]//In A.P. Cowie: Phraseology: Theory, Analysis and Applications. Oxford University Pressa, 1998:101.
[9]梁茂成,李文中,許家金.語料庫應用教程[M].北京:外語教學與研究出版社,2010:9—11.
[10]Sinclair J. & A. Renouf. A lexical syllabus for language learning[C]//MaCarthy, M.J. & R.A. Carter. Vo-cabuary in language teaching. London: Longman,1988:141—160.
(責任編輯:劉東旭)