董 穎 劉日升 那春光
(1.大連外國語學院圖書館,遼寧 大連 116044;2.大連海事大學圖書館,遼寧 大連 116026)
從20世紀50年代計算機語料庫出現開始,語料庫語言學在國外得到迅猛發展,并已成為一個跨世紀、跨學科的新興學科。在我國,伴隨著1982年由上海交通大學黃人杰、楊惠中教授主持的“專門用途英語語料庫”(JDEST)的建立,國人對英語語料庫的研究悄然興起。三十幾年來,我國對英語語料庫的研究不斷深入,現已建成大型英語語料庫數十個,發表相關學術論文千余篇。
語料庫為語言學的定量研究提供了素材和方法。語料庫計量研究方法,就是運用數學中的概率論、數理統計、信息論等理論和方法,通過對語言現象的定量分析和動態描寫,揭示語言現象的內在規律,使語言研究更加精密化、科學化。因此,深入開展語料庫計量研究具有重要的意義。筆者謹對CNKI中檢索到的有關我國英語語料庫計量研究的47篇論文(詳見參考文獻)進行學習和總結,并綜述如下。
根據美國加州大學伯克萊分校的語言學家J.Edwards1993年的不完全統計,20世紀80年代以來建成并投入使用的各類語料庫達50多個,其中英語24個[1]。我國英語語料庫計量研究中應用國外英語語料庫,很多情況是將其作為本族語者語料和中國英語學習者語料進行對比研究。在上述47篇論文中,多次應用的國外英語語料庫有:
①英國國家語料庫(British National Corpus,簡稱BNC)。該語料庫書面語與口語并用,收錄的語料已多達1億詞次,是迄今最有代表性的當代英語信息庫。應用該庫8次。
②蘭卡斯特—奧斯陸/卑爾根語料庫(Lancaster,Oslo和Bergen大學合建的一般英語語料庫,簡稱LOB)。在G.Leech的領導下,70年代始建,1983年建成。應用該庫6次。
③美國英語Brown語料庫,該庫為20世紀60年代以N.Francis和H.Kucera為首的語言學家和計算機專家建立的世界上第一個計算機語料庫,她標志著計算機語料庫研究的開始。應用該庫5次。
④FLOB語料庫(Freiburg-LOB Corpus of British English,簡稱FLOB),英國英語語料庫。應用該庫兩次。
⑤英語科技論文語料庫(Native English Speakers,簡稱NESs)。應用該庫兩次。
⑥國際英語語料庫(International Corpus of English,簡稱ICE)。由英國倫敦大學的Green Baum教授和美國的Meyer共同醞釀和建設,該庫匯集了全球20個國家和地區的英語語料,可用來進行跨國界、跨地域、跨文化、跨語域的英語對比分析。應用該庫兩次。
此外,國內研究者還應用了國際學習者語料庫(International Corpus of Learner English,簡稱ICLE)、美國當代英語語料庫(Corpus of Contemporary American English,簡稱COCA)。
在上述47篇論文中,多次應用的國內英語語料庫比較集中,它們分別是:
①中國學習者英語語料庫(Chinese Learner English Corpus,簡稱CLEC)。該庫由上海交通大學楊惠中教授和廣東外語外貿大學桂詩春教授合作建設,2003年建成。該語料庫是國家哲學社會科學基金“九五”規劃項目“基于語料庫的中國學習者英語失誤分析”的一個重要組成部分。包含大學英語學習者語料庫(COLEC)、ST3(大學非英語專業一至四年級學生的四級考試作文語料庫)、ST4(大學非英語專業一至四年級學生的六級考試作文語料)等子庫。應用該庫16次。
②大學學習者英語口語語料庫(College Learners Spoken English Corpus,簡稱COLSEC),該庫是我國國內第一個學習者英語口語語料庫。參加語料庫建設的研究人員來自于上海交通大學、洛陽外國語學院、河南師范大學等高等院校的部分教師。應用該庫4次。
③中國學生英語口筆語語料庫(Spoken and Written Engish Corpus of Chinese Learners,簡稱 SWECCL)(文秋芳、王立非、梁茂成等2005年研制)。該庫系南京大學“211工程”二期子項目,由南京大學外國語學院和外語教學與研究出版社共同建設。由“中國學生英語口語語料庫”(Spoken English Corpus of Chinese Learners,簡稱SECCL)和“中國學生英語筆語語料庫”(Written English Corpus of Chinese Learners,簡稱WECCL)兩個子項目組成。應用該庫4次。
此外,還應用了香港理工大學商業英語語料庫(PolyU Business corpus)、PETS口語語料庫(PETSSpoken English Corpus)、大學英語四、六級考試語料庫、中國非英語專業EFL學生的英語作文語料庫、航海英語語料庫(Nautical English Corpus)、海事條約英語語料庫(Maritime Treaty English Corpus)、輪機英語語料庫(Marine Engineering English Corpus)、英漢平行語料庫(ECBPC)、《中國日報》2006年一整年的新聞導語語料庫 LOHN (Leads of Hard News)、CENAC(China English News Articles Corpus)、《大學英語綜合教程》(全新版)語料庫、COBUILD語料庫、Tertiary、SECOPETS語料庫、中國學者科技論文語料庫(CELs語料庫)等。
在47篇論文中,關于我國英語語料庫計量研究的對象,筆者從4個方面綜述如下:
研究了參加PETS口試的英語學習者減音錯誤的特點和規律;測量了IVIE語料庫中選定聲音材料的調核音高,多重比較句型間和性別間的調核音高差異的顯著性;比較了中國女性英語學習者在口語中使用疑問句時與男性的差別,以及非英語專業大學生在自我修正和修正標記語使用上的性別差異;探討了中國學習者英語口語交際能力中的詞語知識特征;分析了中國學習者考試環境下會話詞匯量及掌握常用詞匯的情況;探討了賦碼器對中國英語學習者口語語料進行自動賦碼的適用度。
分析了港式英語使用者同美式英語使用者在使用CAUSE語義韻(Semantic prosody)上的異同;通過對比中國英語學習者和本族語者在形容詞搭配方面的不同模式,從語義角度探析學習者在形容詞搭配使用中的典型特征;開展了短語不同搭配的語義對比實例研究,如以“in search of”、“in earch for”和“search for”為例,對“search”一詞搭配情況對比研究,如對短語fightagainst(FA)的語料索引和包含短語struggle against(SA)的語料索引進行了詳細的分類統計與對比研究。
從詞匯的覆蓋率、頻率等角度考察和分析了Coxhead的“學術詞匯表”(Academic Word List,簡稱AWL)對自然和理工學科的教學適用性;研究了普通書面英語篇際詞匯重復特性并探討對英語詞匯習得的啟示;定量分析了CLEC語料庫中四類中國大學生英語詞匯習得石化發生的比率;計量了英語簡單顏色詞和合成顏色詞在CollinsCoBuild語料庫中的分布情況;研究了航海英語詞匯的分級問題;考察了科技英語的篇際詞匯增長模型;探討了連接詞的使用與寫作質量的關系;論述了英文現在分詞詞性標注;針對與本族語使用者的比較,探討了中國英語學習者作文中介詞at的用法、冠詞誤用分析、寫作中 a關 ofNP結構用法比較、“have”和“result”的搭配情況等;運用計量方法,對accident使用情況、success用法、effect搭配行為進行了對比研究。
探討了搭配在語言學習、辭典編撰或自然語言處理的應用;分析了大學英語作文動詞的搭配錯誤;研究了學生在寫作中搭配語用失誤的總體特征以及在主要搭配類型的基本中介語特征;對低、高分組大學英語寫作中的詞語搭配頻率和寫作水平進行分析;分析研究了大學生書面語詞塊結構類型和語用功能;統計分析了中國英語專業大學生的英語筆語中話語聯系語的使用特征、英語寫作中形容詞使用錯誤情況;統計分析了話語標記語的頻率、類型;進行了英語關系從句使用行為研究;分析了英語存在句縮略式的使用特征;量化研究學術英語語法的頻率特征,以及元話語的語體特征及互動;嘗試對教材進行量化評估;開展了中英報紙新聞文體對比分析,量化分析了新聞導語在句法方面的不同特征;對比研究了本族語者語料和中國英語學習者語料中邏輯連接詞的使用特點,中國英語學習者對因果類話語標記語的使用情況,中國英語學習者強化詞使用情況,以及中外學者科技論文中模糊限制語應用情況實證分析。
47篇論文應用的研究方法主要以利用語料庫統計軟件包Wordsmith Tools為主,它是一個在Window下運行的、用來觀測文字在文本中的表現的綜合軟件包。它共包含Concord(語境共現檢索工具)、WordList(詞頻列表檢索工具)、KeyWords(關鍵詞檢索工具)、Splitter(文本分割工具)、Text Converter(文本替換工具)、Viewer(文本瀏覽工具)等6個程序,其中前面3個程序是主要的文本檢索工具,后面3個程序屬于輔助性工具。
統計工具以SPSS為主,SPSS即Statistical Productand Service Solutions,意為“統計產品與服務解決方案”,由美國斯坦福大學研制。SPSS采用類似EXCEL表格的方式輸入與管理數據,數據接口較為通用,能方便地從其他數據庫中讀入數據。其統計過程包括了常用的、較為成熟的統計過程,可以滿足非統計專業人士的工作需要。
同時,還應用了Praat語音測試軟件、Range詞匯分析統計的軟件、AntConc3.2.1w檢索軟件等。
此外,還使用了SNOBOL4(String Oriented Symbol Language)及FOXPRO程序,構建基于貝葉斯的決策樹C4.5算法模型,通過對冪函數和對數函數的比較分析等方法,開展語料庫計量研究。
在研究方法上,除應用語料庫已有的工具和軟件外,還可以根據特殊需要開展個性化的研究,廣泛運用概率論、數理統計、信息論等統計數學的程序和方法,深入揭示語言現象的內在規律。
英語語料庫計量研究人員主要集中在高校,在上述47篇論文中,上海交通大學、河南師范大學等發文較多,發文兩篇以上的單位和人員詳見表1。

表1
另外,參與英語語料庫計量研究的人員分布面較廣,共有36所院校開展了此方面研究。同時,我們欣喜地看到,已經有計算機學院教師與外語學院教師合作開展英語語料庫計量研究。語料庫計量學屬交叉學科,她的發展需要數學、計算機等學科的支持。
從上世紀90年代始,部分高校如上海交通大學、廣東外語外貿大學、華南師范大學、南京大學等開始招收語料庫語言學方向的碩士生和博士生,為我國的語料庫語言學研究培養高級人才。我們有理由相信,我國英語語料庫計量研究會不斷深入,語料庫語言學會不斷完善并持續發展。
[1]楊梅,王巖.語料庫語言學研究述評[J].長春師范學院學報,2005(1):121.
[2]巫瑋.PETS口試中的減音現象研究 [J].繼續教育研究,2008(9):140-141.
[3]許珂.女性英語學習者疑問話語語用分析——一項基于口語語料庫的研究[J].安陽工學院學報,2009(5):90-93.
[4]王華,甄鳳超.透過主題詞和關鍵主題詞管窺中國學習者英語口語交際能力中的詞語知識[J].外語界,2007(1):29-38.
[5]王莉,梁茂成.學習者口語語料自動詞性賦碼的信度研究[J].外語教學,2007(4):47-51.
[6]蔣紅柳,石堅.英語語調性別差異的統計分析[J].數理統計與管理,2009(6):1059-1066.
[7]甄鳳超.中國學習者英語口語詞匯量及常用詞匯研究——基于英語口語語料庫的詞目研究[J].解放軍外國語學院學報,2005(5):38-42.
[8]陳立平,李經偉,趙蔚彬.大學生英語口語自我修正性別差異研究[J].現代外語,2005(3):279-287.
[9]樂芬芬.“cause”在港式英語語料庫中的語義韻研究[J].高等函授學報哲學社會科學版,2009(12):88-90.
[10]孫海燕.基于語料庫的學生英語形容詞搭配語義特征探究[J].現代外語,2004(4):410-418.
[11]王吉良.FA及SA與特定語義類別搭配的差異——兼談對漢英翻譯的啟示[J].阜陽師范學院學報.社會科學版,2008(5):138-141.
[12]李佳.基于語料庫的“search”一詞搭配情況對比研究[J].科技信息,2009(7):638-639.
[13]吳瑾,王同順.Coxhead“學術詞匯表”的適用性研究[J].國外外語教學,2007(2):28-32.
[14]徐哲,劉循.貝葉斯決策樹在英文現在分詞詞性識別中的應用[J].計算機應用,2009(9):2571-2574.
[15]陳建生.非英語專業EFL學生英語作文中的介詞at——基于語料庫的研究[J].山東外語教學,2002(5):51-53,56.
[16]劉麗娜,高篙.航海英語詞匯的量化[J].青島遠洋船員學院學報,2000(1):22-31.
[17]羅衛華,鄧耀臣.基于BNC語料庫的英語篇際詞匯重復模式研究[J].外語教學與研究,2009(3):224-229.
[18]邵朝霞,穆鳳英.基于CLEC和ECBPC的英語詞匯習得石化實證研究[J].中北大學學報.社會科學版,2009(3):50-54.
[19]張杰,鄒白茹.基于CLEC語料庫的中國英語學習者冠詞誤用分析[J].懷化學院學報,2008(9):103-104.
[20]劉興華.基于語料庫的accident使用情況對比[J].重慶科技學院學報.社會科學版,2008(4):218-219.
[21]李曉紅.基于語料庫的EFFECT搭配行為對比研究[J].外語教學,2004(6):21-24.
[22]吳昊.基于語料庫的中國英語學習者success用法對比研究[J].科技經濟市場,2008(8):130-131.
[23]羅琴琴,周江林.基于語料庫的中國英語專業學生HAVE搭配行為調查研究[J].外語教育,2007(00):138-144.
[24]李晶潔.篇際英語詞匯增幅率研究[J].術語標準化與信息技術,2009(2):36-43.
[25]胡剛,李慧,田傳茂.英語顏色詞的語料庫研究[J].武漢水利電力大學學報.社會科學版,2000(6):64-67.
[26]張園園.語料庫的詞匯搭配研究——以result為例[J].樂山師范學院學報,2007(8):68-70.
[27]王芳.中國英語學習者與本族語學生寫作中a關ofNP結構用法比較[J].新鄉師范高等專科學校學報,2006(1):151-153.
[28]金鎧.從語料庫看連接詞在中國學生六級作文中的作用[J].西南民族大學學報.人文社科版,2004(8):430-433.
[29]姚建民等.大規模語料庫中自動搭配獲取的統計方法研究[J].計算機工程與設計,2007(9):2154-2155;2180.
[30]李玉君.大學英語作文動詞搭配錯誤分析[J].黑龍江科技信息,2009(5):146,103.
[31]李金滿,王同順.當可及性遇到生命性:中國學習者英語關系從句使用行為研究[J].外語教學與研究,2007(3):198-205.
[32]李文中.基于COLEC的中介語搭配及學習者策略分析[J].河南師范大學學報.哲學社會科學版,2004(5):202-205.
[33]劉曉玲,劉鑫鑫.基于語料庫的大學生書面語詞塊結構類型和語用功能研究[J].中國外語,2009(2):48-53.
[34]劉愛軍,張會平.基于語料庫的輸出假設研究——英語存在句縮略式的使用特征分析[J].四川外語學院學報,2008(6):66-70.
[35]馮青,于建平.中外學者科技論文中模糊限制語應用情況實證分析 [J].燕山大學學報.哲學社會科學版,2007(8):143-144.
[36]雷秀云.基于語料庫的學術英語語法的頻率特征[J].上海交通大學學報.社科版,2000(1):117-122.
[37]孫麗麗,孫海峰.基于語料庫的英語消息中導語的句法特征分析[J].宜春學院學報,2009(1):168-171.
[38]賀紅艷.基于語料庫的中英報紙新聞文體對比分析[J].科技信息,2009(29):244-245.
[39]孫其標.篇際英語詞匯增幅率研究[J].術語標準化與信息技術,2009(2):36-43.
[40]周杰.學生英語寫作中形容詞使用錯誤分析——一項基于 CEM 語料庫的研究[J].安順學院學報,2008(5):65-68.
[41]陸軍.一項基于語料庫的英語寫作研究——大學英語寫作中詞語搭配的實證研究[J].外國語言文學,2006(3):171-176.
[42]于建平.元話語的語體特征及互動 [J].中國科技翻譯,2007(4):43-47.
[43]趙蔚彬.中國學生英語作文中邏輯連接詞使用量化對比分析[J].外語教育,2003(2):72-77.
[44]陳新仁,吳玨.中國英語學習者對因果類話語標記語的使用情況——基于語料庫的研究[J].國外外語教學,2006(3):38-41.
[45]林麗麗.中國英語學習者話語標記語使用發展研究及教育啟示——基于SECOPETS語料庫語料的研究[J].湖南醫科大學學報.社會科學版,2009(6):136-138.
[46]齊建曉.中國英語學習者強化詞使用的語料庫調查[J].西安外國語學院學報,2006(4):48-51.
[47]張會平,劉愛軍.中國英語專業學生筆語中話語聯系語的使用[J].沈陽大學學報,2008(5):64-66,69.