西南交通大學外國語學院 呂長竑
西南交通大學外國語學院/北京第二外國語學院成都附屬中學 馬嘉欣
提 要:Douglas Biber和Randi Reppen主編的《劍橋英語語料庫語言學手冊》是對英語語料庫語言學不同領域當前研究現狀的全面評述,具有重要的參考價值和指導意義。本文對該書的主要內容及其概括性、示范性、引領性、導向性、批判性和反思性等特色予以了評介。基于《手冊》,有理由相信,基于語料庫的漸進性研究或將成為語料庫語言學在語言研究方面的又一理論創新,且隨著語料庫語言學理論創新的不斷深入,語料庫語言學的學科辨識度將會越來越顯著。
自第一個計算機語料庫Brown語料庫問世以來,語料庫語言學已走過50多年的歷程。在這50年里,由于在語料編輯與加工、研究工具和分析技術上的長足進步,語料庫語言學的版圖不斷擴大,幾乎觸及到了語言研究的各個分支領域,并呈現出蓬勃發展之態。在此情形之下,有必要對語料庫語言學的研究現狀和最新發展予以總結,并對語料庫語言學當前研究中所存在的問題進行反思和檢討,以便為語料庫語言學的未來發展指明方向。《劍橋英語語料庫語言學手冊》(TheCambridgeHandbookofEnglishCorpusLinguistics)(以下簡稱《手冊》)的出版恰逢其時,為語料庫語言學的健康發展做出了重要貢獻。
《手冊》于2015年在劍橋大學出版社出版,由語料庫語言學研究領域的著名學者Douglas Biber和Randi Reppen主編。《手冊》由四大部分組成,這四大部分既體現了語料庫語言學的兩大研究方向:對語言特征(第二部分)和語言變體(第三部分)的語料庫分析,又突出了語料庫語言學對方法論(第一部分)的強調以及在其它領域的發展應用(第四部分),充分反映了語料庫語言學的研究特色。《手冊》共28章,除討論語料庫語言學研究方法的前3章外,其余25章分別涉及語料庫語言學的不同研究領域,是對英語語料庫語言研究的全面評述,具有極大的參考價值。
第一部分“研究方法”包括三章。
在第1章“語料庫介紹”中,Davies主要對不同規模的代表性語料庫及其優勢進行了評價。在第2章“語料編輯和分析的計算工具和方法”中,Rayson簡要回顧了文本整理、標注和檢索工具的發展歷程和已取得的進步,同時對目前尚存在的一些問題進行了分析。在第3章“量化設計和統計技術”中,Gries將語料庫語言學研究方法分為兩組,并重點評述了當前語料庫語言學研究在相關定量研究方法方面所存在的問題。第一組研究方法是不涉及語境因素的研究。這類研究涉及的是語料庫語言學的核心方法,如出現頻率(包括頻率表、關鍵詞)、共現頻率、離散度(dispersion)等,其中Gries特別討論了離散度、類符(type)頻率/信息熵(entropy)以及向度(directionality)等對計算關聯性強度(association measure)的影響。第二組是涉及語境因素的研究,如對雙賓構式V NP接受者NP受事和帶to與格結構V NP受事PPto-接受者的研究。這類研究所采用的方法可以分為兩類。一類是探索統計(exploratory statistics)或假設生成統計(hypothesis-generating statistics)。Gries指出,語料庫語言學研究者對這類方法的使用尚不全面,許多探索性統計工具,如對應分析(correspondence analysis)或多維尺度分析(multidimensional scaling)甚少使用。另一些方法,如聚類分析(cluster analysis)等,盡管使用得較多,但是其后續方法(follow-up methods)并未得到廣泛地采用。第二類是驗證統計(confirmatory statistics)或假設檢驗統計,包括單因素統計(monofactorial statistics)和多因素統計(multifactorial statistics)。Gries強調,任何單因素的檢驗均是一種(危險的)捷徑。其原因是,在進行驗證統計時需要考慮以下三點:選擇語言表達形式時的理據、研究變量之間的相互影響以及研究變量和數據類型之間的相互影響。但是即使是采用多因素分析的研究,將上述三點都考慮在內的并不多。多數研究要么不做任何統計分析,只報導觀察頻率,要么不管數據是單因素還是多因素的,都只進行單因素統計。采用多因素統計是語料庫語言學未來發展的一個重要方向。
第二部分“語言特征的語料庫分析”共11章(第4—14章)。該部分從韻律特征開始,順次討論詞匯特征、語法特征到語篇特征和語用學。
第4章“語篇語調(discourse intonation)”涉及語料庫驅動的韻律研究,這是語料庫語言學研究較少涉及的一個領域。在該章中,Cheng對現有為數不多的韻律轉錄語料庫做了簡介,對語料庫驅動的韻律研究予以了評述。第5—7章論及的是詞匯的語料庫研究,包括“關鍵詞”、“搭配”和“短語學”(Phraseology)。Culpeper和Demmen在第5章中指出,應將關鍵詞項(key lexical item)作為選取質化分析對象的依據,而不應將其視為終端產品;要避免關鍵詞闡釋中存在的一些陷阱,警惕過度概括或過度夸大關鍵詞含義的危險。Xiao在第6章對搭配研究方法的評述以及對不同關聯性強度計算公式及其優勢的詳細描述,對相關研究具有重要的參考價值。Gray和Biber在第7章指出,未來的短語學研究應進一步探索更復雜的識別詞匯短語的量化方法,進一步加強對不同方法所識別出的短語類型的理解,應進一步探索語料庫設計和組成對重要詞匯短語識別的影響,探討短語學的語料庫研究的可復制性程度,開發新的研究方法以提高研究發現的信度,探索不同類型語言中的短語格式,探索在何種程度上語篇可被視為跨語域和跨語言的程式化(formulaic)表達。第8章“描寫語法”(Descriptive grammar)由已故國際著名語言學家Geoffrey Leech撰寫。該章是語料庫語言學對語法描寫研究的總覽,是全書唯一無案例分析的一章。在該章中,Leech重點就語料庫語法對語法描寫范圍和語法研究能力的拓展進行了評述。他指出,在語法描寫范圍方面,語料庫語言學的“全部解釋”(total accountability)原則為描寫語法帶來了一些意外發現,開辟了語法研究的一些邊緣領域,發現了一些被理論語法學家視為“無趣”的規律。此外,對英語口語的調查亦是基于語料庫的語法研究的一個重要突破。在口/筆語語料庫的基礎上涌現出了大批口語和書面語的區別研究,亦導致了學者們關于口語和書面語的描寫體系是否應采用同一體系的爭議。對此問題,Leech的態度是,口語和書面語是一個連續體而不是絕對的二元對立。關于語料庫語言學對語法研究能力的拓展,Leech認為主要體現在:一是語料庫語言學的統計手段為描寫語法提供了新的證據,二是漸進性(gradience)和多因素分析的使用。該章結尾部分對語法變異(Grammatical variation)(第9章)、語法變化(Grammatical change)(第10章)和詞匯語法(Lexical grammar)(第11章)研究的概述,可視為隨后三章的導論。這三章遵循《手冊》的總體撰寫原則,對各相關領域的發展進行了綜述,并對其研究現狀和研究走向予以了評述。第二部分最后三章“在語篇分析中使用語料庫”(第12章)、“語用學”(第13章)和“歷史語用學”(第14章)涉及的是傳統上以質性(qualitative)而非量化研究方法見長的領域(Smith,2016:144)。這三章分別向讀者展示了語料庫研究方法在這些領域里的研究價值,如語料庫輔助語篇研究將傳統的細讀法與統計的“概況”分析相結合,可為研究者提供更為全面的圖畫,幫助研究者定位潛在的、具有研究價值的語言特征;其次,通過對相對頻率和不同語言特征可能承擔的不同作用進行分析,可對不同語篇類型進行比較研究。隨著語用標注體系(annotation schemes)和語用標注語料庫的發展成熟,語料庫語言學與語用學的結合成為了可能。其中歷史語用學是近二十年來語料庫語言學和語用學的最新結合領域,亦是語料庫語言學與語用學結合最為成功的一個領域。歷史語用學的一個未來發展方向是對多模態歷史數據資源的開發和應用,如對早期印刷圖書中印刷字體和插圖所反映的意義的研究。
第三部分“變體的語料庫分析”(Corpus analysis of varieties)共19章(第15—23章),是全書章節最多的一部分,這與大多數語料庫均可提供不同語域的典型樣本,因此基于語料庫的研究特別適合語域變異研究有關。同時,亦與語料庫研究的量化分析特征有助于不同語域的語言特征分布之間的對比,有助于對特定語域中常見或罕見語言特征的識別有關。
第15章“口語語篇”和第16章“語料庫與書面學術英語”是語料庫語言學在特定語域研究中應用較廣的一個領域,其作者Staples(第15章)和Hyland(第16章)分別針對各自領域的特色進行了評述。Staples重點評述了語料庫語言學視角下話語研究的特點,Hyland則對那些在學術寫作研究領域具有重要影響,同時又能反映語料庫研究方法與學術語篇研究相結合之歷程的研究進行了重點評述。Hyland指出,在學術寫作研究領域有待解決的主要不足是:需要對學生在寫作和閱讀中可能涉及的各類特定學科體裁進行描寫;需要對具體語境下特定體裁的使用做更為深入的了解,通過訪談、觀察等研究手段,在研究中增加對“行動”的關注以平衡單純關注語言而帶來的不足;學術寫作常常涉及到繪圖、視覺符號(visual semiotic forms)等表達形式,因此需要將語料庫研究擴大到多模態學術體裁;需要更多的研究來幫助了解學科身份(即作者身份與學科實踐之間的關系)的特點,了解不同領域所需要的專業知識的內涵。第17章“語域變異”(Register variation)和第18章“歷時語域”(Diachronic registers)分別從共時和歷時的角度來探討語域變異,并對相關領域的重要研究進行了評述,概括總結了語料庫語言學在語域變異研究領域所取得的成就和面臨的挑戰。第19章“文體和文學文本”所論及的語料庫文體學(corpus stylistics)是語料庫語言學近十年來的新發展。隨著文學文體學的認知轉向,認知文體方法(cognitive-stylistic)和語料庫語言學方法從讀者對意義的創造角度有了更多的融合點,這可能為語料庫文體學帶來更多、更好的發展機遇。第20章“方言變異”(Dialect variation)、第21章“世界各體英語”(World Englishes)和第22章“作為通用語的英語”(English as a lingua franca(ELF))涉及的是區域變異(regional variation)研究(cf.Smith,2016)。基于語料庫的研究表明,方言變異在語言的不同變體中廣泛存在,甚至在一些以往通常認為不存在方言變異或從未從方言變異角度進行過探尋的領域(如書面語和標準語)中亦存在。基于語料庫的方言變異研究所涉及到的語言變量比方言學(dialectology)和社會語言學研究通常所分析的變量要多得多,特別是對于語法變異分析來說,語料庫研究方法更具優勢。第21—22章討論了兩個既有聯系又有區別的概念:世界各體英語和作為通用語的英語。從語料庫語言學的角度來看,有關世界各體英語的語料庫建設更為成熟,包括ICE語料庫以及GloWbE語料庫等,而基于語料庫的ELF研究起步于本世紀初,是一個相對較新的領域。首個一百萬詞的ELF口語語料庫ELFA在2008年完成。2015年完成的一百五十萬詞的WrELFA是第一個書面文本ELF語料庫。該語料庫由學術和通俗科學文本組成,對研究不同L1的學術英語寫作具有參照價值。在第23章“學習者語言”中,Gilquin和Granger對基于學習者語料庫的代表性研究、研究方法以及所取得的成就和面臨的挑戰進行了概述,并對學習者語料庫研究(LCR即learner corpus research)和第二語言習得研究(SLA)之間的聯系和區別做了說明。Gilquin和Granger認為LCR和SLA的研究對象相同,即都對學習者語言進行研究,二者的區別主要體現在研究目的和分析方法上。SLA研究關注的是語言知識(competence),而LCR關注的是語言能力(performance)。在研究方法上,LCR采用語料庫語言學的工具和技術,而傳統的SLA研究則多采用人工分析方法。此外,二者的數據類型亦不同。SLA數據是學習者在實驗環境下被迫產出的某一特定的語言形式,而學習者語料庫是真實語料,但是對那些目標語不是所在國家的母語或官方語言的學習者來說,他們幾乎沒有在日常活動中使用目標語的可能性。對于這種情況,學習者語料庫的真實性標準可以放寬到幾乎沒有施加任何控制的誘發性數據,如自由寫作或非正式訪談等。但是由于控制的標準是比較含糊的,因此某些學習者語料庫研究者采用了更為邊緣化類型的(peripheral types)學習者語料庫,如來自圖片描寫或翻譯等的學習者語料。
第四部分“語料庫分析的其它應用”共5章(第24—28章)。
在第24章“詞匯”(Vocabulary)中,Martinez和Schmitt指出Brezina和Gablasova(2013)的New General Service List和Gardner和Davies(2013)的Academic Vocabulary List盡管分別對West(1953)和Coxhead(2000)的老詞表進行了改進,但是依然存在完全以詞目(lemma)為單位構成詞表等問題。Martinez和Schmitt認為,完全以詞目組成的詞表不僅不能反映詞匯在語料庫中的實際應用情況,且與教學實際相距甚遠。因此,既包含單個詞項(single lexical item)又包含多詞詞項(multi-word lexical item)的詞表能夠更為準確地反映詞匯的性質。但是,現有的多詞詞表,如Simpson-Vlach和Ellis(2010)的Academic Formulas List等,又存在過分依賴統計標準的問題。故該章重點對一份語料庫驅動的多詞詞匯表(the PHRASE list)的制定進行了描述。其編制過程結合了量化和質性分析、頻率數據和語義等因素。Martinez和Schmitt認為只有在定量數據與定性判斷結合的基礎上,方能制定出實用的、用戶友好型詞表。第25章“詞典學和短語學”主要評價了語料庫資源在不同類型的在線英語詞典中對短語描寫的影響。Paquot指出,盡管基于語料庫的研究表明,不同體裁的文本所具有的典型短語是不同的,但是多數詞典對短語的所屬領域、體裁或語域通常不做任何標注。為調查學習者詞典所提供的短語標注信息在學術語境下的使用有效性,Paquot以五本著名學習者詞典:Cambridge、Oxford、Collins-Cobuild、Macmillan和Longman為對象,以10個高頻動詞的學術寫作搭配為例,從查全率(recall rate)和查準率(precision rate)角度,對不同詞典所選搭配的有效性進行了檢驗。結果顯示查全率和查準率這兩個指標可以有效地反映詞典對用戶需求的滿足度。查準率還可作為 “信息壓力”(information stress)或“信息過載”(information overload)程度的量化手段。Paquot指出,為幫助EFL學習者有效地用英語進行寫作,未來的詞典必須具有更強的不同寫作類型、體裁和風格意識。本部分最后3章分別評述了語料庫研究方法在課堂(第26章)、教材編寫(第27章)和翻譯(第28章)方面的應用。其案例分析分別是,語料庫對L2學習者影響研究的元分析(meta-analysis)、語料庫和非語料庫導向的教材在語法項目(以被動態為例)描寫方面的對比分析,翻譯文本與非翻譯的類比文本在搭配使用方面的對比分析。
《手冊》是對英語語料庫語言學不同領域當前研究現狀的全面評述和檢討,對語料庫語言學研究者具有重要的參考價值和指導意義。其主要特色如下:
第一,具有概括性和示范性。《手冊》各章均包含兩大部分:概述和案例分析。不同于一般的教材、指南或手冊,該書各章的概述不是對語料庫語言學的一般性介紹,而是重在對各領域當前研究的批評性概述。其概述的重點是,相關領域中最重要的研究、最常使用的研究方法、相關語料庫或最新發展等。這也是《手冊》與Biber和Reppen(2012)Sage版《語料庫語言學》的主要不同之處。其次,《手冊》各章有關研究方法的討論以及相關案例的分析,對語料庫語言學各相關領域研究具有示例作用。以語料庫文體學為例,《手冊》向讀者展示了語料庫語言學在文體學研究中的應用,如為文學文本分析提供數據支持,對定性分析進行補充、指導或佐證等等。事實上,本文認為語料庫與文學研究的合作空間并不僅僅在于此,如在詩歌研究中,通過建立朗讀者的語音語料庫,可為聲音詩學研究提供新的角度。這或許是未來語料庫與文學研究的另一個結合點。
第二,具有引領性和導向性。《手冊》各章均對相關領域的當前研究所存在的問題和面臨的挑戰進行了審視,并就未來發展方向提出了建議,具有很強的引領性和導向性。以漸進性研究為例。漸進性是語言使用中的普遍現象,盡管Wittgenstein(1953)的家族相似性原理、Rosch(1975,1976)的原型范疇理論(cf.王寅,2007),以及Halliday(1961)的漸變群(cline)、Quirk(1965)的連續關系(serial relationship)等從不同角度對漸進性進行了解釋和描寫,但是由于“語言范疇內的漸進是量變”(李基安,2012:40)性質的,上述不同解釋均不能很好地從量變的角度對范疇內的漸進性予以描寫。Lakoff(1973)曾從Zadeh(1965)的模糊集理論出發,對模糊限制語的邊界模糊性進行了描寫,但是其數理推導過程較為抽象,較難推廣。《手冊》第8章關于利用頻率數據來表征范疇成員或亞類型(subtype)的不同典型性程度或認知突顯性是語料庫語法的優勢這一陳述,進一步明確了語料庫語言學在語言漸進性現象描寫方面的應用前景。可以說,這是頻率和概率應用于語法研究必然帶來的一種優勢,即語料庫語法不僅能夠描述“非此即彼”的現象,而且還能反映那些一直受到理論語言學家排斥、被理論語言學家視為只能使其理論模型復雜化的“或多或少”的現象,即漸進性現象(p.155)。本文認為基于語料庫的漸進性研究或許將成為語料庫語言學繼詞匯語法(lexical grammar)、模式語法(pattern grammar)和詞匯啟動(lexical priming)等后(cf.何安平,2012),在語言研究方面的又一理論創新。
第三,具有批判性和反思性。《手冊》對語料庫語言學當前研究現狀的評述重在批判與反思,如第3章通過對具體實例的分析,對語料庫語言學界在統計方法應用方面的相對滯后予以了批評和檢討。這無疑將有利于語料庫語言學的進一步健康發展,因為從本質上來說語料庫語言學是涉及分布數據的學科,因此統計方法理應是語料庫語言學研究方法的中心內容。《手冊》的反思還表現在它對語料庫語言學的學科定位問題上。關于語料庫語言學究竟是一個獨立的學科,還是僅僅為一種研究方法,學界一直存在爭議(cf.梁茂成,2012;衛乃興等,2014)。對于此問題,《手冊》沒有如Sage版《語料庫語言學》那樣采取回避的策略(cf.邵斌、何蓮珍,2015),而是在導言中明確指出,不同于其它與調查(inquiry)相關的語言學領域(如社會語言學或心理語言學),語料庫語言學不是語言學的一個理論分支。社會語言學或心理語言學中的前綴(socio-或psycho-)標明的是其調查所涉及的理論領域,但是在語料庫語言學中不存在這樣的聯系。盡管如此,由于語料庫語言學在分析方法上的革新,使得研究者可以提出完全不同的研究問題,采用與以往研究完全不同的方法來對語言變化和使用進行研究,因此語料庫語言學并不僅僅是一種方法路徑(pp.1-2)。本文認為,上述觀點比較符合語料庫語言學目前的發展現狀,但是隨著語料庫語言學在理論創新方面的不斷深入,隨著其發現的不斷豐富,語料庫語言學的學科辨識度將會越來越顯著(cf.李文中,2016)。在將來的某一天,或許語料庫語言學終將確立其作為一門獨立學科的地位。