摘要:
“2011中國語料庫語言學大會”主題內容涉及多維視角下的短語語料庫研究,語料庫加工處理技術研究,漢語語料庫建設與研究,語料庫與語言描寫,中介語語料庫建設與研究,平行語料庫及翻譯研究,專門用途語料庫研究,語料庫與話語語用研究,以及語料庫與語言教學。目前,國內語料庫研究形成了以研發團隊為中心、教學研結合、理論與應用并重的局面。在梳理本次語料庫語言學大會研究概況的基礎上,重點介紹了語料庫在教材話語、中國英語學習者英語口語中的立場標記語和情態動詞使用研究中的應用,并提出研究者應予重視的兩個技術問題,即創建子語料庫和檢索技術。
關鍵詞:語料庫語言學;中國;2011
中圖分類號:H0文獻標識碼:A文章編號:16738268(2012)02013406
一、引言
“2011中國語料庫語言學大會”于2011年11月19日至20日在北京外國語大學召開,此次會議由北京外國語大學外語教育研究中心、北京航空航天大學和中國語料庫語言學研究會聯合主辦,會議日程包括四個主旨發言和一個題為“語料庫語言學在中國”的高層論壇,大會分為四個分會場,共計12個小組的分組發言,參會代表來自全國包括香港理工大學、香港城市大學等近百所高校,總數達140多人。 這次會議是近年來國內語料庫研發團隊取得重大進展之際的一次成果匯報,為眾多語料庫語言學研究者開啟了新的研究思路,也為利用語料庫這一研究工具更加深入、精確地研究本學科領域相關問題提供了重大契機。二、會議內容概述
來自香港城市大學、香港理工大學、上海交通大學、華南師范大學和北京航空航天大學的研究團隊分別展示了近期研究成果,其中涉及的主題包括:多維視角下的短語語料庫建設與研究,語料庫加工處理技術研究,漢語語料庫建設與研究,語料庫與語言描寫,中介語語料庫建設與研究,平行語料庫及翻譯研究,專門用途語料庫研究,語料庫與話語語用研究,語料庫與語言教學。
“多維視角下的短語語料庫建設與研究”是華南師范大學的何安平教授及其科研團隊近年所致力的研究課題,何教授介紹了多維視角下的短語語料庫建設的特征和優勢,指出其建設可以極大地促進語言描述和外語教學,尤其有助于探索意義單位的深層解讀和構建語篇意義。此外,論題還包括中國英語學習者在學術討論中的身勢語研究、基于多媒體語料庫的英語口語教學模式設計和第32屆國際語料庫研究會議(ICAME32)熱點分析。
“語料庫加工處理技術研究”主要涉及了基于語料庫的法律術語檢索對話系統、平行語料庫檢索技術研究和基于海量生語料的中文專家系統。這些以漢語為處理語言的語料庫加工技術改觀了我國本土語料庫系統開發不足的局面,并提高了以應用研究為導向的適用性。
“漢語語料庫建設與研究”涉及漢語框式介詞“在N的v之下”的研究,漢語最長名詞短語分布研究,漢語名詞短語的“獨的”偏好研究,漢語關系從句掛靠偏向現象研究,連詞“和、與、跟、同”使用情況分析,“甲骨文語料庫”建設及存在的問題,以及漢字頻次統計與分布統計等。這些漢語語料庫的開發為我國學界的漢語研究提供了新的研究視角和手段。
“語料庫與語言描寫”中展現了基于語料庫視角的詞匯與對話行為,詞典編碼的詞匯語法視角,當代英語形容詞的詞源研究,話語標記語研究,語言透明度及其態度研究,型式語法的產生、特點及應用,評價性語言研究,以及英漢語同義詞特點的協同語言學研究等。以往語料庫語言學研究大多停留在對語言的描寫層面上,而這里的“語言描寫”則僅僅作為整個研究的出發點,是基于語料的定量描寫和分析,最終是為了揭示語言系統某個層面隱含的規律和趨勢。
“中介語語料庫建設與研究”主要涉及了中國英語學習者在二語習得過程中經常遇到的一系列問題,譬如,被動結構的使用模式、學習者自然會話中ADT、會話修補策略、意愿和預測情態詞的習得、英語銜接詞的使用、連接副詞的使用、報告動詞的使用及其立場研究等。從文體方面看,這些涉及了課堂口語表達、英語沙龍會話、自然會話、學術論文等口語和書面文體。
“平行語料庫及翻譯研究”包括基于中國古典文學和中國文化語篇的網絡平行語料建設、譯文被動句歐化特征研究、基于濱州樹庫的平行chunk抽取和應用、異化策略與政治隱喻的翻譯、漢譯小說的詞匯特征歷時研究、語義韻和語義偏好在英漢雙語詞匯對等創建中的作用、漢語新詞英譯研究、公示語漢英翻譯研究、《紅樓夢》里報道動詞英譯研究及表示死亡的委婉語翻譯研究、多譯本語料庫的譯文特征對比分析、《中庸》譯者風格統計分析等。
“語料庫與話語語用研究”包括英語國家中家庭關系的話語構建、《時代》雜志中孔子形象認同研究、COCA語料庫中的中國形象、中美媒體汶川地震報道用詞對比研究、《紐約時報》反恐報道的歷時研究、圣誕節新聞主題詞分析、書面雜志語言的口語化現象研究、立法語言的情態模糊限制語研究以及脫口秀節目中自我修正程式語的使用頻率研究。
“語料庫與語言教學研究”涉及了自然語言處理技術在大學英語教師備課中的應用、大學英語專業教材的對比研究、EFL教材元話語的短語理念、學生作文詞條超用和使用不足之對比、學生會話話輪轉換處BUT的使用等。“專門用途英語研究”涉及了建筑、IT、航空航天、旅游、民歌歌詞等領域的語料庫開發、構建和使用。
此外,會議安排了四個主旨發言。東京外國語大學的Yukio Tono教授介紹了其語料庫研發團隊的近期研究成果:Linking CEFR to Learner Corpus Research: Identifying Critical Features of L2 Development。他認為學習者語料庫是語料庫語言學研究的一個新的領域,其研發有利于在語料庫研究與二語習得研究之間架起一座橋梁,從而促進二語習得研究的進一步發展。基于近年的語料庫開發與建設工作,處于不同學習階段的二語學習者均可通過 JEFLL、NICTJLE等工具獲得所需的學習資源,這類語料庫可以根據學習者所展示的關鍵學習特征來判斷其目前的二語水平,并提供相應的學習和測試手段,有效地提高二語習得效果。他還詳細介紹了基于統計方法VNC(variabilitybased neighbor clustering)和Random Forest的學習者語料庫研發范式,并提出這種范式的理論、教學實踐意義和發展前景。
Martin Warren 教授來自香港理工大學,他的報告題目是“短語在語料庫語言學研究中的深度闡釋”。此處的“短語”對應英文是“phraseology”, 不同于傳統”phrase”的概念?!癙hraseology”是伯明翰學派語篇研究范式的領軍人物Sinclair教授最早提出的[1],意為“語篇生產者為了創造意義單位所做出的詞匯共選行為”。基于語料庫的短語研究多見于“Ngram”的量化研究,旨在判斷短語所在語篇的體裁、風格、體現出的態度和評價意義等。Warren教授的研究重點在于語篇中的短語變異,這項研究有助于揭示語篇生產者的共現傾向,并為口語和書面語篇中顯現的短語共現模式提供合理的理論闡釋。
作為伯明翰學派的學者之一,中國語料庫語言學研究會會長、北京航空航天大學的衛乃興教授也十分重視phraseology的研究[2],此次大會上他提出“短語結構的跨語言探索——思路與方法”。衛教授認為,短語學已經成為一個獨立的研究領域,然而現存研究從本質上講都是屬于單語庫。以英漢兩種語言為基礎的平行語料庫有待研發,北京航空航天大學和上海交通大學的語料庫研發團隊目前正在致力于這一領域的研究。衛教授詳細介紹了目前研發工作的目標、設計特點和創建的方法。這套系統是以Sinclair教授的“擴展意義單位”概念為理論框架,依據詞匯結構的形式和功能特點來觀察和概括其表達式,采取正譯法和倒譯法、在可比語料中進一步檢驗這些初步生成的等價表達式,然后對等價的程度予以評估,最后在兩種語言中建立實際對等的短語。此項研究表明,語義偏好和語義韻這兩種短語結構特征均在建立英漢詞項之間不同程度的對等關系方面發揮了重要作用。
北京外國語大學外語教育研究中心的許家金博士也介紹了學習者中介語對比研究(CIA)近期的學術成果,并以Wallace Chafe著名的“Pear Film”視頻為資料[3],進行本族語者(Ns)與非本族語者(NNs)組的對比研究,受試在規定時間內分別以英語口述、漢語口述和英語書面表達三種方式復述視頻中的“Pear Story”, 然后分別進行Ns與 NNs組、英語與漢語、口語與書面語的對照,以便做全面的跨語言研究,即語內、語際、跨語類和跨話步的分析。這一研究成果將對中國英語學習者在語義、語用表達方面存在的問題進行深入剖析,以期對語言教學的改進提供指導。
三、教材話語、中國英語學習者立標語和情態動詞使用研究
縱觀語料庫語言學的各研究領域,語言教學仍然是大多數研究者關注的焦點,這與“教學研結合,理論與應用并重”的指導思想是吻合的,理論構建與研究最終要在我國外語教學實踐中找到落腳點,要為外語教學與學習提供綱領性的方針和具體實施策略,理論也最終通過實踐來檢驗。因此,本文在概述大會主要研討論題的基礎上,重點介紹目前語料庫在教育話語和學習者話語研究領域中的應用,并以華南師范大學何安平教授領軍的研究團隊在2011年公開發表的部分研究成果為例,介紹這一領域內的研究動態。
何安平等[4]以2003年教育部出臺《普通高中英語課程標準》(簡稱《新課標》)之前和之后的高中英語教材為語料(華南師范大學外文學院建設的《中國英語教育語料庫——教材子語庫》),從詞匯和句法兩個層面研究英語教材指令語中的立場標記語,具體涉及舊教材和新教材中的情態動詞、祈使句式的使用頻數和語義傾向對比,研究發現新教材指令語中的弱勢情態動詞 can, would, may, will, might, could, shall的使用頻數較舊教材而言大幅度增加,而強勢情態動詞must的使用頻數則呈現減少趨勢,這反映了教材編寫者對學習者提出任務指令時使用命令語氣的傾向弱化。新教材在語言使用方面體現了新課標提倡的以人為本的教育公平理念。這一研究從教材話語立場和編寫者語氣角度詮釋了現代教育理念。
此外,何安平、徐曼菲[5]以“I think”為原型,通過調查大型英語口語語料庫的認知類立場標記語的26萬個語例,發現存在多種立標語的搭配和線性疊加等共現情況,并參照Sinclair的“語義偏好”和“語義韻”概念提出立標語的強勢和弱勢語義區分標準,構建了包括“形式、語義和功能”為主的立標語的線性序列分析框架。研究發現,以“I think”為認知類立標語原型在英語本族語者口語交際中的使用較少單獨出現,而是與其他的立標類語同時選用;此外,它所表達的立標功能呈動態發展趨勢。除“I think”外,還有情態類副詞和短語,如really, actually, probably, maybe, well, you know, I mean, I don’t know等使用情況也都顯示出類似的趨勢。這種基于批量語言事實進行歸納的研究范式為探索學習者話語結構和功能的關系提供了較為新穎的思路和方法,同時也凸顯了話語構建中語言的概念功能和人際功能的體現模式。
張淑玲、何安平[6]基于LINDSEIChin和SECCL兩個口語語料庫,采用定量分析和定性分析相結合的方法,對中國大學生情態動詞must的使用情況進行調查,發現中國英語學習者與本族語者在情態動詞must的語法形式、語義范疇和語用功能方面存在差別,即中國英語學習者使用must時,語法形式基本無誤,但是使用頻數是英語本族語者的7倍多,且語義上主要用于表述義務類情態,在語用方面主要用于實施命令行為和建議行為;而本族語者在使用這類情態動詞時語義上則主要用于表示邏輯必然性,在語用方面多用于推測。顯然,這種認識差別和使用差別會造成中國英語學習者的話語語氣和立場態度比較生硬或武斷,從而導致跨文化交際中的語用失誤。這一研究為英語教學尤其是英語情態動詞教學提供了參考性指導。張淑玲等認為,必須將語言使用的得體性作為語言教學的重要內容,要在語用的視角下教授語法,為此,教師首先要樹立敏感意識,一種語義有多種表達形式,選擇哪種形式是由話語的前提、焦點、重心等心理變量以及禮貌、態度、地位、語域等社會變量決定的。此外,這一研究對語言教材的編寫也提供了參考,即英語教材在編寫時介紹情態動詞的不同語義功能的順序以及如何用真實、自然語料來導入這類情態語的使用區別等。以上研究對于國內的外語教學者和研究者而言具有重要的理論指導意義和實踐價值。
四、子語料庫構建技術和語料庫檢索技術的研究
語料庫應用于語言研究中的一個核心問題是使用技術,基于語料庫構建技術和檢索技術的重要性,本文就此簡要地說明北外語料庫研發團隊的創建子語料庫技術和語料庫檢索技術。所謂子語料庫的生成,是指研究者根據研究目的,將大型語料庫拆分為若干小型語料庫,或者從大型語料庫中抽取符合條件的子語料庫的一系列有機組建過程。這一技術通常用于語言對比研究,例如,雙語語料庫中的源語文本和譯語文本的對比研究、不同性別之間的會話標記語對比研究、不同專業背景的學習者二語習得特點對比研究等。這樣一種研究模式也是傳統語言研究中對比分析經常采用的分析視角,如今,借助高效的檢索工具和海量語料,這方面的研究將會得出更加科學、精確、令人信服的結論。問題是目前可用的語料庫檢索系統如北外平行語料庫(http://corpus.byu.edu/)、“英國國家語料庫”等系統可以幫助研究者按照某一特定文本特征來實現檢索和呈現結果,但是無法直接提供對比分析所需要的語料資源,而利用語料庫中的元信息創建子語料庫就可以滿足特殊的研究需要,許家金博士等編寫的軟件Subcorpus Creator(http://www.fleric.org.cn/pub/scc.rar)就是專門用于創建子語料庫而設計的,具體技術方法詳見許家金、梁茂成的《創建子語料庫,促成對比研究》[7],這一技術的開發與運用極大地擴展了語言對比研究的層面和實現手段。
有過語料庫檢索和應用經驗的研究者都知道,在語料庫的實際使用過程中,一個重要的問題是檢索的模式和技術問題。目前,強大的網絡搜索引擎使語料庫的操作更加方便快捷。但是,在實際檢索過程中,由于忽視細節而導致的漏檢和誤檢將極大地降低研究的信度和效度,因此,必須對語料庫檢索模式和技術予以充分的重視。陳功對目前通用的語料庫檢索模式進行了總結,提出三種檢索模式:自然語言檢索、人工語言檢索、自然語言和人工語言檢索相結合的檢索。其中,自然語言檢索是通過語料庫文本的字面字符串作為檢索項目,這種方法操作簡便,適用于初學者和較為簡單的研究設計,但是,它無法滿足抽象層次的語言研究和較為復雜的研究設計。人工語言檢索技術之一是語料庫標注碼,即按照研究需要對語料庫生文本進行加工后才能使用,這樣可以滿足較為抽象、復雜的研究目的,但是初級用戶可能會在標注等技術環節中遇到問題,從而影響研究的質量和進程。另一種人工語言檢索技術是正則表達式,即使用簡潔的字符來匹配文本中存在一定共現和搭配組合規律的字符串,這無疑是較為精簡和高效的檢索工具,但是需要研究者具備一定的計算機專業知識才能夠自如地運用。為了解決這一技術問題,梁茂成[8]開發編寫了Pattern Builder 軟件,在一定程度上簡化了正則表達式的運用技術?;谝陨蟽煞N檢索工具各自的優勢和不足,自然語言和人工語言相結合則成為一種較為理想的檢索模式,例如,可以將字符串分別與語料庫標注碼和正則表達式相結合,也可將三者相結合,具體技術手段詳見陳功的《語料庫檢索的模式、問題及啟示》[9]。綜上,子語料庫創建技術和語料庫檢索技術都是研究者在實際研究中應該謹慎對待的技術問題。
五、給青年學者的啟示
最后,本文簡要記錄了“高層論壇”的主要思想。教育部語言文字應用研究所的馮志偉教授,北京外國語大學外語教研中心王克非教授、衛乃興教授、梁茂成教授和解放軍外國語學院的濮建忠教授出席了此次“語料庫語言學高層論壇”,并就目前國內的語料庫研究現狀、研究重點、存在的問題和解決方案以及這門學科的發展前景作了簡要分析。馮志偉教授認為,國家教育部對目前的語料庫語言學研究給予了充分的重視,并在重大社科研究項目方面極大地支持了這項事業的發展;王克非教授介紹了北外教研中心近年來在語料庫開發與建設方面的主要成果和應用情況,并希望今后的語料庫建設能夠涵蓋法語、德語、日語等語種,以擴大語料庫的適用范圍。
衛乃興教授對青年學者寄予了殷切希望,他特別提到兩點:第一,學術研究的“范式”問題。他認為,研究范式是一個學者研究內容、研究方法的標志,它是基于一個明確的研究設想、一種或幾種分析工具的運用和對一系列核心問題的研究所建立的范式。衛教授提到中國傳統文化中的“天人合一”思想似乎與目前一些研究中“雜糅”的范式異曲同工,但是,一個學者應該在其研究中展示明確清晰的范式和流派風格。第二,衛教授主張“做最小限度的假設,客觀地觀察數據,從數據出發,而不是從理論假設出發”,這樣,我們更有可能發現新的方法和新的問題。
濮建忠教授講述了從事語料庫語言學研究的切身體會,提醒我們在研究中應注意的一些重要問題。第一,充分認識“意義”在語言研究中的地位。一些語言學研究往往容易忽視語言符號的意義,但是如果不關注意義,一切語言研究將失去意義,因此語言研究應以意義為導向?!耙饬x”既不是語言單位在客觀世界中的對等物,也不是在人頭腦中存在的意象,而是由語言社團共同協商、共同使用并傳播所得到的語言符號的價值。第二,高度重視“文本”在意義研究中的作用?;谡Z料庫的研究一定是始于文本并歸于文本的過程,因為“意義”只存在于具體文本中,不能依靠研究者個人的直覺判斷,也不能在外部世界得到意義。第三,語言是形式和意義統一的實體,在任何時候都要記得兼顧形式和意義兩個方面,研究的關鍵就是找到意義和形式的統一體。目前,研究中的短語(phraseology)就是一個形式與意義相統一的語言單位。從這個意義上講,單詞往往不是個形式和意義相統一的單位。隨后,濮教授提出了語料庫未來發展前景看好的幾個領域:一是外語教學研究,包括平行語料庫的研發;二是批評話語分析研究;三是自然語言處理。
最后,梁茂成教授在發言中指出建設優質的語料庫需要團隊成員的協同合作,在語料庫語言學領域做出優秀的研究成果同樣需要研究者個人協調好“語言”與“技術”的關系,技術是必要的,但是技術是為了解決語言問題而服務的。此外,梁教授在這次大會中告誡青年學者要加強學術交流,互通有無,集中力量創新,避免和減少不必要的重復建設,提高國內語料庫語言學研究的整體水準。
六、結語
李文中等[10]認為國內語料庫研究中存在不足,主要體現在四個方面:描述性研究居多,而解釋性和應用層面的成果較少;對學習者語言特征的研究缺乏全面系統的研究;以英語本族語為標準的傾向;語料庫技術開發較薄弱。而今,“2011中國語料庫語言學大會”所展現的最新研究成果表明,目前的語料庫語言研究已經不再止步于對數據的描述,而是基于豐富的、翔實的語料進行多角度的分析和闡釋,我們相信,這也將是未來語料庫語言學研究領域內備受關注的研究范式。此外,語料庫在外語教學、教材話語和學習者話語分析中的運用也令人耳目一新;如前文所述,這類研究不僅拓展了話語分析研究的新視界,而且為外語教材編寫、外語課堂教學中語用教學的重要性等研究領域提供了有價值的參考。在國內眾多語料庫研發團隊的努力下,對漢語語料庫的建設和應用也基本改變了以往語料庫中以英語為主的局面,并為雙語比較類的研究提供了物質基礎,即便如此,還是建議從事雙語對比研究的學者了解并熟悉子語料庫的創建技術,以便針對具體的研究問題來設計和創建適合自身研究問題的語料資源。另一個不容忽視的問題是,語料檢索技術過程涉及一些具體細節,如檢索方式及其綜合運用,重視這一過程中的細節問題可以保證研究者使用檢索工具獲取可靠的數據和結果,這需要研究者提高自身的技術素養,在實踐中總結經驗并最大限度地提高語料檢索的精確性,保證研究結果的可靠性和科學性。最后,漢語語料庫、平行語料庫、專門用途英語語料庫的開發和建立都在不同程度上夯實了國內語料庫技術研發的基礎,這些新興的資源及基于這些資源的研究成果都為廣大研究者從事符合本土化特征和形勢的研究提供了豐富的技術工具和多維的研究視角。
參考文獻:
[1]SINCLAIR J. The phrase, the whole phrase and nothing but the phrase[M]//GRANGER S, MEUNIER F. Phraseology: An interdisciplinary perspective. Amsterdam: John Benjamins,2008:407410.
[2]衛乃興.中國學生英語口語的短語學特征研究——COLSEC語料庫的詞塊特征證據分析[J].現代外語,2007(3):280291.
[3]CHAFE W. The Pear Stories: Cognitive, Cultural and Linguistic Aspects of Narrative Production [M]. Norwood, NJ: Ablex,1980.
[4]何安平,黃雪梅.英語教材話語的立場標記語探究[J].當代外語研究,2011(3):1016.
[5]何安平,徐曼菲.認知類“立標語”的線性序列與動態語用功能探究[J].當代外語研究,2011(3):19.
[6]張淑玲,何安平. 從must看中國大學生說英語的決斷口氣[J].當代外語研究,2011(13):30.
[7]許家金,梁茂成.創建子語料庫,促成對比研究[J]. 當代外語研究,2011(10):8.
[8]梁茂成.詞性賦碼語料庫的檢索與正則表達式的編寫[J].中國外語教育,2009(13):6573.
[9]陳功.語料庫檢索的模式、問題及啟示[J].當代外語研究,2011(10):11.
[10]李文中,濮建忠,衛乃興. 2003上海語料庫語言學國際會議述評[J].解放軍外國語學院學報,2004(1):59.