崔穎
摘 要: 語料庫是對生活中的語言資料加以收集和整理,便于使用者進行研究和分析的一種研究方法。我國對語料庫的研究雖落后于西方,但是從上世紀開始,國內(nèi)語料庫取得了前所未有的發(fā)展。本文陳述了國內(nèi)語料庫的分類,分析了語料庫的應用和在國內(nèi)的發(fā)展趨勢,為語料庫的使用者和研究者提供了了解語料庫的途徑。
關(guān)鍵詞: 語料庫 分類應用 發(fā)展趨勢
語料庫研究是基于人類真實的語言資料,調(diào)查和分析語言的分布、使用規(guī)律、使用頻率和使用模式的一種研究方法。電腦科技的發(fā)展,為語料庫研究帶來了前所未有的發(fā)展機會。由于電腦具有龐大的存儲功能、篩查功能和分析功能,20世紀的中后期形成了許多對電腦語料庫的對比研究的語言學理論。
從20世紀20年代開始就有學者為制定基礎漢字字表開始建立語料庫。自上世紀70年代末以來,現(xiàn)代漢語語料庫(1983年)等機器可讀語料庫開始建設。90年代以后,以《人民日報》光盤數(shù)據(jù)庫、北大語料庫為代表的大型漢語語料庫日益發(fā)展,語料庫成為研究漢語的主要資源。我國從上個世紀80年代,由上海交通大學楊惠中教授為首的項目組開始建設JDEST學術(shù)英語語料庫,促進了英語語料庫語言學在中國的發(fā)展。這個語料庫是當時世界上的第一個同類語料庫,也是國內(nèi)最大最完備的英語語料庫之一。由廣東外語外貿(mào)大學桂詩春教授和楊惠中教授合辦開發(fā)的“中國學習者語料庫”(CLEC)于1999年建成,該語料庫廣泛收集了我國中學生和大學生在內(nèi)的超過一百萬詞的各種書面語資料,并對所有語料進行了語法標注和言語失誤的標注,對研究中國學習者的英語特點具有開創(chuàng)性的意義。最近幾十年,隨著電腦科技的發(fā)展和教育國際化的加深,語料庫語言學在中國的發(fā)展及其快速。我國現(xiàn)有的語料庫包括口筆譯語料庫、平行語料庫,研究方向包含許多方面,包括二語習得、翻譯對比、話語分析、認知語言學等方面的研究。不同研究背景和學術(shù)背景的人都參與語料庫建設,為語料庫帶來越來越多、越來越全面的研究資源。西方對語料庫的研究比中國早,通過國內(nèi)外的學術(shù)交流,國外的語言學家給中國的語料庫研究開辟了更廣闊的發(fā)展空間,帶來了許多新的知識和營養(yǎng)。
一、語料庫的分類
語料庫主要是按照其收集語料的類別,研究的服務對象或研究的目的進行分類的。我國現(xiàn)有的語料庫大致可以分為英語學習者語料庫、平行語料庫、特殊英語語料庫、漢語語料庫等。
(一)英語學習者語料庫
英語學習者語料庫由廣東外語外貿(mào)大學和上海交通大學合作建設和開發(fā),簡稱CLEC,其中搜羅100多萬詞條,主要是針對中國的中學生和大學生等英語學習者在學習中的書面語進行研究。該語料庫中標注了學生的失誤,便于研究中國學生在習得英語的過程中的常見問題進行分析和研究。除此之外,上海交通大學所創(chuàng)立的大學英語學習者口語語料庫COLSEC包含了5萬個詞次。與CLEC不同,這個語料庫偏重英語學習者在口語中常犯的問題和錯誤,為我們對中國學生英語口語的研究提供了便利。香港科技大學建設的香港科技大學學習者語料庫HKUST Learner Corpus,是針對大學英語學習者所使用的英語所建立的語料庫,該語料庫針對的范圍主要是大學英語學習者,語料的收集主要是以在學習英語的大學生為對象,方便我們對大學生的英語思維和習慣進行研究。而南京大學建設的中國英語專業(yè)語料庫CEMC,則是針對國內(nèi)英語專業(yè)的學生設立的語料庫,這個語料庫共收集100多萬詞次。
(二)平行語料庫
北京外國語大學建設的漢英平行語料庫PCCE,是涉及范圍最廣的漢英平行語料庫。國內(nèi)還有其他的一些比較具體和專業(yè)的語料庫,比如馮友蘭的《中國哲學史》漢英對照語料庫;香港城市理工大學建設的對比語料庫LIVAC;臺灣建設的平衡語料庫Sinica Corpus;國家語言文字工作委員會應用研究所的計算機專業(yè)的雙語語料庫,等等。
(三)特殊英語語料庫
由河南師范大學建設的中國英語(China English)語料庫;由解放軍外語學院建設的軍事英語語料庫(Corpus of Military Texts);上海交通大學建設的新視野大學英語教材語料庫,等等。
二、語料庫的應用
(一)用于語言的研究
大量的語言素材存儲在語料庫中,按照一定的語言學原則分類組合在一起,這為語言的研究提供了方便和便利。對語言學家來說,語料庫的存在更方便他們查詢、檢索和分析語言原始數(shù)據(jù),從某種程度上說,簡化了語言學家分析語料的過程和時間,大量的語言素材使語言學家對語言的定量分析成為可能。語料庫的存在便于語言學家揭示地區(qū)語言的特征及一個區(qū)域(國家或地區(qū))的語言使用情況。語料庫中的語言資料方便語言學家對語言的某些特征或結(jié)構(gòu)進行檢索,比如某個詞匯或句型在某個語言或某個地區(qū)的語言中的分布等。
(二)用于語言測試
語料庫的存在為基于語言的測試試卷的出題和批改提供了依據(jù)。語料庫能夠揭示一些常見的問題和錯誤。對于出題者而言,能更方便地了解英語學習者在學習中常出現(xiàn)的問題和錯誤,從而在出題的時候具有針對性地測評,更真實準確地反映學生的語言學習狀況。對學生而言,語料庫能夠反映他們的不足,從而推動他們對自己錯誤的改進和修正,利用語料庫做有針對性的復習和練習,從而達到減少錯誤和提高語言能力的目的。
(三)用于編撰字典
語料庫中所收集的大量詞條,是來源于真實生活的,是確實存在的句子和詞匯。在字典的編撰過程中,不僅要快速顯示和反映出詞條的出現(xiàn)頻率和各個語義的使用情況,而且真實生活的詞條會比編撰的詞條更形象、生動、準確。語料庫中詞匯和句型的使用還能反映語言的發(fā)展趨勢,由于語言的發(fā)展日新月異,新的詞義和詞匯不停涌現(xiàn)。語料庫能夠幫助字典的編撰者很好地掌握和了解語言的發(fā)展趨勢,從而在字典的編寫中與時俱進,添加最新的內(nèi)容。
(四)用于機器翻譯
隨著互聯(lián)網(wǎng)和國際化的發(fā)展,許多人傾向上網(wǎng)翻譯不懂的外語詞匯和句子。語料庫能夠歸納詞匯和句型的語義和語用,從而對給定的句子進行分析,從語料庫中搜索出它所認為最符合該句型或詞匯的翻譯方式。雖然仍有需要改進的地方,但大致講,翻譯軟件已經(jīng)能夠滿足基本的翻譯,為語言不通的國人提供便利。同時,語料庫還能對常見的英語或漢語錯誤進行分析,并提醒校正,大大節(jié)省翻譯者和語言學習者的時間和精力。
(五)用于語言教學
語料庫存儲的信息量相當巨大,學習外語的學生對于如此龐大的數(shù)據(jù)庫,可以按自己的要求和需要進行檢索、分析和學習。由于語料庫中的語言信息來源于生活,因此更真實可靠,更生動多樣。語言學習者對語料庫的使用是多元化的,這樣有利于促進外語學習者的主觀能動性的發(fā)揮。語料庫的使用者對語言資料的開放式的使用,為學生提供了思考的機會,同時也為教師轉(zhuǎn)換角色提供了可能。
三、語料庫在中國的發(fā)展趨勢
語料庫在中國已經(jīng)得到長足發(fā)展,各種語料庫紛紛涌現(xiàn)。隨著教育國際化和計算機技術(shù)的發(fā)展,學習者語料庫的建設是今后語料庫研究的重點之一,口語語料庫的發(fā)展和對口語語料進行的話語分析已經(jīng)成為語料庫今后的發(fā)展方向。我國語料庫的發(fā)展雖然迅速,但仍然存在一些問題。比如,語料資源的重復性,語料庫之間的獨立非信息共享的問題,歷時語料庫對早期中國語料的收集問題,以及語料庫在教學中應用的問題,都是亟待解決的巨大課題。
雖然語料庫發(fā)展迅速,但是仍然存在許多問題。語料庫的存在和發(fā)展,無疑為我國語言學的研究和外語學習的發(fā)展作出了巨大的貢獻。隨著計算機的普及和人們對語料庫認識的提高,語料庫的進一步發(fā)展和大規(guī)模的應用,以及它對外語教學的指導,會隨著時間的推移而發(fā)揮更重要的作用。
參考文獻:
[1]馮銳,朱慧,李會敏.語料庫及語料庫語言學研究初探[J].肇慶學院學報,2009(06).
[2]甄鳳超.語料庫語言學在中國的成長與發(fā)展[J].當代外語研究,2010(03).
[3]孟塖.我國語料庫語言學研究現(xiàn)狀及展望[J].四川文理學院學報,2012(06).
[4]黃曉梅,黃勇.語料庫語言學研究發(fā)展現(xiàn)狀淺析[J].新西部(理論版),2013(08).
[5]衛(wèi)乃興.語義韻研究的一般方法[J].外語教學與研究:外國語文雙月刊,2002(4):300-307.