鄭 萌
(東北財經大學MBA學院,遼寧 大連116024)
自20世紀60年代計算機問世,計算機技術就迅速應用到了以語料庫為基礎的語言學研究中,隨著計算機技術的迅速發展,世界各國在語料庫的建設上成績顯著。不同語言、不同類型、不同規模的語料庫越來越多。語料庫的廣度越來越大,開發加工的深也日益加深。語料庫在語言學研究和自然語言處理中發揮的作用越來越大。
自第一代大型電子語料庫BROWN建立至今,語料庫語言學的研究已經有50多年的歷史。而國內的語料庫研究也有30多年的歷史,并在上世紀90年代得到飛速發展,語言學與計算機技術加速融合,不同的學者和專家秉著不同的出發點,在各種角度和各種層次上進行了大量實證研究,這使得我國的語料庫語言學迅速發展繁榮。
語料庫(corpus或corpora,corpuses[復]):是指按照一定的語言學原則,運用隨機抽樣方,收集自然出現的連續語言運用文本或話語片段而建成的具有一定容量的大型電子文本庫。
語料庫語言學:在文本語料的基礎上進行語言研究的一門學科。語料庫語言學通過語言現象出現的概率對語言材料進行研究。這里的語言材料是真實的、可觀存在的,因此,通過概率統計手段在語料庫語言學研究中得到的語言使用情況是真實客觀的,排除掉了語言學家的主觀性,研究結果更加真實可靠。
語料庫應用對語言學研究的主要改進有:
(1)保證了語料的客觀真實性,排除了語言學家的主觀性;(2)借助計算機的儲存能力,提高了研究的廣度和深度;(3)提高了工作效率,減少了人工誤差;(4)使語料資源具有共享性。
語料庫在語言學研究中主要的應用領域有:
(1)詞典編纂;(2)語言統計;(3)語言監控,包括新詞、新用法的發現;(4)語言教學;(5)語言信息處理;(6)語法、語義、詞匯、語音等各種語言問題的研究;(7)方言研究等等。
我國漢語語料庫的建設開始于20世紀80年代,取得了不少成果。這里簡單介紹北京大學建設的三個語料庫極其特點。
該語料庫包含三個子語料庫:現代漢語語料庫、古代漢語語料庫和漢英雙語語料庫。
其中現代漢語語料庫和古代漢語語料庫主要是面向漢語研究和教學使用的大規模語料庫及其在線檢索系統。目前該語料庫收集了大約4.77億字語料,現代漢語和古代漢語大體上各占一半。現代漢語語料庫,主要收錄1696部作品,9711字的查詢。古代漢語語料庫,涉及從周代到民國時期,22580字的查詢。語料未經分詞處理。該語料庫的檢索系統可以提供比較方便的例句查詢功能,主要特色包括:A)可以查詢不連續的詞語,可以指定詞語之間的距離(比如“幫……忙”);B)可以查詢標點符號(比如查詢“《》”可以把書名都查出來);C)可以查詢漢語特有的重疊模式;D)支持對標點符號的查詢(比如查詢“?”可以檢索語料庫中所有疑問句)等等。
漢英雙語語料庫目前規模已經超過100萬句對。漢英雙語語料庫對于漢英語言對比研究有直接的幫助。該語料庫還可以用于漢英機器翻譯。目前北京大學在該語料庫的基礎上開發一個雙語詞典編纂平臺。這個平臺集成例句查找功能,詞語搭配分析功能,多詞翻譯等價單位的自動識別功能,等等。該語料庫只對北大校內用戶開放。
北大計算語言所對1998年和2000年兩個全年的人民日報語料進行了切分和詞性標注的加工。該語料庫可以用來訓練統計模型幫助計算機自動分詞和詞性標注處理。對于制訂漢語高頻詞表,定量研究詞語的語法功能(比如兼類詞、多義詞各種用法的分布情況),有直接的支持作用。
樹庫(Treebank)是對句子結構進行分析和標注的深加工語料庫。北京大學中文系自2003年開始逐步建設現代漢語句法樹庫,目前已經達到百萬漢字級的規模,同時也形成了一系列的相關工具軟件,包括分詞和詞性標注、自動句法分析、輔助校對工具、樹庫查詢與知識抽取工具等等。此外還開發了一個基于Web的樹庫查詢系統。建成的樹庫一方面可以用來訓練統計參數,幫助計算機進行自動句法分析,另一方面也可以用于漢語研究和教學,既可以方便地查找例子,也可以做定量分析。
3.1.1 研究漢語的語料庫比例小
由于受國外語料庫語言學研究和發展的影響,加上近年來我國對英語教學的重視程度越來越高,多數國內語料庫的建設仍以英語為主。參考查找到的國內建設的語料庫,其中有大部分是與英語相關的,只有少數語料庫是完全用來研究漢語的。
3.1.2 語料庫建設小型化專業化
隨著計算機及網絡技術快速的發展,越來越多的語言學者躋身于語料庫建設中,因其研究方向各異,相比大型綜合型的語料庫,小型的、專業化的語料庫的建設更受青睞。
3.1.3 生語料庫居多
因為缺少建立標準和統一管理,現在國內的語料庫建設雜亂,大多是自建自用,缺乏共享,語料庫中的內容得到標注和重新加工的寥寥無幾,這使得語料庫的使用效率不高,同時也存在著重復性建設。
發展到現在,語料庫己經成為現代語言學研究的重要基礎。語料庫語言學是指以語料庫為基礎的語言學研究方法。關于語料庫語言學的研究有很多文章和專著,而把漢語語料庫建設本身作為一個研究對象來專門進行研究的課題卻不是很多,導致了漢語語料庫建設的規范性不強、缺少系統的理論指導、缺少評測標準等現象,使得當前漢語語料庫建設的質量良莠不齊、重復開發。語料庫的建設牽涉到語言學、計算機科學、概率統計學、文獻學、版權學、管理學等多個學科,建設一個高質量的大型語料庫,是一個人力、物力、時間、金錢開銷都很龐大的工程。因此語料庫建設周期長,難以滿足語料庫語言學發展的需要,難以為語言學研究提供全面、豐富、及時、權威的語料素材。因此,未來進行漢語語料庫建設理論規范性研究、制定統一評判標準,為研究者提供功能豐富、使用方便靈活、效率高的語料庫分析工具,是漢語語料庫未來的發展方向。
[1]段海鵬.近十年語料庫語言學在中國的發展綜述[J].海外英語,2011(11):304-305.
[2]侯敏.計算語言學與漢語自動分析[M].北京:北京廣播學院出版社,1999:155-159.
[3]穆曉麗,尹轉云.語料庫在語言研究方面的應用綜述[J].西安外國語學院報,2001(09):21-26.
[4]甄鳳超,張霞.語料庫語言學發展趨勢瞻望:2003語料庫語言學國際會議綜述[J].外語界,2004(04).
[5]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002.
[6]張艷偉.語料庫語言學的多維角度:2011年中國語料庫語言學大會綜述[J].當代外語研究,2012(09):87-88.