唐小寶
摘 要:近年來,在詞典學和語料庫語言學的碰撞融合下,產(chǎn)生了一門新興的交叉學科——語料庫詞典學。作為計算詞典學的重要組成成分,語料庫詞典學的影響日益深遠。本文將對語料庫詞典學的發(fā)展過程進行簡要介紹,探討其發(fā)展的局限性,并對語料庫詞典學的發(fā)展趨勢進行分析預(yù)測。
關(guān)鍵詞:語料庫詞典料庫 發(fā)展過程 趨勢預(yù)測
中圖分類號:H03 文獻標識碼:A 文章編號:1003-9082(2018)11-0-02
隨著語料庫在詞典學領(lǐng)域的廣泛應(yīng)用,產(chǎn)生了許多新的概念。“語料庫驅(qū)動詞典學”、“基于語料庫的詞典學”和“語料庫輔助詞典學”等說法層出不窮,語料庫與詞典的關(guān)系也日趨密切。仔細探究這些新概念,發(fā)現(xiàn)它們實際上是新技術(shù)、新學說與老傳統(tǒng)的嫁接物。新技術(shù)主要是日益發(fā)展的計算機應(yīng)用技術(shù)和網(wǎng)絡(luò)技術(shù),而新學說主要是語言學新理論及其日益豐富的研究成果。
實際上,詞典學與語料庫的關(guān)系一直十分密切,有著不解之緣。詞典是對大自然語言的描寫,而語料庫則是語言能力的應(yīng)用。語料庫語言學的技術(shù)方法使得詞典的編纂發(fā)生了翻天覆地的變化,詞典學也掀起了語料庫的革命。事實證明,詞典與語料庫的結(jié)合是時代與詞典學發(fā)展的必然結(jié)果,語料庫詞典學也由此應(yīng)運而生。
一、語料庫詞典學的興起與發(fā)展
1.語料庫語言學與詞典學的結(jié)合
語料庫原本是指為特定的目搜集的一批材料,然而隨著語料庫與計算機技術(shù)結(jié)合之后,其含義發(fā)生了變化,指的是“在一種語言中或多或少具有一定代表性的文本、話語的匯集,包括書面語、口語,通常以電子數(shù)據(jù)的形式存儲”。而語料庫語言學指的是以語料庫為手段,來對語言進行研究和分析的一門特色學科。這種新的研究思路,為人們處理大規(guī)模真實文本開辟了方法。之后,語料庫語言學的研究著眼于“關(guān)聯(lián)模式”的辨認和分析,即一種語言特征與其他語言特征及非語言特征的系統(tǒng)聯(lián)系。這種研究不僅可以使我們更全面地了解某一語言特征,還可以提取研究各種文本和變體的特征。而這些內(nèi)容正是詞典學所需要的,具有重要的研究價值。于是,詞典學就自然而然地與語料庫語言學結(jié)合起來,誕生出一個新的交叉學科——語料庫詞典學。
2.語料庫詞典學的早期發(fā)展
在計算機技術(shù)興起之前,早期語料庫詞典學的雛形是傳統(tǒng)的詞典學研究方法。傳統(tǒng)的詞典編纂方法使用的是卡片和閱讀項目組,這些方法的代價高、效率低,具有以下兩點顯著的不足:首先,早期的語料收集缺乏代表性,其內(nèi)容大多由收集者的興趣決定,這就與詞典編纂所要求的“規(guī)范性”和“正規(guī)性”相違背;此外,由于當時學界對書面語的重視程度遠遠高于口語,早期語料庫詞典學的內(nèi)容大多是基于書面語的,其所包含的口語信息非常的有限。一方面,傳統(tǒng)詞典研究觀念沒能及時進行轉(zhuǎn)變,加之當時的語料收集、處理、存儲手段非常落后,早期的語料庫詞典學未能取得研究者的廣泛關(guān)注,語料庫詞典學的地位也沒能得到提升。
3.計算機化時代下的語料庫詞典學
1980年可視為語料庫詞典學的“零年”,這一點顯而易見(并且相當準確)。這一年中,由 Sinclair主持的COBUILD 語料庫項目正式啟動。在1987年,該項目所編纂出的第一部以語料庫為基礎(chǔ)的詞典投入使用,這標志著語料庫詞典學的興起。語料庫詞典學的興起為傳統(tǒng)詞典編纂帶來了根本性變革,短短十年之內(nèi),所有主要的英語學習詞典出版社都把語料庫作為其首要的語料來源。后來,隨著計算機技術(shù)的迅猛發(fā)展,語料庫規(guī)模不斷擴大,收集手段不斷更新,詞典編纂更為正規(guī),語料庫詞典學也逐漸得到大家的重視。如今,因特網(wǎng)和人工智能的出現(xiàn)為語料庫詞典學的發(fā)展帶來了更多機會,語料庫詞典學在實際生活中有了更大的應(yīng)用空間。
二、詞典與語料庫的結(jié)合是必然所需
1.詞典與語料庫相輔相成
詞典學與語料庫語言學本是兩個相互獨立的學科,之所以能夠結(jié)合在一起,是因為二者能夠相互影響、相互促進。詞典與語料庫相輔相成,結(jié)合是必然所需。從詞典學的角度來看,無論是詞典編纂還是語言研究、自然語言處理,都離不開大規(guī)模語料的支持。傳統(tǒng)的載體紙張顯然無法滿足詞典的實際需求,這就需要能夠存儲海量數(shù)據(jù)的語料庫來幫助。在語料庫的幫助之下,詞典學的研究視角得到了極大的擴展,詞典功能也從單一的查詢面向機器翻譯、信息檢索等自然語言處理領(lǐng)域。
與此同時,借助于語料庫的詞典編纂也對語料庫的發(fā)展起到了潛移默化的影響。不僅語料庫的規(guī)模在不斷擴大,由于詞典編纂要求非常嚴格,語料庫的設(shè)計和建設(shè)也要符合相應(yīng)的標準,于是語料庫語言學的相應(yīng)研究也就更為細致。在與詞典學結(jié)合之后,語料庫有了以下兩點顯著發(fā)展:一是地區(qū)性和國際性語料庫的建設(shè)開始興起;二是語料庫的設(shè)計框架開始朝著多語言的方向發(fā)展。正是由于詞典與語料庫這種相輔相成的關(guān)系,才使得語料庫詞典學的出現(xiàn)成為必然。
2.語料庫詞典學的優(yōu)勢
語料庫詞典學的優(yōu)勢可以體現(xiàn)在收集語料、分析語料和編寫詞典這三個方面。在收集語料階段,語料庫詞典學利用計算機取代了人工工作,有效節(jié)省了在語料收集時所耗費的資源,提升了收集的效率和質(zhì)量。此外,因特網(wǎng)以及其他軟件工具的出現(xiàn),使我們能夠構(gòu)建比傳統(tǒng)詞典大得多的語料庫;在分析語料階段,傳統(tǒng)詞典編纂方法需要對語料進行人工分類、比較和推敲,這是一項非常艱巨且繁重的工作。而在語料庫詞典學中,在“索引表”等工具的幫助下,完成同樣的工作只需短短幾秒鐘的時間;在編寫詞典階段,語料庫詞典學所編寫的詞典可以面向自然語言處理的許多領(lǐng)域,具有很好的實際應(yīng)用價值。語料庫詞典學不僅可以利用語料庫生成普通詞典,還可以開發(fā)能夠自動提取信息的詞典。語料庫詞典學的研究者還注重在線詞庫和詞匯語義庫的建設(shè),我們熟悉的WordNet和FrameNet就是其中之一。
三、語料庫詞典學的發(fā)展局限
雖然語料庫詞典學的優(yōu)勢是顯而易見的,我們還要注意到語料庫詞典學的發(fā)展局限,并非所有的問題都可以通過語料庫進行解決。
1.語料庫詞典學的補充性
語料庫詞典學最突出的一個優(yōu)勢就是利用計算機等工具取代了傳統(tǒng)的人工編纂。一些人會這樣認為,有了快捷的方法傳統(tǒng)方法就可以完全被代替,在詞典的編纂過程中不再需要人工操作。實際上,語料庫技術(shù)的作用雖然不能被忽視,但卻無法完全取代傳統(tǒng)的詞典學。當語料庫的規(guī)模不夠大,或者語料庫中存儲的語料不具有足夠的代表性時,詞典編纂工作就會遇到一些困難。此外,當遇到一些具有很強語域限制性的詞義時,這些詞義在一般性語篇中出現(xiàn)的非常少,語料庫詞典學也不能很好地處理這種情況。所以通過上述情況我們可以看出,基于語料庫的語言分析的補充性。也就是說,語料庫詞典學只能是傳統(tǒng)詞典學的補充,它不能完全取代傳統(tǒng)詞典學,我們不能忽略在詞典編纂過程中人的經(jīng)驗所起到的作用。
2.過度依賴分析工具
基于語料庫開發(fā)詞典,其開發(fā)效果很大程度上取決于所使用的分析工具。從這個角度看,語料庫詞典學過度依賴開發(fā)工具,也說明了它無法取代傳統(tǒng)詞典學,只能起到補充作用。在實際開發(fā)過程中,語料庫分析工具常常與語料庫的規(guī)模大小產(chǎn)生“矛盾”。詞典編纂對語料庫的要求之一就是,規(guī)模越大越好,覆蓋越全面越好。但是在語料庫規(guī)模擴大的過程中,就會對分析工具構(gòu)成相應(yīng)的困難。就拿檢索工具來說,面對一個超大規(guī)模語料庫,光是完全掃描語料就非常困難了,何談進行分析檢索。所以,語料庫詞典學要想發(fā)揮優(yōu)勢,就離不開一個好的分析工具。有些分析工具還會對語料庫提出相應(yīng)的要求,其分析的效果是與語料庫的“代表性”掛鉤的。但是代表性問題一直是語料庫研究過程中的一個關(guān)鍵性問題,如何界定“代表”的標準是非常困難的,就算是找到一種語言中的一部分的代表都非常困難,更不用說代表一個語言了。從上面兩個角度我們可以看出,語料庫與開發(fā)工具之間的依賴關(guān)系,也在一定程度上限制了語料庫詞典學的發(fā)展。
四、語料庫詞典學的趨勢預(yù)測
1.面向詞典的深加工語料庫
在我國,語料庫詞典學雖然有了一定的發(fā)展,北京大學、北京語言大學和國家社會科學院等多家機構(gòu)也進行了研究并取得了一定的成果,但是他們所開發(fā)的語料庫大多是面向自然語言處理研究的。在國外,許多大型的語料庫都是面向詞典編纂而構(gòu)建的,這種語料庫能更好地為詞典編纂服務(wù)。此外,對語料庫進行深加工,構(gòu)建可以用于詞典學研究和詞典編纂的語料庫是大勢所趨,尤其是從語料庫中加工提取對辭書編纂有用的原型詞匯語義結(jié)構(gòu)和其他語言屬性。因此,構(gòu)建面向詞典開發(fā)的、經(jīng)過深層次加工處理的語料庫符合語料庫詞典學的發(fā)展方向,也是語料庫詞典學研究者所要解決的主要任務(wù)之一。
2.提供“顯性”數(shù)據(jù)
以前,我們在使用詞典時是看不見詞典“背后”是什么的,只能單純地使用詞典為我們提供的具體功能。那些隱藏在詞典背后的數(shù)據(jù)庫數(shù)據(jù)只能被詞典的編纂者接觸,而對詞典的使用者“屏蔽”。在近幾年中,這些“隱藏”的數(shù)據(jù)逐漸向詞典的使用者開放,詞典的信息正以一種越來越顯性的方式呈現(xiàn)在我們面前,比如說詞典的使用者可以查看有關(guān)的例證、獲取有關(guān)詞頻和搭配方面的信息等等。
但這只是一個過渡階段,因為我們即將迎來新的變化,這些新變化將為我們帶來更多令人激動的新的可能。目前詞典所展示的都是其編纂者對現(xiàn)有語言數(shù)據(jù)的選擇和提煉,但是我們可以構(gòu)建一種“顯性”詞典,就是它可以讓使用者自己看到這些語言數(shù)據(jù),然后他們自己總結(jié)出語詞的意義和用法。這種詞典的顯性應(yīng)用雖然可能面臨許多困難與挑戰(zhàn),但是不失為語料庫詞典學的發(fā)展方向之一
3.根據(jù)使用者能力區(qū)分
為詞典用戶提供“顯性”數(shù)據(jù)所面臨的主要困難就是,詞典的使用者可能會被龐大的數(shù)據(jù)庫數(shù)據(jù)所嚇到,甚至數(shù)據(jù)庫中所存儲的一些復(fù)雜內(nèi)容會讓學習者更為困惑。詞典編纂的最后階段本來就是最為復(fù)雜的,為了解決這種顯性應(yīng)用過程中出現(xiàn)的障礙,可以根據(jù)詞典使用者的能力高低開發(fā)適合于不同層次學習者的語料庫,同時加強語料庫的易讀性建設(shè),使語料庫更貼近使用者,能被用戶更好地利用。當這些障礙被清除之后,將會對傳統(tǒng)的詞典編纂帶來根本性變化,語料庫詞典學的發(fā)展也是可想而知。
結(jié)語
語料庫詞典學是語料庫語言學和詞典學結(jié)合的產(chǎn)物,作為計算語言學的重要組成部分,具有很高的研究價值。語料庫詞典學經(jīng)歷了兩個發(fā)展過程,在計算機技術(shù)的幫助之下地位逐漸提升,在詞典編纂領(lǐng)域發(fā)揮著不可替代的作用。但我們也不能過分吹噓語料庫詞典學,也要觀察到其發(fā)展的局限性,提出相應(yīng)的解決方法,將語料庫詞典學與新的技術(shù)成果相結(jié)合。本文只是對語料庫詞典學進行簡要的介紹,作為一門交叉學科,語料庫詞典學涉及語料庫語言學、詞典學、計算機科學等多門學科,所涵蓋的內(nèi)容非常的廣泛。要想真正了解語料庫詞典學中的奧秘,還需要我們進行仔細的研究。但是我們可以相信,隨著語料庫詞典學的不斷發(fā)展,詞典編纂的工作也將變得越來越簡單高效。
參考文獻
[1]本研究受到國家自然科學基金重大項目“多語言言語識別基礎(chǔ)理論與建模方法”(項目編號:11590771)的重大支持。
[2]王馥芳.語料庫詞典學的興起與發(fā)展[J].辭書研究,2004,( 5):45.
[3]章宜華.計算詞典學[M].上海:上海辭書出版社,2011.
[4]Biber et al.Corpus Linguistics Investigating Lan-guage Structure and Use .Cambridge :Cambridge University Press , 1998 .
[5]夏立新.語料庫詞典學的最新發(fā)展和未來趨勢(上)[J].辭書與數(shù)字化,2009,(3):75.
[6]夏立新.語料庫詞典學的最新發(fā)展和未來趨勢(下)[J].辭書與數(shù)字化,2009,(4):88.