【辭書數(shù)字化研究】摘 要 語料庫技術(shù)經(jīng)歷了人工采集語料、計(jì)算機(jī)語料庫的建立和KWIC檢索、Word Sketch Engine檢索、FrameNet檢索等四個(gè)階段。KWIC檢索方便了詞典編纂者觀察詞的用法;WSE檢索利用統(tǒng)計(jì)數(shù)據(jù)直接歸納詞語的用法;而FrameNet檢索則更進(jìn)一步,對(duì)語義敏感。語料庫技術(shù)的發(fā)展預(yù)示著詞典編纂工具已逐步實(shí)現(xiàn)半自動(dòng)化,應(yīng)得到辭書界的重視。
關(guān)鍵詞 語料庫技術(shù) 詞典編纂 半自動(dòng)化
語料庫技術(shù)在現(xiàn)代詞典編纂中正在發(fā)揮越來越大的作用,已從最初的輔助詞典編纂階段進(jìn)展到詞典半自動(dòng)生成階段。本文著重考察語料庫技術(shù)的各個(gè)階段對(duì)現(xiàn)代詞典編纂的影響。
語料庫技術(shù)的發(fā)展也是詞典編纂工具演變的一個(gè)過程,大致經(jīng)歷四個(gè)階段,即人工采集語料階段、計(jì)算機(jī)語料庫的建立與KWIC(上下文關(guān)鍵詞)檢索階段、Word Sketch Engine(簡稱WSE,詞匯描述引擎)檢索階段和FrameNet(框架網(wǎng))檢索階段。各個(gè)階段有自身的特點(diǎn),都對(duì)現(xiàn)代詞典編纂產(chǎn)生了很大的影響,本文逐一加以論述。
一、人工采集語料階段
計(jì)算機(jī)直到20世紀(jì)80年代中后期才廣泛應(yīng)用于現(xiàn)代詞典編纂。之前,詞典編纂所依賴的語料是靠人工閱讀采集而來。在一個(gè)詞典項(xiàng)目啟動(dòng)前,詞典編纂者須花大量時(shí)間閱讀書籍、報(bào)刊,搜集第一手的語料。他們將閱讀到的認(rèn)為有用的句子或段落劃出,抄寫或打印在資料卡片上,每張卡片均注明出處。這些資料卡片成了詞典編纂工作的基礎(chǔ)。《牛津英語詞典》曾經(jīng)花了23年時(shí)間建立500多萬張資料卡片。
盡管技術(shù)效率不高,傳統(tǒng)的采集語料方法還是成就了《牛津英語詞典》這樣的巨著。不過,總的說來,傳統(tǒng)的方法存在著一些缺陷。首先,采集語料、編寫詞典的方法費(fèi)時(shí)、費(fèi)力。《牛津英語詞典》花了70余年時(shí)間(1858—1928)完成,前三任主編都未能在生前目睹整個(gè)項(xiàng)目的殺青。如今,若再進(jìn)行這樣大的詞典項(xiàng)目,計(jì)算機(jī)語料庫的建立和便捷的檢索工具的使用,無疑將大大縮短編纂時(shí)間。其次,通過人工閱讀采集的資料質(zhì)量不高,不常見的或是不典型的詞語用法時(shí)常會(huì)出現(xiàn)在傳統(tǒng)的資料卡片中。人與電腦的最大不同在于,人往往注意的是新奇的、有特別含義的詞的用法,即注意那些有“心理顯著度”的詞[1],對(duì)常用詞的用法往往充耳不聞。據(jù)載,一位熱心的讀者從一本書中為《牛津英語詞典》資料庫摘取了1000多條引文,但是“只有兩條有用,其余均為從不在英語中使用的阿拉伯語”[2]。由于缺少合適的語料,《牛津英語詞典》編纂者常常為以實(shí)例解釋一些常用詞的用法而絞盡腦汁。總之,傳統(tǒng)采集語料、建立卡片的做法很難適用于現(xiàn)代詞典編纂。
二、計(jì)算機(jī)語料庫的建立與KWIC檢索工具的開發(fā)階段
計(jì)算機(jī)語料庫的建立和檢索工具的開發(fā)大大改觀了現(xiàn)代詞典編纂的局面。詞典編纂者無須為采集語料而犯愁。他們可以將更多時(shí)間投入到詞典編纂的實(shí)質(zhì)性工作(如釋義、詞匯用法說明等)中。
第一個(gè)計(jì)算機(jī)英語語料庫是20世紀(jì)60年代初誕生在美國的布朗語料庫,而第一個(gè)用于英語詞典編纂的計(jì)算機(jī)語料庫是80年代的COBUILD語料庫(現(xiàn)已是收詞近4億的Bank of English語料庫)。
無論就語料庫的規(guī)模、覆蓋面、典型性還是平衡性而言,計(jì)算機(jī)語料庫都優(yōu)于傳統(tǒng)的卡片資料庫。目前,很多計(jì)算機(jī)英語語料庫含詞100萬以上,有些語料庫甚至超過了1億詞。早先的卡片資料庫的語料主要源自文學(xué)作品,局限于對(duì)書面語的記錄;計(jì)算機(jī)語料庫則覆蓋面廣,包括各種類型的文本,有的語料還反映了口語的使用狀況[3],并且語料樣本的類型和數(shù)量都是事先規(guī)劃好的,確保了語料的典型性和平衡性。顯然,計(jì)算機(jī)語料庫大大方便了詞典編纂者觀察和描述詞的用法。
為了提取語料庫中的信息,多種英語語料庫檢索工具得以開發(fā),如WordSmith,Sara,TACT,MonoConc Pro等[4]。這些檢索工具的一個(gè)共同特點(diǎn)是通過KWIC形式,將被檢索詞置于上下文中,顯示其用法。例如,利用WordSmith工具在FLOB語料庫中檢索單詞“conclude”并觀察它的用法,不難發(fā)現(xiàn)“conclude”后常接that從句,如圖1所示。
不過,通過KWIC檢索時(shí),檢索得到的語料行數(shù)不能太多,否則就難以觀察。詞典編纂者常在時(shí)間較緊的情況下,借助語料庫觀察或驗(yàn)證某個(gè)常用詞的用法,大型語料庫卻常顯示這些詞(如“make”)的大量實(shí)例用法,編者不可能逐一閱讀。因此,盡管KWIC檢索有可能顯示詞的典型用法,但還是有其局限性,即缺少對(duì)檢索結(jié)果的概括、小結(jié)。
三、Word Sketch Engine檢索階段
英國Brighton大學(xué)的Kilgrarriff和Tugwell等人開發(fā)的軟件“Word Sketch Engine”[5]可看作是第二代的語料庫詞典編纂工具。它較直觀地顯示詞的常見搭配以及出現(xiàn)頻率和顯著度(salience)。這些信息對(duì)于詞典編纂而言尤為重要。仍以檢索“conclude”為例,WSE檢索結(jié)果分三欄排列:第一欄顯示被檢索詞的搭配或句法結(jié)構(gòu);第二欄為每一搭配或結(jié)構(gòu)在英國國家語料庫(British National Corpus)中的頻數(shù);第三欄則是搭配或結(jié)構(gòu)的顯著度。例如,“conclude between”在該語料庫中出現(xiàn)27次,其顯著度為1.9,如圖2所示。
圖2 WSE檢索單詞“conclude”WSE檢索至少在四個(gè)方面有利于詞典編纂。首先,它明確顯示被檢索詞的常見搭配和句法結(jié)構(gòu);KWIC檢索卻要求編者自己辨別這些信息。其次,詞頻、顯著度等統(tǒng)計(jì)數(shù)據(jù)進(jìn)一步說明某一詞的哪些搭配或結(jié)構(gòu)比較典型。例如,根據(jù)上述WSE檢索結(jié)果,“conclude”常出現(xiàn)在“~ by doing sth.,~between states,~with a discussion/a plea/an examination,~an agreement/a treaty/a negotiation/a deal,~ to do sth.,~thatclause”等搭配或結(jié)構(gòu)中。這些信息是詞典編纂必需的,而第一代語料庫檢索工具卻無法自動(dòng)顯示。第三,WSE檢索區(qū)分了被檢索詞作為不同詞類時(shí)的用法。例如,“save”作動(dòng)詞、名詞和介詞的用法可通過WSE分別檢索出來。第四,WSE檢索“可在屏幕下方即刻用實(shí)例顯示屏幕上方所列的搭配或結(jié)構(gòu)的用法”[6],這對(duì)于詞典編纂者選取例證非常有用。例如,要為“conclude with a plea”找到一個(gè)合適的例證,點(diǎn)擊圖2中“~(with) plea”的數(shù)字5,便可得到表1所示結(jié)果。
簡而言之,WSE檢索省去了詞典編纂者篩選語料、概括詞的用法的麻煩[7]。它的直接顯示相關(guān)的統(tǒng)計(jì)數(shù)字、識(shí)別被檢索詞的詞性等功能,都有助于詞典編纂者判斷某一用法的典型性。詞典編纂者還可從WSE檢索結(jié)果中挑選合適的例證。WSE檢索工具已經(jīng)商業(yè)化,如用于編纂《麥克米倫英語詞典》等,還輔助開發(fā)了英語義類詞典。
四、FrameNet檢索階段
FrameNet檢索[8]屬于第三代語料庫詞典編纂工具,它繼承了前兩代檢索工具的優(yōu)點(diǎn),而且對(duì)詞義更敏感。我們知道,一個(gè)詞經(jīng)常有多種用法。詞的搭配及句法結(jié)構(gòu)常隨詞義改變而變化。“詞的每一顯著意義在形式上都有顯著差別”。因此,傳統(tǒng)上說的詞的搭配結(jié)構(gòu)實(shí)際上是指詞在具體意義中的用法。美國加州大學(xué)伯克利分校目前進(jìn)行的FrameNet項(xiàng)目,就標(biāo)志著語料庫檢索工具的新進(jìn)展。FrameNet不僅可區(qū)分詞的義項(xiàng),而且能顯示詞在每一義項(xiàng)中的語義和句法配價(jià)。
用FrameNet檢索單詞“conclude”,可獲得如圖3所示結(jié)果。
FrameNet檢索單詞“conclude”FrameNet顯示出“conclude”的兩個(gè)主要義項(xiàng)(或“框架”)。一個(gè)大意是“Comingtobelieve”(“逐漸認(rèn)為”),另一個(gè)指“Processend”(“過程結(jié)束”)。點(diǎn)擊任一義項(xiàng)(或框架),可得到進(jìn)一步的語言信息。例如,當(dāng)“conclude”意為“Comingtobelieve”時(shí),它須包含“cognizer”(認(rèn)知者)、“content”(內(nèi)容)、“evidence”(證據(jù))、“topic”(主題)等成分。
FrameNet還含有實(shí)例,顯示詞義的用法。例如,要例釋“conclude”的第一個(gè)義項(xiàng),點(diǎn)擊圖3第一行的“conclude”便可得到如圖4所示結(jié)果。
這些實(shí)例加之相關(guān)的框架語義信息,為詞條“conclude”提供了接近成型的編纂材料,稍作編輯、加工,就能形成英語詞典中的一個(gè)詞條。顯然,F(xiàn)rameNet使詞典編纂半自動(dòng)化又向前邁進(jìn)了一大步。
語料庫技術(shù)的不斷發(fā)展為詞典編纂增添了活力。可以說,人工采集語料編纂詞典的方法將逐漸退出歷史舞臺(tái);取而代之的是計(jì)算機(jī)語料庫及語料庫檢索工具在詞典編纂中的廣泛運(yùn)用。KWIC檢索可輔助詞典編纂,而新一代的WSE和FrameNet檢索工具則大大提高了對(duì)語料庫中語料的語法、語義等信息的提取程度,使詞典編纂逐步達(dá)到半自動(dòng)化程度。對(duì)于這些語料庫檢索工具的了解和掌握,將會(huì)促進(jìn)我國英語詞典的發(fā)展。
附 注
[1]Hanks P. Evidence and Intuition in Lexicography.∥Tomaszczyk LewandowskaTomaszczyk (eds.) .Meaning and Grammar. Amsterdam:John Benjamins Publishing Company,1990.
[2]Murray K M E. Caught in the Web of Words:James Murray and the Oxford English Dictionary. Oxford:Oxford University Press,1977.
[3]Sinclair J. Corpus, Concordance, Collocation. Oxford:Oxford University Press, 1991.
[4]有關(guān)WordSmith,Sara,TACT,MonoConc Pro等檢索工具的介紹,可分別參見下列網(wǎng)址:http:∥www.lexically.net/wordsmith/;http:∥www.natcorp.ox.ac.uk/SARA/;http:∥tactweb.humanities.mcmaster.ca/;http:∥www.athel.com/mono.html/.
[5]Word Sketch Engine的相關(guān)信息,參見http:∥www.sketchengine.co.uk/.
[6]Atkins B T S,Rundell M,Sato H. The Contribution of FrameNet to Practical Lexicography. International Journal of Lexicography,2003(3).
[7]Kilgarriff A,Tugwell D. WASPBench:an MT Lexicographers' Workstation Supporting Stateoftheart Lexical Disambiguation. ∥Proceedings of MT Summit Ⅶ .Santiago:de Compostela,2001.
[8]FrameNet的相關(guān)信息,參見http:∥framenet.icsi.berkeley.edu/index.php/.
(廣東外語外貿(mào)大學(xué)外國語言學(xué)及應(yīng)用語言學(xué)研究中心
廣州 510420)
(責(zé)任編輯 宋 嵐)
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”