摘要 計算詞典學是一門詞典學與計算機科學結合的新興學科,是推動辭書現(xiàn)代化發(fā)展的理論保證。本文結合國內外計算詞典學研究的特點來探討這一新學科的基本理論框架,包括計算詞典學的性質、任務及其研究方向或范圍,以利辭書工作者根據(jù)實際情況確定自己的研究方向,切實推動計算詞典學在我國的發(fā)展。
關鍵詞 計算詞典學 語料庫 電子詞典 詞典數(shù)據(jù)庫 計算機輔助詞典編纂
詞典與計算機技術的結合產(chǎn)生了一種新的詞典學理論——計算詞典學。國外自20世紀60—70年代就開始了計算詞典學的理論研究,到80—90年代其理論框架和研究范圍漸漸趨于明朗。著名的詞典學刊物Lexicographica在1988年出了“計算詞典學和計算語言學專輯”。Boguraev等人在1989年出版了《自然語言處理中的計算詞典學》一書,Zampolli的《計算機詞庫》和Eynde等人的《話語和語言處理詞庫的開發(fā)》都對計算詞典學的相關問題作了深入的探討。近年,有關語料庫詞典學的著述也有不少,最具代表性的是Ooi的《計算機語料庫詞典學》。有關計算詞典學的論文更是不計其數(shù)。在我國辭書界,學者們雖然對計算詞典學的研究也十分感興趣,但系統(tǒng)的研究才剛剛開始。為了明確計算詞典學的研究方向和研究任務,有必要對其理論框架作一探討。
一、計算詞典學概述
從計算詞典學這個術語的構造來看,它是個偏正詞組,可以解釋為以計算機技術為手段、以詞典學研究為目的的學問。詞典學是研究詞典編纂理論和實踐的學科,計算詞典學當然不能背離這個范圍。通俗地講,詞典學反映的是傳統(tǒng)詞典研究和編纂的范式,而計算詞典學反映的則是基于現(xiàn)代化技術的新型詞典研究和編纂的方法論。計算機信息技術和多媒體技術無疑給詞典學提供了絕佳的工具。
計算機在資料的存儲、提取、分析、傳播、交換以及語料庫設計和詞典編纂等方面,為詞典學的研究提供了堅實的基礎;另一方面,在自然語言處理中,也需要大型詞庫或電子詞典來加強數(shù)據(jù)處理能力,這些外因也對計算詞典學的產(chǎn)生和發(fā)展起到了重要作用。從這種意義上講,“計算詞典學”的任務是開發(fā)印刷文本詞典的機讀版本或計算機使用的詞典數(shù)據(jù)庫。
外國學者(Amsler,Ooi,Hartmann,Bennett等)對計算詞典學有不同的定義。從形成的歷史來看,計算詞典學首先是解決詞典知識內容的“電子化”和“機讀性”問題,研究詞典數(shù)據(jù)庫的計算機自動讀取、自動識別、自動轉換;其次是研究如何使用計算機進行詞典的輔助編纂、編輯和修訂,力爭在不遠的將來達到詞典編纂和修訂半自動化的目標,最終向基本自動化的方向發(fā)展;其三是對現(xiàn)有的印刷版詞典進行電子化改造,或設計編纂專門供人閱讀的包括網(wǎng)絡詞典在內的電子詞典。
在詞典數(shù)據(jù)處理和詞典編纂數(shù)字化方面,除眾所周知的計算機輔助詞典編纂之外,還有真實連續(xù)文本的分析以及詞匯的索引和提取。通過索引的方法調查和分析有關語詞在自然話語中的分布,以便考察詞的語法、語義和語用等功能屬性,獲取詞項的功能和用法特征,同時得到詞的義項分布或劃分的根據(jù)。
總的來說,計算詞典學研究如何實現(xiàn)詞典語料處理電子化,詞典編纂半自動化或自動化,詞典編排形式化,詞典載體數(shù)字化,詞典查檢智能化,詞典信息表述多媒體化。研究的主要內容是:語料的搜集與處理、義項劃分的數(shù)據(jù)支持、綜合語義分析、例句的提取、輔助詞典編纂、詞典數(shù)據(jù)庫的建設、語料庫和數(shù)據(jù)庫的管理、詞典的半自動或自動化生成、詞典信息統(tǒng)計、詞典編纂管理、詞典導出接口,等等。
二、計算詞典學與相關學科
計算詞典學的技術基礎是計算語言學,它主要研究計算機自然語言處理(NLP),包括對書面和口頭語言各個層面的信息進行處理和加工的技術;計算語言學的研究成果要融入詞典學才能為詞典編纂實踐所利用。語料庫詞典學綜合或吸取了計算語言學、計算詞典學和語料庫語言學的觀點和方法,主要致力于基于語料庫的詞典編纂原則和實踐的研究。
計算詞典學的理論基礎是計算詞匯學,它研究的是計算機在詞庫研究中的應用,特別是詞庫的計算表征、詞匯數(shù)據(jù)的計算方法以及計算機化詞庫與自然語言處理系統(tǒng)各部分之間的關系,包括用計算機模擬的方式研究人類自然詞匯認知和習得過程中的心理表征,詞匯信息在心理詞庫中的排列結構、存儲方式和提取、組配方法,詞匯意義形成的機制等問題。計算詞匯學與計算詞典學的區(qū)別在于,前者著重于詞匯(或詞庫)語法功能和語義結構的研究,而后者則著重于語法功能和語義結構的描寫,但分析與描寫是統(tǒng)一的,相輔相成的。
三、計算詞典學的主要研究方向
計算詞典學是一個跨學科的研究領域,在長期的研究中已發(fā)展成為一門相對獨立的學科,有一整套的研究方法和比較明確的研究方向。
(一)語料庫詞典學
語料庫詞典學是語料庫與詞典學的有機結合,其基礎是語料庫語言學。語料庫語言學提出了以計算機語料庫為基礎的語言學研究及自然語言處理的新思路,為當代學習詞典以及大型理解型詞典的編纂提供了新的途徑,能滿足當代詞典用戶的需求。語料庫語言學的學科性質和研究焦點是:1)語言運用;2)語言描述;3)語言的定量和定性模型;4)經(jīng)驗論。根據(jù)這個觀點,基于語料庫的詞典學理論和詞典編纂研究就可以稱為語料庫詞典學。
1.語料庫詞典學的性質特征
語料庫可運用于語言學的任何一個分支,也就是說,語言學各個方向都可以以機讀語料庫為依據(jù),以相應的計算機技術為手段進行研究。語料庫詞典學的研究范圍包括三個方面:1)語料庫的建立,包括語料的導入、切分、標注、排列和存儲等;2)語料庫的管理,包括語料的補充與更新、語料的數(shù)據(jù)統(tǒng)計、詞表的生成、例句的生成、例句管理等;3)語料庫的使用,包括語料的查詢、例句的導出和應用、利用語料生成詞典專用或通用數(shù)據(jù)庫等。對于詞典數(shù)據(jù)庫,Sinclair和Atkins提出了一種新的方法論來測評詞匯言語行為實例,以構建一個比傳統(tǒng)詞庫更全面、更連貫、更一致的語料集。Atkins將此研究方法稱為語料庫詞典學。Kim認為,詞典語料可以看作語言/詞匯知識的表征,它分為兩個層次——概念結構和計算結構。概念結構是適于人類理解的格式,而計算結構或軟件結構則是適于計算機操作的格式。計算結構的特點是結構明晰,且直接反映概念結構;而概念結構則有助于形成理論型通用或綜合語言詞典,詞典學家可以利用這種詞典中的各類知識結構來構造某一特定語域范圍的詞典。
2.語料庫的建設
第一個具有代表性的百萬級計算機語料庫——布朗語料庫,于1964年在布朗大學建成。此后,國際上建成的語料庫不計其數(shù)。在這方面做得最成功的是英國。朗文、牛津、劍橋和柯林斯四大詞典的出版機構都在20世紀80一90年代建成了自己的詞典語料庫。其中COBUILD語料庫(即The Bank of English)是一個典型代表。它是柯林斯出版公司與伯明翰大學的合作項目,從1982年投入使用以來一直沒有停止過自身的擴展,語料庫的規(guī)模已達5億詞。我國語料庫的建設從1979年開始,與國際上語料庫二次興起的時間基本同步。雖然起步較晚,但發(fā)展勢頭迅猛,在之后的20多年時間內,建成了大量的各類語料庫;但這些語料庫大多是為機器翻譯或自然語言處理而建的,且規(guī)模一般較小或大“專業(yè)化”,很少有能投入商業(yè)運行的,能用于詞典編纂的成熟語料庫就更少了。
從理論上來講,語料庫的建設應注意這樣幾個方面的問題:一是語料庫的基本特征,即語料庫的設計應具有一定的目的性,語料的提取應具有真實性、典型性,語料的處理應具有機讀性、標準性。二是語料庫的功能性,即詞典語料庫應具備語料管理功能、索引功能、統(tǒng)計功能、標注功能、語音分析功能、詞典編纂功能。三是語料庫的類別,即從構建目的性、語言種類、語言形式、語言應用,以及語料分布、處理程度和存儲媒介等角度來看,可以劃分為多種不同的語料庫。
3.語料庫的應用
20世紀70年代末以來,語料庫首先開始在英語學習詞典的編纂中得以應用。“牛津詞典”特別注意幫助用戶掌握動詞的句法模式,對被釋義詞提供詳盡的搭配結構,并配有豐富的句子和短語例證;“朗文詞典”構建了適應用戶認知規(guī)律的宏觀結構和微觀結構,并用專門的“釋義詞匯”進行釋義。這些都是用計算機程序來保證的。第一版“柯林斯詞典”是為高級英語學習者編寫的。該詞典可以說不是編成的,而是在有7300萬條詞的強大數(shù)據(jù)庫上“生成”的。基于語料庫的詞典信息實用、可靠,為學習詞典的成功作出了寶貴的貢獻。柯林斯詞典的不凡之處是完全用計算機完成了傳統(tǒng)詞典編纂所必須手工做的四個階段——數(shù)據(jù)收集、選目、立目和詞條的編排。
(二)電子詞典
電子詞典這一概念的提出始于上世紀40年代末期美國人對自然語言處理或機器翻譯的研究。到50—60年代中期,電子詞典曾引起人們的高度重視,但后來卻一度停滯不前,其根本原因是電子詞典在機讀問題上難以取得進展。進入80年代后,電子詞典的開發(fā)又進入了活躍期。
電子詞典是與印刷版詞典相對的,它是以光盤、磁盤、磁光盤、優(yōu)盤及芯片等光電磁介質作載體,并可借助微型處理器及相關設施進行查詢和閱讀的詞典。Hartmann和James把電子詞典定義為:一種利用電腦及相關技術把信息呈現(xiàn)于屏幕上的工具書。根據(jù)其用途,電子詞典可分為兩大類:1)供人查閱的非編碼自然語言詞典;2)供機器翻譯或自然語言處理所用的經(jīng)編碼處理的計算機語言詞典。在這兩類詞典中,按所涉及的語言數(shù)量,又可分為單語、雙語和多語詞典;按源語和目的語的解釋關系,可分為單向詞典、雙向詞典或多向互動詞典。供人查閱的非編碼自然語言詞典,是以自然語言的文本形式,用計算機輸入、存儲、顯示和閱讀的。它是一個龐大的知識信息庫,既可用作一般使用者的查詢工具,又可供專門的語言研究和詞匯數(shù)據(jù)庫研究之用。供機器閱讀的是經(jīng)編碼處理的計算機語言詞典,它是用計算機語言編碼的形式對自然語言進行存儲和傳輸?shù)模饕糜跈C器翻譯(MT)或自然語言處理(NLP)。一套機器翻譯系統(tǒng)需要多種編碼詞典的配合,一般有單語語言詞典、雙語詞典、搭配詞典、概念詞典和專業(yè)詞典等。
廣義的電子詞典包括儲存于光、電、磁等介質上的各類普通和專科詞典、百科全書、多語術語數(shù)據(jù)庫,翻譯系統(tǒng)中的機器詞典、詞庫或數(shù)據(jù)庫,互聯(lián)網(wǎng)上超鏈接的各類網(wǎng)絡詞典和數(shù)據(jù)庫,以及文字處理平臺或編輯器(如WORD)中的拼寫檢查器和運用電腦尋找同義詞、近義詞以及相似概念的類義詞典(thesaurus)等。如果拋開載體不論,電子詞典實際上是由語言數(shù)據(jù)、相關語料和語言處理技術構成的超文本語言文字信息框架。以實質而論,電子詞典包含了關于語言應用的普通知識和形式化語言處理的技巧,是一個機器可讀的自然語言知識庫。
(三)詞典數(shù)據(jù)庫
詞典數(shù)據(jù)庫是計算機詞庫與詞典編纂的結合,而計算機詞庫則用計算機信息技術來模擬人的心理詞庫,旨在自動解釋和理解自然語言。詞庫與詞典之間的關系或區(qū)別在于:詞庫是由語言學理論定義的一個實體,而詞典則是用一定的格式表述詞庫中某一方面信息的文本。詞庫的研究主要針對自然語言處理。西方語言學認為,語言的自然理解必須經(jīng)過四個層面的處理:a)謂項結構(argument structure);b)事件結構(event structure);c)內在特征結構(qualia structure);d)繼承結構(inheritance structure)。目前,國際上具有代表性的計算機詞庫或數(shù)據(jù)庫有:WordNet(詞網(wǎng)),F(xiàn)rameNet(框架網(wǎng)),MindNet(智網(wǎng))。這些網(wǎng)的主要特點,是通過描寫語義框架(配價)結構及框架元素的選擇限制(包括語義類別[semantic class]和詞體[lexical aspect])或是描寫語言的系統(tǒng)關系(如同義關系、反義關系、上下位關系、部分一整體關系、蘊涵關系、屬性—宿主關系等)來揭示語詞的心理表征。
詞典數(shù)據(jù)庫是利用心理詞庫中信息組織的原理和方法,按詞典微觀數(shù)據(jù)結構形式構建的詞典知識庫,用于詞典的輔助編纂和修訂,以及詞典的自動或半自動生成。國外對詞典數(shù)據(jù)庫或詞庫等的現(xiàn)代化處理技術研究,大多建立在學術研究的基礎上,有系統(tǒng)的理論支持,整個項目構成完整的理論體系。如美國的FrameNet詞庫建立在框架語義學基礎上,加拿大的DiCo詞典數(shù)據(jù)庫(DiColexical database)建立在篇章一語義理論基礎上。
四、計算機輔助詞典編纂
計算機輔助詞典編纂最直接、最典型、最具有革命意義的,是機讀語料庫在詞典編纂中的應用;其次是詞典信息的處理、編排、儲存以及數(shù)據(jù)查詢、顯示手段的電子化或數(shù)字化。
(一)計算機輔助編纂工具
計算機輔助詞典編纂工具就是為詞典的編纂、編輯、排版以及詞典的修訂工作而編制的專門的文字處理平臺和管理軟件。現(xiàn)階段編纂工具的文字處理平臺一般為基于微軟視窗系統(tǒng)開發(fā)的編輯界面,詞典編纂的整個過程包括詞典信息的錄入、例句的提取、語料庫信息的統(tǒng)計分析、語義排歧以及詞典文本的編輯和排版等,都在這個界面上進行。詞典編纂工具在國際上已得到廣泛的使用,著名的英語四大學習詞典無一不是利用計算機專用編輯軟件編纂而成的。我國的一些詞典研究和出版機構在20世紀90年代就著手開發(fā)專用詞典輔助編纂系統(tǒng),如商務印書館與南京大學聯(lián)合研究開發(fā)的“CONULEXID”詞典編纂系統(tǒng),包括詞典編輯和詞典維護兩個子系統(tǒng)。該系統(tǒng)采用CLIENT/SERVER的局域網(wǎng)結構,實現(xiàn)數(shù)個客戶端對服務器內語料庫資源不同權限的共享。系統(tǒng)的主要功能包括詞典錄入、例句選取、綜合文章查詢、文章句式統(tǒng)計及文章詞頻統(tǒng)計;工作日志及信息交流等功能則用于詞典數(shù)據(jù)的管理。這個輔助編纂系統(tǒng)極大地方便了《新時代英漢大詞典》的編纂和編輯。
(二)語料庫與詞典編纂
大型語料庫中豐富的第一手語料、完善的語料處理和分析工具以及靈活的語料索引工具提供了詞典編纂者過去無法想象的有利條件。語料庫既可用于詞典學的研究,也可用于詞典的編纂實踐。提取詞典例證是建立詞典語料庫最原始的動機,但隨著語料庫管理和處理工具的完善,詞典編纂者發(fā)現(xiàn):詞頻統(tǒng)計手段可以直接提供立目數(shù)據(jù),即根據(jù)詞頻表對一般通用詞和各類專業(yè)詞的詞頻統(tǒng)計,并結合詞典的編纂宗旨和讀者對象,確定收詞范圍;而經(jīng)過分析處理的語料還可為義項的劃分和詞典釋義提供有力的參考;通過一定的格式化查詢軟件,可以發(fā)現(xiàn)特定語法、語用和文化信息的句子,獲取相關的注釋信息。此外,語料庫還可以揭示同義詞的分布與使用,即利用標注了語義系統(tǒng)關系的語料庫直接調用同義詞的相關信息供詞典釋義或注釋使用,還可根據(jù)中心詞在具體語料樣本語境中的語義分布,了解語境對同義詞的語義配價、搭配關系與使用語域的選擇限制。
(三)語料的提取及應用
在詞典編纂的過程中,人們需要對語料庫中每個詞項的使用實例進行梳理、歸納,按不同的分布結構抽象出不同的義項和詞義,并在詞典中反映出來。然而,語料庫的規(guī)模越來越大,同一個詞在大型語料庫中出現(xiàn)的頻次越來越高,在對一些常用詞項進行檢索時,常常會生成數(shù)目龐大的索引行(concordance lines),有時甚至多達成千上萬;索引行信息的“過載”給詞典編纂者發(fā)現(xiàn)語言的規(guī)律性東西帶來極大的不便,造成詞典編纂的效率低下。這就需有專門的工具軟件對大型語料庫的語料進行再加工。目前使用的技術主要有:1)例句生成器,即利用中心詞和特定的句法模式,在語料庫中生成或調出同一分布結構的自然句子進行分析處理,這樣可以大量壓縮“噪聲信息”。2)“框架素描引擎”(Sketch En-gine),即利用自然語言處理技術對語料庫的語料進行諸如語詞標記/切分(tokenization)、詞位化處理(lemmatization)、詞類賦碼(part-of-speech tagging)和語法分析(parsing)等預處理,然后建立基于詞語搭配關系的數(shù)據(jù)庫。這樣可以自動產(chǎn)生基于語法特征及搭配特征的“詞匯框架素描圖式”(Word Sketches),輔助詞典編纂人員進行詞義消歧等工作。3)利用數(shù)據(jù)挖掘技術在海量的語料庫中發(fā)掘有用信息,即從大量的、不完全的、有噪聲的、模糊的、隨機的語料中,提取隱含在其中的、人們事先不知道的、但又有潛在使用價值的詞典知識信息;數(shù)據(jù)挖掘技術可以處理結構化的(如關系數(shù)據(jù)庫中的數(shù)據(jù))或半結構化(文本、圖形、圖像)的語料庫數(shù)據(jù),也可以處理分布在WEB網(wǎng)上的異構型數(shù)據(jù)。這幾種方法的共同特點就是從大規(guī)模語料庫中提取有用的語言規(guī)則,減少詞典編纂人員的勞動強度,同時提高其工作效率。
五、詞典的生成
詞典的自動生成是一個非常復雜的語言處理過程,它需要用自然語言處理的方法、人工智能的規(guī)律對語言進行處理,需要詞典學家與計算機專家的通力合作。可以預見的詞典生成有兩種方法——基于語料庫的詞典生成和基于數(shù)據(jù)庫的詞典生成。
(一)基于語料庫的詞典生成
根據(jù)詞典編纂者的意圖或詞典的設計思想,利用語料庫直接生成各類詞典,可以說是計算詞典學研究的最高境界,也是詞典學家最美好的夢想。要利用語料庫自動生成詞典,必須做到:1)對語料進行細致、深入的加工,對語料庫中的每一個詞項都要全方位地進行拼寫、語音、形態(tài)變化、詞法、句法、語義屬性、語義特征、語義配價結構和語用規(guī)則等標注。2)建立對詞項的語音、形態(tài)、句法、語義等作標注的系統(tǒng)工具詞典,用于詞項各種屬性和特征信息的匹配與生成。3)有一套完善的詞典生成控制和管理的專用程序。這是詞典自動生成的三個基本要素,其實施需要投入大量人力、物力來研究。其中,最耗時的不是標注,也不是詞典的自動生成程序,而是作為基準數(shù)據(jù)庫的各類“系統(tǒng)工具詞典”。從目前的研究狀況來看,詞典的自動生成在近期內還無法實現(xiàn)。不過近些年有人曾嘗試進行“用大型詞典生成小詞典”、“從英漢詞典生成漢英詞典”方面的研究,也曾有這方面的成果發(fā)表,但未曾見到用此法生成的詞典出版。
(二)基于數(shù)據(jù)庫的詞典生成
因為基于語料庫的詞典生成系統(tǒng)目前還有許多技術問題需要解決,有些詞典研究人員就轉向基于數(shù)據(jù)庫的詞典生成系統(tǒng)的開發(fā)。其主要原理是借助詞典輔助編纂系統(tǒng),按詞典的微觀結構框架構建詞典數(shù)據(jù)庫,在數(shù)據(jù)庫的基礎上生成詞典。廣東外語外貿大學承擔了教育部人文社科重大項目“基于微觀數(shù)據(jù)結構的雙語詞典生成系統(tǒng)”的開發(fā),其特點是:1)引入廣域網(wǎng)技術,可以最大限度地利用一切可以利用的人力和信息資源,大大提高詞典編纂的效率。2)通過編輯模塊把原始語料導入詞典數(shù)據(jù)庫中;這些經(jīng)過自動標注的數(shù)據(jù)可以按主編意圖任意組配,借助詞典生成程序生成各類詞典。3)可以解決傳統(tǒng)詞典編纂難以解決的資源再利用問題和大型詞典修訂、再版難的問題。4)大大提高詞典編纂速度,掌握市場主動權。這樣,可以實現(xiàn)詞典編纂和生成全過程的數(shù)字化、網(wǎng)絡化、無紙化,最大限度地利用現(xiàn)有資源,高效率地完成詞典編纂和編輯等各項工作。
六、詞典信息處理技術的研z
詞典編纂和生成是基于自然語言的信息處理,而語言信息處理自動化需要語言描述的形式化。形式化是指以元語言方式用專門的編碼語言對自然語言和計算機信息進行編碼,而且編碼的方式要盡量明晰、易懂。明晰是十分重要的,否則計算機無法理解或處理。當然,不同數(shù)據(jù)庫的編碼方式也不盡相同。一般常用的電子文件格式編碼語言(或標記語言)為標準通用標記語言(SGML)、超文本標記語言(HTML)、可擴展標記語言(XML)和文件類型定義(DTD),而用于語言形式化表述的語法構建模式,有廣域短語結構語法(GPSG)、詞匯功能語法(LFG)、中心詞驅動短語語法等理論(HDPSG)和范疇語法等。此外,支持計算詞典學的語言學理論也很豐富,如邏輯數(shù)理語義學、概念依存理論、格語法、詞語法、蒙太格語義學、篇章一語義理論、框架語義學等。這些理論在國外詞典學界引起了廣泛的討論和研究,這些研究對詞典編纂、編輯和出版的數(shù)字化具有重要的意義。
七、結語
計算詞典學在國際上經(jīng)歷了幾十年的發(fā)展,已經(jīng)具有比較明晰的理論框架。西方國家在計算詞典學的理論研究和實踐方面都取得了豐碩成果,詞典語料庫的建設和使用以及電子詞庫、詞典數(shù)據(jù)庫、詞典輔助編纂系統(tǒng)和詞典多媒體技術的開發(fā)和利用等都已經(jīng)有二三十年的成功經(jīng)驗,電子詞典、網(wǎng)絡詞典的應用已十分普遍。我國在計算詞典學方面的系統(tǒng)研究和詞典語料庫的建設現(xiàn)在仍處于起步階段,我們的詞典編纂方法還未完全走出傳統(tǒng)的操作模式,辭書出版社很少介入電子詞典的開發(fā)。在新的歷史發(fā)展階段,我們辭書工作者也應不斷更新觀念、更新知識,努力加快我國辭書現(xiàn)代化的進程。
(責任編輯 王慧敏)