亢世勇 王興隆 謝曉艷
詞典編纂是一項異常繁重而又極其嚴謹的工作。在高科技迅猛發展的今天,傳統的詞典編纂方式已不能適應現代社會發展新形勢的需要。早在20世紀50年代中期,國外就有專家嘗試用計算機進行圖書編目、資料管理等工作,如R.Busa在世界范圍內首先采用卡片穿孔機來處理文獻古籍,以便編制其作品的一般詞匯索引與重要語詞索引。自1956年起,這類工作采用了計算機技術,課題范圍也有所擴大,其中包括編纂頻率詞典、倒排詞典、為詞典卡片庫準備卡片、處理語言材料等。進入60年代后,法國、英國、聯邦德國、瑞士等西方國家,先后開展了詞典編纂自動化、計算機化的研究,將計算機引入到了詞典編纂的全過程,改變了傳統的詞典編纂模式,極大地提高了詞典編纂的效率,詞典的內、外在質量得到很大的改善。(鄭恩培,陸汝占1999)
今天,西方國家在計算機輔助詞典編纂方面已經取得了一系列的成果,主要是一些新型詞典的出版,如:“牛津”系列詞典,包括《牛津兒童圖解詞典》、《牛津基礎英語學習詞典》、《牛津成人英語圖解詞典》等;“朗文系列”詞典,包括《幼兒學習詞典》、《少年學習詞典》、《成人初學者詞典》等;“柯林斯COBUILD系列”詞典,包括《柯林斯COBUILD高級英語學習詞典》、《柯林斯COBUILD積極型英語詞典》等。這些詞典的出版和熱銷,印證了計算機輔助詞典編纂的重要性和緊迫性。
而在我國,20世紀80年代前,由于漢字的輸入和存儲技術不過關,計算機輔助詞典編纂技術進展不大。80年代后,漢字輸入和存儲技術取得重大突破,各種漢字輸入平臺層出不窮,受其影響,計算機技術在漢語詞典編纂中有了一定的應用,如利用計算機輔助編制資料卡片、索引等,但這種應用只是局部的,效果有限,影響也不大。
我國真正的計算機輔助詞典編纂系統是從20世紀90年代開始的,至今已形成了蓬勃發展的局面。從整體來看,當前我國計算機輔助詞典編纂系統的優勢是:可以比較充分地利用語料庫的資源和技術,比如利用語料庫提供詞典例證、輔助詞典釋義、輔助義項劃分、輔助詞典立目、輔助語用注釋、提供句法信息、輔助語法注釋、揭示文化信息、揭示同義詞的分布和使用等。這些功能在章宜華的專著《計算詞典學與新型詞典》中曾著重介紹。
計算機輔助詞典編纂系統是為詞典的編纂、編輯、排版以及詞典的修訂工作而編制的專門的文字處理平臺和管理軟件。詞典編纂的整個過程包括詞典信息的錄入、例句的提取、語料庫信息的統計分析、語義排版以及詞典文本的編輯等。目前,在詞典學研究和辭書出版領域,自動化、數字化、計算機化的編輯操作已經涉及詞典編纂的各個方面,如資料的收集和存儲、編纂過程以及詞典發布的形式等。利用計算機技術、信息技術進行詞典編纂已經成為詞典編纂領域發展的必然趨勢。
眼下,我國的計算機輔助詞典編纂已取得了長足的發展,我們將重點介紹一下目前國內比較有代表性的計算機輔助詞典編纂系統(工具),由于計算機輔助辭書編纂系統是一個廣義的概念,因此我們從以下幾個方面分別介紹:
(1)商務印書館與南京大學聯合開發的“‘CONULEXID’詞典編纂系統”
該系統采用CLIENT/SERVER的局域網結構,較好地實現了數個客戶端對服務器內語料庫資源不同程度的獲取和共享,提高了語料資源的利用率。它包括詞典編輯和詞典維護兩個子系統。系統的主要功能包括詞典錄入、例句選取、綜合文章查詢、文章句式統計及文章詞頻統計等。這個輔助編纂系統已經成功應用到了《新時代英漢大詞典》的編纂、編輯和出版過程中。(章宜華2007)
(2)上海交通大學的陸汝占等開發的“漢語詞典編纂一體化環境”
它的功能主要包括語料的采集、加工處理、詞典編纂管理、詞典質量檢測、詞典編纂過程中的自檢等。該系統主要由語料庫、詞典編纂、詞典檢測三個子系統構成。語料庫子系統的主要功能是對語料庫進行管理、加工和查詢。詞典編纂子系統致力于實現詞典編纂過程的便利化。該子系統又分為詞典格式轉換、詞典查詢、詞典自檢、詞典編輯、詞典編纂項目管理五個次子系統。詞典檢測子系統又包括詞表構成、查詢、詞概念關系庫編輯系統三個小子系統。經試用,此漢語詞典編纂系統得到了好評,其結果是令人鼓舞的。(陸汝占2001)
(3)山西大學開發的“基于語料庫的漢語辭書編纂輔助系統”
系統總體上分為“電子辭書數據庫及其查詢模塊”、“現代漢語語料庫及其檢索模塊”及“電子詞典編輯模塊”,各組模塊可分可合,既可以獨立使用,又可以聯合使用。它將軟件工具、語料庫及其他電子詞典資源有機結合,成為一個具有資源建庫、語料檢索、信息統計等功能的應用平臺。該系統提供多種輸出方式,從而為漢語辭書編纂人員提供較為強大的電子信息服務。它主要是基于靜態的語料,為了保持更新,山西大學在此基礎上進一步設計完成了基于因特網的漢語辭書編纂輔助系統。(張紹麒2005)
(4)北京大學計算語言學研究所開發的“計算機輔助詞典開發和管理系統”
該系統主要用于詞典檢索、編輯、排序、校訂、檢測、版本比較、自動翻譯、任務管理等。它主要包括四個子系統:詞典編輯、自動檢測、自動翻譯、項目管理。詞典編輯子系統主要對數據庫格式的詞典文件進行編輯和整理。自動檢測子系統保證了屬性填寫的正確性和一致性。自動翻譯子系統可利用詞法分析器,在計算機自動獲取的英語譯文的基礎上,將編輯工作轉化為校訂工作。項目管理子系統可全面掌握修訂信息,及時發現和防止漏校的信息。(王惠,李康年2004)
(5)廣東外語外貿大學詞典學研究中心開發的“基于微觀數據結構的雙語詞典生成系統”(簡你DICT-Generator系統)
該系統是基于廣域網環境設計開發的計算機輔助詞典編纂及生成平臺,適用多語種外漢詞典的編纂和自動生成。它主要使用VB.NET和VC++.NET編寫,采用Microsoft.SQL server 2000數據庫存儲詞典數據庫和語料庫數據庫。該系統主要包括語料庫接口、詞典編纂或數據錄入、詞典數據庫、詞典審定、詞典生成和管理等幾大功能模塊,其中詞典數據庫和生成模塊是該系統的核心部分,語料庫、詞典編纂和管理模塊是為它服務的。
該系統將詞典編纂中的體例結構和微觀信息結構設計,以及詞典信息的格式化編排和排版等繁瑣的工作流程計算機化,改變了傳統的詞典編纂方式,提高了工作效率。此外,該系統通過互聯網建立了安全、穩定的詞典編纂及生成平臺,實現了互聯網上的詞典編纂,詞典編纂人員可以在世界上任何地方、任何時間使用該系統共同參與詞典的編纂工作。該系統打破了現今詞典編纂生成的局限,實現了詞典編纂生成全過程數字化、自動化、規范化,它將語料處理、詞典編纂、詞典出版和工作管理等領域的操作有機融合在一起,實現了全方位、多角度的詞典信息處理數字化,最大限度地利用現有資源,能高效率地完成詞典編纂、修訂和出版工作。(劉輝等2006)
由于該系統是在10多年前設計的,原來的開發平臺和技術工具已經不適應數字化信息處理的需求;因此,在兩年前廣東外語外貿大學詞典學研究中心就開始對該系統進行升級改造,利用 C#.net2010,Sql 2005,ASP.Net,XML Edit進行詞典數據和詞典生成平臺建設。改造后的平臺界面將更加友好,數據處理能力更強大,索引更智能化。
(6)教育部語言文字應用研究所承擔的“基于語料庫的數字化辭書編纂平臺”
該系統突破了傳統的辭書編纂概念,建立了一種新型的辭書編纂模式。它是國家863計劃“中文信息處理基礎應用研究”課題的子課題,以國家語言文字工作委員會大規模現代漢語語料庫為基礎,以數字化典范辭書為目標,以語義計算理論為基礎,以語言信息處理的計算機技術為支撐,研制辭書的知識獲取、自動生成、檢查檢測、審核評價等技術和集成化的輔助操作平臺。具體研究內容包括辭書編纂的新模式研究、數字化辭書生成系統、辭書雷同檢查和沖突檢測技術、語料庫在辭書編纂中的應用、語言處理技術應用于辭書編纂等。該系統提供了多樣化的辭書編纂工具,并提倡和建立了辭書編纂的新理念、新模式,使計算機輔助辭書編纂達到了新的高度。
(7)商務印書館開發的“辭書語料庫及編纂系統”
它是該館在新的歷史時期為實現辭書編纂現代化、鞏固與保持在工具書出版領域的領先地位而確立的重大科技項目。項目一期工程于2004年11月通過了新聞出版總署、中國出版集團組織的專家驗收。該系統建立了從語料采集、辭書編纂到編輯出版的辭書編纂現代化一體化系統,開創了一種新型的漢語辭書編纂模式,在辭書編纂現代化方面取得了突破。項目二期工程主要致力于語料的采集與加工、核心工具書數據庫、中小學語文教材教輔語料庫、例句查詢系統、例句優選系統、辭書數據庫排版系統、小學生辭書編纂平臺等。
該系統已形成較完善的“三庫兩平臺”架構,即語料庫、數據庫、資源庫和辭書編纂編輯平臺、辭書數據庫排版平臺(系統),以實現從語料采集、辭書編纂編輯到排版出版等環節的全過程現代化、數字化。商務印書館在此基礎上開發了跨庫例句查詢系統,集成了核心工具書數據庫、基礎語料庫、例句語料庫、教材教輔語料庫等多庫查詢功能。正在開發例句優選系統,建立基于句法功能、搭配、詞類、詞頻、句長等條件的分項組合查詢功能,以提高例句選擇的效率和有效性。
該系統是基于《現代漢語詞典》修訂需求開發的詞典編輯軟件,包括編輯、排序、檢索、匯總、排版、管理等模塊。其中編輯、排序、檢索、匯總模塊已完成,并進行了相當長時間的多方面測試。排版、管理等模塊有待進一步開發。該系統的最終目標是要建立一個綜合、全面、高效的詞典編輯信息化處理平臺,徹底實現詞典編輯的無紙化和計算機化。(張紹麒2005)
(9)學者張衛國提出的“計算機輔助編纂系統設計方案”
它由語料庫系統、數據庫系統和編輯軟件等三個子系統構成,包括現代漢語共時描寫語料庫、語文詞典數據庫、語文詞典編輯應用軟件三部分。
實際上,隨著信息技術的高速發展,為數不少的詞典編輯輔助平臺已經研發出來,投入使用且取得了不錯的成果。(張紹麒2005)
(1)北京語言大學語言信息處理研究所開發的“漢語語料檢索軟件”(CCRL)
CCRL的檢索目標包括字串、詞串、詞屬性串及詞與詞屬性的混合串,是一種面向語言教學研究的漢語語料檢索軟件系統。它具有自動分詞、自動建立索引、索引檢索速度快、可支持多用戶遠程檢索等十個突出特點。CCRL使人們擺脫了收集卡片的體力勞動,還可以進行大規模的語言現象調查工作。使用該軟件不需要進行人工標注就能對任何生語料全自動地生成索引并進行檢索,能最大限度地提高準確率和查全率,大大提高了語言研究水平,促進了語言教學和語言信息處理的發展。CCRL在應用過程已經取得多項有意義的研究成果。(張紹麒2005)2003年1月,CCRL 1.0版開發成功;2003年5月,測試版正式發布;2004年1月,CCRL通過了教育部鑒定。
(2)清華大學計算機系司憲策和孫茂松開發的“基于WEB的漢語例句自動檢索系統”
WEB是一個動態性和時效性很強的語料來源,能及時反映新詞語、新用法。隨著WEB規模的擴大和信息社會的發展,網絡成了語料的重要來源。傳統的搜索引擎查詢方式比較煩瑣,效率也不高。該系統是基于WEB的漢語例句自動檢索系統,可以自動地利用搜索引擎來得到與給定詞匯相關的文檔和信息,并從文檔中提出詞匯所在的句子。它分為采集和查詢兩層,較好地克服了開發過程中的句子分割、例句去重、術語定義的粗提取等難題。它先用網絡爬蟲得到詞匯相關網頁并從中抽取例句放在磁盤上,然后系統根據用戶的配置對例句進行過濾和處理,以得到用戶想要的例句。該系統在詞典編纂過程中得到了現實應用,魯東大學亢世勇在編纂《現代漢語新詞語詞典》的過程中就使用了它,收到了很好的效果。
到長大,你會發現,身邊凈是隨口的贊美“你又瘦了”“你真不錯”……不是你真的逆生長,也不是你真的很優秀,只是沒人在乎你的成長。爛泥扶不上墻,那不扶也罷;朽木不可雕也,扔回原處就是。
(3)北京大學計算語言學研究所開發的“漢英雙語語料庫檢索系統”
該系統運行環境為微軟Windows系列平臺,主要采用C++語言實現。它可實現漢英語特定詞的檢索、漢英語特定模式的檢索、檢索結果的選擇和篩選、檢索結果的聚類排序、漢英詞語的詞頻統計、搭配信息的統計分析等六個方面的檢索和語料分析需求。該系統立足于雙語語料庫,通過語料索引進行加載語料、瀏覽語料、詞頻統計、語料檢索、結果排序、搭配分析等方面的工作。它可以針對詞典編纂專家、語言學家的特殊需求提供高效、靈活的高級檢索手段,并進一步提供檢索結果的經驗統計數據,為詞典編纂人員做出科學合理的編寫或研究決策提供強有力的保證和支持。(張紹麒2005)
上海辭書出版社開發的“辭書質量技術保障系統”。該保障系統主要包括參見系統、交叉處理、審定名詞、機構組織、國名地名和詞目表、詞表索引六個部分,參見系統與交叉處理部分主要利用系統數據庫的超鏈接功能進行工作,審定名詞等部分則主要利用復合數據庫、計算機檢索等相關技術開展工作,它們的共同目標都是最大程度地保證辭書質量。該系統的核心,是將書稿的電子文檔或辭書排版的數字化文件,轉換成相應的書稿數據庫。這些數據庫文件需達到數據交換平臺的一致性、數據的規整性、非純文本數據的可視性、數據的可檢索性及數據的可遷移性等方面的要求。另外,辭書質量技術數據庫還需建立一些諸如歷史紀年數據庫、國名數據庫、機構組織數據庫等之類的復核數據庫。利用辭書質量技術保障系統,減輕了編輯人員在處理書稿時的復核工作量,提高了核查工作的效率,是一個較為實用的計算機輔助詞典質量保障系統。(樂嘉民2007)
南京理工大學開發的辭書數據庫排版系統。該系統由辭書錄入、排版和瀏覽、檢索兩個子系統組成。它以XML文件為數據交換媒介,以數據庫為存貯介質、以方正書版和方正RIP為排版輸出引擎,針對辭書排版的特點,提供了包括錄入、存貯、排版、預覽、輸出和檢索的全套解決方案,解決辭書出版中比較突出的資源共享、檢索、查詢、借庫更新等難題,為編輯審讀文稿提供了便利,縮短了出版周期,降低了出版成本。(張紹麒2005)該系統較為有效地改善了我國的詞典排版系統。
(1)北京大學計算語言學研究所開發的“基于語料庫的雙語詞典編纂平臺”
該系統由通過互聯網連接在一起的兩個部分組成:一部分位于高性能服務器上,為編寫人員提供服務。另一部分位于詞典編寫人員的詞典編輯工作臺上。這樣,詞典編寫人員就可以通過本地詞典編輯工作臺接受來自高性能服務器所提供的服務,并在其所提供的服務內容的基礎上做出正確、合理、高效的詞典編寫決策。該系統設定了語料庫與參考詞典的定制和索引、詞典編纂項目管理條目與釋義詞表的生成管理等11項功能目標。其中語料的檢索和統計是核心功能之一,它可以進一步為詞典編寫人員提供詞頻表的生成、詞的檢索、表達式檢索、檢索結果的聚類排序、搭配及搭配強度的統計分析等5項功能。(常寶寶2006)
(2)解放軍國際關系學院李德俊開發的“漢英詞典編纂自動化平臺CpsDict系統”
解放軍國際關系學院的李德俊研發了擁有完整知識產權的漢英詞典編纂系統。目前來講,國內還沒有真正進行基于平行語料庫的雙語詞典編纂研究和實踐,以及相關軟件的開發和使用。該系統是我國第一個基于平行語料庫的雙語詞典編纂系統。它的功能主要是檢索對等詞、自動提取例證、研究搭配、提供關鍵詞的語境等。面對傳統雙語詞典編纂中釋義不當、以解釋代替釋義詞、缺乏必要的語用信息、例證不當或重復等弊端,該系統都較好地予以克服,滿足雙語詞典編纂自動化的要求。
(3)北京大學計算語言學研究所開發的面向語言學家和詞典編纂專家的漢英雙語語料庫檢索系統。以上已做過介紹,這里不再贅述。

語料建設WEB語料平行語料語料檢索例句提取數據統計詞典比較詞典編輯詞典排序詞典生成詞典檢測質量保證詞典排版管理系統廣東外語外貿大學:基于微觀數據結構的雙語詞典生成系統++ + +商務印書館與南京大學:“CONULEXID”詞典編纂系統+ + + +上海交通大學:漢語詞典編纂一體化環境+++ + +山西大學:基于語料庫的漢語辭書編纂輔助系統++ +北京大學:計算機輔助詞典開發和管理系統++ + + +
通過各個系統自身的介紹以及完成的情況,我們可以從“語料建設”、“WEB語料”、“平行語料”、“語料檢索”、“例句提取”、“數據提取”、“詞典比較”、“詞典編輯”、“詞典排序”、“詞典生成”、“詞典檢測”、“質量保證”、“詞典排版”、“系統管理”等功能模塊來對各個系統進行單一性和比較性考察。需要說明的是,以下圖表中,“+”表示此功能模塊在該系統中顯著一些,也就是說,功能模塊的考察是相對的。

(續表)
通過上表我們可以發現:
(1)不同的計算機輔助詞典編纂系統側重點是不太一致的。這樣的優點是不同類型、特點的詞典可以選用不同的詞典編纂系統,再就是體現學術上百花齊放、百家爭鳴的宗旨,有利于編纂系統的整體推進;缺點是反映出目前我國的詞典編纂系統的共享率有待提高,發展層次和功能良莠不齊。這導致重復建設和一定程度上的資源浪費。
(2)從所列出的功能模塊看,有幾個是比較集中的,比如“語料建設”、“語料檢索”、“詞典編輯”、“系統管理”等。從學科角度上看,這反映了當前我國多數的計算機輔助詞典編纂系統主要還是屬于語料庫詞典學的范疇。
追求詞典編纂的自動化是我們的目標,也是計算詞典學的主要任務,即開發詞典的計算機輔助編纂系統和自動生成系統。這樣,不僅可以大大解放人力,還可以提高效率,增強辭書的科學性。語料庫詞典學和計算詞典學與當前我國的計算機輔助詞典編纂系統的關系如下圖:

(3)對衡量自動化程度比較重要的模塊如“詞典生成”、“詞典排序”、“詞典檢測”等,多數系統是不具備的。上邊我們說了,這屬于更高層次的詞典編纂自動化領域的內容,是計算詞典學所追求的目標,也應該是我國計算機輔助詞典編纂系統以后努力的方向。
(4)指向“平行語料”模塊的計算機輔助詞典編纂系統比較少。這反映了在當前雙語詞典的市場需求比較大的形勢下,可以輔助進行雙語詞典編纂的系統是比較缺乏的。
(5)指向“WEB語料”模塊的計算機輔助詞典編纂系統比較少。當前的系統多是靜態的或人工建設的語料庫,當前WEB網中大量的非數據結構信息是我們取之不盡、用之不竭的新鮮資源,WEB語料的另一個優勢是它可以保持很大的動態性。因此,WEB語料庫的開發與建設,包括檢索系統的完善,也是我國計算機輔助辭書編纂領域今后要努力的方向。
(6)指向“詞典檢測”和“質量保障”模塊的計算機輔助詞典編纂系統比較少。詞典的編纂不是朝夕之功,必須反復檢測、修訂、改善,因此,從計算機輔助詞典編纂方面來看,是離不開一個成熟的檢測或保障系統的。
上述計算機輔助編纂系統的開發只是計算詞典學和語料庫詞典學發展的一個縮影,隨著信息技術的進一步發展,將會有更多功能齊全、技術先進的辭書編纂系統被開發出來,詞典編纂、出版過程將發生更加深刻的變化:第一,數據輸入方式更加便捷。利用計算機多媒體處理技術開發的語音輸入法、圖文識別技術等應用到辭書編纂中去,能有效提高辭書編纂的效率、質量。第二,出現商品化的辭書編寫專用軟件,辭書編纂的時效性得到保證。第三,信息高速公路帶來了便利,辭書編纂人員利用網絡與世界各地的同行進行快速信息交流、學術研討、合作開發,辭書的科學性、實用性增強。
但是,計算機輔助詞典編纂系統應該只是我們暫時的目的或任務,最后的目標是要達到完全的自動化,排除過多的人工因素,實現詞典的自動生成。如下圖:

從這個目標上說,目前能初步具備這個功能的為數極少,其中的代表就是廣東外語外貿大學的“基于語料庫的WEB詞典編纂及自動生成系統”和“基于網絡的詞典輔助編纂及生成系統”等,其他的系統主要多是輔助人工進行語料的建設、檢索、篩選、排序,例句的提取,以及詞典的檢測、排版、修訂等。
總之,我國的計算機輔助詞典編纂系統呈現出了欣欣向榮的蓬勃局面,但如要實現真正的詞典編纂和生成的自動化,還需要各個系統互相借鑒、通力合作,更需要轉變發展的思維和方式,積極進行理論創新和技術革新,力爭從語料庫詞典學領域慢慢轉型到計算詞典學,實現兩個領域的優勢互補,這樣,真正的計算機自動詞典編纂系統才能得到開發與應用。
1.常寶寶.基于語料庫的雙語詞典編纂平臺的構建.辭書研究,2006(5).
2.樂嘉民.辭書質量技術保障系統的研發與應用.中國編輯,2007(1).
3.劉輝等.基于語料庫的WEB詞典編纂及自動生成系統設計與實現.沈陽師范大學學報,2006(3).
4.陸汝占.漢語辭書編纂一體化環境(上)、(下).辭書研究,2001(2)、(3).
5.王惠,李康年.大型詞典編纂的計算機輔助開發與管理系統.辭書研究,2004(2).
6.張紹麒.辭書與數字化研究.上海:上海辭書出版社,2005.
7.章宜華.關于計算詞典學理論框架的探討.辭書研究,2007(6).
8.鄭恩培,陸汝占.漢語詞典編纂計算機化的若干問題.語言文字應用,1999(2).