基于數據處理技術的《必應詞典》編纂模式研究

2019-03-15 03:42:30廖海宏

綿陽師范學院學報 2019年1期

廖海宏

(廈門理工學院外國語學院，福建廈門 361024)

詞典編纂技術與計算機和網絡技術同步發展，隨著數據時代的到來，基于數據處理技術的詞典編纂模式不斷發展。詞典學者開始關注和研究數據處理技術對詞典編纂模式的影響，具體可參見章宜華[1]1，馬立東、吳光華[2]43，林皓、張逸[3]26，耿云冬、魏向清[4]65等的文章討論。其中，耿云冬和魏向清[4]66提出的“語言數據驅動模式”更是直接指出數據處理技術對詞典編纂發展的方向性影響，他們認為：“如果說傳統的詞典編纂更多是編者主體經驗驅動模式，那么當代及未來的詞典編纂則無疑應是語言數據驅動模式。” 近年來，在理論發展的同時，數據處理技術在詞典編纂實踐領域不斷得到應用，基于數據處理技術的詞典編纂模式逐漸發展并趨于成熟。鑒于數據處理技術對詞典編纂未來發展的方向性影響，有必要加強對此類詞典產品的研究。

《必應詞典》是微軟亞洲研究院研發的帶翻譯功能的在線英漢雙語詞典。經過近10年發展，《必應詞典》現有網絡版、桌面版、移動版等，最新版本是Win10版。根據手機內置的不同操作系統，移動版又細分為Windows10App版、Windows10Android版、Windows10iphone版、Windows10WinPhone版等版本，各版本均擁有龐大詞庫、海量詞條、海量雙語例證庫，提供詞典查詢和以詞典為基礎的雙語翻譯服務。本文從數據處理技術的角度出發，分析基于數據處理技術的詞典編纂模式對《必應詞典》發展進程、編纂過程、編纂結果等的影響，并以點帶面，管窺數據處理技術對詞典編纂模式未來發展的影響。

一、《必應詞典》數據處理技術應用沿革

“數據處理是對數據的采集、存儲、檢索、加工、變換和傳輸，數據處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數據中抽取并推導出對于某些特定的人們來說是有價值、有意義的數據。”[5]6《必應詞典》一向注重數據處理技術的詞典應用，最新版《必應詞典》是綜合應用網絡數據挖掘、搜索引擎、云計算、大數據等技術的詞典產品。

《英庫》是《必應詞典》的前身。2009年12月，微軟亞洲研究院在線英語詞典研究項目成果《英庫》上線，這是一款用戶需求導向、針對中國人英語學習特點設計的詞典。《英庫》研發之初就注重數據處理技術的詞典應用，根據微軟亞洲研究院官方微博：“《英庫》基于全新網絡數據挖掘技術，不斷挖掘、擴充雙語數據庫，以數以千計的速度擴展單詞和例證，達到千萬詞匯和例證。通過掃描幾十億量級的網頁，應用網絡數據挖掘技術挖掘海量網絡數據，建設千萬級詞匯庫和雙語例證庫等。”①2010年9月，《英庫》更名《必應詞典》，并把詞典發布到微軟必應搜索引擎首頁。新版詞典在《英庫》網絡數據挖掘技術基礎上進行了技術升級，融詞典功能和搜索引擎功能為一體。劉超[6]36指出：“搜索引擎通過網絡爬蟲獲取大量相關資料和信息,采用機器學習或者網絡數據挖掘的算法進行網絡數據挖掘,進一步分類和提取,將用戶最想要的搜索信息返回給用戶。”數據處理是搜索引擎的主要功能之一，把搜索引擎技術融入《必應詞典》是把數據處理技術融入詞典編纂的又一次技術創新。在獲取詞典編纂所需的數據和處理數據的過程中，搜索引擎后臺海量數據為數據挖掘提供數據基礎，而搜索引擎的數據搜索、存儲、挖掘功能為詞典編纂提供技術基礎，詞典編纂自動化程度提高。2011年5月，微軟宣布在云計算技術基礎上推出基于“云”服務模式的“必應云詞典”，詞典具備云端與本地詞庫查詢雙重搜索模式，提供詞典查詢服務和基于詞典的翻譯服務。必應云詞典官方網頁(2011)指出：“必應云詞典是由海量數據驅動的、基于機器學習和統計建模的最新一代機器翻譯引擎……提供云服務模式詞典和翻譯服務。”②網絡數據挖掘技術是云計算技術的功能之一，基于云計算技術的詞典“云”服務模式是《必應詞典》把數據處理技術融入詞典編纂的又一輪技術創新。鄒燕飛[7]186認為：“海量網絡數據挖掘對網絡環境和應用條件要求較高，而云計算技術的應用有效提高了網絡數據挖掘效率和云計算技術在海量網絡數據挖掘中的應用研究。” 云計算技術應用提高了《必應詞典》對網絡數據的挖掘和應用的效率。進入大數據階段，種類繁多、數量龐大的網絡數據成為《必應詞典》編纂重要的語料來源，詞典編纂開始從紛繁復雜的網絡數據中采集、篩選、分析和挖掘有效數據，大數據技術開始在《必應詞典》編纂中得到應用，為基于數據處理技術的詞典編纂打開了更廣闊的視野。

二、《必應詞典》編纂過程的數據處理特色

數據處理技術賦予詞典編纂過程新的特色。常規的詞典編纂過程包括語料采集、語料加工、選詞立目、釋義和例證的收集、篩選等，數據處理技術對《必應詞典》語料采集途徑、語料加工方式、選詞立目條件，以及釋義和例證的采集、篩選、收錄等過程都產生了深刻影響。

(一)《必應詞典》語料采集與加工方式

《必應詞典》在語料采集方面既兼顧傳統又謀求創新，來自權威詞典的語料和在網絡數據基礎上挖掘的語料共同構成《必應詞典》語料，在種類和規模上打破了傳統格局。《必應詞典》內置牛津大學出版社系列牛津詞典、微軟Office詞典、微軟電子百科全書等權威詞典和百科全書，權威詞典為詞典提供嚴格按詞典標準規范加工的語料，語料來源得到較好的質量保證；數據處理技術應用拓寬了傳統的語料采集途徑，網絡數據成為詞典編纂重要的語料來源。2011 年，世界知名咨詢公司麥肯錫指出: “數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。”[8]14如果說數據是數據時代的重要生產因素，那么種類繁多的網絡數據則是數據時代詞典編纂的重要語料來源和生產因素。互聯網空間為《必應詞典》編纂提供了千萬億字節規模的數據采集庫，互聯網空間開放共享的在線詞典、詞典數據庫、翻譯網站、大型語料庫等提供經過語料加工的百萬、千萬、億級的語言數據庫。

《必應詞典》語料來源和采集方式的變化帶動語料加工方式的變化，以數據挖掘為主要特征的語料數據化技術在《必應詞典》編纂中得到應用。章宜華[1]2認為：“語料數據化是辭書現代化的新理念，即應用語言學研究的新成果和網絡數據挖掘技術，在海量的語料中提取詞典所需的各種有效語言數據，把語料庫變為詞匯/詞典數據庫，從而大大提高語料使用和詞典編纂的效率。”《必應詞典》編纂過程充分應用語料數據化技術，從互聯網空間采集海量數據，再從所采集數據中提取適用于詞典編纂的有效數據，挖掘詞匯的詞法、句法、語義、語用等方面的詞匯知識和實用信息，語料加工方式更加智能化。

(二)《必應詞典》選詞立目原則

詞典只有不斷滿足用戶需求，才能持續維護生命力。數據時代，用戶查詢內容發生很大變化，查詢需求趨向實用性、百科性和實時性，對詞典選詞立目提出了更高要求。《必應詞典》選詞立目手段數據化、信息化，選詞立目體現“以用戶為中心”的實用原則。

必應搜索引擎和網絡數據挖掘等技術的融合應用使得詞典可以發掘和反映不斷變化的語言現象。詞典收詞趨于海量，除收錄內置權威詞典詞條外，借助搜索引擎后臺數據倉庫以及網頁數據抓取、更新、存儲等技術，從海量數據中提取詞條，達到了為用戶提供千萬級以上詞條查詢的能力；詞條收錄呈現百科特征，在分析用戶查詢內容、查詢行為和查詢意圖等詞典使用數據的基礎上，詞典收錄大量應用于網絡、普通詞典不收錄而用戶常常需要使用和查詢的百科詞條，收錄各類專業術語、縮寫、名稱等, 甚至收錄Facebook(臉書網)、WeChat(微信)、Twitter (推特)等網絡平臺名；詞典收詞趨于實時，從網絡空間挖掘大量新詞，如selfie(自拍)、Brexit(英國脫歐)、clicktivism(網絡點擊行動主義)等，在數據處理基礎上實時更新詞庫。林皓、張逸[3]28指出：“互聯網加速了語言的發展、變化速度，一個新詞創造后，人們常常以幾何級的速度傳播和使用它。”按傳統編纂模式，詞典通常只能數年甚至十多年才修訂更新一次，傳統在線詞典由于技術局限更新速度也還不夠，數據處理技術使詞典在實時反映語言發展方面又前進了一步。

(三)釋義采集、分類與表述特色

數據處理拓寬詞典釋義的采集途徑，豐富詞典釋義的分類和表述方式。《必應詞典》采用權威英漢雙解釋義、英漢釋義、英英釋義、圖片釋義、網絡釋義等形式對釋義進行分類。權威英漢雙解釋義、英漢釋義、英英釋義主要來源于內置的牛津系列詞典和微軟Office詞典，按詞典規范化標準收錄釋義，網絡釋義、圖片釋義是基于數據處理的新型釋義方式。

“網絡釋義”不同于傳統釋義方式，是在數據處理基礎上從網絡采集的詞條意義，呈現基于數據處理的詞條釋義。《有道詞典》官方網頁對“網絡釋義”的說明是：“網絡釋義指的是應用搜索引擎抓取并獲得多達數十億海量網頁數據后，利用網頁萃取技術進行信息理解、網絡數據挖掘和文本分析，從中找出互為關系的釋義，再根據它們在海量網頁中出現的頻次、位置等因素優化調整，從而得到與詞條相關度最高的釋義。”③用必應搜索引擎搜索詞條“blog”，國內版和國際版分別抓取41 500 000 和41 000 000條結果，在所抓取的千萬級數據的基礎上，必應詞典進一步篩選出309 050個和236 607個網頁，對數據進一步理解、挖掘、分析后，通過“網絡釋義”收錄“blog”的釋義，第一個義項：博客,一種簡易的個人信息發布方式。任何人都可注冊,完成個人網頁創建、發布和更新。wenwen.soso.com|基于309 050個網頁。第二個義項：部落格，部落格(BLOG)是什么？部落格到底能夠做什么？dp.tsh.ttu.edu.tw|基于236 607個網頁④。

以相關關系為邏輯基礎，《必應詞典》從網絡空間挖掘與詞條語義相關的圖片，以直觀易懂的方式收錄在“圖片釋義”欄。由于微軟在設計上把《必應詞典》平臺和搜索引擎平臺融為一體，“圖片釋義”欄鏈接搜索引擎平臺，因此，除詞典界面提供的圖片，搜索引擎界面也為使用者提供與詞條語義相關的海量圖片，圖片順序按語義的相關關系排列，相關關系最強的圖片排在最前面。

新技術應用使得詞典更深層地挖掘詞匯語義特征，更客觀地反映語言在真實應用中體現的社會、文化、技術等表征。

(四)例證采集、分類與表述特色

例證具有印證詞目、輔助釋義、提供搭配信息、文化信息、用法提示等功能，詞典通過例證幫助使用者加強對詞條語義信息、語法信息、語體信息和語用信息等的理解。在數據處理的基礎上，《必應詞典》在編纂過程中采集海量英漢漢英雙語平行句對，經篩選、分析、比對、分類后收錄數量可觀的例證，各個版本收錄的例證數量有所不同。網絡版和桌面版《必應詞典》為每個詞條收錄250個按詞典規范加工的例證，這些例證來源于內置的權威詞典和網絡數據；移動版除收錄網絡版收錄的250個例證外，還收錄大量來源自網絡的精加工和粗加工例證，并收錄每個例證的網絡來源。

由于例證數量多，《必應詞典》對例證進行了分類，按類別分為口語、書面語、標題、技術類例證；按來源分為來自權威詞典和網絡的例證；按例證難度分為簡單、中等、難三種。詞典使用者可按實際需求自由組合和選擇所需的例證，既可選擇來自權威詞典，也可選擇源自網頁的例證。

《必應詞典》還對所采集海量英漢漢英雙語平行句對進行數據比對和分析，以英漢對照的方式收錄例證，并以動態顯示的方式標示例證和例證翻譯中每個詞匯的一一對應關系，使兩種語言在語義框架層面對等呈現，多層面映射和匹配英漢兩種語言符號。英漢兩種語言符號在特定語境下的多層面映射為詞典使用者理解語言提供了極大方便。

三、《必應詞典》詞條信息表述特色

詞典編纂過程的改變必然改變詞典編纂結果，數據處理技術賦予《必應詞典》詞條信息諸多新特點。“詞條是詞典的基本結構單位和功能單位，也是詞典的主體。”[9] 47數據環境下，基于數據處理技術的編纂過程改變了詞典語料來源和加工方式，詞典信息采集和加工能力大大加強，過程趨于自動化，大量采集的語料來源于真實使用的語言環境且數量趨于海量，詞條信息構成方式、表述方式、表述內容隨之改變。

(一)詞條信息的有機構成

完整意義的《必應詞典》詞條信息涵蓋收錄于各種版本的相同和不同的信息，存儲于各版本的詞條信息以整合或分述的方式構成一個有機的整體。網絡版、桌面版、移動版，以及移動版的各種版本均提供英漢釋義、英英釋義、權威英漢雙解釋義、網絡釋義、例證、搭配、同義詞、反義詞、圖片等，但收錄信息有所不同又互為補充。“數字化環境下，只有建立宏觀認知概念，才能正確認知詞典內容，提高詞典的使用效能，正確分析和研究詞典。”[10]90《必應詞典》通過不同載體的各種版本收錄互為補充的詞條信息，因此，只有建立宏觀認知概念，才能正確認知、使用和研究詞典。

《必應詞典》網絡版、桌面版整合了詞典平臺和搜索引擎平臺，詞典提供詞條信息的能力在量上得到提升。兩個版本的詞典界面均設置圖標 “”以鏈接搜索引擎界面，搜索引擎界面也設置詞條查詢入口，并為用戶分別設置國內版和國際版查詢入口，方便查詢搜索引擎采集、篩選的詞條信息；在詞條信息排序上，搜索引擎界面把與詞條相關的詞典信息、詞典網站信息、翻譯網站信息置頂頁面，同時，國內版把《必應詞典》內容置頂，國際版把牛津系列詞典內容置頂⑤，緊跟其后的是國內外的主流詞典網站，如www.iciba.com、www.dictionary.com、www.thesaurus.com、www.merriam-webster.com、www.thefreedictionary.com等，這些網站是詞條信息采集的重要來源，最后才是與詞條相關的百科信息。

詞條信息或整合或分述。根據載體特點，詞典為不同版本設置互為補充的欄目，相同欄目收錄的信息互為補充。與網絡版和桌面版相比，在分析與詞條相關的有效數據的基礎上，移動版增設聯想詞匯欄，以動感的網狀圖式呈現詞條語義關系，收錄詞條同義詞、反義詞、上下義詞等，如詞條“hate”收錄 “envy, detest, loathe, adore, love”等與詞條語義相關的聯想詞匯；詞條 “emoticon”收錄 “emoji, smiley，symbol, cartoon, animated, graphics”等聯想詞匯。相同欄目收錄的詞條信息有所不同，以“網絡釋義”欄為例，移動版為“emoticon”提供簡單的英漢釋義和該釋義的來源網頁，emoticon：1.表情符號，來源：whatis.com.cn;2.表情圖標，來源：blog.sina.com.cn。網絡版和桌面版具體說明釋義采集依存的網頁數量和具體語境，“emoticon：1.表情符號，表情符號(emoticon)是一短串鍵盤字母和符號，通常仿效一個面部表情，用來補充文字信息……”

(二)詞條信息的豐富形態

互聯網空間數據格式紛繁復雜，除文本數據外，圖片、圖形、音頻、視頻等數據也為詞典所用。數據處理技術使得《必應詞典》可以通過更為豐富的形態表述詞條信息，幫助詞典用戶建立多維度的詞匯認知空間，在更宏觀的層面認知詞匯。

除通過詞典界面表述多形態的詞條信息，通過詞典界面所鏈接的搜索引擎界面，詞典用戶還可以在搜索引擎設置的詞條查詢欄查詢到大量源自網絡空間的各種形態的詞條信息，如查詢詞條“dance”，使用者可以查看大量與舞蹈相關的圖片、音頻、視頻等。

(三)詞條信息的兼收并容

規定主義和描寫主義之爭在詞典史上由來已久，李明和周敬華認為[12]150：“規定主義恪守正統的、規范的、符合邏輯、符合經典作家用法的傳統并以此為標準對語言進行規定的編纂方針，描寫主義主張不是以經典傳統為依據而是以對語言全面的、系統的、客觀的描寫資料為依據進行詞典編纂。”在線英漢漢英雙語詞典肩負著溝通英漢兩種語言的作用，除了忠實反映兩種語言的最新發展和應用情況，也應準確和規范地收錄詞條信息以引導語言健康發展，因此必須平衡好規定主義和描寫主義傾向。《必應詞典》詞條信息在內容上具有兼收并容的傾向，既注重對內置牛津系列詞典等權威詞典的詞條信息的收錄，又注重全面、系統、客觀地描寫和記錄語言。

傳統上，由于全面、系統、客觀地描寫語言難度很大，詞典編纂高度依賴編纂者語言能力和人工經驗，詞典編纂以規范詞匯的標準用法為主要目的；數據時代，隨著詞典用戶查詢行為的改變，為詞典用戶解決語言應用的實際問題發展為詞典編纂需要解決的主要矛盾，基于數據處理技術的詞典編纂把數據采集拓展到網絡空間的海量數據，全面、系統、客觀地描寫語言有了可能性。在數據處理的基礎上，《必應詞典》詞條信息在內容上體現了一定的描寫主義特色，通過采集網絡空間海量數據描寫語言生存和發展狀況，在更為客觀的層面收錄語言實際應用過程中產生的詞匯應用信息。

詞典通過詞條信息記錄和反映人類認知社會的過程和結果，基于數字處理的詞典編纂模式在內容上拓寬了詞典記錄和反映人類認知社會的范圍。

四、結語

當數據和數據處理發展為社會快速信息化的重要表征，研究基于數據處理技術的詞典編纂模式就顯得尤為重要。《必應詞典》是數據時代在線雙語詞典應用數據處理技術的典型代表，反映了數據時代詞典編纂模式的發展趨勢。數據處理技術融入詞典編纂的具體過程，賦予詞典編纂新的方法,詞典信息在構成和表述方式上都發生很大改變。數據時代，數據處理技術不僅對數據計算和分析領域有很大的影響，而且對人文學科領域也產生了深刻影響。隨著數據處理技術在人文學科領域應用的推進，語言學領域也越來越重視數據處理技術對語言學學科發展的影響，作為語言學分支學科，詞典學領域應當更多地關注數據處理技術對詞典編纂模式未來發展和詞典學學科發展的影響。