999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語料庫的雙語詞典編纂平臺的構建

2006-01-01 00:00:00常寶寶
辭書研究 2006年3期

摘 要 本文介紹了北京大學計算語言學研究所根據漢英雙語詞典編纂的實際需要而建立的“基于語料庫的雙語詞典編纂平臺”。論述了該平臺要實現的主要目標及其結構特點、主要功能和使用方式,還介紹了作為該平臺基礎資源的雙語對齊語料庫。

關鍵詞 漢英雙語詞典 編纂平臺 語料庫

要真正發揮語料庫以及信息技術在詞典編纂中的作用,切實提高詞典編纂人員的工作效率和提高詞典的質量,必須認真探索計算機化的詞典編纂流程和模型,并建立基于這些模型的軟件系統。基于這一思考,我們開始構建“基于語料庫的雙語詞典編纂平臺”,期望能為我國辭書編纂技術的現代化做一些工作。

一、編纂平臺的目標

“基于語料庫的雙語同典編纂平臺”(下簡稱“編纂平臺”)的主要目標,是力圖整合詞典編纂人員的編纂技能和現代計算機技術。“編纂平臺”并不取代詞典編纂者的工作.而是協助編纂人員完成詞典編纂,力圖在語言技術、計算機技術和編纂人員智慧之間尋求一個最佳結合;在提高詞典編纂質量的前提下,將編纂人員從繁雜的非智力工作中解放出來,使他們得以專注于詞條的描述,從而提高編纂效率,降低編纂成本。具體而言,“編纂平臺”的主要目標為:

1.提高漢英辭書的編纂質量

利用“編纂平臺”,詞典編纂人員的任何編纂決策均可基于真實語言材料作出。“編纂平臺”將充分利用語料庫語言學的最新發展,為編纂人員提供用例提取、搭配統計分析、詞頻統計、詞語用法的聚類分析等手段,可有效克服傳統詞典編纂方法中主要依賴編纂人員主觀判斷而易使詞典編纂脫離語言的實際使用、導致詞典質量不能得到保證的弊病。在語料庫的支持下,詞目的選擇、詞語用例的選擇、詞條內容的描述等都能得到真實語言材料的印證和確認。

2.提高漢英辭書的編纂效率和降低編纂成本

詞典編纂是一個繁瑣復雜的工程性工作,通常不大可能由一個人來完成,而需要集體協作進行,管理和協調的任務十分繁重。再者,詞典編纂的資料收集、整合工作耗時耗力。“編纂平臺”要在考察傳統詞典編纂過程的基礎上,建立計算機化的詞典編纂模型,對各項工作進行協調和管理,同時整合詞典編纂所需要的各種資源,并提供方便、安全、快捷的查檢手段,從而大幅縮減傳統的詞典編纂所需要的時間,降低編纂成本。

3.具有通用性

“編纂平臺”應是一個基礎性工作環境,可以通用于各種類型的雙語詞典編纂工作,而不限于某一項特定的詞典編纂任務。

二、大規模雙語對齊語料庫的建設

“編纂平臺”最為基礎的資源是大規模語料庫。作為雙語詞典的編纂平臺,雙語對齊語料庫不可或缺。該語料庫由互為譯文的兩種語言文本構成,通常文本之間依據翻譯關系建立不同層次的對齊關系。2001年以來,我們就一直在進行漢英雙語對齊語料庫的建設工作,目前已經積累的漢語部分達到約1800萬字,英語部分達到約1100萬詞,共包含大約80萬個互為譯文的漢英對齊句子對。這為研制“編纂平臺”提供了一個堅實的基礎。

要建立一個大規模的雙語語料庫,多渠道搜集語料是唯一的選擇。這帶來的問題是語料文本格式各異,難以統一處理和管理。同時,作為一種基礎資源,語料庫也需要以一種與具體的應用以及平臺無關的形式存在,從而支持相對廣泛的應用。為此需要對雙語語料庫進行統一編碼,從而方便語料庫的管理、統一處理、共享和交換。我們選用XML語言作為編碼的元語言,這是因為XML語言很普及,得到業界的廣泛支持,基于XML語言的編碼體系容易獲得廣泛的軟件支持。

語料庫中描述何種信息,將直接關系到語料庫的使用問題。目前,“北大漢英雙語語料庫”中主要標記的信息有:

(1)文本屬性信息,描述漢英文本標題、作者、文體、語體、領域和創作時代方面的屬性信息。

(2)文本結構信息,標記漢英文本的標題、子標題、段落、句子的邊界信息。

(3)雙語對齊信息,標記漢英文本在句子一級的對齊互譯關系。

針對這些需要標記的信息,我們分別設計了不同的XML標簽進行標記。

雙語詞典編纂平臺可能不僅需要雙語對齊語料庫,也需要大規模單語語料庫、大規模雙語對比語料庫。因此,構建適用于雙語詞典編纂的各類語料庫,應是一項需要長期堅持努力的系統性工程,需要學術界、出版界長期通力合作。

三、“編纂平臺”的主要功能

在對傳統詞典編纂工作考察的基礎上,結合信息技術以及語料庫技術發展現狀,我們目前為“編纂平臺”設定了11項功能目標。

1.語料庫的定制和索引

提供最基本的語料庫管理功能,允許平臺管理員方便地導入語料。不同的詞典編纂項目所需語料的內容和構成可能并不相同,平臺以創建和配置于語料庫的方式對此進行支持。針對為具體詞典編纂項目定制的語料庫提供索引,為高效檢索和統計提供支持。

2.參考詞典的定制和索引

在詞典編纂過程中,編寫人員經常需要查閱各類已經出版的相關詞典。在“編纂平臺”中,電子化的詞典資源被稱為“參考詞典”。參考詞典可以通過對現有詞典進行電子化轉換獲得。平臺允許用戶為某個具體詞典編纂項目指定參考詞典,并為用戶高效檢索參考詞典提供索引支持。

3.詞典編纂項目管理

在“編纂平臺”中,一部詞典的編纂以一個“詞典編纂項目”的方式進行管理。平臺管理員可以根據需要創建新的詞典編纂項目,并指派項目負責人(主編),開啟新的詞典編纂任務。項目負責人可以根據編纂需要,決定參加編寫的工作人員,并為詞典編纂項目創建項目組,落實項目的具體編纂工作。

4.條目的生成和管理

“編纂平臺”可以為某個詞典編纂項目生成基本的條目表。由平臺提供的基本條目并非不可改變,編寫人員完全可以根據需要收入新的條目或刪除一些不重要的條目。“編纂平臺”允許詞典項目負責人或從語料庫中據統計結果得到條目表,或從其他來源得到條目表,或自行設計條目表。

5.釋義詞表的生成和管理

學習型詞典經常需要限制條目釋義的難度。常見做法是制定有限的釋義詞表,用表中的詞編寫所有詞條的釋義。“編纂平臺”允許項目負責人為某詞典編纂項目制定有限釋義詞表。該詞表可以由語料庫選擇高頻詞構成,也可以由項目負責人自行設計。

6.詞典編纂任務管理

“編纂平臺”以“任務”的形式管理詞典編纂人員的各項工作。按照工作性質,編纂任務可以分為編寫性任務和審核性任務。項目負責人可以將編纂工作分解成若干任務,分配給項目組的其他人員分工完成。

7.編纂平臺用戶管理

“編纂平臺”的用戶可以分為三類:一類是系統管理員,其不實際參與具體的詞典編纂項目,職責是創建詞典編纂項目,指定項目負責人,維護管理語料庫以及參考詞典資源,維護“編纂平臺”的正常運轉。第二類是項目負責人,其職責是負責一部詞典的編寫管理,主要工作包括為實施詞典編纂項目而創建項目組,為項目組人員創建并分配各類任務。項目負責人也負責創建詞典微觀結構、制定釋義詞表等工作。第三類是詞典編纂人員。他們往往參與一個或多個詞典編纂項目,并在其中承擔若干項具體的編寫或審核任務。“編纂平臺”提供了用戶管理功能,只有合法用戶才有權利使用“編纂平臺”;而系統管理員或項目負責人均可以創建新的用戶,并管理業已存在的用戶。

8.詞典微觀結構的定制和管理

“編纂平臺”是一個通用平臺,必須能適合不同的詞典編纂項目。然而,不同詞典的詞條結構往往不同。為了使平臺具有通用性,項目負責人可以針對特定的詞典編纂項目定制特定的詞條結構模板。該模板規定詞條描述的主要內容,可用以約束條目的編寫工作。

9.詞典編纂工作臺

詞典編纂工作臺是編寫人員的工作環境。工作臺由項目負責人所定制的詞條結構引導生成。通過該工作臺,編寫人員可以很方便地查詢語料庫以及參考詞典。

10.語料庫檢索

語料庫檢索是“編纂平臺”的核心功能。為了充分支持編寫人員靈活高效地檢索,“編纂平臺”中設置了一種簡單、易掌握的微型查詢語言,編寫人員可以很容易地使用這種查詢語言生成自己的查詢表達式,獲得預期的檢索結果。

11.搭配信息統計分析

在詞典編纂過程中,編寫人員通常需要對某個詞的所有可能的搭配詞、搭配強度以及搭配詞的出現次數進行考察。為此,“編纂平臺”可基于語料庫統計出某個詞的可能的搭配詞、這些搭配詞與該詞共現的頻度、搭配詞與該詞的搭配強度。

四、“編纂平臺”的結構

一部詞典的編纂通常需要不同類型的多人協作進行,且會持續較長時間,而同一部詞典的編寫人員也可能在不同的單位供職。為了適應辭書編纂的協作性質,消除地理位置差異帶來的不便,“編纂平臺”的結構基于互聯網,如圖1所示。

整個“編纂平臺”由兩部分組成:一部分位于高性能服務器上,即語料服務管理器。它提供詞典項目的管理功能,為編寫人員提供語料和參考詞典方面的服務。另一部分位于詞典編寫人員所使用的個人計算機上,即詞典編輯工作臺。這兩個部分通過互聯網聯接在一起。詞典編寫人員不與服務管理器直接打交道,而是通過本地詞典編輯工作臺接受來自語料服務管理器所提供的服務,并基于這些服務在本地作出合理的詞典編寫決策。語料服務管理器可以為多位詞典編寫人員同時提供服務。

五、詞典微觀結構的定制和詞條編寫

不同的詞典有不同的結構,尤其對于微觀結構而言,更是如此。詞典編纂專家往往依據詞典的使用對象、詞典的性質來設計詞典的微觀結構。在同一部詞典中,不同類型的條目也可能需使用不同的結構。因此,通用型的雙語詞典編纂平臺必須可以提供允許詞典項目負責人定制詞典微觀結構的功能。

根據考察,我們認為詞條的結構基本上可以用計算機技術中常用的樹型結構來描述,圖2展現的便是一個詞典條目和詞條結構樹之間的對應關系。

在“編纂平臺”中,詞典項目負責人通過制定詞條結構樹的方式來定制詞典的微觀結構。詞條結構樹描述了一個詞典條目所有內容之間的層級結構。如圖2所示,一個詞典條目由詞頭、同形詞編號、音標以及條目主體組成;條目主體則由形態變體、若干個詞類塊以及若干附屬的短語塊組成;每個詞類塊由一個詞類代碼、子類代碼和若干個義項構成;每個義項由義項定義、領域代碼、語體代碼和例句構成。在制定詞條結構時,項目負責人還可以進一步指定構成詞條的各個元素的屬性,如元素值的類型、表達元素出現次數的數量屬性等。這些都有利于在詞條編寫時進行合法性驗證,減少詞典編寫人員的輸入錯誤。一個詞典編纂項目可以同時制定多個詞條結構樹,例如,項目負責人認為在某部詞典的編寫任務中,動詞和名詞的描寫內容差異較大,那么他就可以分別制定用于名詞條目的結構樹和用于動詞條目的結構樹。

在詞典微觀結構建立后,平臺會依據詞條結構樹生成詞條編寫界面,供編寫人員使用。由于編寫界面是依據詞條結構樹生成的,因此不同的詞典會有不同的界面,同一部詞典中的不同類型條目也會有不同的界面。圖3展示的是詞條編寫界面的一個實例。

在詞條編寫界面中,編寫人員除可以編寫詞條的內容外,還可以很容易地調整詞條組成元素的排列,例如可以將常用義項調整到非常用義項的前面。編寫人員也可以很容易地通過界面查詢語料庫和參考詞典資源。

六、語料的檢索和統計

在“編纂平臺”中,語料檢索和統計是核心功能之一。具體地講,它目前能為詞典編寫人員提供下列功能:

1.詞頻表的生成

詞頻表反映詞在真實語言材料中的使用頻度。在詞典編纂工作中,詞頻表對于收詞、詞目分級以及有限釋義詞的選定等,都有重要作用。“編纂平臺”可以基于語料庫產生漢語詞頻表和英語詞頻表,且所有詞頻表均可基于系統當前加載的語料實時、動態地更新。

2.詞的檢索

“編纂平臺”在高效索引的基礎上提供漢語詞檢索、英語詞檢索和雙語對照檢索的功能。圖4是漢語詞檢索(檢索詞是“民主”)結果示例。

由于目前語料庫中對漢語詞標記了詞類信息,在漢語詞的檢索中還可以指定詞類,從而可以獲得兼類詞作各種詞類使用的情況。例如,以“鎖/n”為檢索詞形式可檢索到“鎖”作為名詞使用的情況,而以“鎖/v”為檢索詞形式,則可檢索“鎖”作為動詞使用的情況。

雙語對照檢索可以查到某詞的特定譯法。例如,漢語詞“民主”在英語中可能有多種翻譯方式,利用雙語對照檢索,可以檢索出“民主”譯為“dernocracy”的所有例句(見圖5)。

為了滿足詞典編寫過程中更靈活的語料檢索需求,“編纂平臺”支持模糊檢索,例如,輸入檢索詞“chin*”,能檢索到“chin”、“China”、“Chinese”等所有以chin開頭的詞在語料中的分布情況。

3.表達式檢索

對于詞典編纂而言,只提供特定詞的檢索手段往往是不夠的。詞典編寫人員常要根據特定詞的搭配情況或者針對一個結構模式進行檢索。但在真實語料中,特定搭配的各種成分或結構模式中的各種成分既可能是連續出現的,也可能是不連續出現的;而英語詞還存在形態不一的問題。因此,“編纂平臺”定義了一種小型的檢索語言,詞典編寫人員可以利用這種檢索語言生成查詢表達式來滿足特殊的檢索需求。例如,用表達式“take!^#{0,10}into ac-count”可以檢索英語中包含結構“take...into account”的句子,用表達式“一(~,|~。){0,7}就”可以檢索漢語中包含“一…就…”并且“一”和“就”之間不含有“,”、“。”的句子對。

4.檢索結果的聚類排序

無論是詞的檢索還是表達式檢索,檢索結果一般按自然順序(即語料在語料庫中的物理順序)排列,但這不便于詞典編寫人員對結果進行分析。因此,“編纂平臺”還提供聚類排序手段,允許編寫人員依據檢索詞的多個搭配詞為依據重新排列檢索結果,從而使得具有相同搭配特性的詞排列在一起。仍以檢索詞“民主”為例,位于“民主”左邊的詞可以是“發揚”、“發展”或“缺乏”等,如果不對檢索結果重新排列,編寫人員就很難集中考察所有與“發揚民主”有關的例句,而如圖6所示的聚類排序結果,顯然為編寫人員提供了方便。“編纂平臺”的聚類排序功能支持對多個關鍵詞的排序。

5.搭配及搭配強度的統計分析

在詞典編纂過程中,編寫人員通常需要對某個詞的所有可能的搭配詞、搭配強度以及搭配詞的出現次數進行考察。以“民主”為例,“民主”左邊可以出現“發展”和“發揚”等,但搭配強度孰大孰小,需要借助統計手段形成量化度量。“編纂平臺”可以基于語料庫統計詞的可能的搭配詞、這些搭配詞與檢索詞的共現頻度、搭配詞與焦點詞的搭配強度。表1顯示的是“民主”一詞的搭配共現頻度(表中L1、L2等表示左邊的第1、第2個詞,R1、R2等表示右邊的第1、第2個詞):

本文介紹了一個我們正在開發的“基于語料庫的雙語詞典編纂平臺”。目前該平臺已經具備基本功能,但還處在進一步開發過程中。我們希望我們的努力最終能產生一個可以投入實際使用的實用化編纂平臺,能為我國辭書編纂的現代化工作貢獻一點綿薄之力。

(北京大學計算語言學研究所 100871)

(責任編輯 陸嘉琦)

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 亚洲欧美成人综合| 欧美一区中文字幕| 国产亚洲精品va在线| 亚洲国产日韩在线成人蜜芽| 在线观看国产一区二区三区99| 国产成人精品视频一区视频二区| 国产色伊人| 97视频精品全国免费观看| 97国产在线观看| 老熟妇喷水一区二区三区| 一级毛片不卡片免费观看| 国产视频欧美| 操操操综合网| 亚洲成aⅴ人在线观看| 色综合狠狠操| 在线观看亚洲成人| 日韩欧美国产成人| 免费高清a毛片| 亚洲精品欧美重口| 国产精品成人免费视频99| 国产成人免费手机在线观看视频 | 色久综合在线| 亚洲日本中文字幕乱码中文| 四虎成人精品| 亚洲综合亚洲国产尤物| 婷婷久久综合九色综合88| 国产精品白浆在线播放| 亚洲男人在线| 91精品情国产情侣高潮对白蜜| 91破解版在线亚洲| AV熟女乱| 国产精品爽爽va在线无码观看 | 国产午夜在线观看视频| 国产9191精品免费观看| 456亚洲人成高清在线| 久久成人18免费| 中文字幕久久亚洲一区| 国产午夜福利亚洲第一| 视频一区亚洲| 自拍偷拍欧美| 国产乱子伦手机在线| 97人人做人人爽香蕉精品| 青青青亚洲精品国产| 亚洲人成网站18禁动漫无码| 在线观看无码a∨| 亚洲男人的天堂久久香蕉| 精品国产成人三级在线观看| 国产老女人精品免费视频| 天天综合网亚洲网站| 国产成人成人一区二区| 亚洲欧洲免费视频| 欧美视频二区| 欧美性久久久久| 国产精品香蕉在线观看不卡| 国产天天射| 欧美中文字幕在线二区| 精品午夜国产福利观看| 久久国产乱子| 国产特级毛片aaaaaaa高清| 色婷婷国产精品视频| 日本成人精品视频| 亚洲成a人片77777在线播放 | 毛片视频网址| 91色爱欧美精品www| 亚洲色图综合在线| 亚洲中文字幕在线一区播放| 国产凹凸视频在线观看| 国内精品视频在线| 97久久免费视频| 国产网友愉拍精品视频| 国产成人狂喷潮在线观看2345| 亚洲精品少妇熟女| 任我操在线视频| 高h视频在线| 毛片免费视频| 在线观看国产精品第一区免费| 中日韩欧亚无码视频| 国禁国产you女视频网站| a天堂视频| 亚洲精品天堂在线观看| 国产黄网永久免费| 日韩高清中文字幕|