999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

上海外語教育出版社英漢雙語平行句對語料庫的構建*

2012-08-07 05:35:32張春明
辭書研究 2012年5期
關鍵詞:英語

賀 敏 張春明

(上海外語教育出版社 上海 200083)

上海外語教育出版社(以下簡稱“外教社”)承擔的上海市科委課題“雙語詞典編纂系統的研發”是上海市政府扶持辭書編纂出版數字化的重大科研項目,該課題的總體目標是開發一個基于語料庫的數字化雙語詞典編纂出版系統,其子課題之一就是構建一個服務于雙語詞典編纂、經過深加工的、通用共時并在句子層面對齊的英漢雙語書面語語料庫。該語料庫以英語為原語、以漢語為譯語,以XML(extensible Markup Language)為標注語言,對英語原文語料的標注做到分詞(tokenization)、主詞標注(lemmatization)及詞性賦碼(part of speech tagging),對漢語譯文語料的標注做到分詞及詞性賦碼。基于該語料庫,詞典編纂者及詞典用戶可以通過在線檢索平臺提取有效的詞典例證,統計具體詞語的詞頻信息,了解詞匯的分布情況,獲得具體詞語或結構的用法信息(包括語義、語法、搭配等方面)。經過三年多的建設,該語料庫一期工程已建成收錄68萬英漢雙語平行句對的語料庫,總字數達5455萬。本文將綜述該語料庫的設計和構建過程,內容涉及語料的采集、加工、標注、檢索等方面。

一、語料庫前期設計

課題研究開始時,外教社課題組與各合作單位進行了較為廣泛的調查工作,并以此為基礎制訂了詳細的語料庫建設實施方案,確定語料庫設計階段的主要任務為:(1)確定標注語言;(2)確立語料選取的原則及語料來源;(3)制訂語料儲存方案與各項工作流程;(4)編制語料庫技術開發需求規約。

1.標注語言

英漢雙語平行句對語料庫的標注語言采用了XML,即可擴展標記語言。XML是目前通用的數據標記語言,它能描述多種類型的文本邏輯結構,能創建不受平臺或格式化協定限制的開放數據。XML的設計宗旨是傳輸數據,使其成為獨立的信息傳輸與集成工具。XML文件沒有任何預定義標簽,因其“高度靈活,擴展性強”(梁茂成等2010)的特點,在跨平臺數據交換、數據建模與分析、網絡服務等眾多領域得到了廣泛應用。Jeffrey Zeldma在Designing with Web Standards(2nd Ed.)中這樣描述XML的開放性:“XML于1998年2月被引入軟件工業界時,它給整個行業帶來了一場風暴。有史以來第一次,這個世界擁有了一種用來結構化文檔和數據的通用且適應性強的格式,它不僅僅可以用于 WEB,而且可以被用于任何地方”(http:∥www.w3school.com.cn/x.asp)。正是由于 XML具有開放性強、兼容性好、靈活性高、擴展性強的特點,可實現信息內容、結構和表現三者的分離,我們選用了XML作為英漢雙語平行句對語料的標注語言。

2.語料選取原則

根據語料庫的性質與定位,我們確立了六大語料選取原則:(1)語料以英語為原語,以漢語為譯語,漢譯英類語料不收。(2)以20世紀以來的現當代作品語料為主。(3)以書面語語料為主,口語、錄音文本不收。(4)為盡量保證語料庫的平衡性,確定了人文社科類語料占70%、自然科學與應用科學類語料占15%、其他類語料占15%的語料分布比例。文學類語料包括虛構類(fiction)與非虛構類(non-fiction),但不收錄詩歌作品。學科廣度原則優于深度原則,科技類語料以科普類作品為主。(5)為保證語篇的連貫性與完整性,語料收錄以整部或整篇為單位,片段性語料不予收錄。片段性語料指的是須從作品中逐個析出的以句子或段落為單位的語料,一般包括翻譯教材中的譯例、詞典中的例證,等等。(6)除了語料庫的性質與定位外,確立語料選取原則時須納入考慮的另一個因素是語料本身的質量,這就涉及語料原本與譯本的選擇。為了保證質量,我們在選取語料時盡可能遵循兩個原則:(1)選擇聲譽高、影響大、專業性出版機構的出版物;(2)同一部英語作品有多種漢語譯本的,選擇質量高或權威的譯本。

作為全國最大、最權威的外語出版基地之一,外教社本身就擁有大量雙語語料資源。在這些語料資源中,我們共選取了近200種已出版的、符合語料庫定位的英漢雙語對照圖書的電子文本,用于語料庫建設。其他語料的來源有正式紙質出版物和來自互聯網的電子文本兩種,以紙質出版物為主,互聯網文本為輔。出于保證語料質量的考慮,這些語料必須具備四大要素——作品名、英語作者、漢語譯者、出版社(或網址),語料來源最終由外教社確定。

3.語料加工流程

結合自身的情況,我們初步制訂了一個基本的語料加工流程(見圖1)。

該語料庫一期工程的規模原設定為50萬句對(5000萬字),但最終為68萬句對。要構建一個如此規模的語料庫,工作量大、耗時長久、涉及人員眾多。為了保證語料加工工作的有序開展與有效進行,我們還針對圖1中的各個流程制訂了詳細的工作規范,內容涉及原始語料的儲存及文件的命名、語料來源信息的記錄、原始語料在加工前的預處理、句對齊處理的原則等。關于編制語料庫技術開發需求規約方面的工作,因技術性較強,本文不展開詳述。

圖1 外教社英漢雙語平行句對語料加工流程

二、語料加工

在確定語料庫建設方案后,就進入了語料庫構建階段。語料庫構建階段的工作主要由三部分組成:(1)原始語料的采集與整理;(2)語料的句對齊與標注處理;(3)分詞、主詞標注與詞性賦碼。

1.原始語料的采集與整理

一般來說,語料來源有兩種,即紙質出版物或互聯網電子文本。紙質出版物語料經掃描、識別與初步校對后,形成TXT格式的電子文件;互聯網電子文本經轉換、除噪與初步校對后,形成TXT格式的電子文件。語料文本的編碼統一使用UTF-8。盡管經過初步校對,這些生語料還是存在各種各樣的問題,如:遺漏空格或存在多余空格、存在亂碼、多余的段落標記符及連字符、全角或半角標點符號的使用錯誤,等等。為了獲得清潔文本,為下一階段的語料加工工作做好準備,需要對這些電子文件做進一步的預處理。文本預處理的類型主要有以下三種:

1)使用外教社自行研發的句對標注工具去除文本中多余的段落標記符;

2)對電子文本中不能顯示或不能正確顯示的特殊字符予以補充或修正,如:上撇號、外國人名譯名中的中圓點,等等;

3)將英語語料中的全角標點符號替換為半角標點符號,將漢語語料中的半角標點符號替換為全角,統一破折號的形式,等等。

在文本預處理完成后,語料加工者需填寫EXCEL格式的“英漢雙語平行語料來源信息表”,該表具體包括:語料加工者;加工開始及完成時間;語料驗收者;語料驗收日期;分布類別;英語書名;漢語書名;英語作者;漢語譯者;英語版出版社及出版年;漢語版出版社及出版年;是否英漢對照。英語版及漢語版網址、備注、索書號為選填項目。由于語料多來源于正式紙質出版物,為保證學科分類的科學性,分布類別信息按中圖分類法,填寫版權頁書號中的中圖分類號。正如Leech(1997)所言,對語料庫進行各類標注會使語料庫增值,而雙語平行句對語料庫最基本的標注就是句對齊標注。

2.句對切分

句對齊處理采取自動對齊與人工編輯相結合的辦法。從現階段的技術現狀來看,自動對齊的正確率尚難以令人滿意,要實現語料的完全對齊,還需要人工干預。

英漢雙語平行句對語料庫的總體對齊原則是一句英語對一句漢語,但由于英漢兩種語言在表達方式和習慣上均有較大差異,有時無法實現“一對一”。遇到此類情況時,我們采取了兩種方式處理:若一句英語的漢語譯文為多句,則采取一對多的辦法;若多句英語的漢語譯文為一句,則采取多對一的辦法。有時漢語譯文因行文需要與英語原文的語序有所不同,為保證英漢文本在語義上的對應,則采取擴大對應單位的辦法,合并相應句子,如《埃及女王克婁巴特拉》中的句對:

The spectators were about to witness a spectacle that none of them would ever forget.Cleopatra,queen of Egypt,was arriving to greet the most powerful leader of the Roman world.

克婁巴特拉,埃及的女王,正趕來這兒會見羅馬最強大的將領。這里即將上演的一幕,所有到場的人都將永生難忘。

自動對齊完成后,加工者還需要對自動對齊的文件進行人工核對。核對的重點為:(1)糾錯。主要是改正錯別字或拼寫錯誤,補充遺漏的空格或刪除多余的空格,刪除單詞間多余的連字符(如to-day)。為保證語料的原始性,加工者對譯文質量有問題之處不做修改。(2)強制對齊。主要是根據句對齊原則糾正機器未對齊句子。(3)處理原書中的圖、表、公式、符號、文內注釋編號、頁眉、頁腳、頁碼、腳注、尾注、行號、夾注、譯者注。處理原則為:a.原書的頁碼、頁眉、頁腳、腳注、尾注、原文正文中指示腳注、尾注位置的編號、行號等一律刪除;b.原文和譯文同時對應存在的夾注保留;c.譯文中的譯者注刪除;d.圖片、表格、公式、符號等在文本文件中無法正確顯示的內容均刪除,在刪除處“[]”加注(即,在英、漢語料中刪除圖、表、公式、符號的原始位置分別加上“[Illustration/Chart/Formula/Symbol omitted]”與“[圖/表/公式/符號略]”)。

3.句對標注

我們使用外教社自行開發的雙語平行句對標注工具進行句對齊語料的XML標注。該工具的功能主要有:生成及編輯雙語平行句對標注XML文件、統計雙語平行句對標注XML文件的句對數及折合漢字數。

XML是一種自定義標記語言,以XML標記語料就需要一整套規范來定義語料的元素、屬性等,保證以XML格式標記的語料具有可交換性和共享性。表1為英漢雙語平行句對語料庫使用的元信息元素集。

表1 外教社英漢雙語平行語料庫語料元信息元素表

(續表1)

將TXT格式的對齊文本及EXCEL格式的“英漢雙語平行語料來源信息表”導入平行句對標注工具,生成句對齊標注語料。語料加工者根據元信息標注規則與句對齊原則,在平行句對標注工具中對句對齊標注語料進行編輯。此外,語料加工者還可以通過平行句對標注工具統計某種語料文本的句對數量與總字數。句對齊標注語料經過多次檢查后驗收入庫,做進一步自動分詞、主詞標注與詞性賦碼處理。

4.英語語料的分詞、主詞標注與詞性賦碼

分詞(tokenization)指的是將一連串的字符轉換成相互分離的可識別形符(token)。英漢雙語平行句對語料庫對英語形符做如下分類:

1) 一般意義上的單詞(以空格隔開),如:ability、British、where、cliché、cleaning。

2) 帶連字符的單詞,如:mark-up、post-war、just-in-time、wonder-of-the-world。

3) 帶“.”或不帶“.”的縮寫,如:UNESCO、Mr.、St.、U.S.A.、etc.。

4) 數字或數字與字母的組合,如:0.16、1/2、1000、1,000、2010、3rd、21th、3D,1980s。

5)縮約式,如:'d、've。英漢雙語平行句對語料庫對縮約式的處理示例詳見表2。

表2 英語文本縮約式分詞前后對照表

(續表2)

詞典編纂者通常需要研究詞的語法特征,因此,經過詞形標注的語料還需要更進一步的標注,即英語單詞的主詞標注(lemmatization)和詞性賦碼(part-of-speech tagging)。主詞標注是將單詞的屈折變化形式還原成單詞的原形,即主詞(lemma)。如,英語單詞look做動詞用時,其屈折變化形式有現在式復數形式及第一人稱單數形式look、現在時第三人稱單數looks、過去式和過去分詞looked,以及現在分詞和動名詞looking。在語料處理中,需標注具體語境中的屈折變化形式的主詞。對單詞進行主詞標注使語料檢索手段多樣化,檢索結果也更為豐富,提高了語料的使用價值,更方便詞典編纂者。在主詞標注的技術實現上,我社借鑒了通用的開源算法,準確率達到90%左右,然后進行進一步修正。

而對于詞性賦碼,我們結合語言學研究成果和詞典編纂慣例,為本語料庫制定了一個英語詞性賦碼集,具體內容如表3所示:

表3 英語單詞詞性賦碼集

(續表3)

5.漢語語料的分詞與詞性賦碼

漢語的分詞是一項非常復雜的工作,在分詞標準上漢語研究學界也尚未達成共識。“分詞是漢語信息處理中的一項基礎工程。解決漢語分詞問題,意義重大,但困難重重,所以‘分詞問題已成為當前中文信息處理的瓶頸’。在分詞的諸多問題中,最重要的是:分詞的標準是什么……所以黃昌寧先生正確地指出,在漢語分詞問題中,‘首先必須就漢語的分詞標準取得共識’”(郭曙綸2011:35)。要制定出一套科學的、具有可操作性的分詞規則需要以語言研究為基礎,而本語料庫首先是服務于雙語詞典編纂系統的,在這種情況下,我們未自行制定漢語分詞與詞性賦碼集,而是遵循GB/T20532—2006《信息處理用現代漢語詞類標記規范》進行分詞與詞性賦碼處理。該規范將分詞單位定義為“漢語信息處理使用的,具有確定語法功能的基本單位”,包括詞、短語、縮略語、前接成分、后接成分,等等。下文以列表的形式對該規范的詞性賦碼原則略做說明。

表4 漢語詞性賦碼集

三、語料檢索

“語料庫檢索的目的是導出索引行,以便于我們批量觀察類似的語言現象,找到其中的規律。”(梁茂成2010)對于雙語詞典編纂者而言,通過檢索獲取的索引行可以幫助他們找到合適的對應詞與適用的例證,以更好地描述詞匯的語義、語法及語用特征。實現有效檢索的首要前提就是語料庫檢索工具。外教社英漢雙語平行句對語料庫的檢索平臺與雙語詞典編纂系統集成在一個系統平臺上,可以更好地為詞典編纂提供在線語料檢索服務。該平臺主要功能有:(1)語料檢索;(2)語料管理;(3)詞表生成;(4)語料統計。檢索界面如下:

圖2 外教社英漢雙語平行句對語料庫檢索界面

現就該檢索平臺的核心功能——語料檢索功能做簡要說明。

1.設定檢索條件

為便于詞典編纂者更準確地檢索到想獲取的內容,檢索平臺可以通過語料庫檢索工具設置了多個具體的檢索選項:

1)檢索項:檢索項可為一個具體的詞、短語(如:careful,look down upon,我們)或任何一個含通配符的結構(如:be*)。英漢雙語平行句對語料庫中用到的通配符主要有兩種,即“*”與“?”。“*”可匹配任意字符串(包括無字符的情況),如:be* 匹配 be,been,being,before,behave 等;“?”可匹配任意一個字符,如:h?t匹配 hat,hit,hot等。

2)語種:若選擇“英語”,則檢索的范圍為英語語料;若選擇“漢語”,則檢索的范圍為漢語語料。系統默認選擇“英語”。

3)詞性:若語種選擇“英語”,則“詞性”下拉菜單為英語詞性選擇列表,系統默認選擇全部;若語種選擇“漢語”,則“詞性”下拉菜單為漢語詞性選擇列表,系統默認選擇全部。

4)英語主詞匹配:僅當語種為“英語”時,此選項有效。若語種選擇“漢語”,則“英語主詞匹配”選項無效。該選項系統默認為“是”。此時,系統查找檢索項(英語單詞)的原形及其所有屈折變化形式。如,若檢索項為look,系統除檢索 look外,還檢索look、looks、looking、looked等屈折變化形式。選擇“否”時,系統按“完全匹配”原則檢索,即檢索與檢索項完全相同的形式。

5)區分大小寫:僅當語種為“英語”時,此選項有效。默認為“否”(即不區分大小寫)。如,若檢索項為being,則檢索結果既包含being,也包含Being。

6)漢語分詞匹配:僅當語種為“漢語”時,此選項有效。若語種選擇“英語”,則“漢語主詞匹配”選項無效,系統默認為“是”。此時,系統按漢語分詞規則查找檢索項。選擇“否”時,系統僅檢索字符串,漢語分詞不作為檢索條件。

7)作品名、作者/譯者、出版者:輸入關鍵字,確定檢索范圍。若為空白,則不作為檢索條件。

8)最早出版年份、最晚出版年份:設定語料的出版時間區間。年份格式為YYYY。若為空白,則不作為檢索條件。

9)分布選項:本語料按中國圖書館圖書分類法對語料加以分類,系統默認選擇全部類別。

2.檢索結果呈現

按“檢索”按鈕,系統按設定的檢索條件在語料庫中查找檢索項。檢索結束后,系統統計檢索項總數,并按頁顯示句對,每頁顯示10個句對(見圖3)。句對中包含的檢索項用紅色字體顯示。如用戶需查閱某個句對的上下文,可點擊句對右邊的“語篇”標簽,系統彈出窗口,顯示句對所在語篇的前后各兩個句對。

四、結 語

英漢雙語平行句對語料庫經過三年多的建設,目前已初具規模,并已正式上線試用。該語料庫主要用于詞典編纂,但同時也可用于包括詞匯研究、句法及語用研究、比較語言學、翻譯研究、話語分析等在內的語言學各分支學科研究。鑒于英漢雙語平行句對語料庫建設是一個復雜的跨學科的科研工作,內容涉及建庫目的的確立、建庫標準的制訂、建庫流程的優化、語料的采集與校訂、語料的機器處理與入庫、語料的檢索與利用以及相關工具軟件的研發等方面,本語料庫目前尚處于初步定型階段,有待進一步完善和擴容。我們下一步要做的工作還有許多:繼續擴大語料庫的規模,增強語料庫的平衡性;提高語料標注質量并嘗試更深層次的標注;升級檢索工具的功能,尤其是搭配信息檢索功能,使之進一步滿足詞典編纂者及語言學研究者提取語料數據、總結語言規律的實際需要;總結經驗,繼續開發主要用于雙語詞典編纂的其他外語—漢語(如法漢、意漢、德漢等)平行句對語料庫,以全面推動我國雙語詞典編纂出版從傳統紙質載體時代向真正意義上的現代數字載體時代的轉變。

圖3 外教社英漢雙語平行句對語料庫檢索結果示例

1.郭曙綸.漢語語料庫的建設及應用.上海:上海外語教育出版社,2001.

2.梁茂成,李文中,許家金.語料庫應用教程.北京:外語教學與研究出版社,2010.

3.Leech G.Introducing Corpus Annotation.∥Garside R,Leech G,McEnery T.(eds.)Corpus Annotation:Linguistic Information from Computer Text Corpora.London:Longman,1997.

猜你喜歡
英語
玩轉2017年高考英語中的“熟詞僻義”
英語
讀英語
酷酷英語林
英語大show臺
興趣英語(2013年12期)2014-02-11 03:21:38
悠閑英語(86)感恩與忘恩
海外英語(2013年11期)2014-02-11 03:21:02
英語大show臺
興趣英語(2013年3期)2013-05-13 09:21:06
英語大show臺
興趣英語(2013年2期)2013-04-25 01:50:06
主站蜘蛛池模板: 国产91精品最新在线播放| 波多野结衣无码AV在线| 亚洲欧美自拍视频| 亚洲男人的天堂在线观看| 国产欧美日韩va另类在线播放| 91小视频在线| 国产黑丝视频在线观看| 午夜人性色福利无码视频在线观看| 91色老久久精品偷偷蜜臀| 第一区免费在线观看| 国产噜噜噜视频在线观看| 91麻豆国产在线| 国产中文一区a级毛片视频| 9cao视频精品| 一区二区欧美日韩高清免费 | 亚洲高清中文字幕| 91蝌蚪视频在线观看| 精品久久久久无码| 亚洲最新地址| 日本人妻丰满熟妇区| 久久网欧美| 免费无遮挡AV| 露脸一二三区国语对白| 强奷白丝美女在线观看| 四虎永久在线视频| 国产三级韩国三级理| 一级成人a毛片免费播放| 国产精品福利导航| 国产靠逼视频| 国产一在线观看| 好吊日免费视频| 日韩毛片在线播放| 精品综合久久久久久97超人该| 久久精品人妻中文系列| 国产精品无码在线看| 国产91熟女高潮一区二区| 欧美不卡二区| 综合色在线| 97免费在线观看视频| 国产午夜无码专区喷水| 亚洲天堂网站在线| a毛片基地免费大全| 国产精品毛片在线直播完整版| 亚洲swag精品自拍一区| 国产国产人免费视频成18| 亚洲a免费| 亚洲成a人片在线观看88| 亚洲天堂网在线播放| 亚洲男女天堂| h网站在线播放| 国产第二十一页| 91亚洲国产视频| 国产精品久久久久鬼色| 国产综合精品日本亚洲777| 久久这里只有精品23| 伊人久热这里只有精品视频99| 99久久99这里只有免费的精品| 中文字幕永久在线看| 国产v精品成人免费视频71pao | 99久久99视频| 国产精品无码翘臀在线看纯欲| 日韩欧美国产三级| 在线视频一区二区三区不卡| 97色婷婷成人综合在线观看| 久久公开视频| 亚洲国产天堂久久综合226114| 亚洲女同一区二区| 国产人免费人成免费视频| 日韩成人在线网站| 国产JIZzJIzz视频全部免费| 国产精品不卡片视频免费观看| 亚洲第七页| 午夜啪啪网| 精品三级网站| www.国产福利| 99久久国产精品无码| 国产激情第一页| 欧美全免费aaaaaa特黄在线| 中文字幕色在线| 亚洲无码视频喷水| 狠狠做深爱婷婷综合一区| 久久精品国产亚洲AV忘忧草18|