999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

小型英漢平行語料庫的建設研究與應用

2018-10-30 10:22:30周影

周影

【摘 要】語料庫擁有大量真實的人們實際使用的語言材料,它以計算機為載體,其真實語料經(jīng)加工處理后,可成為重要的資源。小型英漢平行語料庫的建成將會對翻譯領(lǐng)域、教學方面以及語言對比研究領(lǐng)域有著重大作用和意義。論文主要從語料選取、標注以及平行匹配三部分來闡釋如何建設小型英漢平行語料庫,以及其具體應用。為語料庫研究者提供建庫方法,為英語學習者和研究者提供應用指南。

【Abstract】The corpus has a large number of real language materials actually used by people, it takes the computer as the carrier, and its real corpus can become an important resource after processing. The establishment of a small English and Chinese parallel corpus will play an important role in the field of translation, teaching and language comparative research. This paper mainly explains how to build small English and Chinese parallel corpus from three parts: corpus selection, annotation and parallel matching, and its specific application. It provides corpus building methods for corpus researchers and application guidance for English learners and researchers.

【關(guān)鍵詞】平行語料庫;語料庫的建設;語料庫的應用

【Keywords】 parallel corpus; the establishment of corpus; the application of corpus

【中圖分類號】H0 【文獻標志碼】A 【文章編號】1673-1069(2018)07-0092-02

1 語料庫介紹

1.1 語料庫的分類

語料庫的英文為corpus,從字面上的意思講,即收集語料的倉庫。早期的語料庫規(guī)模較小,隨著計算機技術(shù)的發(fā)展和語言詞匯數(shù)量的增加,其發(fā)展規(guī)模越來越大,類型也變得更加多樣化,常見的語料庫分為單語語料庫和雙語/多語語料庫。單語語料庫是目前開發(fā)和使用最多的語料庫,它僅收集一種語言的語料。雙語/多語語料庫是指由兩種或兩種以上語言的文本構(gòu)成的語料庫。平行語料庫是指由原文文本及其平行對應的譯語文本構(gòu)成的雙語語料庫,其雙語對應程度有詞級、句級和段級幾種。

1.2 語料庫研究現(xiàn)狀

20世紀60年代初,第一代現(xiàn)代計算機語料庫LOB(1961)和BROWN(1961)建成。人們對語料庫的研制興趣日益濃厚,后隨著計算機技術(shù)的飛速發(fā)展,語料庫研究也得到迅速發(fā)展。在雙語對應語料庫的對象語言上,從一開始的僅側(cè)重于英語,發(fā)展到現(xiàn)在的幾乎覆蓋世界上所有主要語言,其所涉語種達20種之多。目前,國內(nèi)外建立了許許多多規(guī)模迥異、語種多樣的平行語料庫,如北京外國語大學北京日本學研究中心研制的中日對譯語料庫;北京大學計算語言學研究所開發(fā)的主要應用于新聞的、機助翻譯類的雙語平行語料庫;Johansson等人在挪威奧斯陸大學建立的英語和挪威語雙語對應語料庫等。國內(nèi)平行語料庫起步較晚,但發(fā)展很快。北京外國語大學中國外語教育研究中心王克非主持和研制的北外“通用漢英對應語料庫”是目前世界上最大的雙語語料庫,容量為3000萬字詞,并在進一步建設中。(王克菲,2004)

2 語料庫的建設

2.1 語料的選取與處理

獲得英漢對照的原語料的方法有很多種。本文主要講解的語料的獲取方法為直接從網(wǎng)上下載流行的美劇和美國電影的字幕。下載美劇字幕作為原語料有兩點好處,第一,研究人員可以直接從網(wǎng)上獲取大量英漢對照語料,無需到處搜集,更無需手動敲打到電腦上;第二,下載近幾年的美劇字幕作為原語料能幫助人們了解近幾年美語的使用習慣和流行用語的使用,畢竟,語言在不斷的變化,例如,“how are you”“I am fine thank you,and you”這種對話不再常見[1]。

下載好的語料需要進行去噪處理。本文處理語料使用的軟件為emeditor。該軟件功能強大、簡單好用、支持多種配置。首先,打開原語料文檔,去除時間軸和一些無關(guān)緊要的內(nèi)容,只留下漢英語料以及譯者和語料來源(注意:去除時間軸可用ALT鍵進行豎排文本選擇然后右鍵刪除,去噪時不能更改語料內(nèi)容,要保持原有語料翻譯風格)。去噪完成后,將漢英進行分開處理。以提取英語語料為例,使用漢語通配符[一-龥],利用查找替換去除全部漢語語料,并將漢語語料中殘留的阿拉伯數(shù)字、漢語標點和多余的空格全部刪除,留下英語語料即可。提取漢語語料時,方法與提取英語語料相同,英語的通配符為[a-zA-Z]。將英語語料去除后,要人工為漢語語料添加標點,因為原語料中沒有漢語標點(注意:添加標點時要與相對應的英語標點保持一致)[2]。

2.2 語料的標注

本文介紹使用的標注應用程序為漢語詞性標注工具。該應用程序操作簡單、還可批量處理文件。將處理好的漢語語料保存在一個文件夾中,加載該文件夾,選擇要處理的文件,點擊開始切分標注,即可得到標注好詞性的漢語語料。對英語進行標注處理,使用的應用程序為TagAnt。該應用程序操作簡便,但不可批量處理,一次只能處理一個文檔且只能處理utf-8格式的文檔。點擊input files選擇要處理的英語語料,點擊start即可得到標注好詞性的英語語料。標注好詞性后的語料,還需用emeditor做分句處理。打開語料,在每個句號、問號和嘆號的句子后面加上

2.3 語料的平行匹配

本文介紹使用的匹配軟件為paraconc。在平行匹配時,只能上下調(diào)動語料位置,不能更改語料內(nèi)容,所以在匹配之前,要確保英漢語料在內(nèi)容上沒有問題。首先,點擊file里的load corpus file加載英漢語料,因為本文主要講解的是英漢雙語平行語料庫,所以在parallel texts 處選擇2,在語言處選擇漢語和美語并在對應的框里分別加載相應的漢英語料,點擊OK即可。然后,點擊file里的view corpus alignment,選擇Alignment即可查看語料。因為大部分的語料都不是對齊的,所以需要研究者手動調(diào)節(jié),可單擊右鍵選擇merge with next segment或merge with previous segment將此行語料與下一行或上一行語料合并;還可選擇split segment將此行語料調(diào)至下一行;當操作錯誤時,可選擇undo撤銷上一行為。

保存語料有兩種方法。①點擊file里的save workspace as,然后命名好并保存到相應位置,再次操作時打開該workspace即可,但該workspace不能移動位置,更改路徑將無法打開;②點擊file里的export corpus files,命名并選擇保存到相應位置,在alignment style處選擇tags,然后點擊OK即可。應用時按照匹配的第一步驟分別加載該漢英文檔。使用此保存方法在移動語料位置時,對該語料無影響。

3 語料庫的應用

Paraconc具有檢索動能,點擊search,在彈出的搜索框內(nèi)輸入需要搜索的詞匯即可。輸入漢語關(guān)鍵詞時,可得到大量相對應的英語的相關(guān)表達。相比于英漢詞典,語料庫內(nèi)容更為豐富,而且有相應語境,語料更新鮮、地道,這些內(nèi)容是無法從詞典里搜索到的。輸入英語關(guān)鍵詞時,可得到大量詞匯搭配、構(gòu)詞法、地道的美語例句等。英語愛好者可利用英漢平行語料庫學習地道美語,通過其檢索功能,學習新鮮英語詞匯,了解相同詞匯在不同語境下的用法,以及學習最正宗的美語表達,練就一口地道美語口語,避開中式英語的影響。

語料庫中包含大量真實的語言材料及其譯文,翻譯工作者可通過譯者的不同翻譯風格對比分析,來掌握規(guī)律,從而提高自身翻譯水平;英漢語言對比研究人員可對建成的語料庫進行詞匯檢索,來得到大量檢索詞的常見搭配形式及其譯文,可幫助研究人員更好地開展語言對比研究;詞匯學家和語法學家可利用語料庫進行詞典編纂工作和歸納總結(jié)語法。

英語教師可利用語料庫中的資源,為學生提供優(yōu)秀的翻譯文本,讓學生平行比較源語言和譯入語,幫助學生認識二者的關(guān)系。此外,英語和漢語分屬于兩個不同語系,它們中的大部分詞語都不是一一對應的,一種句型的翻譯方式也不是單一的,學生無法簡單地從教材上或詞典中學習到這些,教師可以利用平行語料庫,讓學生獲得感性認識。語料庫中的真實語料可為學生提供豐富的知識來源,還可作為學生的語言能力訓練的測試的平臺,可有效提高學生的翻譯能力和外語知識水平。

4 結(jié)語

英漢平行語料庫的建成可為翻譯人員、語料庫研究人員、英語語言學習者以及英漢語言對比分析學家等提供大量的重要的語言材料,我國從研究建庫開始到現(xiàn)在,已能夠建設并建成雙語或多語語料庫,為很多領(lǐng)域提供了重要的信息來源。但語料庫的發(fā)展還有許多不足之處,由于語料庫相關(guān)軟件的稀缺,大型英漢語料庫的建設,從最開始的語料處理操作到最后的平行匹配都需要花費大量的人力物力。平行語料庫的建設與應用還有很大的發(fā)展空間,等待各位語料庫愛好者去挖掘與應用。

【參考文獻】

【1】王克非.雙語對應語料庫研制與應用[M].北京:外語教學與研究出版社,2004.

【2】余國良.語料庫語言學的研究與應用[M].成都:四川大學出版社,2009.

主站蜘蛛池模板: 美女啪啪无遮挡| 日本人妻丰满熟妇区| 国产制服丝袜无码视频| 天堂岛国av无码免费无禁网站| 国产亚洲男人的天堂在线观看| 国产乱视频网站| 欧美中文字幕无线码视频| 日韩在线2020专区| 鲁鲁鲁爽爽爽在线视频观看| 亚洲中文字幕无码mv| 欧美日韩福利| 国产精品第一区在线观看| 亚洲欧美人成人让影院| 日本成人在线不卡视频| 亚洲欧美日韩综合二区三区| 免费99精品国产自在现线| 在线亚洲天堂| 国产夜色视频| 伊人福利视频| 亚洲综合片| 亚洲毛片一级带毛片基地| 91久久精品国产| 欧洲熟妇精品视频| 亚洲欧美极品| 久久特级毛片| 四虎永久在线| 国产成在线观看免费视频| 亚洲一区无码在线| 亚洲激情99| 亚洲,国产,日韩,综合一区 | 久久精品欧美一区二区| 精品国产成人av免费| 国产幂在线无码精品| 国产三级韩国三级理| 国产精品免费电影| 不卡视频国产| yjizz视频最新网站在线| 少妇极品熟妇人妻专区视频| 精品成人一区二区三区电影| 麻豆国产原创视频在线播放| 99国产精品一区二区| 国产精鲁鲁网在线视频| 免费毛片视频| 99在线视频免费| 成人蜜桃网| 国产精品免费p区| 欧美特黄一免在线观看| 波多野衣结在线精品二区| 日韩欧美国产成人| 第一区免费在线观看| 国产不卡网| 国产精品极品美女自在线| 扒开粉嫩的小缝隙喷白浆视频| 免费人成网站在线观看欧美| 亚洲欧洲日韩久久狠狠爱 | 久久一日本道色综合久久| 国产精品短篇二区| 国产精品一线天| 免费人成视网站在线不卡| 午夜毛片免费观看视频 | 在线观看无码av五月花| 亚洲精品色AV无码看| 丁香亚洲综合五月天婷婷| 亚洲中文字幕久久无码精品A| 亚亚洲乱码一二三四区| 国产一级妓女av网站| 欧美一级特黄aaaaaa在线看片| 特级做a爰片毛片免费69| 精品国产自在在线在线观看| 久久人人爽人人爽人人片aV东京热 | 欧美日韩在线亚洲国产人| 久久精品aⅴ无码中文字幕 | 狠狠v日韩v欧美v| 国产欧美专区在线观看| 曰韩免费无码AV一区二区| 日韩二区三区无| 亚洲v日韩v欧美在线观看| 亚洲欧美另类色图| 久久免费看片| 免费国产小视频在线观看| 国产噜噜噜| 亚洲va欧美va国产综合下载|