999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中央文獻翻譯語料庫采集方法及適用性研究

2022-01-01 13:41:52天津外國語大學朱華
區域治理 2021年21期
關鍵詞:文本語言分析

天津外國語大學 朱華

一、語料庫的定義及發展

在人類語言活動過程中,記錄了大量的語言資料。隨著國際交往的增多以及全球化的縱深發展,翻譯活動的需求急劇增加。在翻譯學習、教學和研究過程中,諸多學者和業界人士希望總結和歸納對應的規律,或者對特有語言現象、語言轉換及翻譯效果進行大規模的評估。因此,需要大量的語言資料,尤其是雙語或多語言對應的語言資料。在此背景下,語料庫應用和研究逐漸發展和繁榮起來。語料庫的形式多種多樣,比如從語言對而言,既有單語、也有雙語及多語對照語料庫;從內容而言,既有通識類也有特定專門用途的領域語料等。隨著計算機科技尤其是數據庫技術的不斷發展進步,語料采集、分析和利用的方法也日新月異。之前大型研究機構才能擁有的軟件和工具,也逐漸走進普通研究者和學習者的日常工作中,比如隨著CAT工具的推廣和應用,幾乎所有的翻譯學習者都可以利用這些工具和軟件建立自己的平行語料庫,用于翻譯記憶或者研究。

在上述背景下,語料庫的內涵和定義也適時發生變化,且對于語料庫本身而言,針對用途不同,定義也有所差異。本文主要針對語言研究的語料庫,故而采用如下定義:

Corpus n.(pl.corpora) refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.(Rayson, 2008)

整體而言,語料庫是指經優化處理過的電子文本集合,可通過計算機輔助工具在庫中進行語言研究或者應用研究。

二、語料庫的類型及特點

語料庫劃分標準不同,擁有眾多類型。比如,根據研究目的和意義可分為異質型(Heterogeneous)、同質型(Homogeneous)、系統型(Systematic)、專用型(Specialized)等。后兩類數據庫是目前的主流類型,在語料搜集初期就會有明確的目的以及語料規模大小的控制,整體而言,此類語料庫比較平衡和系統,經過嚴密的搜集原則限制以及過程控制,能夠代表某一特定范圍內的語言事實,并且會按照既定設計思路,優化分析過程,得到相應的預期結果。最后一類只收集特定用途語料,但范圍更精準、導向性更明確(廖七一,2000),適合于小規模,精細化的優良數據分析,或者用于詞典編纂、翻譯教學、譯文效果分析等。

如前文而言,對于語言研究尤其是翻譯研究來說,我們可以根據語料庫的語種或者語言對的方向,將其分為單語、雙語和多語。與此同時,我們又可以按照語料的采集單位,也就是對其文本的規模和大小,將其分為語篇、語句和短語型等。在此基礎上,雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用于機器翻譯、雙語詞典編撰等領域,后者將表述同樣內容的不同語言文本收集到一起,此類語料庫多用于語言對比研究(胡開寶,2012)。

語料庫具有真實性、基礎性和操控性特征,要求存放的資料必須是實際使用的真實語言材料,具備基礎性的特征,另外也要具有加工屬性,如對齊、切割、分析和處理等操控和加工后方能成為有用資源(何中清,2011)。除此之外,當代語料庫還具有動態性和流通性的屬性,語料會及時增加,進行交換甚至是銷售等活動。

三、語料庫的采集方法

數據庫采集最常用的方法是對齊技術(Alignment),通過使用對齊雙語或多語語料的軟件或工具,做出平行語料庫或者對照語料庫。前者指庫中的兩種或多種文本互相是對方的譯文,常用于翻譯或者機器翻譯研究。

傳統的語料采集采用的多是人工方式。隨著計算機技術的進步及數據庫技術的發展,語料采集和分析工具層出不窮,給語言研究帶來了切實的便利性。對于翻譯工作者而言,語料采集應用的軟件主要包括利用CAT工具建立雙語或多語平行文本;使用AntConc、Sketch Engine、Tmxmall、語智云帆術語寶等工具進行語料庫整理、術語提取和分析等。對于中央文獻而言,我們主要的目的是用于雙語和多語詞典編纂、翻譯教學指導以及機器翻譯引擎訓練等用途,所以平行語料庫,即對齊文本類型的語料庫同專用語料庫的結合更為適合。

在此處著重介紹應用CAT工具進行雙語文本對齊,建立雙語語料庫。在主流的CAT工具如memoQ和Trados中,有一項專門為語料庫設計的功能,也就是雙語對齊。雙語對齊之前,首先需要建立一個翻譯記憶庫TM,翻譯記憶庫的主要目的是存儲翻譯過程中的翻譯單元,可以是雙語也可以是多語言。從本質來說,翻譯記憶庫是一種簡單形式的語料庫,可以作為后續分析使用語料庫的基礎。打開無論是memoQ還是Trados的雙語對齊面板,需要做的就是將原來單語文本分別導入,系統會根據算法自動切割翻譯單元,并且會根據翻譯單元進行自動匹配,匹配結果的好壞會用不同顏色或者匹配率標注出來。隨后語料庫制作者需要逐句段確認匹配結果,如果匹配結果沒有問題,予以確認并隨時存入到庫中,如果發現匹配單元不一致,可進行相應調整,常見的作法是切割或合并句段單元,可以進行1:1匹配,可以進行1:n或者n:n匹配。待所有句段匹配完畢后,確認并導入翻譯記憶庫TM,后續可以根據需要,導出不同格式進行分析或者應用。

上述方法為精細匹配或者專門用途語料庫的制作。但在現實應用中,會發現很多已有翻譯資產零散存放,或者并不能完全匹配,或者匹配時需要的人工成本較高,這時我們可以使用單語語料庫或者混雜類型語料庫,比如可以應用memoQ中的LiveDocs功能,此時,我們可以將單語、雙語或者混合型資料導入庫中,存成語料庫格式,在翻譯或者研究過程中應用。隨著翻譯自動化程度的不斷提升,我們不僅可以在翻譯過程中應用語料庫,在翻譯教學中演示語料庫,也可以根據需求,比如同機器翻譯結合,進行自有機器引擎的自適應訓練。根據已有語料庫類型進行風格化處理,影響機器翻譯的結果,從而有效地優化和提升翻譯效率和翻譯質量。

對于零散語料而言,我們還可以在語料庫制作前進行術語提取。術語庫TB在語料庫建立過程中同樣至關重要,對于術語而言,在譯前、譯中和譯后三個階段都可開展。比如在譯前,可以根據算法計算出特定詞語出現的頻率,在排除掉停用詞之后,對該詞組賦值,根據賦值大小可以推導出其作為術語的置信度,大大減輕人工成本,且有效提高準確度。在譯中和譯后過程中同樣如此,可將雙語文本分別導入術語提取工具,根據頻率等進行賦值后優化匹配,后只需譯者或者研究者人工確定即可。在此過程中,置信度、賦值、頻率均可作為有效的研究目標和數據進行采集或者標注。

總而言之,科技的進步和數據采集方式的優化,讓大規模精細化建立語料庫成為可能。此外,語料庫結果的多元和動態展示,也讓結果更直觀和鮮明地呈現出來,使整個研究過程的意義得到凸顯。

四、中央文獻語料庫采集應用及適用性研究

語料庫建立之后,可以用不同的工具進行分析,如單機版本的AntConc或者在線的Sketch Engine等工具,可進行索引、定位、“N元模式”(N-Gram)、搭配(Collocates)、詞 單(Word List)、關鍵詞單(Keyword List)等操作,全方位、多角度調用語料庫進行相關分析和研究。

對于中央文獻翻譯適用性而言,這些重要的文獻對黨在國際上形象的塑造和話語權的建立具有至關重要的意義。中央文獻翻譯工作者的初心和使命是闡釋好中國理論,傳遞好中國觀念。通過中央文獻語料庫的采集和建立,可以進一步剖析譯者如何理解和踐行作為黨的聲音的傳播者、闡釋者和勸說者的身份和立場(王麗麗,2018),并且可以通過大規模文本分析以及譯文效果分析,對增強政治意識、時代意識、歷史意識和效果意識具有重要的意義,此外,根據政治文獻的特點采取相應的翻譯策略對學生培養也有至關重要的意義。

猜你喜歡
文本語言分析
隱蔽失效適航要求符合性驗證分析
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
電力系統及其自動化發展趨勢分析
累積動態分析下的同聲傳譯語言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
我有我語言
主站蜘蛛池模板: 国产精品男人的天堂| 91精品最新国内在线播放| 欧美日韩国产精品综合 | 日韩无码视频专区| 1769国产精品视频免费观看| 免费A级毛片无码免费视频| 国产性精品| 伊人大杳蕉中文无码| 制服丝袜 91视频| 国产精品亚洲一区二区三区在线观看| 国产一在线| 免费99精品国产自在现线| 精品国产乱码久久久久久一区二区| 99激情网| 午夜精品久久久久久久无码软件| 中文字幕人成乱码熟女免费| 毛片a级毛片免费观看免下载| 国产一区二区影院| 久久不卡精品| 国产精品三级av及在线观看| 国产另类视频| 国内精品视频区在线2021| a在线亚洲男人的天堂试看| 国产一级在线播放| 免费又黄又爽又猛大片午夜| 亚洲国产亚洲综合在线尤物| 久草中文网| 国产一区三区二区中文在线| 日韩在线影院| 国产91线观看| 欧美另类一区| 99热这里只有免费国产精品 | 亚洲手机在线| 亚洲欧美自拍一区| 激情乱人伦| 欧日韩在线不卡视频| 久久精品人妻中文系列| 99久久精品免费视频| 国产欧美日韩va另类在线播放| 国产精品成人一区二区不卡 | 97人妻精品专区久久久久| 国产成人综合久久| 国产精品手机视频一区二区| a在线亚洲男人的天堂试看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产精品毛片一区| 日韩精品专区免费无码aⅴ| 手机在线国产精品| 免费毛片网站在线观看| 91久久青青草原精品国产| 欧美另类一区| 精品少妇人妻无码久久| 国产乱子伦精品视频| 美女一区二区在线观看| 欧美综合区自拍亚洲综合天堂| 日本一区二区三区精品国产| 综合人妻久久一区二区精品| 国产日韩久久久久无码精品| 欧美五月婷婷| 日本精品影院| 欧美色99| 国产午夜无码片在线观看网站| 91精品视频在线播放| 国产区成人精品视频| 欧美亚洲香蕉| 国产精品夜夜嗨视频免费视频| 一本色道久久88| 国产视频一二三区| 无码视频国产精品一区二区| 精品国产一区二区三区在线观看| 国国产a国产片免费麻豆| 国产精品密蕾丝视频| 一级做a爰片久久免费| 手机看片1024久久精品你懂的| 亚洲成人网在线播放| 亚洲国产精品人久久电影| 2021国产在线视频| 91精品国产情侣高潮露脸| 免费一看一级毛片| 日韩亚洲综合在线| 永久免费av网站可以直接看的| 欧美在线综合视频|