999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隴藥漢英平行語料庫構(gòu)建研究

2017-04-19 01:49:41陳偉
中國中醫(yī)藥信息雜志 2017年4期
關(guān)鍵詞:中醫(yī)藥文本英語

陳偉

定西師范高等專科學(xué)校外語系,甘肅 定西 743000

隴藥漢英平行語料庫構(gòu)建研究

陳偉

定西師范高等專科學(xué)校外語系,甘肅 定西 743000

雙語平行語料庫是專門用途英語(ESP)翻譯研究的新視角。本文以隴藥 10種大宗道地中藥材為研究對象,收集權(quán)威出版物關(guān)于隴藥的中英文對照文獻(xiàn),建立大型隴藥漢英平行語料庫,并就該庫構(gòu)建的具體步驟——語料庫的設(shè)計,語料的采集、加工、平行對齊和檢索等進(jìn)行了詳細(xì)分析,可為中藥英譯提供參考。

隴藥;平行語料庫;中醫(yī)英語;語料庫建設(shè)

中醫(yī)英語是英語語言在中醫(yī)藥對外翻譯與交流過程中逐漸形成的一種獨(dú)特的英語表達(dá)體系。在中醫(yī)國際化進(jìn)程中,中醫(yī)藥翻譯的重要性日益凸顯,其質(zhì)量在一定程度上影響中醫(yī)藥在國際上的認(rèn)可及推廣程度。甘肅中藥材資源豐富,其大宗道地藥材通稱隴藥。隴藥是甘肅物質(zhì)文化的重要組成部分,在華夏文明傳承創(chuàng)新區(qū)的建設(shè)中,相關(guān)翻譯不僅是對外傳播中醫(yī)的重要渠道,也是傳承文化的橋梁,但目前隴藥英譯良莠不齊。為此,筆者將語料庫數(shù)據(jù)驅(qū)動技術(shù)引入相關(guān)翻譯,建設(shè)隴藥漢英平行語料庫(English-Chinese Parallel Corpus of Gansu Medicine,ECPCGM),為隴藥英譯提供參考。

1 研究現(xiàn)狀述評

1.1 平行語料庫

隨著專門用途英語(ESP)的發(fā)展,專門用途平行語料庫也得到相應(yīng)發(fā)展。中醫(yī)英譯研究引入語料庫數(shù)據(jù)驅(qū)動技術(shù)的設(shè)想肇始于 21世紀(jì)初,目前呈現(xiàn)零星發(fā)展態(tài)勢。中醫(yī)英漢平行語料庫的研究經(jīng)歷了2個階段。一是設(shè)想階段(2003-2009年),學(xué)者從宏觀方面提出了建庫設(shè)想和理論原則。聞永毅[1]提出中醫(yī)英語語料庫建設(shè)構(gòu)想及意義,并一直致力于《黃帝內(nèi)經(jīng)》語料庫研究;薛學(xué)彥[2]從建立中醫(yī)英語語料庫設(shè)想方面提出建庫方案;倪傳斌[3]從中醫(yī)英語語料庫建設(shè)原則方面解析了具體實(shí)施方法。但這些研究并不能直接指向?qū)嵺`。二是創(chuàng)建階段(2009年至今),學(xué)者提出了建立中醫(yī)平行語料庫細(xì)節(jié)問題及解決方案。管新潮等[4]開始了英漢醫(yī)學(xué)平行語料庫的創(chuàng)建與初始應(yīng)用研究,蘭彩玉[5]則設(shè)計并構(gòu)建中藥漢英雙語平行語料庫。另外,蘭鳳利等[6]基于自建的中醫(yī)典籍漢英雙語語料庫,分析了“經(jīng)絡(luò)”與“脈”的翻譯,認(rèn)為“vessel”指人體內(nèi)三維的管道,是對“經(jīng)脈”的恰當(dāng)譯語。蔣明佳[7]以人民網(wǎng)英文版為語料來源,建立“中醫(yī)藥英文報道專門用途小型語料庫”,分析了中醫(yī)藥對外報道,指出中醫(yī)藥對外英文報道應(yīng)以中醫(yī)藥歷史文化為核心。這些研究拓展了中醫(yī)典籍翻譯的研究視野,深化了中醫(yī)典籍翻譯研究。然而,以上研究是以中英文著作為范本進(jìn)行研究,選料單一,研究面窄且不夠深入,尚未建成實(shí)現(xiàn)網(wǎng)絡(luò)檢索的中醫(yī)典籍漢英語料庫。此外,2013年和2014年的國家社會科學(xué)基金指南仍有平行語料庫創(chuàng)建和應(yīng)用項(xiàng)目,表明平行語料庫的創(chuàng)建和應(yīng)用還不太成熟,中醫(yī)藥平行語料庫也不例外。

1.2 隴藥對外宣傳英譯研究

甘肅是全國中藥材優(yōu)勢主產(chǎn)區(qū)之一,人工種植面積位居全國第三,中藥材品種豐富,質(zhì)地優(yōu)良。現(xiàn)有藥用品種1527種,2012年甘肅省將當(dāng)歸、白條黨參、紋黨、黃芪、紅芪、大黃、柴胡、甘草、板藍(lán)根9種藥材確定為甘肅道地大宗中藥材,包括半夏在內(nèi),業(yè)內(nèi)有“十大隴藥”之說。為實(shí)現(xiàn)把隴藥產(chǎn)業(yè)做大做強(qiáng)的目標(biāo),甘肅省制定了《甘肅省“十二五”隴藥產(chǎn)業(yè)發(fā)展規(guī)劃》(甘政辦發(fā)〔2011〕181號),提出拓寬營銷領(lǐng)域,鼓勵和支持隴藥企業(yè)開拓國內(nèi)外消費(fèi)市場。

然而,中國知識資源總庫(CNKI)中尚未有隴藥的翻譯研究。相關(guān)內(nèi)容僅散見于藥店的說明書、土特產(chǎn)店中藥飲片及制品的產(chǎn)品介紹,且存在問題較多。①譯文頻繁出現(xiàn)中式英語及毫無意義的字面翻譯等。如甘肅岷海制藥有限責(zé)任公司生產(chǎn)的消炎退熱顆粒(Xiaoyan Tuire Keli)、杜仲壯骨膠囊(Duzhong Zhuanggu Jiaonang)、五味子顆粒(Wuweizi Keli)、小柴胡顆粒(Xiaochaihu Keli)和丹參顆粒(Dan shen Ke Li)。這種全用漢語拼音的翻譯方式不倫不類。原因是譯者或英語功底欠佳,或?qū)χ嗅t(yī)藥知識知之甚少。②有些是“印象式”(impressionistic)、“隨感式”(essayistic)翻譯,有失嚴(yán)謹(jǐn)。因中醫(yī)知識匱乏而導(dǎo)致的錯誤翻譯,如把“板藍(lán)根沖劑”譯為“Radix Isatidis Lotion”。lotion指外用洗劑,屬不溶性藥物,不能內(nèi)服。內(nèi)服沖劑應(yīng)譯為“dissolvable powder”或“drink”。③中醫(yī)術(shù)語翻譯領(lǐng)域缺乏統(tǒng)一標(biāo)準(zhǔn)規(guī)范。如黃芪,在英文中就有astragalus、astragalus membranaceus、radix astragali及huang qi等多種翻譯,其主要原因是翻譯原則方面的學(xué)術(shù)分歧[8]。

2 構(gòu)建語料庫依據(jù)

語料庫是指在隨機(jī)采樣基礎(chǔ)上收集到有代表性的真實(shí)語言材料集合,是語言運(yùn)用的樣本。基于語料庫的翻譯研究也稱語料庫翻譯學(xué),是以語言理論和翻譯理論為指導(dǎo),以概率和統(tǒng)計為手段,以大規(guī)模雙語真實(shí)語料為對象,采用語內(nèi)對比與語際對比相結(jié)合的方法,對翻譯現(xiàn)象歷時或共時描寫和解釋,探索翻譯本質(zhì)的一種翻譯學(xué)研究方法。語料庫具有強(qiáng)大的檢索功能,可以利用語言頻率的統(tǒng)計概率計算出高頻詞和低頻詞。因此,如果把某個中醫(yī)藥術(shù)語輸入ECPCGM,可通過ECPCGM及其檢索工具對詞頻進(jìn)行搜索,選擇詞頻最高的翻譯版本作為翻譯參考。從雙語文本“共現(xiàn)”(coexistent)中,可發(fā)現(xiàn)最易被人接受的詞與詞的搭配形式,對語法研究和詞匯在語言中的使用轉(zhuǎn)向做了語域再現(xiàn)式的翻譯實(shí)例和量化數(shù)據(jù),從而提高翻譯的可信度。中醫(yī)語言具有辭簡、文約、言煉等語言美學(xué)特點(diǎn),如“滋陰補(bǔ)陽”這類具有特定文化信息的詞,ECPCGM可提供具體語境,突破單句層面上詞對詞的翻譯,使釋義更準(zhǔn)確。

3 建立語料庫的基本思路

3.1 總體設(shè)計

研究目的決定語料庫的采樣,建立ECPCGM的目的是客觀描述、考察中國學(xué)者對隴藥英語研究所表現(xiàn)出的總體特征及隴藥翻譯過程中呈現(xiàn)的共性特征。語言本身是動態(tài)發(fā)展的,筆者通過初建一個 50萬字容的 ECPCGM,其他研究者可隨研究的進(jìn)展,添加適合的語料對該庫進(jìn)行更新擴(kuò)容。ECPCGM的建設(shè)過程包括總體設(shè)計、框架設(shè)計、語料采集、語料導(dǎo)入、雙語對齊、語料校對和語料優(yōu)化管理等步驟,見圖1。

圖1 ECPCGM建設(shè)過程示意圖

ECPCGM包含2個一級子庫。①著作類:選取上海中醫(yī)藥大學(xué)出版社出版的新編實(shí)用中醫(yī)文庫《中藥學(xué)》、人民衛(wèi)生出版社出版的《中醫(yī)基本名詞術(shù)語中英對照國際標(biāo)準(zhǔn)》、廣東科技出版社出版的《中國中草藥圖典》和上海浦江教育出版社出版的《方劑學(xué)》4種英漢對照醫(yī)學(xué)教材和專著;②電子類:搜集CNKI等數(shù)據(jù)庫中甘肅道地藥材中英文論文摘要和論文。另下設(shè)10個二級子庫(5萬字/詞),內(nèi)容涉及10大隴藥的植物學(xué)特征、生物學(xué)特征、生境和主產(chǎn)地、性味與歸經(jīng)、功能與主治和現(xiàn)代藥理研究6個方面。子庫可分可合,便于研究。

3.2 建庫步驟

3.2.1 語料采集 ECPCGM按照語料的典型性、代表性、權(quán)威性和可行性標(biāo)準(zhǔn),語料取材于公開發(fā)行的圖書、電子版論文等。圖書類語料選取上文提到的4部教材和專著,其內(nèi)容均是英漢一一對照文本,全部由國內(nèi)中醫(yī)藥院校的著名學(xué)者翻譯,能夠代表中國學(xué)者中藥英譯的最高水平。電子版論文語料取自CNKI學(xué)術(shù)核心期刊有關(guān)隴藥的中英文論文摘要和論文等。

3.2.2 語料整理和加工 語料的加工是語料庫系統(tǒng)性構(gòu)建中的一個重要環(huán)節(jié)。該過程含3個步驟,即原始語料的采集、標(biāo)注和對齊。第一步把采集到的雙語對照文獻(xiàn),經(jīng)過良田高拍儀S800掃描,用OCR文字識別轉(zhuǎn)換成 word,輔以人工校對消除文本中錯誤信息,運(yùn)用Pre Encoder對原始語料進(jìn)行初步整理、去除噪音等預(yù)處理,將其變成可機(jī)讀的txt文本。第二步對生語料進(jìn)行加工,即標(biāo)注,使生語料變成熟語料,便于檢索和進(jìn)一步研究。采用語料庫構(gòu)建流程的簡要XML標(biāo)記集。文獻(xiàn)信息標(biāo)注以<html>開頭,以</html>結(jié)束,注明語料類型<type>和</type>、譯者<author>和</author>、語料名稱<title>和</title>、出版地<publishing address>和</publishing address>和出版日期<publishing time>和</publishing time>等基本信息。第三步對齊。由于漢語句子與其英譯未形成一一對應(yīng),故應(yīng)采用 Corrector軟件和人工介入對齊。雙語語料的平行對齊是指將源語語料與目的語語料在篇章、段落、詞句和詞匯4個層面建立對應(yīng)關(guān)系。首先實(shí)現(xiàn)語料的篇章、段落對齊。語料為1本雙語書籍掃描為1個word文檔,1個文檔中往往包含了中英文2種語體。將所有word文檔轉(zhuǎn)換為txt文本格式,從每個文件中識別和提取英語和漢語文本進(jìn)行切分及漢英語料分存,每個篇章級對齊單位中的原文文件與譯文文件的翻譯關(guān)系用相同的文件名即書名來體現(xiàn),但附加不同的文件名后綴:原文文件為ch,英語文件為en。每個段落保存為一行,段落與段落之間保留1個空行,并且在行首和行尾添加段落標(biāo)記<p>…</p>,同時賦予段落的編號ID。借鑒蘭彩玉[5]的做法,英漢語句子對齊后在句子邊界采用xml格式標(biāo)記,句子以<s>開始,以</s>結(jié)束,1個句子級對齊單位是1個二元組,記作AS=<si,ti>,si和ti均由1個或多個自然的句子組成,si與 ti之間具有翻譯關(guān)系。<s>…</s>標(biāo)記嵌套在<a>…</a>標(biāo)記內(nèi)部,<a>…</a>標(biāo)記嵌套在<p>…</p>標(biāo)記內(nèi)部,并人工輔助對齊。

3.2.3 語料入庫和組織 對齊后的語料需要通過語料庫索引,從而構(gòu)建成一個整體。索引結(jié)構(gòu)是語料庫的組織方式,也是語料庫檢索和應(yīng)用的基礎(chǔ)。可利用CUC Paraconc填寫每一文本信息,建立文本信息數(shù)據(jù)庫、單語索引和雙語索引的結(jié)構(gòu),方便以后進(jìn)行檢索。命名要有規(guī)律,文件名由“前綴+文件名”兩部分組成,前綴可以自己定義,文件名和后綴名一定要一致,如中文文件名“ch-testX.txt”,英文文件名“en-testX.txt”,ch-是中文前綴,en-是英文前綴,testX是文件名,X取值范圍為1~n,txt是后綴名。存貯采用tmx格式的xml標(biāo)記語言,統(tǒng)一碼用UTF-8編碼,以便存儲與檢索。雙語保存在一個文本中,也可雙語分開存貯在2個文本中。對雙語保存在一個文本中的平行語料,軟件能自動識別4種對齊形式,即漢語在前、漢語在后、漢語整體在前、漢語整體在后,也可把4種形式的文本混在一起檢索。

3.2.4 語料檢索 語料庫檢索工具很多,常用的共享軟件如Free Text Browser、Web Concordance、Word Smith Tool 4、Concordancer等,可根據(jù)需要選擇使用檢索軟件。筆者使用中國傳媒大學(xué)研發(fā)的免費(fèi)綠色雙語檢索軟件CUC_ParaConc作為檢索軟件。軟件默認(rèn)一對一平行語料檢索,其標(biāo)簽下有3個子標(biāo)簽:調(diào)入語料及設(shè)置檢索參數(shù)、檢索中英對齊語料、正則式檢索。首先選擇所要檢索的txt文本目錄,可檢索目錄下所有文件夾和子文件夾中的對齊文本。單擊源文本目錄右邊的按鈕,選擇目錄,軟件會自動生成“保存目錄”,默認(rèn)是在軟件同一目錄下自動創(chuàng)立一個“ParaResult”文件夾,也可通過點(diǎn)擊保存到右邊的按鈕更換保存地址。

4 結(jié)語

ECPCGM的創(chuàng)建完成,在理論價值方面,基于ECPCGM的雙語文本和量化信息能為深入開展中醫(yī)翻譯提供可靠依據(jù);在技術(shù)方面,通過語料庫技術(shù),可挖掘中醫(yī)學(xué)術(shù)語的標(biāo)準(zhǔn)翻譯術(shù)語,客觀描述隴藥翻譯過程中呈現(xiàn)的共性特征;在應(yīng)用方面,該庫和語料軟件結(jié)合,可供學(xué)習(xí)者自主學(xué)習(xí)研究,并為隴藥英語教學(xué)、隴藥的對外宣傳英譯及詞典與教材編寫等提供幫助,另與網(wǎng)絡(luò)結(jié)合,把開發(fā)完成的語料庫在線發(fā)布和索引,實(shí)現(xiàn)網(wǎng)絡(luò)用戶對語料庫的直接訪問,對今后大規(guī)模對外翻譯介紹隴藥文獻(xiàn)具有重要借鑒和參考價值,必將促進(jìn)隴藥及隴藥文化傳承與發(fā)展。

[1] 聞永毅.淺談建設(shè)中醫(yī)英語語料庫的意義[J].陜西中醫(yī)學(xué)院學(xué)報, 2003,26(5):65-68.

[2] 薛學(xué)彥.中醫(yī)英語語料庫建立的設(shè)想[J].廣州中醫(yī)藥大學(xué)學(xué)報,2004, 26(6):482-485.

[3] 倪傳斌.中醫(yī)英語語料庫的建庫原則[J].上海中醫(yī)藥大學(xué)學(xué)報,2005, 19(3):5-6.

[4] 管新潮,胡開寶,張冠男.英漢醫(yī)學(xué)平行語料庫的創(chuàng)建與初始應(yīng)用研究[J].當(dāng)代外語研究,2011(9):36-41.

[5] 蘭彩玉.中藥漢英雙語平行語料庫的設(shè)計及構(gòu)建[J].亞太傳統(tǒng)醫(yī)藥, 2014,10(8):1-3.

[6] 蘭鳳利,梁國慶,張葦航.中醫(yī)學(xué)中“脈”與“經(jīng)絡(luò)”概念的源流與翻譯[J].中國科技術(shù)語,2011,13(1):54-58.

[7] 蔣明佳.人民網(wǎng)英文版中醫(yī)藥對外報道狀況及語言分析[D].北京:北京中醫(yī)藥大學(xué),2014.

[8] 謝竹藩.關(guān)于中醫(yī)名詞術(shù)語英譯的討論[J].中國中西醫(yī)結(jié)合雜志, 2000,20(9):706-708.

Study on Construction of Chinese-English Parallel Corpus in Gansu Chinese Materia Medica


CHEN Wei (Foreign Language Department, Dingxi Teachers College, Dingxi 743000, China)

Bilingual parallel corpus is a new perspective of English for Specific Purposes (ESP) translation studies. This article set 10 kinds of Gansu genuine bulk Chinese materia medica as the research objects, and collected Chinese-English data about Gansu Chinese materia medica in the authoritative publications for the establishment of English-Chinese parallel corpus on Gansu Chinese materia medica. This article also analyzed the construction concrete steps in detail - corpus design, data acquisition and processing and bilingual corpus parallel and so on, and provided references for English translation of Chinese materia medica.

Gansu Chinese materia medica; English-Chinese parallel corpus; TCM English; corpus construction

10.3969/j.issn.1005-5304.2017.04.003

R2-05

A

1005-5304(2017)04-0009-04

2015-12-24;編輯:梅智勝)

猜你喜歡
中醫(yī)藥文本英語
中醫(yī)藥在惡性腫瘤防治中的應(yīng)用
中醫(yī)藥在治療惡性腫瘤骨轉(zhuǎn)移中的應(yīng)用
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
從《中醫(yī)藥法》看直銷
中醫(yī)藥立法:不是“管”而是“促”
讀英語
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
酷酷英語林
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产一区二区三区精品久久呦| a级毛片网| 免费无遮挡AV| 久久久久人妻精品一区三寸蜜桃| 国产精品网曝门免费视频| 女人天堂av免费| 婷婷伊人久久| 亚洲成人精品在线| 99re热精品视频中文字幕不卡| 中文字幕久久波多野结衣| 欧洲在线免费视频| 久久夜夜视频| 精品国产成人a在线观看| 欧美成a人片在线观看| 无码网站免费观看| 久久国产精品国产自线拍| 九九九九热精品视频| 色老头综合网| 亚洲成人www| 国产在线视频二区| 亚洲国产精品无码AV| 在线日韩日本国产亚洲| 亚洲天堂伊人| 亚洲无码一区在线观看| 欧美高清国产| 91最新精品视频发布页| 自拍欧美亚洲| 人妖无码第一页| 亚洲成年人网| 国产黑丝一区| 亚洲成A人V欧美综合天堂| 99热这里只有精品在线播放| 欧美中出一区二区| 91蜜芽尤物福利在线观看| 国产精品乱偷免费视频| 超碰精品无码一区二区| 国产欧美日韩精品综合在线| 国产va欧美va在线观看| 丝袜国产一区| 亚洲激情区| 囯产av无码片毛片一级| 成人在线不卡视频| 亚洲日韩精品欧美中文字幕| 成人午夜精品一级毛片| 99久久精彩视频| 亚洲天堂免费在线视频| 国产在线观看成人91| 国产欧美日韩视频怡春院| 亚洲美女一区二区三区| 亚洲久悠悠色悠在线播放| 亚洲青涩在线| 亚洲精品福利网站| 国产精品一线天| 久久国产精品电影| 久精品色妇丰满人妻| 成人一区在线| 伊人久久久久久久久久| 99精品在线视频观看| 亚洲精品福利视频| 99精品视频播放| 日韩 欧美 国产 精品 综合| 日韩小视频网站hq| 午夜福利视频一区| 国产91丝袜在线观看| 日韩精品亚洲人旧成在线| 成人一级免费视频| 亚洲清纯自偷自拍另类专区| 亚洲午夜片| 综合久久五月天| 日韩国产亚洲一区二区在线观看| 国产麻豆aⅴ精品无码| 中国黄色一级视频| 国产一线在线| 久青草免费在线视频| 在线播放精品一区二区啪视频| 亚洲欧洲自拍拍偷午夜色| 日韩欧美中文字幕在线精品| 国产后式a一视频| 国产成人三级| 国产精选小视频在线观看| 久久国产精品电影| 国产高颜值露脸在线观看|