999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

傳染病學英漢雙語平行語料庫建設初探

2020-09-14 09:54:48袁博馮倩馬晶郭龐娜郭夢遙
讀與寫·教師版 2020年7期
關鍵詞:醫學英語

袁博 馮倩 馬晶 郭龐娜 郭夢遙

摘要:在全球傳染病呈上升趨勢的背景下,國際間傳染病領域的合作與研究顯得尤為重要。但有關傳染病學的語料庫的建設及研究在我國才剛剛起步。因此,本研究旨在豐富傳染病學雙語語料庫存在的空白,同時該庫也對“語言+醫學”的教學方向起到了輔助作用。本文主要通過傳染病學英漢雙語平行語料庫建庫基礎與研究背景、建庫過程、建庫意義及應用、結語四方面來展開討論。

關鍵詞:平行語料庫建設;傳染病;醫學英語

分類號:G623.31

1.建庫基礎與研究背景

近年來,全球傳染病呈上升趨勢。2020年初,我國迎來了一項巨大的傳染病挑戰,2019-nCov病毒導致的新型冠狀病毒肺炎在武漢迅速爆發并蔓延至全國乃至其他國家。此外,近些年爆發的由SARS、MERS和埃博拉病毒引起的傳染病也極大的危害了人們的健康。因此,國際間的傳染病防控與研究就顯得尤為重要。傳染病學平行語料庫在醫學相關領域的科學研究及教學中可以起到重要作用。

通過語料庫進行語言研究的方式得到了國際社會的廣泛認可。語料庫已逐漸運用于學科教學及語言教學等多個領域。語料庫主要指經科學取樣和加工的大規模電子文本庫,借助語料分析工具,研究者能夠開展相關的語言理論及語言應用研究。同時,語料庫的類型也多種多樣,根據不同的研究目的, 語料庫可以劃分為通用語料庫和專用語料庫。通用語料庫主要針對一般性語料庫研究,例如:人民日報分詞語料庫(NEPD)、英國國家語料庫(BNC)等;而專用語料庫則是針對某一特定專業領域的語言的研究,例如:中國傳媒大學的媒體語言語料庫(MLC)和本研究涉及的傳染病學語料庫等。按照語料的語種,語料庫也可以分成單語語料庫、雙語語料庫和多語語料庫。按照語料的組織形式,雙語語料庫可分為平行語料庫和可比語料庫,前者是指原文文本及其平行對應的譯語文本構成的雙語語料庫,相互間存在“翻譯關系”;后者收集的文本是由不同語言的文本或同一種語言不同變體的文本所構成的兩個或兩個以上的語料庫。針對同一主題,如學習者產出的語言與本族語者產生的語言,但相互之間不存在直接的“翻譯關系”。其中雙語平行語料庫是探索同一內容如何用兩種語言表達的語料庫,它是一種能將源語言文本和其譯語文本進行全文檢索并對照顯示的語料庫,可用于譯文比較、翻譯教學等多個領域。

本研究基于國內外權威醫學網站和圖書資源, 經過整合編輯處理,旨在建立一個適應傳染病學研究和醫學英語及翻譯教學需求的傳染病學英漢雙語平行語料庫。

2.傳染病學英漢雙語平行語料庫的建設意義

2.1語料庫與翻譯研究

語料庫在翻譯領域的應用程度不言而喻,傳染病學英漢雙語平行語料庫的建成會方便譯員進行傳染病學對語言會議的譯前準備工作,同時也會對有關醫學文獻和新聞的筆譯工作者提供相當程度的便利。此外,在翻譯研究領域,本庫也能夠滿足譯員“語言+專業背景”的現實需求,準譯員對專業雙語語料庫的大量輸入, 其專業語言的轉換意識也會得到質的飛躍,成為具有扎實專業背景的翻譯技術人才,以適應未來的專業翻譯環境。

2.2語料庫與教學

在北華大學,醫學英語的教學及MBBS培訓得到了醫學院老師們的重視。傳染病學英漢雙語平行語料庫為原始的課堂提供了新的教學方向。基于真實應用場景而產生的語料庫,為醫學英語教學提供了切實可行的語言事實。并在一定程度上能夠對傳染病學教材的編寫起到輔助作用。

近年來ESP(專門用途英語)課程改革正在一步一步地推進中,教師可通過本庫創新傳染病學科英語的詞匯課和寫作課教學模式,以詞為“點”進行檢索,展開語“面”,根據詞頻使用和搭配頻率,拓展相關詞匯和表達,也能作為診斷式語言教學提供系統而準確的依據,為專用英語教學課堂提供新的路徑。ESP課程教學借助語料庫的功能,通過工具的索引、詞表和搭配查詢三大基本功能,以數據支撐的形式提供給學生具有代表性、針對性的教學素材。

3.語料庫的建設過程

傳染病學英漢雙語平行語料庫的建設總原則是建立一個能夠比較全面反映傳染病學英漢雙語語言事實的語料庫。因此,本語料庫建庫過程分為以下三個步驟:選擇語料、采集加工語料、語料勘誤及檢索語料、最后將加工好的語料導入以形成語料庫。

3.1選擇語料

在建設的前期要充分考慮語料庫的抽樣原則,即什么樣的語料方為有效語料。此外還要考慮到如何保證樣本分布均衡,要兼顧文體特點、時間跨度、語料屬性是否全面等問題, 從而使該語料庫盡可能具有代表性和可用性。[2] 語料也要有合理的數量比例, 要如實反映近年來傳染病領域英語的橫向和縱向發展趨勢。[3]所以,選擇語料是決定一個語料庫是否有意義,建成后能否達到預期應用方向的根本步驟。

因此,語料的選擇范圍被鎖定在包括國內外醫學科技類網站、WHO官網、國外傳染病學期刊(如:《柳葉刀》(LANCET)、《傳染病》(Infectious Diseases)等)、國內外傳染病學專業書目(如:《醫院感染學》、《傳染病百科全書》(Encyclopedia of Infectious Diseases)、《傳染病學原理與實踐》(Principles and Practice of Infectious Diseases)等)以及高校醫學專業部分教材在內的專業資料。本研究選取的語料來源均為醫學學科的重要文獻和資料,語料來源經過學界專家編輯校正,可確保準確無誤、專業性強。

3.2采集加工語料

(1)語料的采集與降噪

在采集語料的過程中會遇到一些難以提取處理的語料來源,對于不同的語料來源,本研究也采用了不同的提取方式。

對于來源為紙質材料的語料(下稱紙質語料),先掃描所有紙質材料為PDF格式,然后將其轉化為可編輯的TXT文檔。對于紙質語料,文檔的可編輯轉化只能通過OCR進行識別,但此方法適用于文本較少,頁面較小的語料來源,因為OCR識別需要依賴于手機或電腦等電子設備,受屏幕大小的限制,導致OCR的識別區域有限、識別的清晰度閾值較大。除上述限制,紙質語料還存在一個弊端,就是要保證掃描清晰度可使識別工具閱讀,得到足夠清晰的PDF是后續步驟開展的關鍵。

相較于紙質語料,來自于PDF格式或Word文檔的語料可以直接采用文檔轉換進行采集,一種是通過文檔轉換器轉化,然后經過人工降噪,即對轉化后的Word文本進行再加工,刪除其中存在的背景、圖表、空行和附錄等對語料庫意義不大的內容,使文本內容更加規范,格式保持一致。此方式比紙質語料采集容易很多,也會大大提高語料的采集效率,但也偶然存在亂碼和信息缺失等情況。

因此,本研究采用了上述兩種方式結合的方法進行語料采集,保證了兩者的互補性,也使得語料來源具有豐富性,更加符合建庫原則。

(2)語料的對齊與賦碼

在語料的加工處理過程中,對齊與賦碼是決定語料在具體應用中能否呈現語言事實的關鍵。對齊后的語料擁有更強的直觀性,在實際應用中會達到事半功倍的效果。

筆者項目組先后試用Trados,ABBYYAligner和雪人CAT進行雙語對齊處理,但效果均不盡人意。經過多方比較,最終采取“Transmate+Xbench”模式,雖然處理方法較為繁瑣,但處理質量高、效果好。

首先,將采集到的“生語料”導入Transmate進行自動對齊。但計算機的自動識別會存在無法避免的錯誤及亂碼情況,這時就需要將自動識別出現的竄行以及語義緊密段的錯誤合并和分離等情況進行人工干預,經過手動處理的語料得到了進一步的美化,符合了對齊的標準。再將全部處理好的語料導出為tmx格式,然后用Xbench將tmx格式的語料轉碼為txt格式,然后按語料的分類建立文件夾分別保存。

對齊之后就要對語料賦碼,賦碼后的語料擁有了更多的語言信息,更廣的應用范圍和更高的使用價值。賦碼語料庫主要有三種賦碼形式:詞性碼、語法碼和句法碼。本研究主要賦予詞性碼,并采用學屆上接受度較高,實際應用效果好的Treetagger軟件進行賦碼。賦碼后的語料由“生語料”變成了“熟語料”(也稱賦碼語料),熟語料可以通過Keywords Plus等軟件進行語料分析等方向。

3.3語料刪重及語料檢索

借助Ultraedit和Editplus文本處理器對文本進行整理,利用正則表達刪去重復語料,再進行人工復核,做好重復語料的清理工作。至此,得到的熟語料就可以用于檢索,進行實際應用。

本研究通過對比試用BFSU_Paraconc、CUC_Paraconc和SADU_ParaConc三款平行語料庫檢索軟件,發現本庫更加適合后兩者進行檢索,其優點如下:支持單文檔雙語語料檢索可自動識別雙語保存在單文件中的對齊形式,支持多種編碼的純文本語料檢索。經過試用,本語料庫可以通過檢索,快速分析單詞使用場景,例如在遇到“epidemic”這個詞的時候,通過查詢,可得到圖1,2所示結果,因篇幅所限,僅列舉部分作為舉例。

4.結語

在人們開始發現語料庫對語言研究的重要性后,語料庫研究在中國已經有了很大的進步。與此同時,也難免存在一些問題,比如:語料庫的重復性問題、語料庫共享化問題等依然亟待解決、針對個別領域(如醫學),國內的語料庫資源還比較貧乏,在細化的傳染病領域更是少之又少。因此,如何讓將傳染病學與語料庫技術結合是本研究重點解決的任務,也希望本語料庫的建成能夠滿足翻譯研究和醫學英語教學需要,真正發揮現實作用。

參考文獻

[1] Hardie Andrew Lars Borin (ed). 2002. Parallel corpora, parallel worlds. Selected papers from a symposium on parallel and comparable corpora at Uppsala University, Sweden, 22–23 April, 1999. Languages in Contrast. International Journal for Contrastive Linguistics,2005,5(2)

[2] 王連柱.醫學英語語料庫的建庫原則探析[J].新鄉學院學報(社會科學版),2009,23(04):131-132.

[3] 章國英.專門用途醫學英語語料庫構建的意義及實踐[J].中國醫學教育技術,2014,28(02):146-149.

[4] 施稱,章國英.醫學英語語料庫在ESP課程改革中的應用[J].西北醫學教育,2015,23(01):129-132.

該文為2019年北華大學外國語學院國家級大學生創新創業項目 【醫學傳染病學英漢雙語平行語料庫建設】(項目號:201910201024)的階段性研究成果。

猜你喜歡
醫學英語
醫學院校開設醫學英語跨文化交際課程的必要性研究
現代交際(2016年11期)2017-02-15 13:17:23
漫談職業衛生學校醫學英語的教學方法
魅力中國(2016年35期)2017-02-09 00:51:11
建構主義教學法在《醫學英語》課程教學中的應用初探
淺析醫學英語的文體特征、翻譯目的和翻譯策略
卷宗(2016年10期)2017-01-21 12:36:22
關于醫學英語教學的特點分析和策略探討
醫學英語教學平臺的設計理念及RSS技術的應用
圖式理論在醫學英語閱讀中的作用
高職院校醫學英語教學現狀調查及對策分析
亞太教育(2016年34期)2016-12-26 18:45:46
過渡試點課醫學英語詞匯記憶調查
亞太教育(2016年31期)2016-12-12 21:46:20
在醫學類高職高專公共英語教學中融入醫學英語的有效途徑初探
主站蜘蛛池模板: 波多野结衣一区二区三视频| 午夜老司机永久免费看片| 国产激爽大片高清在线观看| 亚洲综合极品香蕉久久网| 日韩精品毛片| 国产精品片在线观看手机版| 在线播放91| 99激情网| 久久成人国产精品免费软件| 成人久久精品一区二区三区| 夜精品a一区二区三区| 99热最新网址| 免费高清a毛片| a亚洲天堂| 成人年鲁鲁在线观看视频| 精品视频第一页| 欧美在线综合视频| 国产午夜无码专区喷水| 欧美一级片在线| 欧美午夜网| 极品国产在线| 2021无码专区人妻系列日韩| 国产制服丝袜91在线| 国产高清在线精品一区二区三区| 久久国产精品娇妻素人| 日本a级免费| 久久黄色视频影| 波多野结衣一区二区三区四区视频 | 国产精品999在线| 欧亚日韩Av| 999国产精品永久免费视频精品久久| 十八禁美女裸体网站| 无码福利日韩神码福利片| 野花国产精品入口| 亚洲精品手机在线| 精品国产中文一级毛片在线看| 99久久精品免费看国产电影| 亚洲日本中文综合在线| 99热国产这里只有精品无卡顿"| 久久永久精品免费视频| 精品福利视频导航| 国产一区亚洲一区| 91精选国产大片| 青青操视频免费观看| 亚洲一区二区三区麻豆| 国产va欧美va在线观看| 日本国产在线| 久久精品国产精品一区二区| 国产精品私拍99pans大尺度| 欧美啪啪一区| 成·人免费午夜无码视频在线观看| 色哟哟精品无码网站在线播放视频| 四虎影视无码永久免费观看| 天天操天天噜| 97在线公开视频| 热久久综合这里只有精品电影| 国产色图在线观看| 91日本在线观看亚洲精品| 成人在线第一页| 五月婷婷中文字幕| 成人福利在线视频| 她的性爱视频| 国产无码性爱一区二区三区| 国产亚洲视频中文字幕视频| 久久精品中文字幕免费| 国产爽歪歪免费视频在线观看| 在线欧美a| 在线不卡免费视频| 美女啪啪无遮挡| 国产91全国探花系列在线播放| 国产美女在线观看| 女人18毛片一级毛片在线| 人妻精品久久无码区| 伊人中文网| 永久在线精品免费视频观看| 亚洲国产精品久久久久秋霞影院| 国产精品无码翘臀在线看纯欲| 欧美久久网| 国产亚洲精品精品精品| 欧美一级高清免费a| 亚洲国产精品日韩专区AV| 99一级毛片|