999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

臨床醫療英語應用文語料庫建設與實施

2018-12-11 09:29:44張文奕宋雪姣
中國校外教育 2018年36期
關鍵詞:文本語言英語

◆張文奕 盧 喆 宋雪姣

(甘肅中醫藥大學國際教育學院)

作為一種科技文體,臨床醫療英語具有嚴謹規范、邏輯嚴密、客觀簡明的語言特色,其遣詞造句、語法結構具有獨特的詞匯體系和句法特征。隨著全球化的進程,醫學生必需具有國際化的學術視野,經常了解國內外領域的最新動態,不動查閱醫學文獻。在本科階段,對醫學生而言,學習和掌握臨床醫療英語應用文語言特點與寫作技巧尤其重要。因此,建設臨床醫療英語應用文語料庫,開展基于醫療英語的醫療行業英語語言的研究更具有緊迫性。語料庫不同于電子文檔或數據庫,語料庫的建設有特定的研究目的和具體用途,臨床醫療英語應用文語料庫主要用于研究臨床醫療英語詞匯,分析臨床醫療英語應用文語言特點,完善和開發相關教材等。

一、臨床醫療英語應用文語料庫創建原則

臨床醫療英語應用文語料庫的總體建庫原則是建立一個能全面反映臨床醫療英語語言事實的語料庫。該語料庫的建設應遵循隨機抽樣法、內容真實性、語料代表性、庫容適度性等原則。

1.隨機抽樣

語料庫是在隨機采樣的基礎上收集的有代表性的真實語言材料的集合,是語言運用的樣本。因此,臨床醫療英語應用文語料庫在語料抽樣范圍和主題覆蓋方面都力求取得平衡,在收集語料時按比例分層抽樣,需要考慮到每一主題類型的抽樣比例,在分布上應盡可能均勻。主題涵蓋禮儀文書、求職文書、醫務文件、公務文書和科研文書五個方面。

2.真實性

真實性是建設語料庫的基本前提,無此前提,語料庫就不能反映真實的語言面貌,基于語料庫的研究及得出的結論也必然是毫無意義的。具體而言,一要收集實際使用中的文本,而不能是研究者杜撰的;二要收集符合條件的文本,不符合的一律剔除。為了確保語料的真實性,應以復印、掃描或拍照等方式收集最原始的語料,從源頭上保證語料的真實性。

3.代表性

語料庫的代表性,即研究中所使用的語料是否能夠代表我們需要研究的語言。它對建成語料庫應用語言研究結果的可信度至關重要,這是建設臨床醫療英語應用文語料庫的首要原則,是區分語料庫與語料檔案庫的重要標準。一個語料庫是否有代表性首先要看語料庫所代表的總體??傮w而言,臨床醫療英語應用文語料庫代表的往往是理論上有限而實際上無限的總體?,F實中建庫者不可能將所有的臨床醫療英語應用文語料全部收集起來。為了提高語料的代表性,必須借助統計學抽樣方法,確保建立的語料庫中的語料樣本能最大限度地反映總體的特征。

4.庫容適度性

語料庫規模并不是越大越好??傮w而言,10萬詞次的語料庫可以滿足音韻學研究,形態學研究的語料庫需要達到50萬詞次,而句法學研究則需要50萬到100萬詞次的語料庫。我校建設的臨床醫療英語應用文語料庫初步庫容為50萬詞,各主題均占20%,約10萬字。該語料庫具有開放性、動態性和擴容性的特點,爭取在語料庫初步建成3年之后進一步擴展到100萬詞。

二、臨床醫療英語應用文語料庫建庫步驟

臨床醫療英語應用文語料庫的建庫步驟主要涉及語料的來源、采集、整理、標注、統計等內容。具體說來臨床醫療應用文語料庫的建設要經歷下列18道工序:語料庫設計、確定語料收集范圍、先導語料采集取樣論證、編制語料收集要求和工作流程、培訓語料采集人員、語料正式采集、回收語料并分類保存、紙質語料文本轉為txt文本、校對、語料清潔整理、抽檢語料樣本、對所有文本進行文件頭部元信息標注、校對、分詞、語料標注和詞性賦碼、校對、復查抽檢、對語料進行統計分析等。

三、建設方法

1.建立語料庫

建立語料庫涉及到文本的掃描、錄入和反復校對。每個取樣存為一個單獨文件,文件名以學科領域等因素命名。完成文本的數字化后進行文本整理,它是語料庫建庫的關鍵環節,涉及文本的備份、文本的清潔整理、語料元信息的標注等環節。整理后的文本要進行文本加工,文本加工涉及分詞、詞性標注及其他語言信息標注等環節。在臨床醫療英語應用文語料庫中,標注主要包括頭部元信息標注和詞性標注。元信息主要包括:文本說明信息(序號、文本分類等)、文獻信息(作者、時間、標題等)、文本結構信息(章節、段落等)等。元信息標注是后期語料庫檢索、查詢、分析、構建子語料庫的重要依據和條件。臨床醫療英語應用文語料庫的最終標注格式是XML。即可擴展標記語言。它具有跨平臺的優勢,一般用于數據存儲。

2.實現檢索軟件的自動抽取

為了能夠抽取研究者感興趣的語言單位,需要運用自動檢索工具,這些工具為可單獨運行的檢索軟件。單語純文本語料庫支持WordSmith、AntConc、Editplus等檢索工具對文本各種信息和語言特色的檢索分析。

四、可能遇到的問題和解決辦法

臨床醫療英語應用文語料庫的建設重點是語料庫的代表性,即語料能否代表所要研究的語言。語料庫的代表性主要涉及語料庫的設計容量、語料來源以及取樣的平衡。解決辦法是在具體語料采集環節之前要進行取樣論證,根據設計容量和語料來源、獲得途徑、著作權法等相關法律法規明確取樣準則和標準。然后根據取樣準則進行隨機簡單抽樣、先導分析并進而制定臨床醫療英語應用文語料庫的工作計劃和工作流程。建設難點是語料庫的標注。即把表示各種語言特征的附碼添加到相應的語言成分上,以便于計算機對特定語料進行識別和提取。標注工作的加工深度直接影響整個語料庫的質量和應用價值。解決辦法為實施標注工作前確定標注環境、工具、標注內容和規則、制定標注標記集等,確保語料標注的一致性和準確性。限于篇幅,筆者將另文贅述。

臨床醫療英語應用文語料庫的建設和相關研究,一方面,可提升語料庫研究在國內專業領域理論研究基礎。另一方面,可以通過在臨床醫學領域的應用,有利于解決該領域國內外科研技術交流中的語言障礙,提升本領域的學術交流合作。此外,也可促進臨床醫學在詞典編纂、術語研究、語篇分析、文本資料分析、教材編寫和語言教學等方面發展,此領域的研究工作具有重要的理論和現實意義。

猜你喜歡
文本語言英語
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
讀英語
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
我有我語言
酷酷英語林
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 97综合久久| 国产毛片不卡| 九色国产在线| 在线视频97| 人人爱天天做夜夜爽| 91视频精品| www.亚洲一区| 国产av无码日韩av无码网站| 欧美日韩一区二区三区四区在线观看| 免费国产黄线在线观看| 欧美A级V片在线观看| 一本久道久久综合多人| 久久窝窝国产精品午夜看片| 香蕉久久国产超碰青草| 久久国产精品娇妻素人| 区国产精品搜索视频| 免费不卡在线观看av| 国产精品一区二区在线播放| 欧美日韩国产在线播放| 99视频只有精品| 欧美视频在线播放观看免费福利资源| 国产欧美日本在线观看| 亚洲三级色| 一区二区在线视频免费观看| 人妖无码第一页| www.精品国产| 精品久久久无码专区中文字幕| 97亚洲色综久久精品| 最新日本中文字幕| 亚洲香蕉在线| 国产99免费视频| 日韩av手机在线| 亚洲a级在线观看| 福利视频一区| 在线99视频| 国产成人高清在线精品| 在线免费不卡视频| 波多野衣结在线精品二区| 国产91九色在线播放| 久久久久久尹人网香蕉 | 尤物亚洲最大AV无码网站| 91成人精品视频| 思思99思思久久最新精品| 91麻豆国产视频| 久久特级毛片| 激情在线网| 亚洲国产精品不卡在线 | 一级毛片免费播放视频| 色精品视频| 国产在线观看成人91| 国产精品女在线观看| 欧美成人精品在线| 色噜噜久久| 久久人人爽人人爽人人片aV东京热| 亚洲欧美日韩精品专区| 欧美国产日韩在线| 狠狠亚洲婷婷综合色香| 免费国产在线精品一区| 真人高潮娇喘嗯啊在线观看| 久久人人妻人人爽人人卡片av| 国产真实二区一区在线亚洲 | 一级在线毛片| 美女一区二区在线观看| 欧美日本视频在线观看| 亚洲一区二区黄色| 欧美a级在线| 国产91视频免费观看| 亚洲最大在线观看| 亚洲一级毛片在线观播放| 美女无遮挡免费网站| 久久永久精品免费视频| 亚洲三级片在线看| 国产成人精品亚洲77美色| 国产成人综合欧美精品久久| 亚洲精品黄| 好吊日免费视频| 欧美区一区| 国产成人91精品| 亚洲精品在线影院| 国产综合在线观看视频| 国产91无码福利在线| 婷婷99视频精品全部在线观看|