999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

臨床醫療英語應用文語料庫建設與實施

2018-12-11 09:29:44張文奕宋雪姣
中國校外教育 2018年36期
關鍵詞:文本語言英語

◆張文奕 盧 喆 宋雪姣

(甘肅中醫藥大學國際教育學院)

作為一種科技文體,臨床醫療英語具有嚴謹規范、邏輯嚴密、客觀簡明的語言特色,其遣詞造句、語法結構具有獨特的詞匯體系和句法特征。隨著全球化的進程,醫學生必需具有國際化的學術視野,經常了解國內外領域的最新動態,不動查閱醫學文獻。在本科階段,對醫學生而言,學習和掌握臨床醫療英語應用文語言特點與寫作技巧尤其重要。因此,建設臨床醫療英語應用文語料庫,開展基于醫療英語的醫療行業英語語言的研究更具有緊迫性。語料庫不同于電子文檔或數據庫,語料庫的建設有特定的研究目的和具體用途,臨床醫療英語應用文語料庫主要用于研究臨床醫療英語詞匯,分析臨床醫療英語應用文語言特點,完善和開發相關教材等。

一、臨床醫療英語應用文語料庫創建原則

臨床醫療英語應用文語料庫的總體建庫原則是建立一個能全面反映臨床醫療英語語言事實的語料庫。該語料庫的建設應遵循隨機抽樣法、內容真實性、語料代表性、庫容適度性等原則。

1.隨機抽樣

語料庫是在隨機采樣的基礎上收集的有代表性的真實語言材料的集合,是語言運用的樣本。因此,臨床醫療英語應用文語料庫在語料抽樣范圍和主題覆蓋方面都力求取得平衡,在收集語料時按比例分層抽樣,需要考慮到每一主題類型的抽樣比例,在分布上應盡可能均勻。主題涵蓋禮儀文書、求職文書、醫務文件、公務文書和科研文書五個方面。

2.真實性

真實性是建設語料庫的基本前提,無此前提,語料庫就不能反映真實的語言面貌,基于語料庫的研究及得出的結論也必然是毫無意義的。具體而言,一要收集實際使用中的文本,而不能是研究者杜撰的;二要收集符合條件的文本,不符合的一律剔除。為了確保語料的真實性,應以復印、掃描或拍照等方式收集最原始的語料,從源頭上保證語料的真實性。

3.代表性

語料庫的代表性,即研究中所使用的語料是否能夠代表我們需要研究的語言。它對建成語料庫應用語言研究結果的可信度至關重要,這是建設臨床醫療英語應用文語料庫的首要原則,是區分語料庫與語料檔案庫的重要標準。一個語料庫是否有代表性首先要看語料庫所代表的總體??傮w而言,臨床醫療英語應用文語料庫代表的往往是理論上有限而實際上無限的總體?,F實中建庫者不可能將所有的臨床醫療英語應用文語料全部收集起來。為了提高語料的代表性,必須借助統計學抽樣方法,確保建立的語料庫中的語料樣本能最大限度地反映總體的特征。

4.庫容適度性

語料庫規模并不是越大越好??傮w而言,10萬詞次的語料庫可以滿足音韻學研究,形態學研究的語料庫需要達到50萬詞次,而句法學研究則需要50萬到100萬詞次的語料庫。我校建設的臨床醫療英語應用文語料庫初步庫容為50萬詞,各主題均占20%,約10萬字。該語料庫具有開放性、動態性和擴容性的特點,爭取在語料庫初步建成3年之后進一步擴展到100萬詞。

二、臨床醫療英語應用文語料庫建庫步驟

臨床醫療英語應用文語料庫的建庫步驟主要涉及語料的來源、采集、整理、標注、統計等內容。具體說來臨床醫療應用文語料庫的建設要經歷下列18道工序:語料庫設計、確定語料收集范圍、先導語料采集取樣論證、編制語料收集要求和工作流程、培訓語料采集人員、語料正式采集、回收語料并分類保存、紙質語料文本轉為txt文本、校對、語料清潔整理、抽檢語料樣本、對所有文本進行文件頭部元信息標注、校對、分詞、語料標注和詞性賦碼、校對、復查抽檢、對語料進行統計分析等。

三、建設方法

1.建立語料庫

建立語料庫涉及到文本的掃描、錄入和反復校對。每個取樣存為一個單獨文件,文件名以學科領域等因素命名。完成文本的數字化后進行文本整理,它是語料庫建庫的關鍵環節,涉及文本的備份、文本的清潔整理、語料元信息的標注等環節。整理后的文本要進行文本加工,文本加工涉及分詞、詞性標注及其他語言信息標注等環節。在臨床醫療英語應用文語料庫中,標注主要包括頭部元信息標注和詞性標注。元信息主要包括:文本說明信息(序號、文本分類等)、文獻信息(作者、時間、標題等)、文本結構信息(章節、段落等)等。元信息標注是后期語料庫檢索、查詢、分析、構建子語料庫的重要依據和條件。臨床醫療英語應用文語料庫的最終標注格式是XML。即可擴展標記語言。它具有跨平臺的優勢,一般用于數據存儲。

2.實現檢索軟件的自動抽取

為了能夠抽取研究者感興趣的語言單位,需要運用自動檢索工具,這些工具為可單獨運行的檢索軟件。單語純文本語料庫支持WordSmith、AntConc、Editplus等檢索工具對文本各種信息和語言特色的檢索分析。

四、可能遇到的問題和解決辦法

臨床醫療英語應用文語料庫的建設重點是語料庫的代表性,即語料能否代表所要研究的語言。語料庫的代表性主要涉及語料庫的設計容量、語料來源以及取樣的平衡。解決辦法是在具體語料采集環節之前要進行取樣論證,根據設計容量和語料來源、獲得途徑、著作權法等相關法律法規明確取樣準則和標準。然后根據取樣準則進行隨機簡單抽樣、先導分析并進而制定臨床醫療英語應用文語料庫的工作計劃和工作流程。建設難點是語料庫的標注。即把表示各種語言特征的附碼添加到相應的語言成分上,以便于計算機對特定語料進行識別和提取。標注工作的加工深度直接影響整個語料庫的質量和應用價值。解決辦法為實施標注工作前確定標注環境、工具、標注內容和規則、制定標注標記集等,確保語料標注的一致性和準確性。限于篇幅,筆者將另文贅述。

臨床醫療英語應用文語料庫的建設和相關研究,一方面,可提升語料庫研究在國內專業領域理論研究基礎。另一方面,可以通過在臨床醫學領域的應用,有利于解決該領域國內外科研技術交流中的語言障礙,提升本領域的學術交流合作。此外,也可促進臨床醫學在詞典編纂、術語研究、語篇分析、文本資料分析、教材編寫和語言教學等方面發展,此領域的研究工作具有重要的理論和現實意義。

猜你喜歡
文本語言英語
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
讀英語
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
我有我語言
酷酷英語林
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产一二三区在线| 欧美日韩一区二区在线播放| 女人18毛片久久| 亚洲欧洲美色一区二区三区| 色哟哟国产精品| 亚洲中文字幕手机在线第一页| 欧美精品在线免费| 黄色网页在线观看| 超级碰免费视频91| 国产一级裸网站| 亚洲天堂免费在线视频| 国产尤物在线播放| 欧美成人免费| 日本在线亚洲| 亚洲三级网站| 91国语视频| 欧美精品v| 中文字幕在线欧美| 欧美a在线视频| 国产精品无码影视久久久久久久| 熟妇人妻无乱码中文字幕真矢织江| 99re这里只有国产中文精品国产精品| 免费观看国产小粉嫩喷水| 亚洲色欲色欲www网| 91九色视频网| 成人福利一区二区视频在线| 91精品亚洲| 欧美日韩成人| 99资源在线| 国产毛片基地| 亚洲午夜18| 亚洲Av综合日韩精品久久久| 中文字幕天无码久久精品视频免费| 亚洲成网站| 国产一级二级三级毛片| 精品视频在线观看你懂的一区| 四虎国产精品永久一区| 免费在线播放毛片| 欧美国产日本高清不卡| 538国产视频| 这里只有精品在线| 国产二级毛片| A级毛片无码久久精品免费| 精品第一国产综合精品Aⅴ| 九九九精品成人免费视频7| 亚洲国产无码有码| 国产精彩视频在线观看| 久久国语对白| 国产在线啪| 免费一级α片在线观看| 日日碰狠狠添天天爽| 日韩精品无码免费一区二区三区| 精品撒尿视频一区二区三区| 国产成人一区免费观看| 亚洲一区毛片| 国产色婷婷| 亚洲第一区在线| 三级视频中文字幕| 中文字幕无码av专区久久| 国产欧美又粗又猛又爽老| 国产又粗又爽视频| 亚洲天堂在线免费| 国产不卡在线看| 国产成人精品第一区二区| 国产精品福利导航| 亚洲手机在线| 先锋资源久久| 国产精品第一区在线观看| 麻豆精品在线视频| 91丝袜美腿高跟国产极品老师| 精品视频第一页| 中文字幕天无码久久精品视频免费| 日本在线免费网站| 国产打屁股免费区网站| 成人精品区| 亚洲成人精品在线| 99久视频| 精品国产成人国产在线| 538国产视频| 538国产在线| 亚洲精品老司机| 第一区免费在线观看|