999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

《脊柱相關疾病》語料庫建構研究*

2023-08-16 14:59:42陳瀅竹
中國科技縱橫 2023年6期
關鍵詞:語義

趙 嬋 陳瀅竹

(1.南寧師范大學,廣西南寧 530001;2.廣西中醫藥大學,廣西南寧 530200)

0.引言

《脊柱相關疾病》[1]是著名骨傷科專家韋貴康教授主編的骨傷科臨床診療叢書中的一部。該書從中國傳統中醫的視角,對與脊柱相關的疾病進行了較為系統的研究和整理。這本書的出版有助于提高中醫臨床實踐、中醫教學、中醫科研水平,從客觀上加強中醫骨科作為臨床醫學的學科建設。之后,蔣基昌等學者將這部書翻譯為英文,引入國際醫學界,為國外醫學工作者了解中醫作出了貢獻。

1.文獻綜述

國內外學者越來越多地借助計算機技術建立與中醫相關的語料庫,為中醫典籍提供更全面、細致的研究。例如,聞永毅、樊新榮[2](2011)從語料庫語言學的視角討論了《黃帝內經》中文單語語料庫的構建方法和步驟。2003 年,這兩位學者又就中醫英文語料庫構建的可行性進行了探討[3]。國內從事這類研究的學者不多,且多為單語語料庫研究。涉及中醫外宣材料雙語平行語料庫構建的研究更不多見。

本文以語義學理論為基礎,結合計算機技術系統研究《脊柱相關疾病》中文語料庫和中英雙語平行語料庫的構建方法和步驟,以期為我國現代中醫成果外譯盡一份綿薄之力。

2.《脊柱相關疾病》中文、中英雙語平行語料庫的建立

2.1《脊柱相關疾病》中文單語語料庫的建立

輸入數據前,先對文本做一些處理,以確保《脊柱相關疾病》中文語料庫建立工作的順利開展。處理如下:(1)人工篩選該書中文版的非醫學內容。(2)編輯和整理篩選過的中文文本。如刪除多余的空格等。(3)初步標注中文文本信息。如標出文本的標題和段落,并將其保存為純文本格式,生成《脊柱相關疾病》中文生語語料庫。該語料庫的文本樣例如下:<P>脊柱構成人體的中軸……</P>。

中文語料庫建構工具使用的是Word Smith Tools8.0。因為它不僅能提供基本檢索項目,如字詞檢索、生成詞表等,還能提供形符比,標準形符比等其他統計量。此外,還增加了新功能如單獨導出一致性詞等。該工具的運用可增加生語語料庫提供的檢索項目。

2.1.1 庫文件的分詞處理

生語語料庫有限的檢索項目不能滿足使用者的需求,也不利于我們建構中英雙語平行語料庫。因此,我們對中文生語語料庫文件進行分詞處理,以實現檢索中文多字詞的目標。經過初步處理的《脊柱相關疾病》中文生語語料庫為70331 字。目前廣泛應用的現代漢語分詞系統在分詞的同時,可同步完成語料詞性的標注。但由于《脊柱相關疾病》屬于醫學類專著,專業性高,現有的中文分詞系統在分詞和詞性標注時,準確性很難保證,所以本研究先采用了自動分詞技術,再結合人工干預進行調整和修訂,以確保分詞和詞性標注的準確性。分詞樣例如下:<P>脊柱構成 人體 的 中軸……</P>(共5 個詞)。

2.1.2 語料庫的標注

此外,我們還參考其他學者,如聞永毅、樊新榮;詹衛東等[4]使用的語義分類法和研究思路對經過分詞處理的語料庫進行語義標注。這主要通過語義分類系統和語義賦碼系統實現。

(1)語義分類的實施步驟。

1)形成詞表。運用語料庫檢索工具Wordsmith8.0提取經過分詞處理的《脊柱相關疾病》文件中的詞匯,形成詞匯表。

2)建立語義標注手冊。首先,根據語義學的上下義關系、同義關系等原則對詞匯表的詞匯進行分類,建立語義層級和分類標準,初步形成語義標注手冊。其次,請3個具有中醫醫學背景的碩士研究生依據這個手冊分別進行試標注。如有爭議,三者進行協商,最終達成一致,從而調整分類的層級和標準,形成最終的語義標注手冊。不同語義層級的“語義標注符號”根據這組詞匯最具原型性的詞語或上位詞命名。如找不到合適的詞語,則由3 名研究生討論決定。

不同語義層級之間主要有以下3 種關系:①上下義關系。即上一語義層級和下一語義層級是包含和被包含的關系,具體可細分為分類關系、層級關系、部分和整體關系等。如病癥(一級語義層級)包括臂厥、眩暈、心悸、血痹、筋痹、骨痹等二級語義層級。②同義關系。這類關系可按照不同的標準劃分為近義或同義關系、反義關系等。如脊柱生理曲度(二級語義層級)下含胸曲、骶曲、頸曲與腰曲(三級語義層級)。這是按功能或屬性相同或相似劃分的近義或同義關系。③系統外關系。主要是虛詞和標點符號等。這樣語義標注手冊就形成了一個縱橫交錯的語義關系網。縱向為具有上下義關系的詞群;橫向為具有同義/反義關系特征的詞群。縱向頂端的一級語義層級被設定為一級標注符號;向下依次為二級、三級等。

(2)語義賦碼。采用計算機賦碼和人工輔助修正相結合的方法對語料進行賦碼。為了提高語義賦碼的效率和準確性,項目組依據語義標注手冊開發了一款賦碼工具。賦碼工具將不同語義層級對應為不同的節點。一級語義層級對應節點I;其他語義層級依次類推。賦碼之后的文件樣例如下:【標注文件I】<P>脊柱<構件> 構成<關系>人體<構件> 的<虛詞> 中軸<構件>……<st>。

分層標注語料庫,拆分語義節點,形成相對獨立的語義節點集合。每個集合只有各自的成員。如一級標注符由人、構件、疾病、藥物等節點構成。一級標注符疾病下包含了與疾病相關的全部二級標注符,如種類、癥狀、療法等。不同級別的標注符分別存儲至不同文件夾。進行語義賦碼時,需注意以下幾點。

1)降低語料庫開發人員對標注體系的影響。李文中[5]指出,實施賦碼的人員不僅需要良好的語言直覺,還需要經過嚴格的訓練和實踐。聞永毅、樊新榮指出,語料庫開發人員的主觀意識會反映于語料庫的標注體系,影響語料庫的使用價值和適用范圍。我們讓3 位具有中醫背景的碩士研究生分別進行標注,對有爭議的標注進行協商討論形成一致結果,以確保語料庫標注的客觀性。

2)注意語義標注符數量對語料庫的影響。國內外大部分學者認為,語料庫的標注為語料庫的有效使用提供了基礎。語料標注的信息越詳細,語料庫能提供的信息越多(Leech[6],1997a:2;Hunston[7]2002:79)。Sinclair[8]認為,語料庫不應使用過多的語義標注符。語義標注符過多將對語料庫標注、校對、維護等造成負擔。因此,本項目的語義標注符絕大多限制在四級,極少數有五級。

(3)語料庫的檢索。檢索是語料庫的基本功能。《脊柱相關疾病》中文語料庫直接使用Wordsmith8.0 提供的檢索功能,因為該軟件能提供更多的數據類型和統計結果。此外,《脊柱相關疾病》經過賦碼后的語料雖然根據標注符號的級別存儲在不同的文件夾,但是因為其初始文件都是同一個經過分詞處理的文件,故能實現一個檢索平臺可檢索各級庫文件的要求。

2.2《脊柱相關疾病》[9]中英文雙語平行語料庫的建立

《脊柱相關疾病》中英雙語平行語料庫的建立主要是為學者們進行中醫醫學著作的中英文術語、語法等的對比研究奠定基礎;為譯員中醫醫學著作的翻譯提供中英對譯的術語和句子,以期減少譯員的工作量,提高他們的工作效率和我國中醫藥外宣材料的翻譯質量,向世界講好中國故事。

我們運用了Tmxmall 在線對齊工具來構建中英雙語平行語料庫。我們選擇該線上對齊工具原因有兩個:一是Tmxmall 的交互界面操作簡單;二是它可以自動對齊原文及譯文語料。在很大程度上減少人工干預的工作量,提高工作效率。操作步驟如下。

(1)進入Tmxmall 在線對齊頁面,注冊賬號后登錄。

(2)選擇語言對,導入經過初步處理的《脊柱相關疾病》的中英文對應文檔。并通過 “上移”“下移”“合并”“拆分”等操作調整雙語文檔,使雙語文檔段落數一致。 這步需人工進行。除了在Tmxmall 在線對齊頁面調整雙語文檔段落,也可在上傳文檔前就將中英文雙語文檔段落數調整一致。為了提高效率,本項目將中英文對應的文檔分成5 份,由5 名英語專業本科生分別將各自負責的雙語文檔段落調整一致后,分別儲存為中文文檔和英文文檔,由兩名項目組成員檢查后,整合上傳Tmxmall 在線對齊頁面。

(3)段落對齊后,單擊頁面左上角的“對齊”, 系統會自動進行中英文語句對齊。

(4)為了確保中英文文件對齊的準確性,系統自動對齊后,我們依據句級對齊原則對系統生成的文本對齊文件進行了人工核對和調整,最后將核對后的語料導出tmx格式的文檔。

此外,我們還運用Tmxmall 在線對齊系統提供的術語提取功能對編輯好的中英文對齊語料進行術語提取,導出Excel 文檔和統計術語詞頻。將術語提取詞頻設置為3,也就是將在中英文對齊語料中出現頻次大于等于3 次的詞作為高頻詞進行提取。而且系統提取的部分術語并不是嚴格意義的術語,還需對系統提取的術語進行了人工篩選和調整。最終形成《脊柱相關疾病》中英文對齊語料和中英文術語表。

3.結語

本項目的兩個語料庫均是為提高中醫外宣翻譯質量和翻譯教學質量服務的,但側重點不同。大部分從事中醫外宣翻譯的譯者、從事中醫翻譯教學的教師并不具備中醫背景,中文語料庫的建立是可幫助他們更好地檢索原文,獲取原文的基本信息,更好地研究原文、理解原文。中英文平行語料庫的構建可助力教師、學者的教學科研。他們可運用《脊柱相關疾病》中英雙語平行語料庫的檢索功能獲取需要的數據類型和統計,分析單詞、詞組、句式的運用,總結中醫外宣材料翻譯適用的翻譯策略、方法,譯者風格等,并為中醫雙語詞典的編撰提供參考。此外,也可將《脊柱相關疾病》的中英文對齊資料導入計算機輔助翻譯軟件,運用翻譯記憶為譯者提供句對檢索、術語檢索,從而最大程度地實現翻譯風格的統一,提高翻譯效率,保證翻譯質量,降低校對成本。同時也可運用于計算機輔助翻譯相關課程中,幫助學生構建自己的語料記憶庫,掌握計算機輔助翻譯技術。這兩個語料庫的構建集語義學、語料庫語言學、計算機技術等多個領域知識于一體。其嚴謹的標注、語義分級、賦碼過程必能為中醫文獻外宣材料的翻譯提供有效的幫助。

猜你喜歡
語義
為什么字看久了就不認識了
語言與語義
“社會”一詞的語義流動與新陳代謝
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
“吃+NP”的語義生成機制研究
長江學術(2016年4期)2016-03-11 15:11:31
“V+了+NP1+NP2”中V的語義指向簡談
認知范疇模糊與語義模糊
“V+X+算+X”構式的語義功能及語義網絡——兼及與“V+X+是+X”構式的轉換
語言與翻譯(2014年2期)2014-07-12 15:49:25
“熊孩子”語義新探
語文知識(2014年2期)2014-02-28 21:59:18
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 亚洲精品777| 久久久久久久久18禁秘| 国产美女精品一区二区| 国产免费久久精品99re不卡| 欧美一级黄片一区2区| 手机在线免费不卡一区二| 亚洲va精品中文字幕| 国产精品所毛片视频| 日本成人精品视频| 日韩一级二级三级| 中文字幕在线永久在线视频2020| 国产第八页| 91麻豆精品国产91久久久久| 亚洲综合极品香蕉久久网| 国产精品亚洲专区一区| 国产综合日韩另类一区二区| 国产色伊人| 91美女在线| 亚洲精品无码抽插日韩| 99国产精品一区二区| 四虎免费视频网站| 亚洲高清在线播放| 亚洲精品自拍区在线观看| 国产精品区视频中文字幕| 国产91麻豆免费观看| 免费高清a毛片| 欧美专区日韩专区| 中国国语毛片免费观看视频| 中国国产一级毛片| 婷婷丁香色| 亚洲欧美国产五月天综合| 亚洲男人的天堂在线| 久久国产免费观看| 扒开粉嫩的小缝隙喷白浆视频| 一本久道久久综合多人| av无码一区二区三区在线| 青青网在线国产| 日本不卡在线视频| 国产欧美在线观看一区| 欧美国产精品不卡在线观看| 最新精品久久精品| 玖玖精品在线| 精品第一国产综合精品Aⅴ| 精品人妻系列无码专区久久| 国产你懂得| 成人中文在线| 亚洲国产中文欧美在线人成大黄瓜 | 国产久操视频| 国产99精品视频| 高潮毛片免费观看| 国产在线日本| 国产精品久久久久久久久久98| 亚洲一级毛片在线观播放| 国产欧美日韩另类| 国产色偷丝袜婷婷无码麻豆制服| 亚洲床戏一区| 亚洲欧美天堂网| 这里只有精品免费视频| 日韩亚洲综合在线| 国产无码制服丝袜| 国产主播在线一区| 亚洲国产精品一区二区高清无码久久 | 成年女人a毛片免费视频| 又粗又大又爽又紧免费视频| 日韩欧美中文| www.日韩三级| 亚洲Aⅴ无码专区在线观看q| 激情六月丁香婷婷四房播| 综合色区亚洲熟妇在线| 凹凸精品免费精品视频| 色视频国产| 综合五月天网| 五月天福利视频| 亚洲日产2021三区在线| 亚洲人成色在线观看| 久久这里只有精品66| 亚洲国产成人综合精品2020| 在线国产毛片手机小视频| 香蕉蕉亚亚洲aav综合| a级毛片毛片免费观看久潮| 在线观看亚洲国产| 亚洲综合一区国产精品|