999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

使用“結巴”分詞和Excel制備雙語口譯詞匯表

2022-02-18 11:32:46李晨輝
科教導刊·電子版 2022年36期
關鍵詞:詞匯

李晨輝

(同濟大學浙江學院,浙江 嘉興 314200)

0 引言

口譯詞匯表是譯前準備階段必不可少的材料。口譯詞匯的提取有多種方法。傳統的方式是通讀稿件,人工標注并手工提取,詞匯表的形式多為紙媒或word文檔[1]。諸多技術手段也被用來實現口譯詞匯的自動提取,如TTC TermSuite、Syllabs Tools和Teaboat[2]。但其提取對象往往是術語,更適合專業的口譯譯員,而非口譯學習者,準確率也有待提高。還有一類是使用商業化的口譯軟件,如Intragloss、InterpretBank、Interplex UE、LookUp、AnyLexic、Intraplex等,這類軟件的結果也有準確性不高,特別是價格不菲的缺點,因而未得到譯員的青睞[3]。因此,如何利用現代技術高效、廉價、準確地獲取面向口譯學習者的雙語詞匯就成了十分現實的需求。

1 口譯詞匯

牛津詞典對“glossary”的定義是“某個文本中附有意義解釋的技術性或特別詞匯的列表”[4]。由此可以得出如下含義:第一,口譯詞匯包含術語,即某個領域內固定的行業詞匯。第二,口譯詞匯還包括一些特殊的詞匯。就口譯領域而言,它可以是口譯學習者需要習得的非術語類詞匯。由此,就可以確定口譯詞匯提取的對象是術語和特殊詞匯。

特殊詞匯的分布是雜亂無章的,但必須是口譯學習者未掌握的。從詞匯長度看,口譯詞匯小到一個漢字,多到涵蓋整個短語。從頻率分布上看,盡管名詞詞組和動賓短語占據較大比例,仍不乏其他類型的口譯詞匯存在。從口譯學習者的角度看,不同學習者對同一詞語的掌握程度不同,導致口譯詞匯存在個體差異,因此很難建立標準的口譯詞匯數據庫。

為此,要實現高效提取口譯詞匯并制備雙語對照的詞匯表,一種可行的思路是利用中文分詞工具獲取中文詞匯,篩選過濾后調用翻譯軟件進行批量翻譯。前者可以利用“結巴”中文分詞組件實現,后者可以通過Excel調用翻譯工具的API接口或利用其自帶翻譯功能實現。

2 “結巴”中文分詞

中文分詞算法及模型分為知識驅動的機械分詞和數據驅動的統計分詞[5]。“結巴”中文分詞是GitHub上的一款開源中文分詞組件,致力于做最好的python中文分詞組件。它結合了上述兩種模型并提供4種分詞模式:精確模式適合文本分析;全模式盡可能地切分漢語詞匯,但會造成歧義,切分太細導致無用詞過多;搜索引擎模式適用于在線搜索;paddle模式基于PaddlePaddle深度學習框架,可進行詞性標注[6]。

3 獲取雙語詞匯表

論壇的主旨演講是最常見的口譯場景。因此本實驗選取了新華社發布的習近平總書記在博鰲亞洲論壇2022年年會開幕式上的主旨演講作為分詞實驗材料。整體思路如圖1(P268)所示。

圖1 雙語口譯詞匯表制備流程

3.1 分詞前

首先,進行文本預處理。訪問新華社官方網站獲取實驗材料并保存為.“txt”文件,刪除不必要的空格、換行等字符。

其次,制備停用詞表。停用詞表是“結巴”中文分詞組件中用于過濾無效字符的文本文件,使用停用詞表,可以大大減輕對分詞結果的數據清洗工作。有許多停用詞表可使用,如哈工大停用詞表、百度停用詞表、四川大學停用詞表等。但口譯詞匯與口譯學習者的英漢互譯能力關系密切,故這類停用詞表的字符并不能直接用于口譯詞匯的過濾。因此,需制備一個停用詞表備用。參考成熟的各類停用詞表,本次實驗的停用詞表首先收錄了GB/T15834-2011中的所有標點(“·”未收錄,因為它常用來標示某些相關聯成分之問的分界,說明前后內容是一個詞條[7])。其次,收錄了現代漢語中的人稱代詞、介詞、能愿動詞、連詞和助詞這類口譯學習者大多都能翻譯的詞匯。

3.2 分詞中

分詞的基本思路是在python集成開發環境中讀取實驗材料(“test.txt”)中的文本,使用jieba.lcut()方法分詞并將結果暫存于一個臨時列表中,再經過去重、過濾操作寫入新的文本文件(“result.txt”)中。所有文件均存放在“D:python”文件夾中,代碼如下:

3.3 分詞后

分詞結果無法保證100%的正確率,在獲取雙語詞匯表前,需進行分詞結果的人工校驗和刪改,刪改后的分詞結果另存為文本文件(“result_filtered.txt”),后期可用于構建用戶詞典或口譯語料庫。為了數據處理方便,先通過python中的 xlwt模塊將制備好的詞匯文件(“result_filtered.txt”)寫入Excel文件(“result.xls”)中。代碼如下:

3.4 翻譯詞匯表

分詞后得到的中文詞匯,還需進行翻譯才可獲得雙語詞匯表。顯然,這一步不能通過人工逐條檢索。更為高效的做法是通過翻譯軟件進行批量翻譯。Excel提供了自帶的翻譯功能,可以在“審閱-翻譯”中進行調用,翻譯結果通過記事本軟件去除格式后,再存入表格的第4列中。許多翻譯軟件提供了API接口,但出于節約資源等目的,普遍存在訪問限制。有道翻譯的服務相對友好,可以通過Excel中的WEBSERVICE()函數配合FILTERXML()函數獲取有道翻譯結果(需注意對應的單元格的變化),最終生成的雙語詞匯表如圖2所示。

圖2 翻譯結果展示(部分)

此次實驗共計得到123條雙語詞匯。逐條檢查翻譯質量后發現,兩種翻譯結果還是具有較大差異的,有道翻譯的結果中存在33條不符合預期的詞條,如有道翻譯將“博鰲亞洲論壇”翻譯成了“Boao Asia BBS”,“脆弱乏力”翻譯成了“weak weak”。而Excel的結果中只有7條存在較大問題,只需稍加訂正就可以作為口譯學習的雙語詞匯表使用。因此可以認為Excel內置的翻譯功能提供了更為可靠的翻譯結果。當然,必須承認的是機器翻譯的結果無法做到100%正確,因此在后期的口譯學習中逐條審核這些詞匯還是十分必要的。

4 結語

測試結果表明,通過“結巴”中文分詞組件獲得口語語料中的漢語詞匯,人工校驗后再通過Excel軟件自帶的翻譯功能獲取雙語口譯詞匯表的方法是高效、簡便和較為準確的。對口譯學習者和教師來說,可以使用這種方法生成的口譯詞匯表,并配合雙語文本,逐條學習記憶。在這個過程中,還可以不斷修改詞匯表,積少成多建構學習或教學用雙語語料庫。

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
一些常用詞匯可直接用縮寫
山東醫藥(2017年33期)2017-10-09 12:31:41
詞匯小達人
一些常用詞匯可直接用縮寫
山東醫藥(2014年48期)2014-12-02 04:34:34
一些常用詞匯可直接用縮寫
山東醫藥(2014年34期)2014-12-02 04:33:52
主站蜘蛛池模板: 亚洲永久色| 亚洲二区视频| 黄片在线永久| 国产精品一区不卡| 老司国产精品视频91| 国产精品自在在线午夜| 亚洲熟妇AV日韩熟妇在线| 欧美激情,国产精品| 欧美在线一二区| 亚洲色偷偷偷鲁综合| 欧美日韩午夜视频在线观看| 综合色区亚洲熟妇在线| 91外围女在线观看| 国产亚洲精品自在久久不卡| 欧洲亚洲一区| 丁香亚洲综合五月天婷婷| 中文字幕永久在线看| 日本高清成本人视频一区| 亚洲丝袜第一页| 免费a在线观看播放| 久久大香伊蕉在人线观看热2| 亚洲成人网在线播放| 黄色网页在线播放| 亚洲高清资源| 国产综合另类小说色区色噜噜| 亚洲国产午夜精华无码福利| 制服无码网站| 亚洲欧美人成人让影院| 亚洲AV成人一区国产精品| 国产无遮挡猛进猛出免费软件| 日韩精品毛片| 免费xxxxx在线观看网站| 欧洲在线免费视频| 国产精品欧美日本韩免费一区二区三区不卡 | 国产精品久久久久无码网站| 午夜精品福利影院| 国产乱码精品一区二区三区中文 | 91青青视频| 久久国产精品电影| 黑人巨大精品欧美一区二区区| 538精品在线观看| 996免费视频国产在线播放| 国产电话自拍伊人| 免费看一级毛片波多结衣| 日本久久网站| 福利一区在线| 亚洲国产成人在线| 国产91小视频| 亚洲欧洲日产无码AV| 免费福利视频网站| 青青青国产在线播放| 亚洲精品国产首次亮相| 国产精品成| 香蕉久人久人青草青草| 天天做天天爱夜夜爽毛片毛片| 色偷偷男人的天堂亚洲av| 色爽网免费视频| 亚洲精品波多野结衣| 四虎成人精品在永久免费| 国产亚洲精久久久久久无码AV| 国产在线一区二区视频| 毛片基地美国正在播放亚洲| 九一九色国产| 玩两个丰满老熟女久久网| 日本一区高清| 国产一区二区视频在线| 亚洲中文字幕久久精品无码一区| 伊人久久福利中文字幕| 国产毛片久久国产| 日韩一区二区三免费高清| 免费全部高H视频无码无遮掩| 亚洲色图欧美视频| 无码精品福利一区二区三区| 国产精品第一区| 国产美女在线观看| 亚洲精品视频免费| 无码有码中文字幕| 亚洲一道AV无码午夜福利| 欧美另类图片视频无弹跳第一页| 四虎综合网| 手机成人午夜在线视频| 久久免费视频6|