使用“結巴”分詞和Excel制備雙語口譯詞匯表

2022-02-18 11:32:46李晨輝

科教導刊·電子版 2022年36期

關鍵詞：詞匯

李晨輝

（同濟大學浙江學院，浙江嘉興 314200）

0 引言

口譯詞匯表是譯前準備階段必不可少的材料。口譯詞匯的提取有多種方法。傳統的方式是通讀稿件，人工標注并手工提取，詞匯表的形式多為紙媒或word文檔[1]。諸多技術手段也被用來實現口譯詞匯的自動提取，如TTC TermSuite、Syllabs Tools和Teaboat[2]。但其提取對象往往是術語，更適合專業的口譯譯員，而非口譯學習者，準確率也有待提高。還有一類是使用商業化的口譯軟件，如Intragloss、InterpretBank、Interplex UE、LookUp、AnyLexic、Intraplex等，這類軟件的結果也有準確性不高，特別是價格不菲的缺點，因而未得到譯員的青睞[3]。因此，如何利用現代技術高效、廉價、準確地獲取面向口譯學習者的雙語詞匯就成了十分現實的需求。

1 口譯詞匯

牛津詞典對“glossary”的定義是“某個文本中附有意義解釋的技術性或特別詞匯的列表”[4]。由此可以得出如下含義：第一，口譯詞匯包含術語，即某個領域內固定的行業詞匯。第二，口譯詞匯還包括一些特殊的詞匯。就口譯領域而言，它可以是口譯學習者需要習得的非術語類詞匯。由此，就可以確定口譯詞匯提取的對象是術語和特殊詞匯。

特殊詞匯的分布是雜亂無章的，但必須是口譯學習者未掌握的。從詞匯長度看，口譯詞匯小到一個漢字，多到涵蓋整個短語。從頻率分布上看，盡管名詞詞組和動賓短語占據較大比例，仍不乏其他類型的口譯詞匯存在。從口譯學習者的角度看，不同學習者對同一詞語的掌握程度不同，導致口譯詞匯存在個體差異，因此很難建立標準的口譯詞匯數據庫。

為此，要實現高效提取口譯詞匯并制備雙語對照的詞匯表，一種可行的思路是利用中文分詞工具獲取中文詞匯，篩選過濾后調用翻譯軟件進行批量翻譯。前者可以利用“結巴”中文分詞組件實現，后者可以通過Excel調用翻譯工具的API接口或利用其自帶翻譯功能實現。

2 “結巴”中文分詞

中文分詞算法及模型分為知識驅動的機械分詞和數據驅動的統計分詞[5]。“結巴”中文分詞是GitHub上的一款開源中文分詞組件，致力于做最好的python中文分詞組件。它結合了上述兩種模型并提供4種分詞模式：精確模式適合文本分析；全模式盡可能地切分漢語詞匯，但會造成歧義，切分太細導致無用詞過多；搜索引擎模式適用于在線搜索；paddle模式基于PaddlePaddle深度學習框架，可進行詞性標注[6]。

3 獲取雙語詞匯表

論壇的主旨演講是最常見的口譯場景。因此本實驗選取了新華社發布的習近平總書記在博鰲亞洲論壇2022年年會開幕式上的主旨演講作為分詞實驗材料。整體思路如圖1（P268）所示。

圖1 雙語口譯詞匯表制備流程

3.1 分詞前

首先，進行文本預處理。訪問新華社官方網站獲取實驗材料并保存為.“txt”文件，刪除不必要的空格、換行等字符。

其次，制備停用詞表。停用詞表是“結巴”中文分詞組件中用于過濾無效字符的文本文件，使用停用詞表，可以大大減輕對分詞結果的數據清洗工作。有許多停用詞表可使用，如哈工大停用詞表、百度停用詞表、四川大學停用詞表等。但口譯詞匯與口譯學習者的英漢互譯能力關系密切，故這類停用詞表的字符并不能直接用于口譯詞匯的過濾。因此，需制備一個停用詞表備用。參考成熟的各類停用詞表，本次實驗的停用詞表首先收錄了GB/T15834-2011中的所有標點（“·”未收錄，因為它常用來標示某些相關聯成分之問的分界，說明前后內容是一個詞條[7]）。其次，收錄了現代漢語中的人稱代詞、介詞、能愿動詞、連詞和助詞這類口譯學習者大多都能翻譯的詞匯。

3.2 分詞中

分詞的基本思路是在python集成開發環境中讀取實驗材料（“test.txt”）中的文本，使用jieba.lcut()方法分詞并將結果暫存于一個臨時列表中，再經過去重、過濾操作寫入新的文本文件（“result.txt”）中。所有文件均存放在“D:python”文件夾中，代碼如下：

3.3 分詞后

分詞結果無法保證100%的正確率，在獲取雙語詞匯表前，需進行分詞結果的人工校驗和刪改，刪改后的分詞結果另存為文本文件(“result_filtered.txt”)，后期可用于構建用戶詞典或口譯語料庫。為了數據處理方便，先通過python中的 xlwt模塊將制備好的詞匯文件（“result_filtered.txt”）寫入Excel文件(“result.xls”)中。代碼如下：

3.4 翻譯詞匯表

分詞后得到的中文詞匯，還需進行翻譯才可獲得雙語詞匯表。顯然，這一步不能通過人工逐條檢索。更為高效的做法是通過翻譯軟件進行批量翻譯。Excel提供了自帶的翻譯功能，可以在“審閱-翻譯”中進行調用，翻譯結果通過記事本軟件去除格式后，再存入表格的第4列中。許多翻譯軟件提供了API接口，但出于節約資源等目的，普遍存在訪問限制。有道翻譯的服務相對友好，可以通過Excel中的WEBSERVICE()函數配合FILTERXML()函數獲取有道翻譯結果（需注意對應的單元格的變化），最終生成的雙語詞匯表如圖2所示。

圖2 翻譯結果展示（部分）

此次實驗共計得到123條雙語詞匯。逐條檢查翻譯質量后發現，兩種翻譯結果還是具有較大差異的，有道翻譯的結果中存在33條不符合預期的詞條，如有道翻譯將“博鰲亞洲論壇”翻譯成了“Boao Asia BBS”，“脆弱乏力”翻譯成了“weak weak”。而Excel的結果中只有7條存在較大問題，只需稍加訂正就可以作為口譯學習的雙語詞匯表使用。因此可以認為Excel內置的翻譯功能提供了更為可靠的翻譯結果。當然，必須承認的是機器翻譯的結果無法做到100%正確，因此在后期的口譯學習中逐條審核這些詞匯還是十分必要的。

4 結語

測試結果表明，通過“結巴”中文分詞組件獲得口語語料中的漢語詞匯，人工校驗后再通過Excel軟件自帶的翻譯功能獲取雙語口譯詞匯表的方法是高效、簡便和較為準確的。對口譯學習者和教師來說，可以使用這種方法生成的口譯詞匯表，并配合雙語文本，逐條學習記憶。在這個過程中，還可以不斷修改詞匯表，積少成多建構學習或教學用雙語語料庫。