饒高琦
(北京語言大學 漢語國際教育研究院,北京 100083)
信息溝通、心理撫慰和應急決策是突發公共事件應對中不可缺少的三個環節。它們均與語言有重要關系,也離不開語言技術的支撐。語言技術是支撐、服務語言信息傳播、理解的技術手段,包括硬件設備和軟件系統、互聯網服務及它們背后的算法、模型、操作流程等。在各國的應急語言能力建設中,語言技術的儲備和應用都是不可缺少的一環。世界各國面向突發公共事件的語言服務中,語言技術也廣泛地起到了支持作用。其中應用到的語言技術主要是各類翻譯技術(機器翻譯技術、機器輔助翻譯技術)和相關配套技術(如術語管理技術、翻譯管理平臺開發等)。如機器翻譯技術在海地地震中進行快速部署,并在應急反應中獲得使用。(1)Lewis W.Haitian creole:How to build and ship an MT engine from scratch in 4 days,17 hours,& 30 minutes[C].Proceedings of the 14th Annual Conference of the European Association for Machine Translation.Saint-Rapha?l:European Association for Machine Translation,2010;Lewis W,Munro R & Vogel S.Crisis MT:Developing a cookbook for MT in crisis situations[C].Proceedings of the 6th Workshop on Statistical Machine Translation.Edinburgh,Scotland:ACM,2011.誠然機器翻譯還不足以解決所有語言障礙,因而眾包翻譯和翻譯平臺建設也發揮了其在災害應急中的服務作用。(2)Sutherlin G.A voice in the crowd:Broader implications for crowdsourcing translation during crisis[J].Journal of Information Science,2013,(3).
2020年新冠肺炎疫情暴發,舉國奮起,齊心抗疫,社會各界千里馳援湖北。在跨省區援助中,存在很多語言造成的困難和障礙,醫患溝通的方言障礙是其一。疫情期間,留在國內,尤其是湖北境內的外籍人士等非漢語母語者在疫情信息接收和個人防護方面存在的語言障礙又是一類。此外隨著疫情在全球范圍內擴散,各類語言障礙引起的問題,也需要相應的語言服務加以克服。而各類語言服務的背后都有相應語言技術的支撐和助力。(3)李宇明,趙世舉,赫琳.“戰疫語言服務團”的實踐與思考[J].語言戰略研究,2020,(3).
國家語言服務是國家語言能力的外顯和實踐。國家語言能力是“運用語言處理一切國家利益相關事務的能力”。(4)文秋芳.對“國家語言能力”的再解讀——兼述中國國家語言能力70年的建設與發展[J].新疆師范大學學報(哲學社會科學版),2019,(5).國家語言能力包括5個方面:語種能力、國家主要語言的國內外地位、公民語言能力、擁有現代語言技術的能力、國家語言生活管理水平。(5)李宇明.提升國家語言能力的若干思考[J].南開語言學刊,2011,(1).其評價指標為7個方面:國家通用語言文字的普及程度及水平,國民掌握語種的數量及水平、各語種人才的數量、水平和結構分布,語言資源的可開發性及開發效率,語言學習資源的可利用性及利用效率,語言信息處理能力和管理社會語言生活的能力。(6)文秋芳.國家語言能力的內涵及其評價指標[J].云南師范大學學報(哲學社會科學版),2016,(2).對語言能力的不同評價方法中都涉及語言技術的評價。可見語言技術已經成為國家語言能力的重要衡量指標,也是實現語言服務不可或缺的要素。應急語言服務則更加離不開語言技術的支撐,尤其呼喚對語言技術的規劃。(7)王立非,任杰,孫疆衛,蒙永業.應急語言服務的概念、研究現狀與機制體制建設[J].北京第二外國語學院學報,2020,(1).
當前我國在國家通用語的普及、國際傳播,外語人才和資源建設都取得了長足進步,但包含語言信息處理技術在內的廣泛的語言技術還有待加強。并非我國目前語言技術水平低下,而是語言文字事業管理者、從業者對語言技術的使用意識和水平無法滿足應對突發公共事件的需求。因此語言技術應成為應急語言能力建設的重點內容。
在2020年抗擊新冠肺炎疫情期間,為應對在跨省區援助中的語言障礙,山東大學齊魯醫院援鄂醫療隊在進駐武漢48小時內,組織編寫《國家援鄂醫療隊武漢方言實用手冊》《國家援鄂醫療隊武漢方言音頻材料》及《護患溝通讀本》,即是語言應急之策。在教育部、國家語委指導下,來自高校和企業單位的四十余名專家成立了“戰疫語言服務團”,組織研發《抗擊疫情湖北方言通》,積極幫助外地援鄂醫療隊解決醫患溝通方言障礙問題,用語言學專業力量助力抗疫防控阻擊戰。《抗擊疫情湖北方言通》上線僅一周即訪問13萬余次,播放33萬次,融媒體口袋書隨各省醫療隊發放6000余冊。《疫情防控“簡明漢語”》快速研發投入使用,供掌握1200詞水平的非漢語母語人士使用,取得很好效果。在國際上,服務團短時間內發布了四十余種語言的肺炎診療、防護、出入境須知卡片,組織翻譯了6種外語的新冠肺炎病毒治療手冊,建立了專業平行語料庫和翻譯庫,被十余個省市外辦采用。服務團策劃了新冠肺炎康復者向疫區國寫信的語言撫慰計劃。“戰疫語言服務團”發揮積極作用,是北京語言大學語言資源高精尖創新中心、中國語言資源保護研究中心以及中國語言生活派學者長期科研和探索累積、服務國家發展的典型案例。(8)李宇明.重視突發公共事件中的語言應急問題[J].語言戰略研究,2020,(2);李宇明.戰疫語言服務團的故事[N].人民政協報,2020-03-09.
抗擊疫情期間語言技術在各項抗疫語言服務中的使用情況詳述如下。
為幫助外地援鄂醫療隊解決醫患溝通的方言障礙問題,“戰疫語言服務團”研制了《抗擊疫情湖北方言通》,包括微信版、網絡版、融媒體版、迷你視頻版、抖音版、在線服務系統、即時翻譯軟件等多種產品,為抗擊疫情的醫護人員及相關群體提供多維度語言服務。
“方言通”涵蓋湖北武漢、黃岡、孝感、宜昌、荊州、咸寧、襄陽、黃石、鄂州、恩施、大冶等11地方言;根據語料庫統計和醫用場景調研,分診療常用語句、診療常用詞匯兩大部分;共156個詞語、76個短句。每個對應語句、詞匯都以普通話、方言和音頻二維碼分別標識,供醫療工作者和有關人員參考使用。
1.語料庫技術
“方言通”的基礎是湖北各地方言的錄音資料。而語言資源保護工程日常采集的語料乃為服務語言、文化研究之用,并非面向防護知識普及和診療現場。因而“錄什么”需要重新規劃和設計,即需要制作面向疫情防控和診療的錄音腳本。該腳本要求使用最少的句子和詞匯,覆蓋最多、最常見的防疫信息和診療對話現場。為科學制備腳本,服務團需要構建面向防疫信息和診療對話的語料庫。
戰疫語言服務團在短時間內,迅速構建了一個袖珍新冠肺炎診療語料庫。在這一過程中,戰疫語言服務團組織并收集日常用語、醫療用語、護理用語的詞語和短句,以此為基礎。以相關醫學術語為種子,利用政府公告、問診網站和文藝作品等資源,快速構建口語化的,問診和護理場景必備語句,添加入基礎語料庫中,形成戰疫診療語料庫。而后根據語料庫,服務團利用文本覆蓋度計算的方法,對人工挑選的句子、詞匯進行覆蓋性的評估,不斷迭代,形成方言錄音腳本。最終版本由計算版本錄音底稿和語言資源保護團隊的湖北版本底稿匯合后刪改成型。
2.語言采錄技術
“方言通”的核心在于發言音頻采錄。在“方言通”的研制過程中,戰役語言服務團使用“北語錄音”軟件對發音人進行音頻采錄。“北語錄音”是語言資源保護工程專門為方言信息采集而開發的便攜錄音軟件,在設計上非常適合“方言通”數據的采集。“北語錄音”自動讀入按規定格式整理好的腳本excel表格,逐行醒目顯示待錄制內容。發音人朗讀內容后,可自動保存音頻文件。全部錄音文件自動保存在同一個文件夾里,該文件夾與相應的錄音用表所在位置相同,名稱相同。

圖1 “北語錄音”軟件界面
具有高質量音頻采集和便捷操作模式的錄音軟件為發音人快速錄制音頻提供了極大便利,是“方言通”能夠快速上線服務的重要保障。
3.音頻檢索與傳播
“方言通”的呈現方式包括微信版、網絡版、融媒體版、迷你視頻版、抖音版、在線服務系統、即時翻譯軟件等多種方式。其中微信版、網絡版和融媒體版均涉及音頻檢索的技術。所有音頻均通以音頻內容本身為關鍵字進行檢索,由于方言表達中的詞顆粒度和普通話無法完全一一對應,故這一檢索是全文字符檢索而非傳統的詞檢索。圖2為“方言通”微信版用戶界面。
融媒體版則通過口袋書的形式呈現。全書每個對應語句、詞匯都以普通話、方言和音頻二維碼分別標識,供醫療工作者和有關人員參考使用。
迷你視頻版和抖音版則將分句、分詞的方言數據按照類別、用途和方言種類進行歸類后,按照設計順序連接為一段音頻,配以文字注釋和圖像,在微信、抖音等視頻平臺進行播放、傳播。

圖2 “方言通”微信版用戶界面 圖3 “方言通”融媒體口袋書樣頁
4.呼叫平臺建設
除了供醫護和有關人員主動查詢、播放的方言音頻資料外,“方言通”還通過建設呼叫平臺提供現場“方普”翻譯服務。用戶撥打熱線電話(027-59771671)后,電話被接入方言分配中心,用戶可按照提示選擇方言。隨后系統將自動為用戶分配一名該方言志愿者為醫患雙方提供現場的方普翻譯服務。呼叫平臺實現了9種湖北主要方言的“方普”翻譯服務。
5.語音識別平臺
面向人口最多的武漢話方言片區,“方言通”推出了面向武漢話的方言語音識別服務。該服務內嵌于訊飛語音輸入法中。利用基于深度學習方法的語音識別技術,使用事先大量采集的武漢方言樣本,經過快速密集人力標引和校對,團隊研發了武漢話語音識別系統。系統可在近距離低噪聲情況下將病患方言語音轉換為文字顯示,供醫護人員查看。
面對全國新冠肺炎疫情防控形勢積極向好,國際疫情防控形勢日趨嚴峻的局面,戰疫語言服務團在后期將服務方向轉向外語,面向在華外籍人士提供疫情防控和治療語言服務。《疫情防控外語通》的內容目前包括日常注意事項、入境注意事項、就診常用句,語種包括日語、韓語/朝鮮語、波斯語、意大利語、阿拉伯語、英語等41種語言。成果類型包括視頻版、多媒體卡片版、軟件系統版,成果通過微信、網頁、抖音、印刷品等方式推出。《疫情防控外語通》可提供給醫療機構、教育機構、機場港口、航空公司、外交外事機構、海關、社區管理部門使用,也可以直接提供給留學生等外籍人士使用。
1.語言翻譯與采錄
在多語種數據采集方面,“外語通”采用了和“方言通”相似的流程,使用“北語錄音”進行多國語言錄制。語言數據則通過眾包的方式,廣泛征集各語種的母語者(用于發音)和專業中外翻譯人員(進行翻譯和校對)進行制備。
2.機器輔助翻譯
新冠疫情相關信息具有高度領域性,但數據總量有限。因而相比于全自動的機器翻譯,更適合機器輔助翻譯進行疫情相關資料的翻譯。戰役語言服務團在我國疫情得到控制后,開始使用機器輔助翻譯技術進行大規模的疫情防控、診療文本外譯工作。機器輔助翻譯平臺(及與其相配合的術語管理平臺)存儲了經由專家審校的術語、固定表達、專業表述等信息,并在翻譯項目進行過程中不斷擴充經過審校的雙語對譯片段。隨著翻譯項目的進行,重復出現的語言片段可以得到自動匹配和翻譯,項目效率較之完全人工翻譯進行有大幅提高,質量也更有保障。
3.平行語料庫建設
機器翻譯和機器輔助翻譯的基石是多語平行語料和多語翻譯記憶庫。為服務各方面的翻譯需求,戰疫語言服務團為此建設了匯聚疫情相關信息的在線BiCovid平行語料庫。BiCovid是一個由來自于世界各地的數百位志愿者共同維護的雙語文本檢索和共享工具。它包含的文本全都是COVID-2019相關的防疫知識和重要消息。截至目前,該網站已經發布將近5萬條雙語對照信息,并包括中文、英語、日語、韓語、法語、俄語、西班牙語、意大利語、德語等9門語言。

圖5 BiCovid在線平行語料庫使用界面
“簡明漢語”工作的輸入是我國疾控部門發布的權威疫情防控信息和個人防護指導守則,輸出則為可供1200詞匯量人群閱讀的簡明漢語文本。“簡明漢語”編寫的關鍵在于制定詞匯、句法、篇章層面的簡化操作規范標準,并加以執行。就工作量而言,大量簡化工作集中于詞匯簡化階段。這一階段使用了語言信息處理中基本的文本計算技術以提高人員編寫效率。
根據HSK詞匯分級大綱,匹配輸入文本中所有的超出四級的詞匯,并進行標注,提示編寫人員進行“降級”處理。
使用同義詞詞林(9)梅家駒,竺一鳴,高蘊琦,殷鴻翔.同義詞詞林[M].上海:上海辭書出版社,1996.、大詞林(10)哈爾濱工業大學社會計算與信息檢索研究中心.大詞林[EB/OL].http://101.200.120.155/,2020.、知網(11)董振東等.《知網》知識系統[EB/OL].http://www.keenage.com/,2012.等同義詞或詞匯知識資源,自動查找同義、近義、上位詞,形成候選替換詞集,供編寫人員選擇。
語言技術的迅猛發展,提高了語言服務的效率。面向突發公共事件的應急語言能力建設呼喚更多、更智能的語言技術支持。這些技術主要集中在語言資源建設、機器翻譯、機器輔助翻譯、文本簡化技術和語情監測等方面。現詳述如下。
除基本的語言通信手段外,當前所有應對突發公共危機的語言技術均依賴于高質量、大規模的語言資源建設。本次抗擊疫情的應急語言服務中,機器翻譯、語音識別和方言播報等服務均需要大量精細的領域語言資源支持。“大量”體現在語言數據數量需要滿足當前通用的機器學習和深度學習模型訓練所需,一般在數十萬句到上千萬句不等。“精細”體現在語言數據的顆粒度方面,即湖北省內各方言片區、少數民族語言使用區域的語言數據要精準、齊備。“領域”體現在面向新冠疫情的防控、診療這一專門方面,需要充足的術語、診療對話等數據。這些都是面向研究用和互聯網服務的語言資源所不具備的特性。因而應對各類突發公共危機,特種語言資源建設任重而道遠。
應急語言服務的核心在于克服語言障礙,實現語言信息的溝通,則其核心任務就是各種語言(和語言模式)之間的翻譯。機器翻譯是服務這一任務的重要技術。面向突發公共危機的機器翻譯應不僅僅局限于漢語、外語的翻譯,還應該包括漢語、少數民族語言,普通話、方言、普通話、手語/盲文,復雜書面語、簡明漢語等不同語言(和語言模式)之間的翻譯。
目前完全依靠機器翻譯進行語言、文本的轉換,其可靠性尚不足以完全滿足使用,因而在實踐中更多使用的是機器翻譯模型集成的機器輔助翻譯軟件和平臺。機器輔助翻譯一方面通過機器翻譯模型自動將源語言輸入轉換為目標語言輸出,另一方面將譯員輸入的在翻譯記憶庫里可匹配的模式與片段(即曾經被翻譯過的)找出,直接替換為翻譯記憶庫中片段。兩相結合,以高效的人機交互方式呈現給人類譯員,實現人在閉環中(12)人在閉環中,值得是智能系統產生數據服務,用戶接受數據服務并反饋的過程中,有用戶或專業人員參與數據質量校驗、模型優化等工作,提升人機協同系統的整體效能。的高效人機協同翻譯實踐。
使用機器輔助翻譯軟件和平臺,可以高效協同眾多語言志愿者共同工作,減少重復工作,提高包括術語一致性、表達一致性在內的翻譯質量。
“簡明漢語”方案本質上是對復雜書面語的簡化,可視作一種文本簡化過程和特殊的風格遷移計算。文本簡化任務的目標是在不顯著改變句子原始語義的前提下,將復雜句子轉換為更容易理解的簡單句子。目前常用的方法有基于統計機器學習模型的序列到序列方法和基于深度學習模型的文本生成方法。但是和其他自然語言處理任務相似,文本簡化任務也需要大量高質量平行語料支持,即書面語和簡化后文本的對照數據。這方面的資源建設尚存在大量空白。
語情監測承擔事前摸清語言國情、事中協助輿論場有效運行等重要任務。語情監測配合各類語言溝通任務向公眾宣傳防護方法、法律法規和相關方針政策,偵測不良語言現象,減少不良輿論對決策和應急行動帶來的障礙。語情監測工作應監測各類媒體中的語言使用情況,在輿論場中協助抗災救災精神的凝聚。偵測和消除不良語言現象,如“污名化”“言語暴力”“言語歧視”等。在自媒體較為發達的時代,怎樣進行語情監測還是一個新課題。語情監測不僅在國內,也在國外;在全球化的時代,國際輿論場也需要關注和引導。
本文梳理了2020年新冠病毒性肺炎疫情期間,戰疫語言服務團在應急語言服務中所采用的語言技術。主要包含語料庫技術、音頻/文本檢索技術、機器翻譯和機器輔助翻譯技術、文本分析與計算技術等。
如新冠肺炎疫情這樣的大型突發公共衛生事件,需要多種語言技術的綜合應用。盡管多項語言服務在抗擊疫情的過程中取得顯著成效,但也還有很多需要提升的地方:(1)面向突發公共事件的語言資源儲備不足。目前,大多數語言資源建設面向語言研究、教學和商業信息服務。此次抗擊疫情需要臨時制備語料,便暴露了這一問題。(2)語言智能技術分散,協調效率不足。應對公共突發事件需要的語言智能技術規劃基本缺失,沒有技術和技術提供方的清單。為了應對這樣的問題,應急語言服務在頂層設計時,就應充分考慮到語言資源建設和技術儲備。建設可用性高,領域替換方便的語言資源體系和廣泛可動員的人力資源庫存。這些語言資源和人力資源信息也需要持續維護更新。在技術方面應規劃應對突發公共事件所需語言智能技術的技術清單和提供方清單,定期舉行技術評測,保持技術的前沿性和可用性。
最后,資源與技術總是在實戰中得到檢驗和增強,這些裝備也應隨著我國語言服務,一同參與全球公共危機事件的應急服務。更好面對人類問題,方能更好解決自己的問題。而要實現這些,都要求有關科研和規劃部門提高技術儲備和數據資源建設的意識,未雨綢繆,研究語言技術應急服務預案。