李 俊 杜思鈺 馬望堯 陶思晴
北京大學醫學人文學院,北京,100191
人工智能在為人類社會帶來便利的同時,也給傳統的社會關系和倫理原則帶來挑戰,在翻譯領域也不例外。人工智能引入翻譯后,可以極大地提高重復性翻譯活動的生產效率和準確性,在某些場景下甚至能夠替代或部分替代人類譯者。但由于人類語言和交際的復雜性,人工智能翻譯本身尚存在大量的技術進展空間。如何讓技術為人類服務,又如何通過人類翻譯實踐和研究活動促進人工智能翻譯技術發展,都是非常值得探討的問題。其中的核心議題是倫理規范的建構,因為倫理規范涉及整個產業乃至社會的健康發展和人類的福祉。
人工智能是利用數字計算機或者數字計算機控制的機器來模擬、延伸和擴展人的智能,感知環境、獲取知識并利用知識獲得最佳結果的理論、方法、技術及應用系統。[1]機器翻譯平臺、語料加工平臺、語音轉寫等人工智能技術已經在翻譯行業廣泛應用。
翻譯倫理在翻譯界已有近40年的研究歷史,其指的是翻譯活動中各參與方應當遵循的建立在價值取向基礎上的規范。它既面向翻譯行為,也面向翻譯行為的主體。[2]傳統翻譯倫理主要以翻譯行為的主體(譯者)所應遵循的倫理為核心關注點,規定譯者在譯前、譯中、譯后如何做出涉及自身與文本、自我與世界的倫理抉擇[3],但對技術研發方等譯者以外的其他主體關注不夠。
人工智能時代的翻譯倫理究竟應該是什么樣的,目前學界仍無定論。有部分學者認識到,人工智能時代翻譯活動中的主體增加,翻譯變成了發起者、贊助人、待譯文本作者/講話人、審校、譯文出版/發布機構、譯文/譯語使用者、翻譯技術研發與應用方共同參與的社會實踐[4],而各方的權利關系、生產關系、經濟關系也隨之改變。因此,人工智能時代的翻譯倫理不僅需要關注人際相處之“道”,還要關注人與技術、機器、自然等之間的互動[4]。
世界部分國家和地區已經認識到人工智能發展過程中可能存在的問題,并出臺了推薦性和框架性的治理原則。例如,歐盟在人工智能方面比較注重對潛在問題的規制[5]。2021年4月,歐盟發布了《人工智能法》提案,重點關注人工智能系統的數據安全和算法歧視偏見等問題。在數據保護方面,該提案有更具體的指導,包括人工智能系統需在收集用戶數據前履行告知義務,保證用戶的知情權和選擇權,確保數據采集的合法性等;在訓練、驗證、測試“高風險”人工智能系統數據集時,應完成數據質量檢驗、算法偏見評估檢查等;在人工智能監管沙箱中處理個人數據時,應保證個人數據處于功能獨立、隔離且受保護的數據處理環境中,并實施授權訪問和數據刪除機制等內容。[6]《人工智能法》提案建立的監管沙箱,切實保護了數據提供者的利益,確保用戶授權他人使用數據后,仍保有收回數據的權利。截至2022年8月,美國已有17個州產生了有關人工智能一般法案或決議的提案,在科羅拉多州、伊利諾伊州、佛蒙特州和華盛頓州已有相關法律頒布。[7]但總體來看,可能是考慮到過早、過嚴的規制影響技術創新,美國的法律規制比較寬松。人工智能技術的核心在于數據和算法,算法的改進離不開基于大量數據的機器學習,翻譯領域人工智能系統亦是如此。在翻譯領域,譯者也應掌握自身數據的所有權、授權使用權和收回授權的權利。但在我國,尚無法律法規保障譯者的這些權利。
當前,我國已經確定了一些關于數據保護與使用的法律法規及政策文件,但其中有關人工智能的部分仍然處于起步階段,需要不斷完善。2017年7月,國務院印發的《新一代人工智能發展規劃》[8],2017年12月,工業和信息化部印發的《促進新一代人工智能產業發展三年行動計劃(2018—2020年)》[9],2020年7月,國家標準化管理委員會、中央網信辦、國家發展改革委等五部委聯合印發的《國家新一代人工智能標準體系建設指南》[10]中指出,用戶的數據保護與使用是一項基礎任務,亟待在倫理、法律方面進一步完善。2021年6月,第十三屆全國人民代表大會常務委員會第二十九次會議通過的《中華人民共和國數據安全法》詳細規定了數據安全與發展、數據安全制度、數據安全保護義務、政務數據安全與開放及法律責任等。其中,關于用戶數據保護與使用的部分,明確了用戶的權利與使用者所承擔的義務與法律責任。另外,我國各級相關部門高度重視數據安全問題,在《國家新一代人工智能標準體系建設指南》、《中華人民共和國數據安全法》及2022年8月通過的《深圳經濟特區人工智能產業促進條例》[11]中,數據安全都被視為基礎體系建設任務,相關部門希望通過理論研究、法律制定,及時有效地找到預防懲處措施,盡可能保障技術發展中的數據安全。
2021年,全國信息安全標準化技術委員會秘書處發布的《網絡安全標準實踐指南—人工智能倫理安全風險防范指引》指出,在人工智能發展中應注意以下幾個問題:其一,應尊重并保護個人基本權利,包括人身、隱私、財產等權利,特別關注保護弱勢群體(弱勢群體是指生存狀況、就業情況、發聲途徑或爭取合法權益保障能力等方面處于弱勢的群體);其二,不應研究開發以損害人的基本權利為目的的人工智能技術;其三,不應設計制造損害公共利益或個人權利的人工智能系統、產品或服務;其四,不應以有損社會價值、個人權利等目的惡意使用人工智能;其五,應及時、準確、完整、清晰、無歧義地向部署應用者說明人工智能系統、產品或服務的功能、局限、安全風險和可能的影響。[12]上述規定中,主觀故意是判斷行為是否道德的一個準則,然而,這可能成為某些違反規定者的遁詞。翻譯算法可能在推動行業效能提高的同時,侵犯到部分用戶和譯者的基本權利。人工智能進入翻譯活動后,由于相關法律法規的滯后、翻譯模式的多樣化等,在翻譯活動中更有可能出現潛在的道德風險。根據全國科學技術名詞審定委員會頒布的《管理科學技術名詞》,所謂道德風險指的是從事經濟活動的人在最大限度地增進自身效用的同時做出不利于他人的行動。[13]道德風險和倫理規范是一個硬幣的兩面,規避了道德風險,就能最大限度地完善倫理規范。
人工智能時代的翻譯倫理,是隸屬于人工智能倫理下的一個子命題。已有的人工智能倫理相關研究指出,人工智能可能給人類主體地位帶來挑戰,帶來數據泄露和信息泛濫、權利責任認定、崗位替代、弱化道德情感、侵犯主體隱私、勞動競爭異化等問題[14],可能引發社會不穩定,剝奪人類賴以生存的勞動權,且無助于縮小貧富差距[15]。但這些研究主要聚焦人機對立與合作問題,并未充分關注技術引入后的翻譯倫理問題,即翻譯活動參與主體之間的關系問題。如何協調各方關系,重新平衡權利與義務的天平,實現公平、公正等公共倫理價值,關乎翻譯等諸多受人工智能影響行業的長期發展和生產關系、社會關系的重新建構,值得深入探討。
筆者對人工智能在翻譯中的廣泛運用所帶來的潛在道德風險展開研究,以期構建人工智能時代的翻譯倫理。筆者研究的翻譯倫理是指技術研發方、提供方、用戶(即譯者和譯品受眾)等翻譯活動參與主體應當共同遵循的倫理。
在人工智能時代,由于技術的引入,翻譯活動的組織方式及參與對象變得日益復雜化、多樣化。不同的翻譯模式在一定程度上存在潛在的道德風險。同時,技術平臺提供方會在平臺向用戶彈出協議,用戶必須同意(勾選“已閱協議全文,同意”)后,才可繼續使用,因此用戶協議中也可能存在潛在的道德風險。
人工智能已經廣泛運用到翻譯研發(模式1和模式7)和應用(模式2—6)中,包括口譯(模式2—5)和筆譯(模式6)。下文對每種模式的潛在道德風險進行逐一分析。
1.模式1—翻譯技術開發商與譯者合作開發語料庫
翻譯技術開發商與譯者達成合作意向,共同開發雙語對應語料庫。在此模式中,利益攸關方包括原作者、譯者、技術開發商、審校者、讀者、學者、語料原始存儲平臺等。潛在的道德風險則包括譯者如缺乏保密意識,可能無意中透露語料獲取渠道等關鍵信息,翻譯技術開發商在獲知信息后,可能不再與譯者合作;因雙方無書面合作合同,譯者可能無法維護自己的知識產權等。從整個行業發展來看,這些潛在的道德風險可能阻礙技術開發方與譯者這兩個團體的長期合作。
2.模式2—機器獨自完成會議翻譯
在大型國際會議中,主辦方使用線上會議平臺及機器翻譯引擎進行實時機器翻譯和字幕添加。該模式顛覆了過去會議現場交流使用口譯的習慣,無人類譯員參與。在此模式中,利益攸關方包括會議組織方/翻譯活動組織方、參會講者/作者、線上會議平臺技術提供方、翻譯引擎技術提供方(技術支持者、潛在的語料收集者)、聽眾/參會者等。潛在的道德風險包括會議平臺/翻譯引擎技術提供方可能在未告知講者、組織方的情況下擅自錄音、錄像并保存數據,用于技術改進,以獲取商業利潤;翻譯任務發起者/贊助者可能拒絕支付譯酬、譯者違反保密原則等。
3.模式3—人譯機助會議翻譯
國際會議主辦方使用線上會議平臺及其語音識別引擎進行原語識別、原語字幕添加,并要求人類譯員同聲翻譯,再由語音識別系統識別譯員譯出語,添加譯文版字幕。在此模式中,利益攸關方包括會議組織方/翻譯活動組織方、參會講者/作者、線上會議平臺技術提供方、語音識別引擎提供方、聽眾/參會者等。潛在的道德風險包括會議組織方/翻譯活動組織方拒絕向技術提供方支付費用;技術提供方在未告知講者、組織方的情況下擅自錄音、錄像并保存數據,用于技術改進,以獲取商業利潤;技術提供方可能對外謊稱譯文版字幕是由翻譯引擎獨立完成等。
4.模式4—機器輔助交替傳譯
該模式運用的語音轉寫和機器翻譯技術輔助譯者完成交替傳譯工作,系統會對發言人講話進行轉寫,轉寫文字可顯示在屏幕上供譯者參考,譯者可在文字上做筆記,或在屏幕空白處做交替傳譯筆記,遇到陌生單詞和短語,可下劃線查看參考譯法。該技術研發公司稱,該系統所有數據保存在用戶本地,平臺不會在云端和后臺收集用戶數據用于機器翻譯引擎和語音識別算法改良。在此模式中,利益攸關方包括會議主辦方、講者、譯者、技術開發商、聽眾/觀眾等。潛在的道德風險包括平臺使用技能成為譯者技能之一,不掌握技術或技術運用不夠嫻熟的譯者處于競爭劣勢。此外,系統仍有在云端和后臺收集數據的機會,數據若存儲在譯者本地,則存在譯者濫用會議主辦方和講者版權資料的風險。
5.模式5—翻譯機輔助日常生活任務
在無法聘請可靠口譯員的情況下,使用離線或在線翻譯機、平臺或應用,協助處理日常生活任務,包括購物、就醫、工作等。在此模式中,利益攸關方包括技術開發方、用戶等。潛在的道德風險包括錯誤的翻譯可能會損害生命健康和財產安全;在線翻譯機的技術提供方和翻譯機制造方可能會收集用戶語音、地理坐標等數據,用以分析和改良系統,導致存在用戶隱私泄露的風險等。患者利用翻譯應用就醫、醫生利用翻譯應用開展診療的風險不小,已有文獻報告谷歌翻譯存在不少(最高可達20%)具有臨床意義的錯誤[16-18]。
6.模式6—機器輔助的多人協同筆譯
該模式通過線上多人協作翻譯平臺和翻譯引擎實現。具體辦法是,由翻譯平臺向翻譯組織者、譯者、審校者提供翻譯項目管理服務,包括項目設置和分配、文件版本轉換、翻譯記憶、提供術語庫、譯文質量控制等,由接入翻譯平臺的各翻譯引擎提供機器翻譯服務,多個人類譯員和審校者參與工作,負責部分文字的譯審工作。在此模式中,利益攸關方包括原作者、翻譯任務發起者/贊助者、翻譯項目組織者和管理者、翻譯平臺技術提供方、機器翻譯引擎技術提供方、譯者、審校者、讀者等。潛在的道德風險包括翻譯項目組織者和管理者拒絕向譯者支付譯酬;翻譯平臺技術提供方、機器翻譯引擎技術提供方在未告知使用者的情況下,利用在后臺收集的數據進行系統和翻譯算法的改進,并牟取商業利潤等。此外,在參與用戶層面,還存在內容合法性、著作權、任意退出等倫理問題;在眾包翻譯平臺方層面,主要存在勞動剝削、維權方式不明等問題。[19]
7.模式7—譯員翻譯算法云端生成、儲存、調用
該模式通過翻譯平臺采集譯者個人的翻譯數據,在云端進行存儲和分析,產生該譯者的個人翻譯技巧和模式算法,可供譯者調用以翻譯其他文本。該技術開發方稱,該系統經授權后會自動采集獲取譯員翻譯知識體系,包括譯員的翻譯修訂數據、術語及語料,經過數據挖掘后成為自定義機器翻譯引擎的訓練素材,并指出該系統由譯員賦予智慧,具備與譯員相同的翻譯知識;在使用該系統過程中,譯者通過調用翻譯引擎自動翻譯、人工譯后再進行修改,可建立記憶庫、術語庫。在此模式中,利益攸關方包括原作者、翻譯任務發起者/贊助者、翻譯平臺技術提供方、機器翻譯引擎技術提供方、譯者、審校者、讀者等。潛在的道德風險包括除模式3中提及的風險之外的潛在技術“剝削”。該系統最大的特點就是能夠在后臺收集數據,并通過機器學習的方法,總結出人類的翻譯模式(即算法)。在未來,最了解自己譯法的不是譯員自己,而是在云端收集譯者數據的人工智能平臺。如果系統所有者違背與使用者達成的契約,濫用譯者算法,就會對譯者構成極大的技術“剝削”。目前看來,此種風險不可小覷,畢竟在此模式下,譯者很難發現自己的翻譯算法被他人調用。
大部分翻譯網絡平臺的用戶協議都對網絡平臺提供的服務進行定義與解釋,對賬號、服務費用、用戶使用規范、用戶信息保密、廣告、知識產權及免責聲明等進行規定。幾乎所有翻譯平臺都有保證用戶信息不被濫用的條款,承諾不會將個人信息轉移或披露給任何第三方,除非以下5種情形:其一,取得授權或者同意;其二,相關法律法規或司法機關、行政機關要求;其三,為完成合并、分立、收購或資產轉讓而轉移;其四,為提供您要求的服務所必需;其五,依據《隱私政策》或其他相關協議規則可以轉移或披露給任何第三方的情形等。但對如何使用用戶信息平臺并沒有詳細闡明,僅有部分平臺在用戶協議中說,“如您選擇使用交互式機器翻譯,第三方除了獲取您的原文文本外,還會實時獲取您鍵入的譯文結果,由此實現交互式機器翻譯結果的實時優化”“平臺有權決定保留或不保留服務器上的全部或部分數據”“將按照本協議及《隱私政策》的規定收集、使用、儲存和分享您的個人信息”等。
人工智能翻譯的主要潛在的道德風險包括用戶隱私保護問題、知識產權保護問題等,可能對翻譯行業健康發展產生負面影響,并存在潛在的社會不公平問題,可能對譯者的職業發展產生不利影響。有學者指出,“智能革命的出現對現今的倫理標準、法律規則、社會秩序及公共管理體制帶來一場前所未有的挑戰”。[20]依據法律法規和用戶協議的分析,筆者認為,人工智能時代的翻譯倫理存在以下5個方面問題。
在機器翻譯平臺、語料加工平臺、語音轉寫平臺等人工智能翻譯平臺用戶協議中,用戶處于明顯劣勢。平臺能夠收集、儲存并利用用戶信息。有的原作者、講者可能不愿公眾了解自己曾寫過、說過某些內容,而譯者有可能不想讓自己的譯文暴露在公眾視野下接受檢視或批評等。那么,一旦原文、譯文等用戶信息不慎泄露,責任由誰承擔?原作者、譯者的用戶隱私如何保護?
在人工智能翻譯時代之前的機器輔助翻譯時代,翻譯軟件和平臺已經可以從后臺收集各種語料乃至雙語對照語料,用于用戶行為分析和系統功能改善。從前文所述的用戶協議看,人工智能時代的翻譯平臺可能會在未經用戶同意的情況下,將收集到的用戶數據,包括譯者在翻譯平臺上鍵入和修改的譯文數據等,用于優化平臺本身,以此來增加收益。有學者指出,譯者創造的大量譯文,包括對原文的改寫加工,常常未經本人許可就成為被存儲記憶、供他人免費反復使用的語料,而他們自身的利益未必得到應有的考慮。[4]在人工智能時代,由于算力的提升,技術“白菜化”,平臺可以收集更多的語料,用于翻譯算法的改進。“散戶樣”存在的語料貢獻者如何得到充分的回報,如何主張自己的回報?語言資產也是一種知識產權,在其歸屬權問題上,任文認為,“不能因為翻譯記憶和語料庫等技術模糊了‘譯者’的概念就可以無視著作權/版權等知識產權問題”。[4]然而,某些技術開發商已經積極參與翻譯算法專利申請。按照我國《專利法》第25條的規定,單純的算法不能獲取專利,但按照我國《專利審查指南》的相關規定,將算法與具體應用領域相結合,形成具體的產品或方法的技術方案卻可申請專利。[20]
有學者指出,翻譯行業公平公正原則正受到挑戰,機器翻譯在提高了翻譯速度與效率的同時,也帶來了將譯者的努力隱藏于機器之后的風險,可能導致譯者的價值被低估,譯者角色進一步隱身,于譯者不公,不利于翻譯行業的健康、可持續發展。[4]
人工智能被廣泛引入翻譯活動,會使初級翻譯需求量急劇下降,這就好比有了面條機后,只有工藝復雜、機器無法生產的手工面制作還需人類主導,一般面條制造者大量失業。翻譯也一樣,如果客戶只需要模糊的、大概的、粗略的翻譯,大可使用各種人工智能翻譯。翻譯市場中總體需求會因人工智能翻譯方案的存在而減少,而需求降低勢必導致所需翻譯者和翻譯產品數量減少,這對吸引人才加入需要終身學習的翻譯實踐行業極為不利。近年來,已經出現某些院系翻譯專業錄取學生不報到的情形。另外,有調查顯示,翻譯業務的不穩定,是影響翻譯專業化發展的一個重要因素。[21]人工智能時代的到來,導致翻譯專業化發展可能“雪上加霜”。眾多翻譯培養院校的初級翻譯員必須在技藝上超過翻譯引擎,否則在翻譯市場中將無立足之地。
翻譯技術開發商在合作中對譯者權益的有意無意侵犯,為人工智能翻譯的可持續發展埋下了隱患。翻譯技術開發商通過各種手段從譯者處獲得語料庫建庫材料等關鍵信息,譯者起到了顧問的作用,但往往得不到應有的酬勞。譯者知識產權長期被漠視及由此引發的經濟糾紛不斷,難免迫使專業譯者壁壘高筑,這將阻礙專業譯者和翻譯技術開發商的合作交流及人工智能翻譯技術的進步。尊重和保護知識產權,不僅能保護譯者的權利,還有利于企業預防競爭對手竊取其知識產權、吸引外部投資[22],從而取得競爭優勢,為人工智能翻譯技術的進步注入新的動力。政府、翻譯技術開發行業和翻譯工作者三方能否形成合力,能否完善合作規范和相關法律法規,譯者教育能否加入必要的法律和行業規范課程,幫助其在之后的就業中維護自身的權益,是推動人工智能翻譯可持續發展的關鍵。
有學者認為,譯者能夠在翻譯過程中向機器學習,從機器翻譯提供的譯文中學習措辭和表達,從而達到自我能力提升的目的。但部分學者對此持懷疑態度,其認為,隨著翻譯技術的發展,譯者不再主要承擔翻譯的工作,反而更像是譯后編輯,對機器翻譯出的譯文進行挑選。[23]如此一來,譯者進行翻譯的時間和機會都大幅減少,不利于自身技能的精進。對譯者(尤其是初級譯者)而言,機器翻譯所提供的譯文很可能起不到借鑒作用,甚至還會產生負面影響。機器翻譯的譯文在語言的一致性和連貫性方面一般都存在問題,段落之間的銜接處理欠佳,不能充分體現譯文所處語境與文本的聯系,可能不是最好的譯文表達形式。另外,機器翻譯技術還可能會降低譯者對譯入語和譯出語的掌握程度。為了提高翻譯效率,譯者可能在翻譯時大量參考機器翻譯提供的譯文,不再投入時間和精力去斟酌是否存在更加合適的表達。[23]
基于以上分析,筆者為人工智能時代翻譯倫理建設提出多方參與建設、用戶協議優化、法律建設完善、主動披露制度、加強翻譯倫理教育等建議。
其一,人工智能時代翻譯倫理建設的總體原則是要由專業協會學會、翻譯技術研發公司、立法機構、譯者、翻譯任務委托方、翻譯教育機構、人工智能翻譯的用戶等各個相關利益主體共同參與。專業協會學會則應發揮引領作用,制定相應倫理守則,如中國翻譯協會可牽頭制定相關的倫理準則,甚至發布用戶協議或翻譯協議范本。
其二,翻譯技術研發公司應嚴格遵照法律規定來制定用戶協議、使用用戶數據、研發算法、提供技術等,做到對各方公平、公正。從對翻譯技術平臺用戶協議分析的結果來看,翻譯平臺會在未經用戶同意的情況下,將收集到的用戶數據,包括在交互式平臺上鍵入的譯文結果等用于優化平臺自身,以此來增加收益。鑒于用戶數據對翻譯平臺優化升級的重要性,各網絡翻譯平臺應在其用戶協議中寫明用戶數據的各種用途,以避免任何侵犯知識產權的可能性。另外,如這些平臺是以營利為目的而使用用戶數據,應該支付用戶相應的費用,或在用戶使用平臺收費項目或服務時提供優惠。
其三,立法機構應加強科技倫理立法,使翻譯倫理專家參與其中,借鑒國外人工智能監管經驗和技術,完善相關法律法規,保障數據隱私安全。立法機構應進一步健全現有法律法規體系,完善人工智能時代翻譯相關的大數據和人工智能法律法規,加大人工智能侵權者侵權懲戒力度,采用舉證倒置、集體訴訟等原則和方式,考慮用戶數據授權的后悔權、刪除權、收回權等,修改《廣告法》中有關人工智能翻譯相關內容或出臺專門法規規范人工智能翻譯的宣傳,還可借鑒歐盟《人工智能法》提案中的沙箱技術,切實保障用戶數據安全。
其四,用戶方應主動披露對機器翻譯的使用情況,做到開誠布公。具體來講,譯者若使用機器翻譯的相關內容,應主動將相關信息披露給譯文使用者;若是翻譯任務委托方僅使用機器翻譯進行初步翻譯,而譯員做譯后編輯和潤色,應說明使用了機器翻譯而非譯員產生的初步譯文。
其五,翻譯教育機構應加強人工智能翻譯倫理教學與研究。在人工智能時代的翻譯活動中,道德風險和權利侵害的可能性會持續存在。但在目前的翻譯職業教育中,翻譯倫理得到的重視程度不足,應加強翻譯倫理教學與研究。
在人工智能時代,翻譯技術的飛速發展極大地擴展了翻譯服務的范圍,同時也對翻譯倫理的特征與發展趨勢產生了巨大的影響,人工智能時代翻譯倫理探討話題的焦點也發生了轉移。傳統翻譯倫理更多聚焦的是譯者與其他主客體之間的關系,而在人工智能時代,其焦點逐漸轉向人與技術、機器、自然等之間的關聯。筆者從人工智能時代的翻譯模式出發,對相關的法律法規和用戶協議進行了梳理,厘清存在的問題,提出了相關建議,以期為研究人工智能翻譯倫理、推動人工智能倫理建設提供參考。囿于文章篇幅、研究精力、時間及閱歷,筆者無法窮盡一切人工智能翻譯模式及所有的潛在道德風險,亦無法回顧所有相關法律法條和用戶合同,未來研究可進一步深入探討。