999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動生成詞典:我們接近了嗎?

2024-01-01 00:00:00MichaelRundell趙翠蓮于文雍
辭書研究 2024年4期
關鍵詞:單詞

摘 要 就在十余年前,多篇論文評介了計算技術在詞典編纂中的應用研發情況(尤見于Rundell amp; Kilgarriff 2011)。這些論文展示了詞典編纂過程如何在某種程度上實現了自動化,并對完全自動化道路上可能取得的更多進展進行了預測。文章首先簡述 2011 年的前沿技術,然后梳理迄今所取得的進展。對早期論文所做出的預期進行了回顧。在被稱作“后期編輯詞典編纂”的模式中,人類詞典編纂者的角色是后期編輯,即對自動生成并轉入詞典編寫系統的詞典初稿進行評估優化。但這些已取得的進展目前皆受到懷疑,因為ChatGPT等大型語言模型似乎有望繞過眼下所使用的技術。文章通過 ChatGPT 生成詞典文本的諸多實驗,探討了這些人工智能工具取代目前詞典編纂前沿技術的可能性。

關鍵詞 自動化 Sketch Engine 后期編輯詞典編纂 ChatGPT 大型語言模型

一、 背 景

十余年前曾有多篇論文探討了產出詞典所涉及諸過程的自動化前景。其中兩篇(Rundell amp; Kilgarriff 2011;Rundell 2012)綜述了當時應用于詞典編纂各階段的前沿計算技術,從收集語料到編寫詞條,最終以多種版式出版。第三篇論文(Kilgarriff amp; Rychly 2010)描述了單詞顯著搭配的自動聚類,展示了其如何為(相當簡略的)詞義消歧形式提供依據——這一模型當時被稱為 semi-automatic dictionary drafting(半自動詞典初稿編寫),簡稱SADD。第四篇論文(Kilgarriff 等2010)聚焦兩大出版項目所使用的方法,只需單擊鼠標(或勾選)便可自動選取合適的例句,并將這些例句及其XML標記從語料庫轉入詞典編寫系統[因此得名 Tickbox Lexicography(復選框詞典編纂)]。總之,這些論文展示了“詞典產出的幾個重要方面如何從人類編纂者逐步移交給計算機”(Rundell amp; Kilgarriff 2011)258。[1]

本文首先概述這些論文發表前后可供詞典編纂者使用的技術——當時的自動化程度,以及我們如何看待這一過程可能的發展軌跡。我們以2011年左右為起點,梳理大約在2011—2022年間的新進展,并評述其對詞典編纂自動化目標的影響。過去十年中,我們在提高自動化程度方面取得了重要進步,部分原因是出現了更大規模的語料庫。一項引人注目的新進展是:過去六個月左右(譯者按:指2023年6月之前的六個月),一種新的、可能改變游戲規則的技術已經到來。不久前,就在2022年11月,首次出現了大型語言模型(LLM),尤其是 OpenAI 發布的 ChatGPT 系列,這些技術已經對整個行業和研究領域產生了重大影響。如果不對這些最新的競爭者及其優化或改變詞典編纂過程的潛力做出評述,甚至置之不理,那么對詞典編纂自動化這一主題的任何概述都將是不完整的。其影響是真正具有破壞性的還是僅僅帶來變革,尚待觀察。在總結部分,我們將討論所有這些技術對詞典未來以及詞典編纂者的影響。

二、 2011年的前沿技術

詞典的產出與出版需要經歷怎樣的過程?我們可以將其分解為三個連續的階段:

1. “前詞典編纂”階段(參見Atkins amp; Rundell 2008)15:收集語料,(通過分詞、詞形還原、詞類標注等)對語料做語言標記以優化其可用性,然后用作數據源,從中提取臨時詞目表。

2. 項目的詞典編纂核心階段:分析語料庫語料,識別相關語言事實,并根據前詞典編纂階段設立的標準編寫詞條。

3. 出版階段:前一階段所產出的內容以紙質和/或數字形式出版,供終端用戶購買。

(一) 出版

我們不必花很多時間介紹這三個階段中的最后一階段。到2011年為止,詞典出版過程自動化已基本實現。半個多世紀以來,詞典文本已結構化并存儲在日益復雜的數據庫中。(如 Krishnamurthy 1987;Rundell 等 2020)18-20從21世紀之交開始,專用詞典編寫軟件得以廣泛使用,大大簡化了詞典數據庫轉換為出版產品的工作。在此過程中,詞典編纂者被免除了許多日常工作,這些工作雖然不需要耗費腦力,但工作量大且容易出錯——如,確保每個詞典條目的結構完整性,或檢查參見項是否匹配。不久前,詞典編纂者的工作之一是確保詞典中的各種元素以正確的字體呈現(如示例、句法代碼或文體標簽)。如今,詞典內容用純文本生成,而以何種形式出版這一問題與編纂過程無關。其他操作已經從詞典編纂者轉移到終端用戶:例如,習語在詞典中的位置(kick the bucket 放在 kick條中還是放在 bucket條中?)不再是困擾詞典編纂者的問題,因為在線詞典搜索算法會在其出現的位置找到它。

因此,詞典制作過程中的出版這一環節自動化程度已經很高(并得以廣泛使用)。這將詞典編纂者從耗時、乏味的工作(即約翰遜博士所抱怨的“苦差事”)中解放出來,并將這些工作轉交給機器,后者通常會更好更快地對其進行處理。

(二) 前詞典編纂

截至二十一世紀第二個十年初期,這一階段基本實現了自動化。(Rundell amp; Kilgarriff 2011)262-267尤其是當時特大型語料庫的開發要容易得多(也便宜得多)。盡管那時語料庫建設仍然不是一件輕松的事,但與第一個COBUILD語料庫(Renouf 1987)或英國國家語料庫(http://www.natcorp.ox.ac.uk/)時代的宏偉任務相比已有天壤之別。互聯網的出現使人們能夠大量獲取幾乎所有種類的數字文本,而將原始文本轉換為語言處理可用的數據,這方面的技術已經成熟可靠。詞典編纂得益于自然語言處理(NLP)學界的研究。已研發出各種方法在互聯網上查找大量連續文本(其中充斥著表單、廣告、鏈接以及各種文件模板), 并“清洗”互聯網衍生文本,如刪除互聯網上無處不在的各類副本。(參見Kilgarriff 等 2006)

然后,按照Grefenstette早在1998年提出的簡要分步程序,對清洗后的網絡源文本進行處理,以優化其作為詞典編纂數據資源的效度,如文本分詞(識別詞邊界)、詞形還原(將單詞屈折變化形式歸入單一的“規范”詞形下)、詞類標注(為每個詞形或詞元指派語法類)。這些處理應用了自然語言處理研究人員多年來開發的、原本與詞典編纂不相關的工具,正如 Grefenstette(1998)24所指出的那樣,“一個層面所用的工具可以充分加以利用,在更高層面執行任務”。

當我們擁有了經過處理的大型語料庫,便完全有能力為任何一部計劃編纂的詞典生成詞目表。一系列因素會影響詞目的選擇,特別是“用戶資料”,這有助于確定目標用戶可能需要的詞匯類型。但大致說來,頻率是關鍵的決定性因素。在其他條件相同的情況下,“如果詞典要收錄 N 個單詞,那就應該是語料庫詞頻表的前N個單詞”(Rundell amp; Kilgarriff 2011)264。頻率驅動產生的臨時詞表隨后可由人工編輯加以完善。[2]

(三) 詞典編纂過程

截至2011年,隨著詞典編纂前期、后期各階段的大幅度自動化,詞典條目編寫這一核心任務又在多大程度上從人類轉移給了機器呢?

從21世紀初起,對于英語以及其他資源豐富的語言而言,語料庫規模開始以數十億詞計量,這比20世紀80年代800萬詞的COBUILD語料庫高出幾個數量級,而且可供詞典開發者使用的語料庫持續穩步增長。面對如此豐富的語料,以閱讀索引行為主的工作方法變得越來越不可行——要閱讀的索引行太多了。為解決這一問題,詞法分析軟件應運而生,其中最為有名的是詞匯素描(Word Sketch)。詞匯素描很快便成為詞典人的核心裝備,因其“一目了然地概括了詞典人通常瀏覽索引行可能找到的大部分內容”(Rundell amp; Kilgarriff 2011)269。詞匯素描研發之初針對的是特定要求,即更加系統地描述搭配信息這一需要。但由于形形色色的搭配或句型往往與不同的詞義相關聯,人們很快便明白,詞匯素描對于詞典義項的辨析頗具指導作用。因此,詞匯素描有望取代詞匯索引,成為分析多義詞過程中的起點。

一項相關的研究是詞義消歧(WSD),這一“語言技術領域的研究者從早期開始便面臨的挑戰”(Kilgarriff amp; Rychly 2010)303,開始讓步于計算方法。其基本原理是,多義詞的不同詞義通常與特定搭配和/或句型相關聯。在詞匯素描的助力下,人類詞典編纂者現在根據其共同的搭配或句法行為將獨立的語言事件(索引行)進行聚類,進而識別“詞典義項”。因此,自動化面臨的挑戰是,讓機器復制這個過程。到2011年為止,至少在觀念上已取得很大的進展(尤見于 Kilgarriff amp; Rychly 2010)。

這一時期的另一項重大創新是 GDEX 算法[全稱為 good dictionary examples(好的詞典例證)]。其工作方式是在語料庫中搜索一些句子,能說明單詞的典型語言行為特征,如句型或搭配。候選例句表將提交給詞典編纂者,由其挑選最合適的詞典例證,無論是一字不差地收錄還是稍加編輯。同樣,這取代了早期的工作模型,即由詞典編纂者“人工”瀏覽大量索引行以找到合適的例證。該系統的工作原理在別處有詳細說明(Kilgarriff 等2008),但關鍵的一點是,即便是在2007年首次推出時,該系統也運行良好,足以改進詞典條目編寫這一主要組成部分。

GDEX在操作層面設計了協議,將語料庫數據直接鏈接到詞典數據庫。因此,搭配或構式,連同由GDEX選取并由詞典編纂者認可的示例,可直接一并復制到初具規模的詞典數據庫相關域。所有這些創新最初只是針對特定項目的需求而研發,但逐漸成為詞典編纂者的標配。

現在我們來看另一詞條組件,即詞典中的“標簽”,用于標示語言成分以某種方式偏離無標記的情況。大致而言,標簽可以是語法方面的,也可以是社會語言學方面的。例如,語法標簽可表示某個動詞強烈偏好以被動式出現,或不用于進行時。社會語言學標簽則適用于在不同體裁的文本中使用受限的單詞或詞義。雖然“未標記”單詞可用于所有類型的文本,但有些單詞多用于法律或醫學語篇,或特別非正式的語域,或特定地域變體的文本(例如印度人說的英語或阿根廷人說的西班牙語)。

就語法偏好而言,確定哪些單詞應該加標簽這一過程在2011年就已十分明確。稍加統計便可看出所有動詞被動式的“正常”發生率,以及任一動詞偏離該常態的程度。當偏差達到顯著時,軟件便會提示詞典編纂者。動詞應加標簽的確切閾值(如“常用被動式”是50%的被動式,60%,還是更多?)是編輯原則問題,但原則很簡單。

同樣,對于許多社會語言學特征而言,自動添加標簽的方法(或者至少是提示詞典編纂者添加標簽的方法)在理論上并不復雜。本質上講,我們需要收集界定明確的子語料庫(例如特定主題領域或代表特定語域變體的語篇),并識別“關鍵詞”——即在子語料庫中的出現頻率顯著高于普通“參考語料庫”的詞項。這些在技術上都不難,但在實踐中卻仍然有挑戰性:為方便自動加標簽而收集大量子語料庫,這并非易事。即便如此,也有一些門類的標簽不太適合自動添加。例如,添加“offensive(冒犯)”這樣的標簽多半是主觀判斷問題,而不是統計計算問題。總之,盡管大多數情況下的處理方式可以理解,但在2011年,標簽添加自動化進展不大。

2011年,詞典的一大要素仍然依賴“人工”詞典編纂——彼時的釋義產出仍然拒絕自動生成。當然,豐富的語料庫資料和復雜的分析軟件為詞典編纂者提供了更好的原始資料,因而更容易識別詞義的顯著特征,釋義質量因此得以提高。但釋義產出仍然是一項要求高且勞動密集型工作,機器無法自行完成。

總結一下2011年的狀況:在將詞典編纂過程中的要素從人類轉移到機器這方面取得了重大進展。語料庫建設、詞目表研制以及大部分出版過程都基本實現了自動化。在詞典條目生成的某些方面也是如此。找到合適的例句以反映典型用法這一工作已大大簡化。詞義消歧尚未實現自動化,但詞匯素描能讓詞典編纂者更有效地完成這一工作(并且更少依賴主觀判斷),而且已經可以預見自動化可能的運行方式。

所有這些都提高了工作效率,也相應提高了詞典質量。但在很大程度上,大部分內容仍然是人類技能與努力的產出。然而,工作模式的轉變正悄然出現。詞典編纂者以前要瀏覽數條索引行以提取相關信息,而如今我們可預見“一種新的范式,即軟件選擇它認為相關的內容,并……填充到詞典數據庫的相應域”(Rundell amp; Kilgarriff 2011)278。在此模型中,詞典人的工作是評估計算機生成的條目初稿,并決定保留什么、刪除什么、添加什么。

三、 第二個十年(2011—2022)

(一) 穩步改進

基于上一節概述的方法和技術,接下來的十年便朝著更高的自動化方向穩步前進。在這一階段,詞典人使用的語料庫增長了一個數量級或更多。當Kilgarriff 和 Rychly 在2010年探討自動詞義消歧的構想時,他們使用的是13億詞的語料庫。5年后,研發人員為英語和其他幾種歐洲語言均開發了200億詞的語料庫,在二十一世紀第一個十年末期,最大的英語語料庫有近400億單詞。這很重要,因為眾所周知的 Zipfian 分布[3]

不僅有關單詞,還有關特定詞義、多詞單位以及與單詞相關的構式。有了更大的語料庫,我們便能更精細、更可靠地了解單詞的典型組合方式,這也相應地為自動化工作提供支持。

軟件也在不斷改進。例如,如今Sketch Engine 的諸多功能中包含了一個工具,可識別文本或語料庫中的關鍵詞——不僅是單個單詞,還包括多詞用語。斯洛文尼亞語的兩個項目(通用詞匯語料庫和專業術語詞典)從語料庫自動提取了各自的詞目表,而例句則由GDEX算法的兩個獨立配置生成。這種方法節省了大量時間,“通過直接導出每個詞元的所有語料并將其導入詞典編寫系統”(Kosem等2014)361,減輕了詞典人乏味的日常工作,使他們能夠專注于義項劃分、釋義編寫以及詞條定稿。

社會語言標簽的使用(用于標記語域、知識域等)繼續對便捷的自動化形成阻力。事實證明,與早期用印刷媒體資料建立的小型語料庫相比(如英國國家語料庫),數十億詞的網絡源語料庫總體來說對詞典編纂更有用。但是,獲取如此龐大的數據集的代價是,不能提供其中文檔的詳細標題信息,而較為“傳統”語料庫的文檔標題信息則一應俱全。到目前為止,通過監督學習對網絡語料庫進行體裁劃分的實驗收效有限(Suchomel 2021),但這是很有前途的研究方向,最終可能支持一定程度的自動標簽添加。

大多數詞典在從印刷到數字媒體遷移的過程中更加重視“應時性”——即詞典常用常新這一必要性。這意味著需要及時發現新出現的詞匯項目。自動化方法對這一過程能提供多少支持?Cook等(2013)報告了將詞義歸納系統應用于兩個語料庫的情況(“焦點語料庫”和較早的“參考語料庫”),其構成文本間隔約 15 年——目標是在較新的文本中識別出早期文本中未曾出現的詞匯項目。這些項目可能是新詞,也可能是(更難識別的)詞典中已有詞目的新義。即使小規模的實驗也檢測到了許多顯而易見的新詞新義,表明該方法“頗具潛力,有助于識別需要更新的詞條”(Cook等2013)63,這些詞條的釋義或例證可能無法反映當前的使用情況。

(二) 前沿技術:后期編輯詞典編纂

截至我們所回顧的這一時期末,過去20多年推介的各種技術創新集中體現在一系列項目中,代表著半自動詞典編纂的前沿技術。Sketch Engine公司的 Lexical Computing(詞匯計算)受委托為 Naver 公司(韓國一流的信息與通信技術公司)制作三部原創的三語詞典。三部詞典的目標語(TL)均為韓語和英語,源語(SL)則分別是老撾語、他加祿語和烏爾都語。音頻讀音采用傳統方式錄制人類說話者的發音,但除了這個單一組件外,該項目的語料庫和詞典內容的所有部分均自動生成,然后由人類進行后期編輯。

Baisa 等(2019)和 Jakubí?ek等(2021)對這些項目進行了詳細描述,本文只做簡要介紹。先是創建三個源語大型網絡語料庫,然后利用 Sketch Engine 中的工具進行標注(詞形還原、詞性標簽等)。各語料庫依次為詞目列表和詞典中各詞條的主要內容提供原始資料。

作為構建詞條的第一步,詞義劃分可結合使用詞匯素描和單詞嵌入(word embedding)來實現。搭配是最重要的一環,而算法輸出的是關聯搭配聚類集。這里的一個重要特征是,每個聚類都隨附一組索引行(我們下面討論 ChatGPT 時還會論及),為詞典編纂者提供了通達語料庫底層語料的直接路徑。一旦確定了義項清單,接下來就會給每個義項添加主要搭配,以及來自語料庫的示例、相關詞列表(如同義詞和反義詞),還有商業機器翻譯服務提供的目標語譯文。

所有這些數據均自動生成,并導入 Lexonomy 這一編寫與編輯工具。人類的作用則體現在一系列分工明確、循序漸進的階段,“編纂者往往只對詞條的特定部分進行后期編輯”(Baisa等2019)807。他們的角色類似于傳統詞典項目的高級編輯,對詞典編纂團隊成員完成的初稿進行編輯加工。例如,編纂者審閱由算法提交的一個義項聚類時,可能會決定將其拆分為兩個獨立義項,或者將整個聚類并入另一義項。此類編輯任務(如核實譯文或優化機器提供的例句)可借助 Lexonomy系統添加的自定義小組件。

這是對一個重大項目進行全面“后期編輯詞典編纂”的首次嘗試,效果不錯。雖然在語料處理和人力資源管理方面仍然存在挑戰,但我們學到了很多東西,這些經驗已融入處理其他項目的新版本中,但這種方法顯然可以有效地驗證編纂理念并說明了“這一編寫模型的可行性、可負擔性和性能優勢”(Baisa等2019)817。10年前的預測得到了實質性證實,盡管從技術上講,還需要經年累月地發展,但在詞典編纂實踐和方法方面,已可視為具有革命性的意義。

四、 人工智能與大型語言模型

(一) ChatGPT及其工作原理

2022年11月,ChatGPT發布。眾多競爭對手緊隨其后,如谷歌Bard、微軟Bing Chat以及Anthropic的Claude,其中一些可能尚未完善便披掛上陣,以便從這些工具的大肆炒作中獲利。經過短短幾個月的時間,上文中的大部分討論都因這些人工智能的出現而受到懷疑。本文報告的所有分析均使用 ChatGPT 3.5完成。

這一系統用途廣泛,包括為程序員創建代碼,提供醫療診斷,寫詩、賦詞或撰寫學術論文,提供譯文——也可能編纂詞典。就其對全世界的潛在影響而言,對 ChatGPT 到來的反應不一而足,從世界末日(“人類文明的終結”)到嘲笑(在諾姆·喬姆斯基看來,這只不過是“高科技剽竊”和“一種逃避學習的方式”[4])。

我們這個領域所面臨的問題是,我們可否放棄上述所有技術(隨著時間的推移,這些技術使我們穩步接近完全自動化的目標),而簡單地將詞典編纂的一攬子工作交給這一引起混亂的新興人工智能技術。在回答這個問題之前,我們得對該系統的工作原理有所了解,這很重要。

ChatGPT 是基于大型語言模型(LLM)的聊天機器人。最簡單地說,LLM所做的是,按照提示生成統計上合理的字詞序列。如今的情況是,“許多需要人類智慧的工作可以通過性能足夠優良的模型簡化為順序詞預測”(Shanahan 2022)1。ChatGPT 的性能往往異乎尋常地好,以至于我們可能會受騙,誤以為這些系統具備了類似于人類的智能,但它們并不具備。它們“在結構上與人類千差萬別,但同時……其行為卻與人類如此相似,因此我們需要特別注意其工作方式,而不是用暗示人類能力和行為模式的語言來談論它們”(Shanahan 2022)3。

(二) 利用ChatGPT 生成詞典

評估這一系統性能的最好方法是讓它生成詞典條目。ChatGPT 發布后的短時間內,已進行過許多這方面的實驗。(如 de Schryver amp; Joffe 2023;Lew 2023;Jakubí?ek amp; Rundell 2023)

實驗開頭始終是一條“提示語”——即用自然語言表達的問題,提示 ChatGPT 生成反饋。典型的提示語包括“請解釋單詞W好嗎?”,或“給W生成詞條”,或“為W生成詞條,顯示其所有義項及其在不同語境中的用法”,或許多其他程式化提示方式。需要大量的試錯才能確定一種表達方式,誘導系統產出我們所希望的結果。但所有這些都是可行的。我們可以要求它(為數十個甚至數百個詞目詞)生成一整批詞條。還可以編程讓它生成結構完整的詞條,帶有XML標記,并將其無縫輸送到 Tshwanelex 或 Lexonomy 等編寫系統的詞典數據庫。

這里將討論兩組樣條:一批是大約20個專門選取的詞條,用以測試系統在特定詞條組成部分上的性能(樣本 A);另一批選取 99 個詞條,代表所有詞條類型,包括所有主要詞類,單義和多義詞,具體和抽象概念等[樣本B:這組詞在Jakubí?ek amp; Rundell(2023)中有更全面的討論]。所有樣條均針對英語單語詞典。

1. 詞義與釋義

首先來看一個“簡單的”詞條。在試用的三個版本中,科技術語carbon cycle(碳循環,樣本B)的釋義都很清楚。這是其中之一:

(1) The process that carbon goes through in nature,including its exchange between the atmosphere,oceans,and land biosphere through natural processes such as photosynthesis,respiration and decomposition.

(碳在自然界的歷程,包括通過光合作用、呼吸和分解等自然過程在大氣、海洋和陸地生物圈之間進行的交換。)

在不太專業的層面上,形容詞 remiss(樣本A)的釋義很充分:

(2) failing to fulfill a duty or obligation;careless or negligent in the performance of a task.

(未能履行職責或義務;工作時粗心或疏忽。)

有些單詞用于字里行間時強烈偏好出現于某些復現模式,remiss 便是其中之一(下面示例帶下畫線的部分),ChatGPT 的例句很好地反映了這一點:

(3) As a teacher,it would be remiss of me not to grade my students’ assignments promptly.

(作為教師,如果不及時批改學生的作業,那將是我的失職。)

(4) The company was found to be remiss in its safety protocols.

(該公司在安全規程方面被發現有疏漏。)

到目前為止,一切還好。但這兩個詞條均為單義詞條。多義性證明是更大的挑戰——這不奇怪,因為詞義消歧是詞典編纂中最困難的工作之一(如我們之前所見,也是一項最難自動化的工作之一)。當系統得到提示“給單詞 party 創建詞條,顯示它在不同語境中的用法”時(樣本A),其任務處理性能不佳。它正確地識別出了三個明確的詞義:①a social gathering(社交聚會),②a political organisation(政治組織),以及③a group of people engaged in a particular activity(從事特定活動的一群人)[a party of hikers(徒步旅行團)]。但隨后情況急轉直下:第一,它提供的另外兩個“義項”只不過是將“a social gathering”這個釋義變換了措辭:④a group of people having a good time,typically involving music and dancing(玩得開心的一群人,通常伴有音樂和跳舞),⑤a group of people who have gathered to celebrate(聚集在一起慶祝的一群人);第二,它未提供真實例證的又一個“義項”:⑥the people present in a room,place,or gathering(出現在房間、處所或聚會中的人們)(這可能是義項1的轉義擴展,或者是將義項③變換了措辭);第三,它沒有解釋用于法律話語的詞義,即協議或合同所涉及的個人或團體[all parties to the agreement...(協議的所有當事方……)],或 party 的任何動詞用法。

選擇 party 正是因為它屬于一種簡單的多義詞:其各個詞義截然不同,易于識別,所以是人類詞典編纂者不難編寫的一類條目。而 overwhelm 更棘手。這是一個更具挑戰性的多義詞,沒有兩部詞典會以相同的方式劃分其義項,但即便如此,ChatGPT 的反饋(樣本 A)也經不起推敲:

①to defeat completely; to bury or bury under a mass of something

(徹底擊敗;掩埋或埋在一堆東西下)

②to overwhelm or overcome,especially with emotion

(充溢或難以禁受,尤指情感)

③to overwhelm someone or something with a superior force

(用優勢力量擊敗某人或某事物)

④noun:a feeling of being overwhelmed

(名詞:難以禁受的感覺)

義項①將兩個完全不同的概念相提并論;義項③只是重復了義項①(并在釋義中使用了overwhelm 本詞);名詞用法很少見(盡管語料庫中有語料佐證)。在另一樣本中(de Schryver amp; Joffe 2023),單詞 cat 被賦予兩個動詞義項:

①to behave in a sly,stealthy,or stealthily destructive manner

(行為狡猾、隱蔽或暗中造成破壞)

②to spend time idly or lazily,particularly while lounging or relaxing in a comfortable manner

(閑散或慵懶地打發時間,尤指懶洋洋地坐臥或舒適地休息時)

兩個義項看起來似乎都有道理,但純屬杜撰,既無來自語料庫的語料支持,也未收錄在主流詞典(如Oxford Dictionary of English,Merriam-Webster Dictionary 或 dictionary.com)。[有些證據支持 catting around 這一表達方式,例如:he had been out drinking and “catting around” at one of many brothels(他外出喝酒了,在許多妓院中的一處“消遣”),但意義有所不同,而且使用頻率過低,大多數詞典不會收錄。]

當要求 ChatGPT 提供樣本A中presentation 的釋義時,它回答說,“根據Merriam-Webster Dictionary,釋義為“the act or process of presenting something to an audience (向觀眾展示某物的動作或過程)”。實際上,這并非Merriam-Webster Dictionary的釋義,而其中陳舊、公式化的風格“act or process of ”對釋義并無助益[類似風格可見于樣本B中 closure 的釋義:“The act or process of closing or the state of being closed(關閉的動作或過程或被關閉的狀態)”]。

這些詞條暴露了兩個樣本大多數多義詞條目中發現的問題:某些詞義重復,某些詞義為杜撰,重要詞義遺漏[在樣本B中,climate 有5個與天氣相關的“義項”,但沒有一個是常見的隱喻用法,如“a climate of distrust(不信任的氛圍)”]。

我們在這兩個樣本集的基礎上基本可以得出如下結論:即 ChatGPT 在處理單義詞時表現最好(尤其是專業術語),但在應對有多個義項的常用詞,甚至非常簡單的多義詞項時,其表現并不可靠。

2. 例證與語法

當代詞典中的例句通常直接從語料庫提取,并對其進行后期編輯(無論是由詞典編纂者“手工”挑選,還是由GDEX提供),以刪除干擾信息或無關內容。目前尚不清楚 ChatGPT 生成詞條的例證來源,但結果尚不合格。

樣本A中的詞條 fair(形容詞)有9個義項(原文如此),其中2個標記為 obsolete(過時)、2個標記為 archaic(古舊)、1個標記為 dialect(方言)。每個義項都配有一個例證,并且每個例證都按相同的模式呈現:第三人稱單數主語,句子首詞為 The,后跟動詞簡單過去式。比如, fair 的前四個例證是這樣的:

(1) The referee made a fair decision by awarding a penalty.

(裁判裁決公正,判罰點球。)

(2) The garden was filled with fair flowers.

(花園里開滿了美麗的鮮花。)

(3) The price of the item was fair,not too high or too low.

(這件商品價格公道,不太高也不太低。)

(4) The fair-skinned woman had to wear a hat and sunscreen to protect her skin from the sun.

(這位皮膚白皙的女子不得不戴帽子、涂抹防曬霜,給皮膚做防曬保護。)

具有諷刺意味的是,雖然這些例子是機器生成的,但看起來倒像是不太稱職的人編造的[順便說一下,例(3)和例(4)有同義反復之嫌,違反了Grice的數量原則,因而看起來更加不真實]。這并非特殊案例,在詞條 party 中,12 個示例中有 11 個采用了類似模式,并且兩個樣本中的每個詞條都一再表現出相同的偏好。在一項獨立實驗中(Lew 2023),我們看到 persuade主要詞義下的三條配例:

(1) The salesperson persuaded the customer to buy the product.

(推銷員說服客戶購買產品。)

(2) The speaker persuaded the audience to support the cause.

(演講者說服聽眾支持這項事業。)

(3) The friend persuaded the colleague to take a day off.

(朋友勸同事請一天假。)

這些例證更糟糕,動詞的主、賓語均為以定冠詞打頭的一般名詞。而為 command(樣本B)提供的例證也同樣糟糕:

The commander commanded his troops to march forward.

(指揮官指揮他的部隊向前前進。)

當前的技術(GDEX)為詞典編纂者提供了他們可能需要編輯的候選例證,但上面顯示的(ChatGPT生成的)例證卻無法挽救,只能被替換掉。

該系統在處理語法范疇方面也存在問題。在樣本B中,aside 的一個義項[例證為:He pushed the plate aside to make room for the pie(他把盤子推到一邊給餡餅騰地方)]被標記為介詞(而此處為副詞)。動詞 haunt(樣本 B)這個詞條開頭處理得比較好,義項①描述了鬼魂的行為。但義項②先是以形容詞短語描述動詞,然后又用了名詞:

Constantly present in one’s mind;an obsession (縈繞腦海的;一種癡迷)

當然,盡管在對樣本詞條的簡要評述中強調了一些問題,我們仍然有理由樂觀。在研發方面,ChatGPT 等類似的系統正在迅速改進,部分是通過(但不限于)其訓練數據量的大幅增加。我們所使用的提示語也有許多微調空間,實際上稍做調整便會得到很好的反饋:例如Lew(2023)的實驗(成功地)提示系統按照COBUILD系列詞典的整句模式生成釋義。同樣,想必可以設計一條提示語,引導其避免在例句中過度使用“第三人稱主語+簡單過去式”這一句式。另外,盡管在詞義劃分和語法范疇方面存在很大問題,但其釋義(即使有時不正確)通常寫得很好,通俗易懂。總而言之,這是一大引人注目的技術飛躍,并且,作為生成式人工智能的首次嘗試,它十分出色——也許很危險。

五、 討論總結:人工智能與當前的方法

經過20多年的時間,詞典界與計算機界日益加強的合作過程使我們更加接近詞典產出自動化。目前的前沿技術是一種模型,可自動生成完整的詞典初稿并導入詞典數據庫充實語料,然后由人類(不一定是詞典編纂者)進行后期編輯,產出詞典成稿。隨著新近人工智能技術(以ChatGPT 等類似工具的形式)的出現,這種方法猛然間受到了挑戰。人工智能技術提供了一種可能性,可繞過目前的人機合作程序,只需一次操作便可生成幾近完成的詞典。為探討這種可能性有多現實,以及人工智能對我們領域的破壞性有多大,我們可以先問三個問題:

1. 針對用戶詞匯查詢,ChatGPT能否直接提供答案(因而不再需要詞典)?

2. 如若不能,ChatGPT能否以微乎其微的人工介入生成好詞典(因而不再需要詞典編纂者)?

3. 如若不能,ChatGPT能否產出質量足夠好的詞典初稿,供人類后期編輯(因而不再需要我們現有的工具)?

(一) ChatGPT能否有效解答用戶的詞匯查詢?

在許多使用場景中,人們只需要一個快速的解答,以便繼續處理手頭事務:這個詞是什么意思?它的韓語或德語對應詞是什么?可否舉例說明其用法?

ChatGPT通常能提供用戶需要的東西。但現有資源也可以做到這一點。我們大多數人使用搜索引擎(如谷歌)快速查找單語釋義,或利用翻譯服務(如 Deepl)獲取雙語譯文。換言之,我們已習慣于不借助詞典來解決一些詞匯問題,而且,大多數情況下,我們所用的資源在簡易與可靠性方面優于 ChatGPT。

對于許多其他使用情況,特別是教育或專業領域,人們往往會參考詞典。在這種情況下,人們很重視“信任”(相信詞典信息的準確性)與“選編”(知道詞典信息是經過篩選的,反映特定單詞最典型的行為方式)。ChatGPT 能否為更忠實的用戶提供類似基于語料庫的好詞典那樣的服務?

關于信任問題,研究表明,ChatGPT 尚不能提供可靠的信息。我們已經看到,它經常出錯,這意味著即便是表面看來 “好”的釋義(見 carbon cycle)也需要單獨核實。對ChatGPT信任更大的“破壞”是,這個系統實際上“變幻不定”:對同一提示所提供的答案總是前后不一致。“選編”指詞典編纂“綜合”階段的情況(Atkins amp; Rundell 2008)386,即我們從大量語料庫資料中提取與詞典編纂相關的內容時的情況:例如,列出最典型的句型;選擇“最佳”搭配和其他反復出現的短語模式;生成釋義,描述單詞最重要的語義特征;提供用法示例,反映語料庫資料中最典型的語境。這是詞典編纂者的工作,而過去20年研發的計算資源旨在復制這一過程,應用顯著性指標來識別單詞行為的最典型

特征。

假設在許多使用中仍然需要可靠的且精心選編的詞典(當然是語言專業人士和認真的學習者及其老師的需求),我們來討論第二個問題。

(二) ChatGPT 能否以最少的人工投入生成好的詞典?

這一次的回答直截了當,“否”。上一節中描述的實驗表明,ChatGPT 會生成貌似合理的詞典文本,至少對于較簡單的詞目而言。但稍加推敲便幾乎總會發現問題,無論是遺漏、杜撰還是虛假。對該系統最熱衷的支持者在發表演講時總會說,“我們認為如今機器可以接管[詞典編纂的]整個過程”(de Schryver amp; Joffe 2023)。他們還強調說,ChatGPT 可以整體并入詞典編寫系統(如他們的 Tshwanelex系統),生成以 XML 或 JSON 等其他數據格式構建的完整詞典條目。然而,他們在講話即將結束時措辭似乎有所變化,他們總結說:“讓機器完成大部分工作,僅在審閱階段進行人工干預。”而這正是我們現在使用的“后期編輯”模型,(語料庫中的)語料與(詞典編寫系統中的)結構化詞典文本之間的無縫銜接已成為這種方法不可或缺的一環。這就引出了最后一個問題。

(三) 在生成供后期編輯的詞典初稿方面,ChatGPT能否超越現有技術?

我們現在可用的工具與方法能夠生成很好的詞典初稿。這些在真實的詞典項目中已進行過測試,并隨每款新版軟件改進。到目前為止,這種后期編輯模型僅用于雙語(以及多語)詞典,而本文討論的 ChatGPT 生成樣本屬于單語詞典。但其大多數詞目組成部分(義項劃分、語法信息、例句)對于兩類詞典都是相同的,因此更恰當的說法是,ChatGPT 尚無法與現有技術抗衡。一些樂觀的證據表明,ChatGPT 或許能夠生成足夠好的釋義,作為人類后期編輯的基礎。這值得進一步探討,因為目前的方法在自動生成釋義方面尚未成熟。

在這兩種編寫模型中(我們現在使用的后期編輯法和基于 ChatGPT 的模型),人類智慧在解釋自動生成的語言數據方面仍然發揮著重要作用。在一項實驗中(樣本 A),ChatGPT 被多次提示“解釋動詞 cause 的含義和用法”。(這不是生成詞典條目的請求)它的反饋措辭流暢、東拉西扯,但解釋得總是不夠充分。因為 cause(此處無意雙關)是語料庫語言學中的一大 cause célèbre(廣受關注有爭議的問題)。前語料庫時代的詞典對這一動詞的描寫僅限于行為與其結果之間的關系(類似 ChatGPT 的處理)。但是,隨著詞匯素描投入使用,人類語言學家立刻看出,cause 具有約翰·辛克萊 (John Sinclair) 所說的“消極語義韻”:它大量用于結果是“壞事”的語境中。在 Sketch Engine 語料庫 English Web 2020 的詞匯素描中,前 12 個顯著賓語搭配均屬消極搭配,前幾個依次為:damage(損壞)、problem(問題)、harm(傷害)、death(死亡)、injury (損傷)以及 disease(疾病)。對于本文的“人類讀者”而言,結論一目了然,而當代詞典中的釋義也反映了這一發現。但是,雖然 ChatGPT 反饋的例證確實包括動詞賓語 cancer(癌癥)、tension(緊張)、damage(損壞)以及 confusion(混亂),卻未能實現任何人類編纂者都能做到的富于想象力的思維飛躍,因而未在其釋義中標示這一消極語義韻。換言之,人工智能工具缺乏推測 cause 真正含義的智能。

相比而言,詞典編纂者審閱由后期編輯模式生成的初稿時——在看到一組消極賓語后——能夠深入到語料庫的底層語料,并立即檢索到該詞的常規使用模式。這一點是理解ChatGPT 模型根本缺陷的關鍵。在后期編輯系統中,詞典初稿與生成詞典的語料庫之間始終保持鏈接。編纂者可隨時返回原始語料澄清問題。ChatGPT 不提供這一選項,它本質上就是一只黑匣子。它為我們提供答案(而且每次問到同一問題都會提供不同的答案),但我們無法知道它如何生成這些答案,因此無法驗證其真實性。這一缺陷在未來的版本中能否克服尚未可知。但如不允許訪問其輸出內容所基于的底層語料,那么對任何大型語言模型的依賴都是極其危險的。

人工智能技術領域競爭激烈,支配著大量資源。ChatGPT 之類的工具很可能迅速改進。Lew(2023)發現,與他的早期實驗相比,可提示 ChatGPT第 4 版能生成更好(或不太糟糕)的例句。因此,如果斷定此類系統永遠不會取代,或至少大大超越我們現在用于后期編輯的詞典編纂工具,這是愚蠢的——盡管用于后期編輯的詞典編纂工具也在不斷改進。目前,我們應當得出的結論是,ChatGPT 尚不能預示“詞典編纂的終結”。

附 注

[1] 有關技術應用于詞典編纂的簡要評述,請參閱Rundell 等(2020)。

[2] 所有這些都特別適用于英語,在很大程度上也適用于其他資源豐富的語言。對于資源較少的語言來說,目前尚不適用。但是,這些方法屢試不爽,資源充足時可推廣應用。

[3] Zipfian分布描述語料庫中單詞頻率與排序的關系:單詞出現的頻率與它在頻率表里的排序成反比,頻率較高者排序靠前,頻率較低者排序靠后。

[4] “High-tech plagiarism”“a way of avoiding learning”是Chomsky在一次在線訪談節目中的說法:ChatGPT is High-Tech Plagiarism,Professor Noam Chomsky on ChatGPT and Education,2023-01-20(youtube.com)。

參考文獻

1. Atkins B T S,Rundell M. The Oxford Guide to Practical Lexicography. Oxford:Oxford University Press,2008.

2. Baisa V,Blahu? M,Cukr M,et al. Automating Dictionary Production:A Tagalog-English-Korean Dictionary from Scratch. // Electronic Lexicography in the 21st Century. Proceedings of the eLex 2019 Conference. Sintra,Portugal,2019:805-818.

3. Baroni M,Kilgarriff A,Pomikálek J,et al. WebBootCaT:A Web Tool for Instant Corpora. // Euralex Proceedings 2006,Torino,Italy:Edizioni Dell’Orso,2006:123-131.

4. Cook P,Lau J H,Rundell M,et al. A Lexicographic Appraisal of an Automatic Approach for Detecting New Word Senses. // Electronic Lexicography in the 21st Century:Thinking outside the Paper. Proceedings of eLex 2013. Ljubljana/Tallinn:Trojina,Institute for Applied Slovene Studies/Eesti Keele Instituut,2013:49-65.

5. de Schryver G-M,Joffe D. The End of Lexicography:Welcome to the Machine. https://www.youtube.com/watch?v=mEorw0yefAsamp;list=PLXmFdQASofcdnRRs0PM1kCzpuoyRTFLmmamp;index=5.(last access:20.05.23). 2023.

6. Grefenstette G. The Future of Linguistics and Lexicographers:Will there be Lexicographers in the Year 3000? // EURALEX 1998 Proceedings. Liège:University of Liège,1998:25-42.

7. Jakubí?ek M,Ková? V,Rychly P. Million-Click Dictionary:Tools and Methods for Automatic Dictionary Drafting and Post-Editing. // Book of Abstracts of the 19th EURALEX International Congress. 2021:65-67.

8. Jakubí?ek M,Rundell M. Generating English Dictionary Entries Using ChatGPT:Advances,Options and Limitations. // Proceedings of eLex 2023. Brno,Czech Republic,2023.

9. Kilgarriff A,Rundell M,Uí Dhonnchadha. Efficient Corpus Development for Lexicography:Building the New Corpus for Ireland. Language Resources and Evaluation Journal,2006(2):127-

152.

10. Kilgarriff A,Husák M,McAdam K,et al. GDEX:Automatically Finding Good Dictionary Examples in a Corpus. // Proceedings of the XIII EURALEX International Congress. Barcelona:Universitat Pompeu Fabra,2008:425-433.

11. Kilgarriff A,Rychly P. Semi-Automatic Dictionary Drafting. // de Schryver G-M.(ed.) A Way with Words:A Festschrift for Patrick Hanks. 2010:299-312.

12. Kilgarriff A, Ková V, Rychly P. Tickbox Lexicography. // Granger S," Paquot M.(eds.)E-lexicography in the 21st Century:New Challenges,New Applications. Brussels: Presses Universitaires de Louvain, 2010: 411-418.

13. Kosem I,Gantar P,Logar N,et al. Automation of Lexicographic Work Using General and Specialized Corpora:Two Case Studies. // Euralex Proceedings 2014. Bolzano,Italy:Institute for Specialised Communication and Multilingualism,2014:355-364.

14. Krishnamurthy R. The Process of Compilation. //Sinclair J M. (ed.) Looking up:An Account of the COBUILD Project in Lexical Computing. London: Collins. 1987: 62-85.

15. Lew R. ChatGPT as a COBUILD Lexicographer. Humanities and Social Sciences Communications. https://doi.org/10.1057/s41599-023-02119-6. 2023.

16. Renouf A. Corpus Development. // Sinclair J M.(ed.) Looking Up:An Account of the COBUILD Project in Lexical Computing. London:Collins ELT,1987:1-40.

17. Rundell M. The Road to Automated Lexicography:An Editor’s Viewpoint. // Granger S,Paquot M.(eds.) Electronic Lexicography. Oxford:Oxford University Press,2012:15-30.

18. Rundell M,Jakubí?ek M,Kovár V. Technology and English Dictionaries. // Ogilvie S.(ed.) The Cambridge Companion to English Dictionaries. Cambridge:Cambridge University Press,2020:18-30.

19. Rundell M,Kilgarriff A. Automating the Creation of Dictionaries:Where Will it all End? // Meunier F,De Cock S,Gilquin G,et al.(eds.) A Taste for Corpora:A Tribute to Professor Sylviane Granger. Amsterdam / Philadelphia: John Benjamins Publishing Company,2011:257-281.

20. Shanahan M. Talking About Large Language Models. https://arxiv.org/abs/2212.03551. 2022.

21. Suchomel V. Genre Annotation of Web Corpora:Scheme and Issues. // Proceedings of the Future Technologies Conference (FTC)2020,2021(1):738-754.

(Michael Rundell Lexical Computing Ltd.;

趙翠蓮 四川外國語大學 重慶 400031;

于文雍 復旦大學出版社 上海 200433)

(責任編輯 馬 沙)

猜你喜歡
單詞
What’s This?
Exercise 2
Exercise 4
Exercise 6
Exercise 1
Exercise 3
Exercise 5
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
主站蜘蛛池模板: 国产精彩视频在线观看| 在线观看免费黄色网址| 亚洲第一综合天堂另类专| 亚洲精品高清视频| 伊人天堂网| 永久免费AⅤ无码网站在线观看| 久久这里只有精品23| 国产99精品视频| 男女精品视频| 国产情侣一区二区三区| 美女视频黄频a免费高清不卡| 国产理论一区| 免费又爽又刺激高潮网址| 免费不卡视频| 成人亚洲国产| 国产微拍一区二区三区四区| 国产精品自在拍首页视频8| 国产无人区一区二区三区| 久久a毛片| 91成人在线观看| 久久精品人妻中文系列| 一级爆乳无码av| 国产91透明丝袜美腿在线| 中文一级毛片| 欧美国产日本高清不卡| 全部无卡免费的毛片在线看| 亚洲国语自产一区第二页| 亚洲国产看片基地久久1024| 欧美第一页在线| 日本欧美视频在线观看| 国产精品成人久久| 伊人激情综合| 手机精品视频在线观看免费| 看国产一级毛片| 色有码无码视频| 久久久黄色片| 蜜桃臀无码内射一区二区三区 | 国产精品污污在线观看网站| 欧美国产综合视频| 中文字幕一区二区人妻电影| 国产成人禁片在线观看| 一级做a爰片久久免费| 毛片免费在线视频| 国产成人a在线观看视频| 亚洲乱伦视频| 99久久这里只精品麻豆| 美女毛片在线| 国产精品永久久久久| 91精品伊人久久大香线蕉| 久久久久夜色精品波多野结衣| V一区无码内射国产| 欧美一级爱操视频| 有专无码视频| 中文字幕免费视频| 麻豆精品久久久久久久99蜜桃| 精品国产福利在线| 久久综合色天堂av| 在线视频亚洲欧美| 97视频精品全国免费观看| 日韩精品亚洲一区中文字幕| AV片亚洲国产男人的天堂| 欧美国产日韩另类| 欧美成人看片一区二区三区 | 国产无码制服丝袜| 欧美成人区| 日韩欧美国产综合| 精品国产三级在线观看| 亚洲色图欧美在线| 色成人亚洲| 亚洲视频四区| 国产视频一二三区| 五月激情婷婷综合| 日韩人妻无码制服丝袜视频| 黄色污网站在线观看| 怡红院美国分院一区二区| 国产人成网线在线播放va| 国国产a国产片免费麻豆| 亚洲第一视频网站| 中文字幕自拍偷拍| 免费激情网址| 国产精品国产主播在线观看| 免费毛片全部不收费的|