999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大語言模型的詞典自動(dòng)化編纂實(shí)驗(yàn)及思考

2025-03-14 00:00:00柳長青
語言戰(zhàn)略研究 2025年2期
關(guān)鍵詞:自動(dòng)化人工智能

提 要 大語言模型的出現(xiàn)對(duì)詞典自動(dòng)化編纂產(chǎn)生了重大影響?;谠~向量和權(quán)重參數(shù)優(yōu)化等基本原理,廣東外語外貿(mào)大學(xué)詞典學(xué)研究中心研發(fā)的“百年來歐美外來詞語言資源平臺(tái)”系統(tǒng),引入大語言模型對(duì)外來詞語料庫等進(jìn)行訓(xùn)練和調(diào)優(yōu),同時(shí)建立完善的人工審核機(jī)制,歷時(shí)4000 余小時(shí)生成3 萬余條外來詞自動(dòng)釋義、溯源和例句。通過平臺(tái)自有模型和ChatGPT 對(duì)外來詞釋義準(zhǔn)確率的對(duì)比實(shí)驗(yàn),證明該編纂方法的有效性和可行性,發(fā)現(xiàn)持續(xù)更新數(shù)據(jù)庫、加強(qiáng)文獻(xiàn)研究、豐富專用語料庫、強(qiáng)化人工檢查,將對(duì)生成高質(zhì)量釋義產(chǎn)生較大影響。大語言模型較之傳統(tǒng)手工編纂有碾壓性優(yōu)勢(shì),其應(yīng)用將沖擊現(xiàn)有電子詞典形態(tài),改變未來的詞典查詢行為。詞典編纂專家與人工智能專家需要協(xié)同合作,對(duì)模型輸出的內(nèi)容進(jìn)行質(zhì)量控制。而版權(quán)問題也將轉(zhuǎn)化為數(shù)據(jù)歸屬權(quán)問題,需要各方專家共同制定相關(guān)規(guī)則。大語言模型在漢語詞典自動(dòng)化編纂方面的應(yīng)用潛力不應(yīng)被低估,預(yù)計(jì)它還能被擴(kuò)展至其他語言和專業(yè)領(lǐng)域的詞典編纂中,進(jìn)一步促進(jìn)詞典學(xué)領(lǐng)域的新突破。

關(guān)鍵詞 大語言模型;詞典編纂;人工智能;自動(dòng)化;外來詞

中圖分類號(hào)H002 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào)2096-1014(2025)02-0061-12

DOI 10.19689/j.cnki.cn10-1361/h.20250206

一、引 言

近年來,人工智能技術(shù)不斷進(jìn)步,對(duì)社會(huì)發(fā)展的方方面面產(chǎn)生了重要影響。自2022 年年底ChatGPT 發(fā)布以來,基于大語言模型的文本自動(dòng)化生成技術(shù)在眾多領(lǐng)域展現(xiàn)出巨大的潛力。ChatGPT以其卓越的語言理解、內(nèi)容生成及精準(zhǔn)捕捉用戶意圖的能力,在許多應(yīng)用場(chǎng)景中表現(xiàn)出強(qiáng)大的實(shí)用價(jià)值,如智能客服支持、輔助文本創(chuàng)作、語言教育輔導(dǎo)和復(fù)雜數(shù)據(jù)分析等(車萬翔,等2023,楊爾弘,胡韌奮2024)。其核心技術(shù)大語言模型(Large Language Models,LLMs),不僅在眾多自然語言處理任務(wù)上表現(xiàn)出領(lǐng)先水平,而且廣泛應(yīng)用于計(jì)算機(jī)視覺、多模態(tài)分析等領(lǐng)域,成為推動(dòng)當(dāng)今社會(huì)和經(jīng)濟(jì)進(jìn)步的關(guān)鍵技術(shù)力量之一(李耕,等2023)。當(dāng)前大語言模型普遍基于Transformer 架構(gòu),利用注意力機(jī)制有效捕捉輸入文本中的長距離依賴關(guān)系。這種架構(gòu)不僅具備出色的規(guī)模擴(kuò)展能力,而且能夠高效地進(jìn)行并行計(jì)算。大語言模型的基本原理就是通過上文來預(yù)測(cè)下一個(gè)詞(劉挺2023),這種預(yù)測(cè)通常通過詞與詞之間的概率統(tǒng)計(jì)分析和相似度計(jì)算來決定。由于采用了基于神經(jīng)網(wǎng)絡(luò)的文本生成方法,大語言模型通過在大量無標(biāo)簽文本數(shù)據(jù)上進(jìn)行無監(jiān)督訓(xùn)練,從而學(xué)習(xí)到豐富的語言知識(shí)和世界知識(shí)。特別是以GPT(Generative Pretrained Transformer)系列模型為代表的生成式預(yù)訓(xùn)練模型,在文本生成任務(wù)上展現(xiàn)出了驚人的能力。這種令人印象深刻的文本生成能力可否應(yīng)用在詞典文本的輔助編纂中,成為當(dāng)下學(xué)界關(guān)注的焦點(diǎn)之一。

作為語言學(xué)的重要組成部分之一,詞典編纂一直以來都面臨著繁重的工作和復(fù)雜的流程。傳統(tǒng)的詞典編纂過程耗時(shí)費(fèi)力且存在更新滯后及良莠不齊等問題。為應(yīng)對(duì)這些問題,詞典學(xué)專家一直在不斷努力嘗試?yán)眯畔⒓夹g(shù)和方法提升詞典編纂的效率和質(zhì)量。中國詞典編纂信息化大致分為4 個(gè)階段:(1)20 世紀(jì)90 年代初,電子檢字表、索引階段;(2)20 世紀(jì)90 年代末,語料庫階段;(3)21 世紀(jì)初,語料庫+ 協(xié)同編纂平臺(tái)階段(呂海春2023);(4)新時(shí)代,基于人工智能的自動(dòng)化編纂階段。由于大語言模型技術(shù)的興起,國內(nèi)外詞典學(xué)專家紛紛開始討論利用大語言模型進(jìn)行詞典編纂的可行性(deSchryver 2023 ;許桂芬2018 ;侯復(fù)旦,趙翠蓮2024)。融媒辭書的多模態(tài)內(nèi)容的產(chǎn)生也需要借助這些最新的信息技術(shù)(章宜華2021,2024)。人工智能技術(shù)為傳統(tǒng)的詞典編纂方法提供了一個(gè)新的視角,特別是在迅速增長的新詞新義面前,其生成能力表現(xiàn)出了明顯的優(yōu)勢(shì)。但鑒于目前機(jī)器學(xué)習(xí)仍具有局限性,引入人工審核環(huán)節(jié)對(duì)生成詞典內(nèi)容的準(zhǔn)確性和可靠性起到至關(guān)重要的作用。盡管這些技術(shù)會(huì)對(duì)詞典編纂帶來一定的便利,但新的技術(shù)和方法也需要不斷地優(yōu)化和創(chuàng)新,以應(yīng)對(duì)語言的持續(xù)演變。

本文主要采用大語言模型技術(shù)對(duì)詞典的語料庫和知識(shí)庫進(jìn)行學(xué)習(xí)訓(xùn)練,從而使其具備詞語自動(dòng)釋義、溯源和例句生成的能力。首先闡述大語言模型應(yīng)用于詞典編纂的主要原理。然后,詳述基于大語言模型的詞典自動(dòng)化編纂平臺(tái)整體架構(gòu)和核心技術(shù),包括語料收集處理、模型訓(xùn)練調(diào)優(yōu)、人工審核機(jī)制等。再次,通過平臺(tái)自有模型和ChatGPT 對(duì)外來詞釋義準(zhǔn)確率的對(duì)比實(shí)驗(yàn),證明該編纂方法的有效性和可行性。最后,探討該方法在實(shí)際應(yīng)用中的潛在價(jià)值和未來發(fā)展方向,并思考大語言模型對(duì)詞典編纂的影響。本文的實(shí)驗(yàn)數(shù)據(jù)均來自廣東外語外貿(mào)大學(xué)詞典學(xué)研究中心科研團(tuán)隊(duì)研發(fā)的“百年來歐美外來詞語言資源平臺(tái)”系統(tǒng)。該平臺(tái)在ChatGPT 剛剛發(fā)布不久就將大語言模型技術(shù)嵌入到外來詞的自動(dòng)釋義、例句自動(dòng)生成和詞源溯源等研究當(dāng)中。其大語言模型歷時(shí)4000 余小時(shí)生成了3 萬余條外來詞釋義及其相關(guān)信息,實(shí)驗(yàn)取得了良好效果。研究表明,大語言模型技術(shù)在漢語詞典自動(dòng)化編纂方面的應(yīng)用潛力不應(yīng)被低估。預(yù)計(jì)它還能被擴(kuò)展至其他語言和專業(yè)領(lǐng)域的詞典編纂中,并進(jìn)一步推動(dòng)詞典編纂行業(yè)的現(xiàn)代化進(jìn)程。

二、大語言模型應(yīng)用于詞典編纂的主要原理

GPT 中文全稱是“生成式預(yù)訓(xùn)練轉(zhuǎn)換器”,其中“生成式”表示模型可以生成自然語言文本,而“預(yù)訓(xùn)練”則表示該模型在使用時(shí)需要進(jìn)行微調(diào)和優(yōu)化(馮志偉,等2023)。它是一種基于Transformer架構(gòu)的語言模型(Vaswani et al. 2017),使用前饋神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制來生成自然語言文本,可以用于各種自然語言處理任務(wù),如文本生成、文本分類和問答系統(tǒng)等。GPT 采用詞向量的方法將每個(gè)單詞實(shí)數(shù)化,以便于計(jì)算機(jī)進(jìn)行計(jì)算并推理。詞向量概念被大眾廣泛關(guān)注始于2013 年美國谷歌公司推出的詞向量Word2Vec 項(xiàng)目。在詞向量方法中,每個(gè)向量化的詞都可以看作一個(gè)被投射到詞空間中的點(diǎn),在這個(gè)巨大的詞空間中具有相似含義、語義或相關(guān)語言信息的詞互相處于平行和接近的位置。例如,cat(貓)的詞向量可以表示為:

[0.0074, 0.0030, -0.0105, 0.0742, 0.0765, -0.0011, 0.0265, 0.0106, 0.0191, 0.0038, -0.0468,-0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]

-0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]其完整的向量長度實(shí)際上有300 個(gè)實(shí)數(shù)之多。而與單詞cat(貓)最為接近的單詞有dog(狗)、kitten(小貓)和pet(寵物)。采用實(shí)數(shù)向量來表示單詞的一個(gè)主要優(yōu)勢(shì)在于,數(shù)字可以實(shí)現(xiàn)字母所不能進(jìn)行的數(shù)學(xué)計(jì)算操作。相較于單詞的不可計(jì)算性,大語言模型使用的實(shí)數(shù)向量可以擁有數(shù)百甚至數(shù)千個(gè)維度,創(chuàng)造出一個(gè)極為復(fù)雜的向量空間。對(duì)于人類來說,想象一個(gè)如此高維度的空間是非常困難的,但計(jì)算機(jī)卻能夠有效地在這個(gè)空間中進(jìn)行推理和計(jì)算,從而得出有價(jià)值的結(jié)果。

以下為一組類比推理:

biggest – big + small = smallest

woman – man + king = queen

ate – eat + speak = spoke

如圖1 所示,在上述類比推理中,單詞在詞向量空間中通過向量運(yùn)算獲得多樣化的語言關(guān)系。a 這種向量化的數(shù)據(jù)再經(jīng)過神經(jīng)網(wǎng)絡(luò)計(jì)算就成為大語言模型預(yù)測(cè)下一個(gè)單詞的依據(jù)。

Timothy Lee 和Sean Trott 認(rèn)為,對(duì)于單詞的同音異義詞、多義詞的情況,大語言模型主要通過上下文來捕捉其具體的意義。a 例如:

· John picks up a magazine.(約翰撿起了一本雜志。)

· Susan works for a magazine.(蘇珊為一家雜志社工作。)

其中的magazine 含義并不相同。類似的詞語還有bank(銀行)、bank(河岸)等。像ChatGPT 這樣的大語言模型能夠根據(jù)單詞出現(xiàn)的上下文,用不同的向量表示相同的單詞。詞向量中可以有一個(gè)銀行(金融機(jī)構(gòu))的向量和一個(gè)河岸(河流)的向量,有一個(gè)用于雜志(出版物)的向量和一個(gè)用于雜志社(組織)的向量。結(jié)合語境并通過多維向量方式,大語言模型就能夠處理多義和歧義等問題。

早期人工智能語言模型主要依賴于大量標(biāo)注過的數(shù)據(jù)進(jìn)行訓(xùn)練,且面向的是單一的任務(wù)和場(chǎng)景。這導(dǎo)致其應(yīng)用成本較高,對(duì)不同場(chǎng)景的適應(yīng)力較弱,難以大規(guī)模推廣。而大語言模型的一個(gè)關(guān)鍵技術(shù)在于,其基石模型的訓(xùn)練數(shù)據(jù)是不需要被明確標(biāo)注的。它可通過預(yù)測(cè)普通文本段落中的下一個(gè)單詞來進(jìn)行訓(xùn)練。這種訓(xùn)練的目的就是獲取單詞的權(quán)重參數(shù)。幾乎網(wǎng)絡(luò)上的所有文本語料都可以用來訓(xùn)練大語言模型。不過,早期的ChatGPT-1 模型在單詞預(yù)測(cè)方面表現(xiàn)得并不如人意,這是由于大語言模型最初的權(quán)重參數(shù)實(shí)際上還像一個(gè)隨機(jī)數(shù)。但隨著大語言模型不斷地讀取文本語料,它的詞向量權(quán)重參數(shù)也不斷隨之調(diào)整和豐富,從起初的隨機(jī)數(shù)慢慢變化為后來具有一定意義的實(shí)際權(quán)重參數(shù)。它閱讀的語料越多,參數(shù)的權(quán)重就越豐富和準(zhǔn)確,久而久之就產(chǎn)生了從量變到質(zhì)變的轉(zhuǎn)化,學(xué)者們將這種轉(zhuǎn)變稱為“大模型涌現(xiàn)”。例如,當(dāng)ChatGPT-3 的語料規(guī)模達(dá)到5000 億詞時(shí),其權(quán)重參數(shù)也達(dá)到1750 億個(gè)(饒高琦,等2023),參數(shù)量占到語料量的35%。因此,可以說大語言模型是對(duì)電子語料、互聯(lián)網(wǎng)文本的一種特殊的“壓縮”。由于是“壓縮”,所以模型給出的答案會(huì)存在所謂的“幻覺”現(xiàn)象。大語言模型依賴訓(xùn)練形成的參數(shù)壓縮文件就是模型對(duì)人類世界知識(shí)的理解。從代碼層面看,大語言模型通常由兩個(gè)文件組成:一是參數(shù)文件,一是運(yùn)行參數(shù)的代碼文件。這個(gè)代碼文件可以是C 語言或者其他高級(jí)語言編寫而成的。以llama-2-70b 模型為例,其參數(shù)文件大小為140Gb,其運(yùn)行文件run.c 有500 余行代碼。b 有了這兩個(gè)文件,大語言模型就可以開始工作了。人們通過一臺(tái)普通電腦在不聯(lián)網(wǎng)的情況下就可以開始與大語言模型進(jìn)行人機(jī)對(duì)話。

三、基于大語言模型的詞典自動(dòng)化編纂平臺(tái)設(shè)計(jì)方案

本文的實(shí)驗(yàn)數(shù)據(jù)主要來自“百年來歐美外來詞全息語料庫的建設(shè)與‘ 漢語化’ 機(jī)制研究”第一子課題的相關(guān)研究。該子課題的主要內(nèi)容是建立“外來詞基礎(chǔ)數(shù)據(jù)庫”“外來詞研究文獻(xiàn)資源庫”“外來詞相關(guān)語料庫”“外來詞全息數(shù)據(jù)庫”和“外來詞資源應(yīng)用平臺(tái)”?!巴鈦碓~基礎(chǔ)數(shù)據(jù)庫”是基于外來詞詞條建立的,用戶可瀏覽和查詢外來詞基礎(chǔ)信息,提取其屬性。“外來詞研究文獻(xiàn)資源庫”收錄外來詞領(lǐng)域及其相關(guān)領(lǐng)域的研究文獻(xiàn)和研究資料?!巴鈦碓~相關(guān)語料庫”建立在“外來詞研究文獻(xiàn)資源庫”基礎(chǔ)上,收錄中國新文化運(yùn)動(dòng)至今的充足的紙質(zhì)語料和網(wǎng)絡(luò)語料。“外來詞全息數(shù)據(jù)庫”用來查詢和展示外來詞的全景相關(guān)信息?!巴鈦碓~資源應(yīng)用平臺(tái)”通過全息數(shù)據(jù)庫和外來詞語料庫模塊的集成解決應(yīng)用問題,比如對(duì)外來詞的快速查詢和智能釋義,還可以自動(dòng)生成特定版式的詞典電子文檔。該平臺(tái)采用API 接口調(diào)用方式,通過購買授權(quán)的API 密鑰接入大語言模型系統(tǒng)。

具體成果“百年來歐美外來詞語言資源應(yīng)用平臺(tái)”(主界面如圖2 所示)共分為6 個(gè)模塊:外來詞語料庫、全息數(shù)據(jù)庫、文獻(xiàn)資源庫、系統(tǒng)簡(jiǎn)介、大語言模型和用戶管理。外來詞語料庫建設(shè)的主要目的是展示真實(shí)的語例,方便用戶查詢外來詞的句法環(huán)境、使用特征等。除外來詞研究文獻(xiàn)之外,我們還搜集了充足的紙質(zhì)語料和網(wǎng)絡(luò)語料,其中包括中文文獻(xiàn)2591 冊(cè)(篇),外文文獻(xiàn)7238 冊(cè)(篇),后續(xù)還將不斷添加相關(guān)文獻(xiàn)資料。外來詞研究文獻(xiàn)資源庫和外來詞相關(guān)語料庫中文獻(xiàn)和語料的搜集主要通過兩條渠道:一是相關(guān)材料的紙媒,二是互聯(lián)網(wǎng)。紙質(zhì)資料需要通過機(jī)器掃描+ 人工干預(yù)整理,除新馬泰地區(qū)的媒體語料之外大多為紙質(zhì)書籍的形式。網(wǎng)絡(luò)資料需要用爬蟲抓取技術(shù)進(jìn)行搜集,用數(shù)據(jù)挖掘技術(shù)提取相關(guān)信息。

我們專門編寫了語料導(dǎo)入處理工具軟件(如圖3 所示)。該模塊可以對(duì)語料進(jìn)行遍歷和整理,并對(duì)每一個(gè)文本進(jìn)行中文分詞、標(biāo)注和相關(guān)統(tǒng)計(jì)。通過工具軟件對(duì)語料進(jìn)行預(yù)處理,對(duì)建設(shè)語料庫查詢系統(tǒng)具有十分重要的意義。

“外來詞語料庫”采用SQLite 數(shù)據(jù)庫工具軟件構(gòu)建,匯集辭書、專著、研究論文和網(wǎng)絡(luò)媒體的語料,并進(jìn)行了電子化處理。通過分類梳理各類文獻(xiàn)、編制語料庫查詢界面(如圖4 所示),在此基礎(chǔ)上形成了“外來詞基本數(shù)據(jù)庫詞表”。其中具有代表性的詞表主要來源于《新華外來詞詞典》(史有為2019)、《漢語字母詞詞典》(劉涌泉2009)以及外語中文譯寫規(guī)范部際聯(lián)席會(huì)議專家委員會(huì)審議通過的第一至十三批推薦使用外語詞中文譯名表等。在該模塊中主要有外來詞的詞源特征(國別、形式、詞類、出現(xiàn)年代)、漢化異形詞、詞義、提取出版物、書證來源(例句和出現(xiàn)時(shí)間)、知識(shí)注釋、副條等內(nèi)容。上述大部分屬性均可利用大語言模型進(jìn)行內(nèi)容生成。

(一)訓(xùn)練與調(diào)優(yōu)

我們采用大語言模型作為實(shí)驗(yàn)架構(gòu),并使用大量多語言語料進(jìn)行訓(xùn)練。在系統(tǒng)中,訓(xùn)練與優(yōu)化過程占據(jù)了重要地位。大語言模型的性能反映了其訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量。以下是我們訓(xùn)練與優(yōu)化的過程和策略。

1. 訓(xùn)練語料的選擇。語料需滿足多樣性,且盡量包含更多的詞性、義項(xiàng)和詞義、釋義等詞典編纂所需的元信息。具體包括從網(wǎng)絡(luò)獲取的大規(guī)模未標(biāo)注語料和人工創(chuàng)建的高質(zhì)量詞典語料。

2. 預(yù)處理。包括文本清理、標(biāo)記化、詞根化和詞性標(biāo)注等。文本清理是必不可少的,包括去除亂碼、非打印字符、HTML 標(biāo)記等。標(biāo)記化是將文本分解成更容易管理的小塊(如單詞、句子)。此外,還需要進(jìn)行詞根化和詞性標(biāo)注,以應(yīng)對(duì)詞典編纂中的語言學(xué)問題。

3. 模型訓(xùn)練。應(yīng)用最新的模型架構(gòu)如Transformer 等,并使用了優(yōu)化算法。模型訓(xùn)練的過程類似于自監(jiān)督學(xué)習(xí),即模型通過預(yù)測(cè)語料庫中的下一個(gè)詞或短語來自我生成新的文本。

4. 模型調(diào)優(yōu)。模型訓(xùn)練后引入反饋機(jī)制,由詞典編纂專家來校對(duì)模型的輸出。專家核查模型生成的詞條和釋義并提供反饋信息,然后我們將反饋信息融入模型的訓(xùn)練中,使模型能夠進(jìn)行自我改進(jìn)。

在每次訓(xùn)練迭代和優(yōu)化過程中,我們始終以提高系統(tǒng)的準(zhǔn)確性、操作性和最終的用戶體驗(yàn)為目標(biāo)。將這些實(shí)踐應(yīng)用于模型的訓(xùn)練過程中,可以確保得到的模型是針對(duì)詞典編纂任務(wù)進(jìn)行優(yōu)化的,且可以產(chǎn)出高質(zhì)量的詞典編纂結(jié)果。

圖5 展示了按照“外來詞基本數(shù)據(jù)庫詞表”詞目詞生成的AI(智能)釋義、詞源和中英文雙語例句。例句還可按照類別生成不同類型。

(二)人工審核機(jī)制

雖然大語言模型在自動(dòng)生成詞典內(nèi)容方面有著卓越的能力,但為確保最終輸出的質(zhì)量和準(zhǔn)確性,人工審核仍是必不可少的環(huán)節(jié)。人工審核機(jī)制起到了糾正誤解和避免錯(cuò)誤傳播的關(guān)鍵作用。以下詳述我們的人工審核機(jī)制。

1. 審核界面(如圖6 所示)。我們?cè)O(shè)計(jì)了一個(gè)直觀便捷的在線審核界面,使編輯和校對(duì)者能輕松地查看模型生成的結(jié)果,并對(duì)其進(jìn)行校對(duì)。界面包括各類詞典內(nèi)容、詞條、釋義及例句等,并對(duì)應(yīng)有相關(guān)的審核和操作選項(xiàng)。

2. 審核流程。審核員首先檢查自動(dòng)生成的詞典內(nèi)容,包括但不限于詞條的選擇、釋義的準(zhǔn)確性和例句的相關(guān)性;然后對(duì)有需要的地方進(jìn)行修改、刪除或添加操作;最后,確認(rèn)該詞條可否被錄入詞典數(shù)據(jù)庫,并反饋給系統(tǒng)。

3. 反饋與迭代。系統(tǒng)將根據(jù)審核員的反饋進(jìn)行學(xué)習(xí)和調(diào)整。審核員更改了某個(gè)詞條的釋義,系統(tǒng)將記錄這個(gè)更改,并在此基礎(chǔ)上調(diào)整模型參數(shù)。這是一種迭代學(xué)習(xí)過程,模型將不斷從人的知識(shí)和經(jīng)驗(yàn)中學(xué)習(xí)并改進(jìn)。

4. 優(yōu)化審核效率。我們使用了一些輔助工具和策略。系統(tǒng)將預(yù)測(cè)可能需要更嚴(yán)格審查的詞條,并將其優(yōu)先呈現(xiàn)給審核員。采用分布式的審核流程,讓多位審核員可以同時(shí)在不同詞條上進(jìn)行操作。

通過這樣的人工審核機(jī)制,我們不僅賦予詞典專家一個(gè)可以直接影響詞典內(nèi)容生成的重要角色,還利用人類的專業(yè)知識(shí)和直覺來優(yōu)化我們的語言模型系統(tǒng)。

四、基于大語言模型的詞典自動(dòng)化編纂實(shí)驗(yàn)結(jié)果及評(píng)估

我們從現(xiàn)有語料、相關(guān)文獻(xiàn)、辭書等資源庫中搜集了32 000 余個(gè)外來詞,使用“百年來歐美外來詞語言資源應(yīng)用平臺(tái)”自有模型進(jìn)行自動(dòng)釋義,將生成結(jié)果與原始詞典釋義進(jìn)行比較。結(jié)果顯示,該平臺(tái)生成的內(nèi)容在準(zhǔn)確性、完整性和一致性上都達(dá)到了較為令人滿意的水平。相比傳統(tǒng)的信息技術(shù)輔助編纂方法而言,基于大語言模型的自動(dòng)生成方法更顯優(yōu)勢(shì),可大大提高編纂的效率及準(zhǔn)確性。

為了對(duì)比有據(jù),我們從32 000 余個(gè)外來詞中隨機(jī)選取了131 個(gè)詞(見表1),其中冷僻詞69 個(gè),常見詞62 個(gè),重復(fù)詞2 個(gè)。冷僻詞主要來源于佛經(jīng)、藥物名稱及物理儀器名稱等。我們對(duì)這131 個(gè)詞分別進(jìn)行了自有模型和ChatGPT 的詞語釋義訓(xùn)練。生成釋義的準(zhǔn)確率以《新華外來詞詞典》和《現(xiàn)代漢語詞典》(第7 版)的釋義為參照標(biāo)準(zhǔn)。做模型對(duì)比測(cè)試的主要目的是為今后建立自主、可控的辭書專有語言模型做前期的準(zhǔn)備與探索。自有模型的主要優(yōu)勢(shì)是,用于訓(xùn)練的語料資源能夠完全掌握在自己手中。對(duì)于ChatGPT 的訓(xùn)練,我們每個(gè)詞語都給了一些額外的相關(guān)知識(shí)提示和上下文,以便其能夠更準(zhǔn)確地生成釋義內(nèi)容;對(duì)于自有模型,我們?cè)O(shè)定了比ChatGPT 更嚴(yán)苛的訓(xùn)練條件,不給任何上下文和提示,僅給出詞目詞表。這樣做的目的是希望了解自有模型的抗壓能力有多強(qiáng)。

冷僻詞、常用詞和全部詞語的統(tǒng)計(jì)結(jié)果如下所示。

在冷僻詞釋義方面, 表2 顯示自有模型的準(zhǔn)確率為23.19%,ChatGPT 的準(zhǔn)確率為73.91%。ChatGPT 比自有模型準(zhǔn)確率高很多,這主要是因?yàn)镃hatGPT 的前期訓(xùn)練語料庫巨大,且獲取了相應(yīng)的上下文和相關(guān)知識(shí)提示;而自有模型沒有獲取提示,前期預(yù)訓(xùn)練語料規(guī)模也不及ChatGPT。因此可以預(yù)見,對(duì)自有模型開展針對(duì)性訓(xùn)練應(yīng)該能夠大幅提高其對(duì)于冷僻詞的釋義能力。

在常見詞釋義方面,表3 顯示自有模型和ChatGPT 都表現(xiàn)出很好的準(zhǔn)確性。自有模型達(dá)到98.39%的釋義準(zhǔn)確度,ChatGPT 則達(dá)到100%。

對(duì)于131 個(gè)隨機(jī)選取的外來詞,表4 顯示自有模型釋義的準(zhǔn)確率為58.78%,ChatGPT 的準(zhǔn)確率為86.26%。拉低自有模型準(zhǔn)確率的因素主要是冷僻詞釋義方面。如果給自有模型更為豐富的上下文提示及相關(guān)知識(shí)語料,自有模型對(duì)于冷僻詞釋義的準(zhǔn)確性將會(huì)大幅提高。這將是我們后續(xù)開展的研究工作之一。

通過上述實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn)以下幾個(gè)方面能夠?qū)ι筛哔|(zhì)量的詞典釋義產(chǎn)生較大影響。

(1)優(yōu)化和更新數(shù)據(jù)庫。由于語言是活動(dòng)的,外來詞的使用也會(huì)因社會(huì)環(huán)境和文化背景的變化而變化。因此,需要不斷地更新和優(yōu)化數(shù)據(jù)庫,保持其及時(shí)性和準(zhǔn)確性。

(2)注重文獻(xiàn)研究。雖然生成式大語言模型的使用大大提高了工作效率,但需注意,大語言模型技術(shù)并不能完全替代人工的文獻(xiàn)研究。因此,我們也需要重視并加強(qiáng)文獻(xiàn)研究工作。

(3)豐富專用語料庫。為了保證模型的準(zhǔn)確性,我們需要定期豐富和更新專有語料庫,增加多元化的語料來源和類型,以訓(xùn)練和優(yōu)化模型。

(4)強(qiáng)化人工檢查。無論大語言模型技術(shù)多么出色,它始終不能消除可能出現(xiàn)的誤差。因此,由人工進(jìn)行盲查和修正是必要的。此外,還需要提出一套完整的模型測(cè)試標(biāo)準(zhǔn)、分級(jí)和方法(劉建達(dá)2024)。

五、大語言模型對(duì)詞典編纂影響的思考

大語言模型對(duì)詞典編纂的影響是多方面的。

1. 大語言模型無論在資料的搜集整理還是內(nèi)容的快速整合方面均大大優(yōu)于傳統(tǒng)的手工編纂,甚至有碾壓性的優(yōu)勢(shì)。大語言模型編纂的速度快,生成的文本質(zhì)量高,自動(dòng)化程度高。尤其是以ChatGPT-4o 為代表的多模態(tài)語言模型,其自動(dòng)分析圖像、讀取文件、數(shù)據(jù)分析的能力大大超過了以往的人工智能應(yīng)用。

2. 大語言模型在語言方面具有強(qiáng)大的能力。它可以同時(shí)流暢輸出多種語言,高質(zhì)量地完成多語種的內(nèi)容生成,對(duì)于多語言詞典編纂來說是強(qiáng)有力的工具。大語言模型具有通用模型的優(yōu)勢(shì),因此其靈活性和易用性也是其他工具所無法比擬的。對(duì)于不同的編纂體例,大語言模型可以隨時(shí)按照指令生成所需要的格式和詞條內(nèi)容。而這些操作只需要幾句簡(jiǎn)單的自然語言描述即可實(shí)現(xiàn),使用者無須學(xué)習(xí)復(fù)雜的代碼、命令或軟件工具的操作指令。對(duì)于沒有計(jì)算機(jī)專業(yè)知識(shí)背景的詞典編纂者來說是福音。

3. 大語言模型還可以完成對(duì)詞典內(nèi)容進(jìn)行二次校對(duì)、內(nèi)容糾錯(cuò)、文本預(yù)處理等任務(wù)。當(dāng)使用者給出優(yōu)良的微調(diào)指令時(shí),它能夠?qū)ξ谋具M(jìn)行內(nèi)容、格式、語法等多方面的審讀,并著重標(biāo)注出需要修正的文字,這對(duì)于編纂者來說又是很好的輔助。至于智能審讀的結(jié)果正確與否,其判定權(quán)仍然掌握在編纂者手中。

4. 大語言模型的出現(xiàn)給使用傳統(tǒng)編纂軟件工具的編纂者形成了巨大的挑戰(zhàn)。似乎一夜之間,已有的詞典編纂軟件都可以被具有自動(dòng)化編纂能力的大語言模型所替代。這多少會(huì)讓研發(fā)、使用傳統(tǒng)編纂軟件工具的從業(yè)者有些焦慮甚至沮喪。雖然目前來看,大語言模型暫時(shí)還不能完全替代傳統(tǒng)編纂軟件,但這個(gè)趨勢(shì)越來越明顯。

5. 大語言模型的“幻覺”問題。眾所周知,由于大語言模型基于大量數(shù)據(jù)訓(xùn)練,它可能會(huì)在沒有明確事實(shí)基礎(chǔ)的情況下生成聽起來合理,但實(shí)際上是錯(cuò)誤或虛構(gòu)的信息。特別為確保內(nèi)容準(zhǔn)確性和適應(yīng)性,大語言模型對(duì)于非標(biāo)準(zhǔn)語言表達(dá)、地區(qū)差異和文化差異的處理以及掌握語言的不斷演變等方面還需要不斷訓(xùn)練、學(xué)習(xí)和優(yōu)化。在詞典編纂中,這些方面可能會(huì)導(dǎo)致對(duì)詞語表達(dá)的誤解。因此,詞典編纂者在利用大語言模型時(shí)需要格外小心,對(duì)其生成的內(nèi)容須進(jìn)行仔細(xì)的審核和驗(yàn)證。大語言模型在詞典編纂中是一種與人類專家合作的角色(袁毓林2024),而非完全替代。

6. 由于大語言模型的出現(xiàn),這種問答式的知識(shí)生產(chǎn),也將給現(xiàn)有的電子字典、APP(應(yīng)用程序)詞典的形態(tài)帶來沖擊。未來的詞典查詢行為可能會(huì)完全融合在問答式的人機(jī)交互方式中。這種問答式的交互較之現(xiàn)有的關(guān)鍵詞查詢方式,有著更加自然、平滑及精準(zhǔn)的特點(diǎn)。再結(jié)合融媒體、多模態(tài)技術(shù),基于大語言模型的詞典將不再是“無聲的老師”,而是一個(gè)集多語種、語音、視頻、文字及圖像等媒體融合、無所不知的“全能老師”。

7. 大語言模型生成內(nèi)容的版權(quán)問題,在大語言模型出現(xiàn)之時(shí)便有很多討論,各國對(duì)此也開展了各種研究和相關(guān)政策的制定(李宇明2023)。這個(gè)問題從技術(shù)層面是可以解決的。對(duì)一個(gè)大語言模型的訓(xùn)練起決定性作用的因素是數(shù)據(jù),當(dāng)今大語言模型本身已經(jīng)不是壁壘,而真正的壁壘是針對(duì)應(yīng)用場(chǎng)景的大數(shù)據(jù)。誰有第一手的海量數(shù)據(jù),誰就可以在這個(gè)領(lǐng)域練成最強(qiáng)大語言模型。而版權(quán)問題也將轉(zhuǎn)化為數(shù)據(jù)的歸屬權(quán)問題,這需要各方專家一道共同制定相關(guān)規(guī)則。

未來的電子詞典形態(tài)將會(huì)更加多樣和豐富,一個(gè)語言模型本身可能就是一個(gè)詞典,或者是訓(xùn)練出??圃~典的專用大語言模型。專用模型相較于通用模型將更加專業(yè)和準(zhǔn)確。這也帶來一個(gè)新的思考:隨著人工智能時(shí)代的到來,大語言模型是否是最適合應(yīng)用在詞典編纂領(lǐng)域的新技術(shù)之一?詞典編纂的模式是否會(huì)有顛覆性的發(fā)展和變革?

六、結(jié) 論

基于大語言模型的詞典自動(dòng)化編纂是詞典學(xué)和計(jì)算機(jī)科學(xué)的交叉研究領(lǐng)域的新方法,對(duì)比傳統(tǒng)的詞典編纂過程,這種方法展現(xiàn)出了顯著的優(yōu)勢(shì)。傳統(tǒng)詞典編纂通常需要詞匯學(xué)家和語言學(xué)家們耗費(fèi)數(shù)年時(shí)間通過人工方式逐一收集、驗(yàn)證并定義詞語。而大語言模型則通過分析大規(guī)模語料庫來理解和生成文本,能夠自動(dòng)提取新詞并根據(jù)上下文內(nèi)容釋義,這對(duì)于跟蹤語言的自然演變尤為重要。特別是對(duì)于外來詞、新詞、行業(yè)術(shù)語等這些經(jīng)常迅速變化的語言形式,傳統(tǒng)方法很難實(shí)時(shí)捕捉,而大語言模型則能夠高效地從不斷更新的語料庫中學(xué)習(xí)這些新詞語及其用法。在自動(dòng)化編纂詞典的過程中,大語言模型能夠提供詞義、用例、語法信息等,這大大提升了詞典內(nèi)容生成的效率和質(zhì)量。此外,這種方法還有助于發(fā)現(xiàn)和糾正傳統(tǒng)詞典中可能存在的錯(cuò)誤或疏漏。利用大語言模型的自動(dòng)化編纂方法,詞典的內(nèi)容不僅限于傳統(tǒng)的定義和用法,還可以自動(dòng)生成包括詞語的歷史發(fā)展、變體、同義詞、反義詞等信息,甚至使用示例和語言學(xué)分析。這為詞典內(nèi)容的豐富性和創(chuàng)新性開辟了新的可能。

然而,盡管大語言模型在詞典編纂中展現(xiàn)出顯著優(yōu)勢(shì),人工審核環(huán)節(jié)仍然不可或缺。自動(dòng)化生成的詞匯條目需要由專業(yè)人員進(jìn)行審核,以確保其準(zhǔn)確。為了提高模型的準(zhǔn)確性和豐富性,不斷更新和優(yōu)化數(shù)據(jù)庫是關(guān)鍵。同時(shí),文獻(xiàn)研究和專用語料庫的建設(shè),可以進(jìn)一步提升模型對(duì)于語言的理解能力。豐富的專用語料庫是提高模型性能的另一個(gè)重要方面,這意味著不僅要收集標(biāo)準(zhǔn)語言資料,還要收集包括專業(yè)術(shù)語、歷史文獻(xiàn)等多種形式的語言使用實(shí)例。通過這種方式,模型才能夠更全面地理解和反映語言的多樣性。此外,機(jī)器學(xué)習(xí)模型有著從數(shù)據(jù)中學(xué)習(xí)的特點(diǎn),它們可能會(huì)從有偏見的語料庫中學(xué)到并復(fù)制這些偏見,因此需要對(duì)輸入數(shù)據(jù)進(jìn)行仔細(xì)的篩選和平衡。詞典編纂工作的自動(dòng)化,對(duì)專業(yè)人員的角色也提出了新的要求。詞典編纂專家與人工智能專家需要協(xié)同合作,對(duì)模型輸出的內(nèi)容進(jìn)行質(zhì)量控制。

總之,研究表明大語言模型在詞典自動(dòng)化編纂中具有巨大的潛力,增加了詞典編纂的深度和廣度。只有真正深入學(xué)習(xí)和使用大語言模型,才能對(duì)它的能力有切身的體會(huì)和理性的認(rèn)識(shí)。國產(chǎn)開源模型DeepSeek 的高質(zhì)量推理生成、快速本地化部署和低廉的應(yīng)用成本對(duì)于未來研發(fā)自主可控的辭書大語言模型具有深遠(yuǎn)影響。隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,我們可以期待未來會(huì)有更多創(chuàng)新性的大語言模型出現(xiàn)在詞典編纂和語言學(xué)習(xí)領(lǐng)域,這必將進(jìn)一步促進(jìn)詞典學(xué)領(lǐng)域的新突破。

參考文獻(xiàn)

車萬翔,竇志成,馮巖松,等 2023 《大模型時(shí)代的自然語言處理:挑戰(zhàn)、機(jī)遇與發(fā)展》,《中國科學(xué):信息科學(xué)》第9 期。

馮志偉,張燈柯,饒高琦 2023 《從圖靈測(cè)試到ChatGPT—— 人機(jī)對(duì)話的里程碑及啟示》,《語言戰(zhàn)略研究》第2 期。

侯復(fù)旦,趙翠蓮 2024 《拓展人工智能時(shí)代詞典研編新方向—— 亞洲辭書學(xué)會(huì)第十六屆國際學(xué)術(shù)大會(huì)綜述》,《辭書研究》第1 期。

李 耕,王梓爍,何相騰,等 2023 《從ChatGPT 到多模態(tài)大模型:現(xiàn)狀與未來》,《中國科學(xué)基金》第5 期。

李宇明 2023 《人機(jī)共生時(shí)代的語言數(shù)據(jù)問題》,《華中師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)》第5 期。

劉 挺 2023 《從ChatGPT 談大語言模型及其應(yīng)用》,《語言戰(zhàn)略研究》第5 期。

劉建達(dá) 2024 《人工智能時(shí)代的語言測(cè)評(píng):機(jī)遇與挑戰(zhàn)》,《現(xiàn)代外語》第6 期。

劉涌泉 2009 《漢語字母詞詞典》,北京:外語教學(xué)與研究出版社。

呂海春 2023 《中國辭書數(shù)字化發(fā)展三十年》,《語言戰(zhàn)略研究》第5 期。

饒高琦,胡星雨,易子琳 2023 《語言資源視角下的大規(guī)模語言模型治理》,《語言戰(zhàn)略研究》第4 期。

史有為 2019 《新華外來詞詞典》,北京:商務(wù)印書館。

許桂芬 2018 《淺析人工智能在辭書編纂中的應(yīng)用——以收詞立目為例》,《新聞傳播》第23 期。

楊爾弘,胡韌奮 2024 《大語言模型與語言研究的雙向賦能與融合發(fā)展》,《語言戰(zhàn)略研究》第5 期。

袁毓林 2024 《ChatGPT 能不能勝任語言學(xué)家的合作伙伴?》,《漢語研究》第2 期。

章宜華 2021 《融媒體視角下多模態(tài)詞典文本的設(shè)計(jì)構(gòu)想》,《辭書研究》第2 期。

章宜華 2024 《融媒辭書的理論方法與實(shí)踐演化》,《語言戰(zhàn)略研究》第3 期。

Vaswani, A., N. Shazeer, N. Parmar, et al. 2017. Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17), 6000–6010.

de Schryver, G-M. 2023. Generative AI and lexicography: The current state of the art using ChatGPT. International Journal of Lexicography 36(4), 355–387.

責(zé)任編輯:韓 暢

教育部哲學(xué)社會(huì)科學(xué)研究重大攻關(guān)項(xiàng)目“百年來歐美外來詞的全息語料庫建設(shè)與‘漢語化’機(jī)制研究”(21JDA050),廣東省高??蒲谢鹬卮笈嘤?xiàng)目“語言資源與外語教學(xué)研究”(2018WZDXM011),廣東外語外貿(mào)大學(xué)引進(jìn)人才科研啟動(dòng)項(xiàng)目。

猜你喜歡
自動(dòng)化人工智能
我校新增“人工智能”本科專業(yè)
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
供電企業(yè)電力自動(dòng)化主站系統(tǒng)研究
錦界煤礦連采膠帶機(jī)集控系統(tǒng)的介紹
供熱站自動(dòng)控制系統(tǒng)中PLC的應(yīng)用
AGV小車在白酒行業(yè)自動(dòng)化立體倉庫中的應(yīng)用
配電室無人職守集控站在京博石化的運(yùn)用
科技視界(2016年20期)2016-09-29 14:13:02
配電線路運(yùn)行資料管理自動(dòng)化的探討
科技視界(2016年20期)2016-09-29 13:45:10
主站蜘蛛池模板: 伊人福利视频| 成人免费黄色小视频| 国产18在线| 岛国精品一区免费视频在线观看| 爽爽影院十八禁在线观看| 亚洲无码电影| 日本伊人色综合网| 国产第一页免费浮力影院| www.av男人.com| 久久无码av三级| 国产精品第页| 99久久人妻精品免费二区| 久久久成年黄色视频| 伊人大杳蕉中文无码| 好吊妞欧美视频免费| 国产黄在线免费观看| 广东一级毛片| 国产日韩精品一区在线不卡| 日本亚洲欧美在线| 麻豆精品久久久久久久99蜜桃| 久久久久久尹人网香蕉| 国产不卡在线看| 波多野结衣一区二区三区四区| 4虎影视国产在线观看精品| 亚洲欧美在线综合一区二区三区| 四虎永久在线精品国产免费| 国产网站一区二区三区| 亚洲成人精品| 中文字幕在线看| 久久亚洲综合伊人| 国产欧美日韩va另类在线播放| 亚洲AV无码久久精品色欲| 999在线免费视频| 国内精品久久人妻无码大片高| 国产精品久久久久久搜索| 丁香五月婷婷激情基地| 97se亚洲综合在线| 色综合天天操| 97在线观看视频免费| 9cao视频精品| 亚洲一区无码在线| 国产精品无码AV中文| 国产成人综合久久精品尤物| 亚洲精品视频免费看| 国产精品美女免费视频大全 | 国产美女一级毛片| 91系列在线观看| 亚洲大尺度在线| 久久亚洲日本不卡一区二区| 亚洲精品无码高潮喷水A| 婷婷综合亚洲| 日韩高清在线观看不卡一区二区| 国产拍揄自揄精品视频网站| 国产精品永久久久久| 毛片最新网址| 色老二精品视频在线观看| 国产精品毛片一区视频播| 四虎影视库国产精品一区| 国产网站免费观看| 999国产精品| 色综合色国产热无码一| 国产国语一级毛片在线视频| 91av国产在线| 久久久久无码精品国产免费| 波多野结衣一区二区三区AV| 青青草一区| 成人精品免费视频| 国产美女无遮挡免费视频| 在线网站18禁| 亚洲欧美不卡| 亚洲最猛黑人xxxx黑人猛交 | 91久久精品国产| 欧美成人精品在线| 欧美日韩国产高清一区二区三区| 欧美乱妇高清无乱码免费| 992tv国产人成在线观看| 又黄又爽视频好爽视频| 97久久精品人人| 国产又粗又猛又爽视频| 九九热免费在线视频| 亚洲中文在线看视频一区| 国产免费怡红院视频|