百模大戰(zhàn)，困于語(yǔ)料

2024-05-20 06:25:13徐乃帥

看世界 2024年7期

徐乃帥

近兩年來(lái)，以ChatGPT為代表的AIGC（生成式人工智能）產(chǎn)品的出現(xiàn)，引領(lǐng)了新一輪的科技熱潮。國(guó)內(nèi)的互聯(lián)網(wǎng)科技企業(yè)緊跟潮流，紛紛推出各自研發(fā)的AIGC產(chǎn)品，目前已出現(xiàn)200多款大模型，形成了“百模大戰(zhàn)”的混沌之勢(shì)。

其中頗讓人關(guān)心的一個(gè)命題是，中文世界的AIGC產(chǎn)品何時(shí)能趕超西方，尤其在大語(yǔ)言模型這一領(lǐng)域，能否撼動(dòng)當(dāng)前ChatGPT一家獨(dú)大的地位？

今年3月9日，央視財(cái)經(jīng)頻道《對(duì)話》欄目對(duì)百度董事長(zhǎng)李彥宏進(jìn)行獨(dú)家專訪。李彥宏表示，文心大模型在中文領(lǐng)域已經(jīng)明顯超過(guò)了ChatGPT-4。然而此話一出，立刻引起了多方討論和質(zhì)疑。

其中最具代表性的，是前搜狗CEO、百川智能創(chuàng)始人王小川在一次訪談中給出的看法：李彥宏對(duì)自己的產(chǎn)品有誤解，產(chǎn)生了一定“幻覺(jué)”；而另一個(gè)更廣泛的觀點(diǎn)則是，縱然文心大模型已經(jīng)在中文某些特定的領(lǐng)域超過(guò)ChatGPT，也不值得國(guó)人感到驕傲，畢竟ChatGPT本就是一款以英語(yǔ)為主的產(chǎn)品。

英語(yǔ)是全球無(wú)可否認(rèn)的世界語(yǔ)言，在政治、經(jīng)濟(jì)、文化和科技等領(lǐng)域都被廣泛使用，這也使得大量的數(shù)據(jù)都以英語(yǔ)產(chǎn)生。這反映在不同語(yǔ)言AIGC的對(duì)比上，不僅意味著總數(shù)據(jù)量的差距，更體現(xiàn)在高質(zhì)量訓(xùn)練語(yǔ)料的差距。

業(yè)界普遍認(rèn)為，中國(guó)的大模型發(fā)展要實(shí)現(xiàn)突破，必然要依賴于中文語(yǔ)料庫(kù)，而中文語(yǔ)料庫(kù)有著顯著的短板。從客觀視角來(lái)看，中文AIGC產(chǎn)品想要真正趕超ChatGPT，或有著相當(dāng)長(zhǎng)的一段距離。

“質(zhì)”與“量”雙缺

語(yǔ)料，顧名思義，即語(yǔ)言的材料。

任何一款大語(yǔ)言模型，都需要對(duì)海量的、多樣性的語(yǔ)料進(jìn)行充分學(xué)習(xí)，這是其輸出內(nèi)容的基本素材，也是大數(shù)據(jù)時(shí)代人工智能的重要特征。

當(dāng)然，這并不意味著只要搭建好框架，把足夠多的中文數(shù)據(jù)“填鴨式”地喂給AI，就能讓大模型“自學(xué)成才”。只有高質(zhì)量的語(yǔ)料，才能訓(xùn)練出一個(gè)優(yōu)質(zhì)的模型。

諸如貼吧、微博等社交平臺(tái)上的交流內(nèi)容，誠(chéng)然具有一定的真實(shí)性和多樣性，能夠反映人們的日常語(yǔ)言習(xí)慣和表達(dá)方式，但另一方面也存在大量重復(fù)的同質(zhì)化、無(wú)意義內(nèi)容；各個(gè)小說(shuō)網(wǎng)站上海量的文學(xué)創(chuàng)作，也同樣面臨此類問(wèn)題，更何況此類語(yǔ)料庫(kù)往往還涉及隱私、版權(quán)等問(wèn)題。

能夠被認(rèn)為是高質(zhì)量訓(xùn)練語(yǔ)料的，一般認(rèn)為包括了出版著作、文獻(xiàn)期刊、新聞報(bào)道、百科全書式知識(shí)等，已經(jīng)被人工篩選檢驗(yàn)過(guò)的文本類型。

而這些優(yōu)質(zhì)文本，在投喂給AI之前，也仍需要對(duì)數(shù)據(jù)進(jìn)行一定的“預(yù)處理”，使其成為結(jié)構(gòu)化數(shù)據(jù)更便于AI識(shí)別。“預(yù)處理”的工作往往需要投入大量具有一定相關(guān)專業(yè)素養(yǎng)的人才去完成。因此這兩年來(lái)，廣州、杭州等一線城市“數(shù)據(jù)標(biāo)注師”“AI訓(xùn)練師”等崗位的招聘需求激增。

中文“數(shù)據(jù)標(biāo)注師”的具體工作，包括清理無(wú)效字符、糾正病句錯(cuò)字、對(duì)文本進(jìn)行分詞，以及就內(nèi)容進(jìn)行主題、場(chǎng)景等方面的關(guān)鍵詞標(biāo)注等。

相較于英語(yǔ)，中文的語(yǔ)法結(jié)構(gòu)和表達(dá)方式存在很大差異，且存在大量的方言和口語(yǔ)變化，需要針對(duì)中文的特點(diǎn)進(jìn)行專門的語(yǔ)料標(biāo)注和整理工作—其中“分詞”正是“預(yù)處理”中最為繁瑣的一項(xiàng)。

只有高質(zhì)量的語(yǔ)料，才能訓(xùn)練出一個(gè)優(yōu)質(zhì)的模型。

英文句子中的單詞，天然具有空格這一分隔符，而中文句子中沒(méi)有詞的界限，所以在進(jìn)行中文自然語(yǔ)言處理之前，通常需要先進(jìn)行“分詞”，即手動(dòng)隔開(kāi)基本詞匯。

隨著語(yǔ)言處理技術(shù)的發(fā)展，“分詞”大概率會(huì)變得不再必要。但就目前來(lái)說(shuō)，仍需人類逐步教會(huì)AI如何有效識(shí)別中文語(yǔ)句中的信息。

實(shí)際上，包括語(yǔ)音、圖片等領(lǐng)域在內(nèi)的“數(shù)據(jù)標(biāo)注師”，目前已成為國(guó)內(nèi)人工智能行業(yè)從業(yè)人數(shù)最多的一個(gè)群體，被稱為人工智能領(lǐng)域的“羅塞塔石碑”，正構(gòu)筑著人工智能發(fā)展的底座。

而相較之下，英語(yǔ)世界很早就建成了不少系統(tǒng)化、優(yōu)質(zhì)的語(yǔ)料庫(kù)。

2008年，美國(guó)楊百翰大學(xué)的語(yǔ)言學(xué)教授Mark Davies主持創(chuàng)立了美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)（COCA）。作為當(dāng)今世界上最大的在線免費(fèi)英語(yǔ)平衡語(yǔ)料庫(kù)，COCA目前包含超過(guò)5.2億單詞的文本。最重要的是，COCA涵蓋了各種英語(yǔ)使用情境和地域，為AI的自然語(yǔ)言處理提供了寶貴的數(shù)據(jù)資源。

此外，國(guó)外還有英語(yǔ)國(guó)家語(yǔ)料庫(kù)（BNC）、喬治城大學(xué)多層語(yǔ)料庫(kù)（GUM）等多個(gè)英語(yǔ)大型語(yǔ)料庫(kù)，都已完成了基礎(chǔ)的整理和標(biāo)注工作，無(wú)疑是為以ChatGPT為代表的大語(yǔ)言模型的發(fā)展提供了極佳的土壤。

在出版物權(quán)威數(shù)據(jù)庫(kù)方面，全球最大的三個(gè)數(shù)據(jù)庫(kù)社會(huì)引文數(shù)據(jù)庫(kù)（SCI）、社會(huì)科學(xué)引文數(shù)據(jù)庫(kù)（SSCI）和人文藝術(shù)引文索引數(shù)據(jù)庫(kù)（A&HCI）當(dāng)中，超過(guò)90%的文章都是用英語(yǔ)發(fā)表的，這必然使得依賴英語(yǔ)訓(xùn)練的大模型，更具有可信性和權(quán)威性。

由此看來(lái)，ChatGPT當(dāng)下的領(lǐng)先，實(shí)則是理所應(yīng)當(dāng)。

來(lái)自“語(yǔ)料”的詛咒

去年12月，谷歌的大語(yǔ)言模型Gemini鬧出過(guò)一個(gè)離奇的笑話。

不需要任何前置對(duì)話，當(dāng)用戶使用中文提問(wèn)“你是誰(shuí)”的時(shí)候，Gemini會(huì)回答自己是“文心一言”，一個(gè)由百度公司開(kāi)發(fā)的語(yǔ)言模型，甚至?xí)嬷约旱膭?chuàng)始人是李彥宏。

當(dāng)用戶用英文提出同樣的問(wèn)題時(shí)，Gemini給出的則是正常的回復(fù)。

很顯然，這大概率是由于谷歌把百度文心一言的輸出內(nèi)容作為訓(xùn)練數(shù)據(jù)，而數(shù)據(jù)清洗工作又不到位的結(jié)果。不過(guò)同時(shí)，這也帶出了另一個(gè)更嚴(yán)重的問(wèn)題—互聯(lián)網(wǎng)上語(yǔ)料的相互污染。

有傳聞稱，目前各類內(nèi)容平臺(tái)上的很多中文語(yǔ)料，都是由大模型生成的，或者至少寫了其中一部分，因此谷歌才會(huì)不慎“中招”。

2023年2月，美國(guó)華裔科幻文學(xué)家特德·姜發(fā)表文章稱：ChatGPT等大語(yǔ)言模型，實(shí)質(zhì)是對(duì)互聯(lián)網(wǎng)語(yǔ)料庫(kù)的有損模糊壓縮。

按特德·姜的觀點(diǎn)，用大語(yǔ)言模型生成的文本來(lái)訓(xùn)練新的模型，如同反復(fù)以JPEG格式存儲(chǔ)同一圖像，重復(fù)操作下去會(huì)丟失越來(lái)越多的信息—大語(yǔ)言模型生成的內(nèi)容在互聯(lián)網(wǎng)上流傳得越多，真實(shí)的內(nèi)容就越難以辨識(shí)，大模型對(duì)現(xiàn)實(shí)的認(rèn)知會(huì)逐漸扭曲，“幻覺(jué)”現(xiàn)象就會(huì)越嚴(yán)重。

2023年6月，牛津、劍橋等高校的研究人員發(fā)表過(guò)一篇論文《遞歸之詛咒：用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》。論文用實(shí)驗(yàn)結(jié)果證明，用AI生成數(shù)據(jù)訓(xùn)練新的AI，最終會(huì)讓新的AI模型退化乃至崩潰。

而之所以會(huì)出現(xiàn)“AI生成數(shù)據(jù)訓(xùn)練AI”的情況，根本原因在于數(shù)據(jù)量的不足。就連OpenAI都公開(kāi)承認(rèn)過(guò)訓(xùn)練數(shù)據(jù)稀缺，已無(wú)法滿足ChatGPT饕餮般的胃口，甚至還因?yàn)椴糠钟?xùn)練數(shù)據(jù)集涉及版權(quán)糾紛，而接連吃到官司。

用AI生成數(shù)據(jù)訓(xùn)練新的AI，最終會(huì)讓新的AI模型退化乃至崩潰。

2023年4月28日，江西撫州大數(shù)據(jù)標(biāo)注產(chǎn)業(yè)小鎮(zhèn)，當(dāng)?shù)芈殬I(yè)院校學(xué)生正在從事數(shù)據(jù)標(biāo)注的學(xué)習(xí)和實(shí)踐

實(shí)際上，版權(quán)也是互聯(lián)網(wǎng)語(yǔ)料污染的另一個(gè)因素，即創(chuàng)作者為了抗?fàn)帯安徽?dāng)”抓取數(shù)據(jù)的行為，故意設(shè)下了“圈套”。

如此情景，正是驗(yàn)證了全國(guó)政協(xié)委員、知乎創(chuàng)始人周源在近期的兩會(huì)上所說(shuō)的話：“我覺(jué)得今天構(gòu)建‘水庫(kù)的工作大家都重視得不夠，反而比較看重怎么去打水的環(huán)節(jié)，比如訓(xùn)練模型怎么去進(jìn)行數(shù)據(jù)和內(nèi)容的爬取。”

倘若說(shuō)，英文領(lǐng)域的大語(yǔ)言模型的發(fā)展，受到了訓(xùn)練語(yǔ)料不足的掣肘，中文大模型面臨的形勢(shì)，只會(huì)更加嚴(yán)峻。

尋求解決之道

中文語(yǔ)料無(wú)論是“質(zhì)”還是“量”，都遠(yuǎn)遠(yuǎn)比不上英文語(yǔ)料，而語(yǔ)料本身的污染，同樣是一個(gè)頗具挑戰(zhàn)性的命題。那么，難道說(shuō)中文世界的AIGC產(chǎn)品，就沒(méi)有超越ChatGPT的可能了嗎？

或許換一種理解大語(yǔ)言模型的思路，就能獲得不同的答案。

大語(yǔ)言模型不一定非得成為“全知全能”的存在，而是可以深挖某個(gè)特定的垂直領(lǐng)域，“落地”到具體的“場(chǎng)景”里去檢驗(yàn)自我，獲得不斷提升。

正如李彥宏提及文心大模型超過(guò)ChatGPT-4時(shí)所舉的例子，ChatGPT-4無(wú)法理解“沁園春”這一詞牌名，而“文心一言”可以作出一首漂亮的古詞—至少在寫詞這一領(lǐng)域，“文心一言”確實(shí)超越了ChatGPT。

目前，國(guó)內(nèi)的工業(yè)、教育、醫(yī)療、政務(wù)等領(lǐng)域，都在進(jìn)行著深層次的智能化變革，有著龐大的需求和優(yōu)渥的市場(chǎng)化氛圍，這或許能給部分體量“小而精”的語(yǔ)言模型一次彎道超車的契機(jī)。

至于綜合性大語(yǔ)言模型的發(fā)展，則仍需有良好的培育土壤。

2023年12月20日，中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)在北京發(fā)布了用于大模型的首批中文基礎(chǔ)語(yǔ)料庫(kù)，包括1億余條數(shù)據(jù)，500億個(gè)“Token”（文本處理的最小單位）。中文基礎(chǔ)語(yǔ)料庫(kù)的發(fā)布，象征著各界初步達(dá)成了協(xié)作的共識(shí)，而這僅僅只是一個(gè)開(kāi)始，后續(xù)依然有漫長(zhǎng)的道路要走。

目前，國(guó)內(nèi)還有不少可以開(kāi)發(fā)的大型語(yǔ)料庫(kù)，如中國(guó)期刊全文數(shù)據(jù)庫(kù)，收錄了7400余種各類期刊；如中國(guó)國(guó)家圖書館，有藏書3700萬(wàn)冊(cè)；又如以北京語(yǔ)言大學(xué)的漢語(yǔ)語(yǔ)料庫(kù)（BCC）為代表的各大高校語(yǔ)料庫(kù)，該語(yǔ)料庫(kù)有150億字，包含了報(bào)刊、科技、古漢語(yǔ)等多領(lǐng)域的語(yǔ)料內(nèi)容。

對(duì)此類中文語(yǔ)料內(nèi)容進(jìn)行系統(tǒng)性梳理和標(biāo)注，需要花費(fèi)大量的人力物力，難以憑借一家之力完成，不妨倡議共同開(kāi)發(fā)，創(chuàng)建一個(gè)能夠讓各方共享的大型語(yǔ)料庫(kù)。

這就需要由相關(guān)部門牽頭，從業(yè)界達(dá)成普遍共識(shí)、并建立規(guī)范化章程開(kāi)始，強(qiáng)化數(shù)據(jù)安全和知識(shí)產(chǎn)權(quán)保護(hù)，逐步加快對(duì)高質(zhì)量中文數(shù)據(jù)集的開(kāi)發(fā)和利用，給中文語(yǔ)料的市場(chǎng)化流通提供一個(gè)更好的環(huán)境。

而另一種可能性則是，將來(lái)出現(xiàn)了一款能夠精準(zhǔn)處理語(yǔ)料的大語(yǔ)言模型，協(xié)助人類從這項(xiàng)繁瑣的工作中獲得“解放”—當(dāng)然在此之前，人類得想辦法不讓特德·姜的預(yù)言成真。

責(zé)任編輯吳陽(yáng)煜 wyy@nfcmag.com