999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

百模大戰(zhàn),困于語(yǔ)料

2024-05-20 06:25:13徐乃帥
看世界 2024年7期
關(guān)鍵詞:語(yǔ)言英語(yǔ)模型

徐乃帥

近兩年來(lái),以ChatGPT為代表的AIGC(生成式人工智能)產(chǎn)品的出現(xiàn),引領(lǐng)了新一輪的科技熱潮。國(guó)內(nèi)的互聯(lián)網(wǎng)科技企業(yè)緊跟潮流,紛紛推出各自研發(fā)的AIGC產(chǎn)品,目前已出現(xiàn)200多款大模型,形成了“百模大戰(zhàn)”的混沌之勢(shì)。

其中頗讓人關(guān)心的一個(gè)命題是,中文世界的AIGC產(chǎn)品何時(shí)能趕超西方,尤其在大語(yǔ)言模型這一領(lǐng)域,能否撼動(dòng)當(dāng)前ChatGPT一家獨(dú)大的地位?

今年3月9日,央視財(cái)經(jīng)頻道《對(duì)話》欄目對(duì)百度董事長(zhǎng)李彥宏進(jìn)行獨(dú)家專訪。李彥宏表示,文心大模型在中文領(lǐng)域已經(jīng)明顯超過(guò)了ChatGPT-4。然而此話一出,立刻引起了多方討論和質(zhì)疑。

其中最具代表性的,是前搜狗CEO、百川智能創(chuàng)始人王小川在一次訪談中給出的看法:李彥宏對(duì)自己的產(chǎn)品有誤解,產(chǎn)生了一定“幻覺(jué)”;而另一個(gè)更廣泛的觀點(diǎn)則是,縱然文心大模型已經(jīng)在中文某些特定的領(lǐng)域超過(guò)ChatGPT,也不值得國(guó)人感到驕傲,畢竟ChatGPT本就是一款以英語(yǔ)為主的產(chǎn)品。

英語(yǔ)是全球無(wú)可否認(rèn)的世界語(yǔ)言,在政治、經(jīng)濟(jì)、文化和科技等領(lǐng)域都被廣泛使用,這也使得大量的數(shù)據(jù)都以英語(yǔ)產(chǎn)生。這反映在不同語(yǔ)言AIGC的對(duì)比上,不僅意味著總數(shù)據(jù)量的差距,更體現(xiàn)在高質(zhì)量訓(xùn)練語(yǔ)料的差距。

業(yè)界普遍認(rèn)為,中國(guó)的大模型發(fā)展要實(shí)現(xiàn)突破,必然要依賴于中文語(yǔ)料庫(kù),而中文語(yǔ)料庫(kù)有著顯著的短板。從客觀視角來(lái)看,中文AIGC產(chǎn)品想要真正趕超ChatGPT,或有著相當(dāng)長(zhǎng)的一段距離。

“質(zhì)”與“量”雙缺

語(yǔ)料,顧名思義,即語(yǔ)言的材料。

任何一款大語(yǔ)言模型,都需要對(duì)海量的、多樣性的語(yǔ)料進(jìn)行充分學(xué)習(xí),這是其輸出內(nèi)容的基本素材,也是大數(shù)據(jù)時(shí)代人工智能的重要特征。

當(dāng)然,這并不意味著只要搭建好框架,把足夠多的中文數(shù)據(jù)“填鴨式”地喂給AI,就能讓大模型“自學(xué)成才”。只有高質(zhì)量的語(yǔ)料,才能訓(xùn)練出一個(gè)優(yōu)質(zhì)的模型。

諸如貼吧、微博等社交平臺(tái)上的交流內(nèi)容,誠(chéng)然具有一定的真實(shí)性和多樣性,能夠反映人們的日常語(yǔ)言習(xí)慣和表達(dá)方式,但另一方面也存在大量重復(fù)的同質(zhì)化、無(wú)意義內(nèi)容;各個(gè)小說(shuō)網(wǎng)站上海量的文學(xué)創(chuàng)作,也同樣面臨此類問(wèn)題,更何況此類語(yǔ)料庫(kù)往往還涉及隱私、版權(quán)等問(wèn)題。

能夠被認(rèn)為是高質(zhì)量訓(xùn)練語(yǔ)料的,一般認(rèn)為包括了出版著作、文獻(xiàn)期刊、新聞報(bào)道、百科全書式知識(shí)等,已經(jīng)被人工篩選檢驗(yàn)過(guò)的文本類型。

而這些優(yōu)質(zhì)文本,在投喂給AI之前,也仍需要對(duì)數(shù)據(jù)進(jìn)行一定的“預(yù)處理”,使其成為結(jié)構(gòu)化數(shù)據(jù)更便于AI識(shí)別。“預(yù)處理”的工作往往需要投入大量具有一定相關(guān)專業(yè)素養(yǎng)的人才去完成。因此這兩年來(lái),廣州、杭州等一線城市“數(shù)據(jù)標(biāo)注師”“AI訓(xùn)練師”等崗位的招聘需求激增。

中文“數(shù)據(jù)標(biāo)注師”的具體工作,包括清理無(wú)效字符、糾正病句錯(cuò)字、對(duì)文本進(jìn)行分詞,以及就內(nèi)容進(jìn)行主題、場(chǎng)景等方面的關(guān)鍵詞標(biāo)注等。

相較于英語(yǔ),中文的語(yǔ)法結(jié)構(gòu)和表達(dá)方式存在很大差異,且存在大量的方言和口語(yǔ)變化,需要針對(duì)中文的特點(diǎn)進(jìn)行專門的語(yǔ)料標(biāo)注和整理工作—其中“分詞”正是“預(yù)處理”中最為繁瑣的一項(xiàng)。

只有高質(zhì)量的語(yǔ)料,才能訓(xùn)練出一個(gè)優(yōu)質(zhì)的模型。

英文句子中的單詞,天然具有空格這一分隔符,而中文句子中沒(méi)有詞的界限,所以在進(jìn)行中文自然語(yǔ)言處理之前,通常需要先進(jìn)行“分詞”,即手動(dòng)隔開(kāi)基本詞匯。

隨著語(yǔ)言處理技術(shù)的發(fā)展,“分詞”大概率會(huì)變得不再必要。但就目前來(lái)說(shuō),仍需人類逐步教會(huì)AI如何有效識(shí)別中文語(yǔ)句中的信息。

實(shí)際上,包括語(yǔ)音、圖片等領(lǐng)域在內(nèi)的“數(shù)據(jù)標(biāo)注師”,目前已成為國(guó)內(nèi)人工智能行業(yè)從業(yè)人數(shù)最多的一個(gè)群體,被稱為人工智能領(lǐng)域的“羅塞塔石碑”,正構(gòu)筑著人工智能發(fā)展的底座。

而相較之下,英語(yǔ)世界很早就建成了不少系統(tǒng)化、優(yōu)質(zhì)的語(yǔ)料庫(kù)。

2008年,美國(guó)楊百翰大學(xué)的語(yǔ)言學(xué)教授Mark Davies主持創(chuàng)立了美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)(COCA)。作為當(dāng)今世界上最大的在線免費(fèi)英語(yǔ)平衡語(yǔ)料庫(kù),COCA目前包含超過(guò)5.2億單詞的文本。最重要的是,COCA涵蓋了各種英語(yǔ)使用情境和地域,為AI的自然語(yǔ)言處理提供了寶貴的數(shù)據(jù)資源。

此外,國(guó)外還有英語(yǔ)國(guó)家語(yǔ)料庫(kù)(BNC)、喬治城大學(xué)多層語(yǔ)料庫(kù)(GUM)等多個(gè)英語(yǔ)大型語(yǔ)料庫(kù),都已完成了基礎(chǔ)的整理和標(biāo)注工作,無(wú)疑是為以ChatGPT為代表的大語(yǔ)言模型的發(fā)展提供了極佳的土壤。

在出版物權(quán)威數(shù)據(jù)庫(kù)方面,全球最大的三個(gè)數(shù)據(jù)庫(kù)社會(huì)引文數(shù)據(jù)庫(kù)(SCI)、社會(huì)科學(xué)引文數(shù)據(jù)庫(kù)(SSCI)和人文藝術(shù)引文索引數(shù)據(jù)庫(kù)(A&HCI)當(dāng)中,超過(guò)90%的文章都是用英語(yǔ)發(fā)表的,這必然使得依賴英語(yǔ)訓(xùn)練的大模型,更具有可信性和權(quán)威性。

由此看來(lái),ChatGPT當(dāng)下的領(lǐng)先,實(shí)則是理所應(yīng)當(dāng)。

來(lái)自“語(yǔ)料”的詛咒

去年12月,谷歌的大語(yǔ)言模型Gemini鬧出過(guò)一個(gè)離奇的笑話。

不需要任何前置對(duì)話,當(dāng)用戶使用中文提問(wèn)“你是誰(shuí)”的時(shí)候,Gemini會(huì)回答自己是“文心一言”,一個(gè)由百度公司開(kāi)發(fā)的語(yǔ)言模型,甚至?xí)嬷约旱膭?chuàng)始人是李彥宏。

當(dāng)用戶用英文提出同樣的問(wèn)題時(shí),Gemini給出的則是正常的回復(fù)。

很顯然,這大概率是由于谷歌把百度文心一言的輸出內(nèi)容作為訓(xùn)練數(shù)據(jù),而數(shù)據(jù)清洗工作又不到位的結(jié)果。不過(guò)同時(shí),這也帶出了另一個(gè)更嚴(yán)重的問(wèn)題—互聯(lián)網(wǎng)上語(yǔ)料的相互污染。

有傳聞稱,目前各類內(nèi)容平臺(tái)上的很多中文語(yǔ)料,都是由大模型生成的,或者至少寫了其中一部分,因此谷歌才會(huì)不慎“中招”。

2023年2月,美國(guó)華裔科幻文學(xué)家特德·姜發(fā)表文章稱:ChatGPT等大語(yǔ)言模型,實(shí)質(zhì)是對(duì)互聯(lián)網(wǎng)語(yǔ)料庫(kù)的有損模糊壓縮。

按特德·姜的觀點(diǎn),用大語(yǔ)言模型生成的文本來(lái)訓(xùn)練新的模型,如同反復(fù)以JPEG格式存儲(chǔ)同一圖像,重復(fù)操作下去會(huì)丟失越來(lái)越多的信息—大語(yǔ)言模型生成的內(nèi)容在互聯(lián)網(wǎng)上流傳得越多,真實(shí)的內(nèi)容就越難以辨識(shí),大模型對(duì)現(xiàn)實(shí)的認(rèn)知會(huì)逐漸扭曲,“幻覺(jué)”現(xiàn)象就會(huì)越嚴(yán)重。

2023年6月,牛津、劍橋等高校的研究人員發(fā)表過(guò)一篇論文《遞歸之詛咒:用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》。論文用實(shí)驗(yàn)結(jié)果證明,用AI生成數(shù)據(jù)訓(xùn)練新的AI,最終會(huì)讓新的AI模型退化乃至崩潰。

而之所以會(huì)出現(xiàn)“AI生成數(shù)據(jù)訓(xùn)練AI”的情況,根本原因在于數(shù)據(jù)量的不足。就連OpenAI都公開(kāi)承認(rèn)過(guò)訓(xùn)練數(shù)據(jù)稀缺,已無(wú)法滿足ChatGPT饕餮般的胃口,甚至還因?yàn)椴糠钟?xùn)練數(shù)據(jù)集涉及版權(quán)糾紛,而接連吃到官司。

用AI生成數(shù)據(jù)訓(xùn)練新的AI,最終會(huì)讓新的AI模型退化乃至崩潰。

2023年4月28日,江西撫州大數(shù)據(jù)標(biāo)注產(chǎn)業(yè)小鎮(zhèn),當(dāng)?shù)芈殬I(yè)院校學(xué)生正在從事數(shù)據(jù)標(biāo)注的學(xué)習(xí)和實(shí)踐

實(shí)際上,版權(quán)也是互聯(lián)網(wǎng)語(yǔ)料污染的另一個(gè)因素,即創(chuàng)作者為了抗?fàn)帯安徽?dāng)”抓取數(shù)據(jù)的行為,故意設(shè)下了“圈套”。

如此情景,正是驗(yàn)證了全國(guó)政協(xié)委員、知乎創(chuàng)始人周源在近期的兩會(huì)上所說(shuō)的話:“我覺(jué)得今天構(gòu)建‘水庫(kù)的工作大家都重視得不夠,反而比較看重怎么去打水的環(huán)節(jié),比如訓(xùn)練模型怎么去進(jìn)行數(shù)據(jù)和內(nèi)容的爬取。”

倘若說(shuō),英文領(lǐng)域的大語(yǔ)言模型的發(fā)展,受到了訓(xùn)練語(yǔ)料不足的掣肘,中文大模型面臨的形勢(shì),只會(huì)更加嚴(yán)峻。

尋求解決之道

中文語(yǔ)料無(wú)論是“質(zhì)”還是“量”,都遠(yuǎn)遠(yuǎn)比不上英文語(yǔ)料,而語(yǔ)料本身的污染,同樣是一個(gè)頗具挑戰(zhàn)性的命題。那么,難道說(shuō)中文世界的AIGC產(chǎn)品,就沒(méi)有超越ChatGPT的可能了嗎?

或許換一種理解大語(yǔ)言模型的思路,就能獲得不同的答案。

大語(yǔ)言模型不一定非得成為“全知全能”的存在,而是可以深挖某個(gè)特定的垂直領(lǐng)域,“落地”到具體的“場(chǎng)景”里去檢驗(yàn)自我,獲得不斷提升。

正如李彥宏提及文心大模型超過(guò)ChatGPT-4時(shí)所舉的例子,ChatGPT-4無(wú)法理解“沁園春”這一詞牌名,而“文心一言”可以作出一首漂亮的古詞—至少在寫詞這一領(lǐng)域,“文心一言”確實(shí)超越了ChatGPT。

目前,國(guó)內(nèi)的工業(yè)、教育、醫(yī)療、政務(wù)等領(lǐng)域,都在進(jìn)行著深層次的智能化變革,有著龐大的需求和優(yōu)渥的市場(chǎng)化氛圍,這或許能給部分體量“小而精”的語(yǔ)言模型一次彎道超車的契機(jī)。

至于綜合性大語(yǔ)言模型的發(fā)展,則仍需有良好的培育土壤。

2023年12月20日,中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)在北京發(fā)布了用于大模型的首批中文基礎(chǔ)語(yǔ)料庫(kù),包括1億余條數(shù)據(jù),500億個(gè)“Token”(文本處理的最小單位)。中文基礎(chǔ)語(yǔ)料庫(kù)的發(fā)布,象征著各界初步達(dá)成了協(xié)作的共識(shí),而這僅僅只是一個(gè)開(kāi)始,后續(xù)依然有漫長(zhǎng)的道路要走。

目前,國(guó)內(nèi)還有不少可以開(kāi)發(fā)的大型語(yǔ)料庫(kù),如中國(guó)期刊全文數(shù)據(jù)庫(kù),收錄了7400余種各類期刊;如中國(guó)國(guó)家圖書館,有藏書3700萬(wàn)冊(cè);又如以北京語(yǔ)言大學(xué)的漢語(yǔ)語(yǔ)料庫(kù)(BCC)為代表的各大高校語(yǔ)料庫(kù),該語(yǔ)料庫(kù)有150億字,包含了報(bào)刊、科技、古漢語(yǔ)等多領(lǐng)域的語(yǔ)料內(nèi)容。

對(duì)此類中文語(yǔ)料內(nèi)容進(jìn)行系統(tǒng)性梳理和標(biāo)注,需要花費(fèi)大量的人力物力,難以憑借一家之力完成,不妨倡議共同開(kāi)發(fā),創(chuàng)建一個(gè)能夠讓各方共享的大型語(yǔ)料庫(kù)。

這就需要由相關(guān)部門牽頭,從業(yè)界達(dá)成普遍共識(shí)、并建立規(guī)范化章程開(kāi)始,強(qiáng)化數(shù)據(jù)安全和知識(shí)產(chǎn)權(quán)保護(hù),逐步加快對(duì)高質(zhì)量中文數(shù)據(jù)集的開(kāi)發(fā)和利用,給中文語(yǔ)料的市場(chǎng)化流通提供一個(gè)更好的環(huán)境。

而另一種可能性則是,將來(lái)出現(xiàn)了一款能夠精準(zhǔn)處理語(yǔ)料的大語(yǔ)言模型,協(xié)助人類從這項(xiàng)繁瑣的工作中獲得“解放”—當(dāng)然在此之前,人類得想辦法不讓特德·姜的預(yù)言成真。

責(zé)任編輯吳陽(yáng)煜 wyy@nfcmag.com

猜你喜歡
語(yǔ)言英語(yǔ)模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語(yǔ)言描寫搖曳多姿
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
3D打印中的模型分割與打包
讀英語(yǔ)
我有我語(yǔ)言
酷酷英語(yǔ)林
主站蜘蛛池模板: 国产精品亚洲一区二区三区在线观看| 国产91视频免费观看| 亚洲va在线观看| 午夜影院a级片| 91原创视频在线| 国产91视频观看| 熟妇丰满人妻| 40岁成熟女人牲交片免费| 国产白浆一区二区三区视频在线| 中文字幕久久波多野结衣| 国产精品女人呻吟在线观看| 国产夜色视频| 久久久精品无码一区二区三区| 97视频免费在线观看| 国产黄色免费看| 国产无码制服丝袜| 2021精品国产自在现线看| 日本91在线| 青青青视频91在线 | 久久久久亚洲精品成人网| 黄色网站在线观看无码| 色综合婷婷| 欧美三级不卡在线观看视频| 精品91视频| 欧美人人干| 九九热免费在线视频| 亚洲视频三级| 97国产精品视频自在拍| 中文字幕永久在线看| 国产日本欧美亚洲精品视| 中文字幕中文字字幕码一二区| 91啪在线| 亚洲国产亚综合在线区| 亚洲成人黄色网址| 香蕉视频在线观看www| 国产精品国产三级国产专业不 | 国内精品小视频在线| 国产欧美日韩另类| 久久精品电影| 亚洲精品无码抽插日韩| 国产成人久久综合777777麻豆| 久久久久久国产精品mv| 亚洲精品欧美日韩在线| 日本三级黄在线观看| 中文字幕日韩丝袜一区| 久久国产成人精品国产成人亚洲| а∨天堂一区中文字幕| 国产永久在线观看| 99久久精品国产精品亚洲| 性激烈欧美三级在线播放| 国模极品一区二区三区| 国产成人综合日韩精品无码不卡| 亚洲精品爱草草视频在线| 99色亚洲国产精品11p| 又大又硬又爽免费视频| 天天综合网亚洲网站| 国产在线98福利播放视频免费| 国产人人乐人人爱| 国产一区二区三区在线观看视频| 热99精品视频| 亚洲av日韩av制服丝袜| 天天躁夜夜躁狠狠躁图片| 国产第四页| 日韩欧美中文字幕在线韩免费| 狠狠色综合网| 人妻一区二区三区无码精品一区| 欧美精品v| 青青草a国产免费观看| 色综合成人| 亚洲综合二区| 91精品网站| 精品成人一区二区| 久久熟女AV| 亚洲欧美成人综合| 欧美精品1区2区| 国产精品无码制服丝袜| 色噜噜在线观看| 久久久国产精品无码专区| 成人国产精品2021| 99国产精品一区二区| 国产女人18水真多毛片18精品| 综合人妻久久一区二区精品|