文| 馬 迪
在ChatGPT 火爆的背景下,很多國家都主動或被動地加入了大模型的競賽。據(jù)報道,全球共有數(shù)百個大模型上線,那么中國在這個領(lǐng)域的發(fā)展如何呢?

相信大家已經(jīng)被ChatGPT刷屏過好多次了—它以生成式AI為支撐,以強大的回答問題的能力驚艷了所有人,上線兩個月就狂吸1億用戶,成為有史以來用戶增長最快的APP。在這股熱潮中,很多國家都主動或被動地加入了大模型的競賽。據(jù)報道,全球共有數(shù)百個大模型上線,那么中國在這個領(lǐng)域的發(fā)展如何呢?
7月在上海舉辦的2023年WAIC(世界人工智能大會)展館里,30多個國產(chǎn)大語言模型集體亮相,展館里人頭攢動。大會還宣布了由上海人工智能實驗室與百度、阿里、科大訊飛、360、華為、中國移動的專家擔(dān)任中國首個大模型標(biāo)準(zhǔn)化專題組聯(lián)合組長。下面就讓我們來介紹這場競賽中的幾位首發(fā)隊員。
百度早在2010年就開始了人工智能的研發(fā),迄今在AI上的投入超千億人民幣。ChatGPT的火爆讓百度有了“終于等到你”的興奮,也表現(xiàn)出了事事爭先的氣勢。3月率先發(fā)布“文心一言”,成為中文互聯(lián)網(wǎng)中第一個對標(biāo)ChatGPT的存在。
從模型來看,文心一言是高度本土化的AI模型,更加匹配中文環(huán)境的使用習(xí)慣。文心一言的訓(xùn)練數(shù)據(jù)來自百度旗下的問答、百科等知識圖譜,以及百度爬蟲抓取的萬億級的網(wǎng)頁數(shù)據(jù)。這些作為百度基本盤的業(yè)務(wù),不僅能夠提供巨大的基礎(chǔ)數(shù)據(jù),也讓文心一言天然在中文搜索上具有顯著優(yōu)勢。
在首次發(fā)布會上,李彥宏使用視頻PPT展示文心一言的多個使用場景,引發(fā)了巨大爭議,讓很多網(wǎng)友對文心一言的真實能力一度產(chǎn)生懷疑。隨著產(chǎn)品逐漸向更多普通用戶開放,在實測中逐漸挽回了口碑。本次世界人工智能大會上,百度發(fā)布文心大模型3.5版本,模型效果提升50%、訓(xùn)練速度提升兩倍、推理速度提升30倍。
緊隨百度的步伐,今年4月7日阿里“通義千問”開放測試,成為中國第二個類ChatGPT產(chǎn)品,緊接著又在6月1日和7月7日分別上線了音視頻大模型“通義聽悟”和AI繪畫創(chuàng)作大模型“通義萬相”,實現(xiàn)了三個月連推三個不同產(chǎn)品的壯舉,進一步向多模態(tài)模型靠近。
通義千問的訓(xùn)練數(shù)據(jù)來自阿里巴巴旗下的淘寶、支付寶、天貓等產(chǎn)業(yè)中抽取的大量中文對話和文本數(shù)據(jù)。阿里還宣布未來會將所有產(chǎn)品都接入通義千問,進行全面改造升級,包括天貓、淘寶、釘釘、天貓精靈、閑魚、盒馬等。
更具有想象力的是,阿里將通過開放通義千問,幫助所有企業(yè)結(jié)合自己的應(yīng)用場景、知識體系、行業(yè)特殊需求,形成專屬的企業(yè)大模型。這意味著即使是中小企業(yè),也能夠以較低的門檻打造自己的智能客服、智能導(dǎo)購、智能語音助手、自動駕駛助手。
前文之所以單獨介紹了百度和阿里的類ChatGPT產(chǎn)品,一方面是它們更早面世,另一方面是因為它們是to C型產(chǎn)品,也就是面向所有普通用戶,每個人都有機會使用。但其他大廠顯然選擇了不同的道路—在他們看來,面向B端(機構(gòu)用戶)、賦能千行百業(yè)才是大模型的重點。
這其中就包括了華為的“盤古”、騰訊的“混元”、字節(jié)跳動的“火山方舟”、京東的“言犀”等等。它們分別根植于不同的數(shù)據(jù)和技術(shù)土壤之上,彼此之間的差距會隨著時間和數(shù)據(jù)的變化而越發(fā)擴大。但它們面臨的難點是一致的:將大模型用在業(yè)務(wù)里,AI模型和客戶核心數(shù)據(jù)的結(jié)合必須更加緊密,深度私有化必不可少。換言之,這些廠商們也許需要幫助客戶從頭對核心數(shù)據(jù)進行標(biāo)注、訓(xùn)練,再進行模型訓(xùn)練,時間和成本都將大大增加。
從3月如雨后春筍般冒頭至今,短短4個月的時間,中國大模型跑出了中國速度—技術(shù)層、配套設(shè)施層、應(yīng)用層、政策監(jiān)管、安全措施,各個環(huán)節(jié)都在同步發(fā)展,而不是等著底層技術(shù)成熟后才慢慢跟上。行業(yè)熱鬧之中,人們也看到了大模型技術(shù)路徑、產(chǎn)業(yè)落地、配套設(shè)施搭建、開發(fā)者生態(tài)都仍處于早期階段,你追我趕的過程才剛剛開始。