2024年9月,人工智能依然是輿論場、投資者的熱門話題,然而,當下的人工智能產業似乎發展得很好,但似乎和普通人沒有多大關系,除了偶爾在短視頻平臺上看到一些AI生成的短視頻作品,國內似乎還未出現一款AI大模型相關的殺手級應用,人工智能似乎進入了一個發展瓶頸期。
有人開始質疑,人工智能是否是科技巨頭推出的一個虛偽概念,畢竟每隔幾年,科技公司就會造一個概念,而上一個造出的概念是元宇宙。那么,AI大模型帶來的是曇花一現還是技術革命?對此,我們需要先回顧過去,再展望未來。
要知未來,需知過去。人工智能的故事最多,跨越時間也最久。
事實上,計算機就是人工智能,二進制的晶體管顯示“0”和“1”,這種模式和人類大腦神經元的信息處理方式類似,只是更加簡化,且數量更少。所以,測試人工智能治理水平的圖靈測試在1950年推出,因為那時候所有人的意識中“計算機=人工智能”。
繼而,人工智能從計算機時代進入邏輯推理時代。舉個例子,如果某個迷宮有出口,那么只要在迷宮中一直靠右或靠左走,就一定能找到出口,對于人類可能要跑斷腿,但計算機有充足的耐心找到出口。邏輯推理就是按照路徑一個個去對照著找答案,直到所有數據都被對照一遍,輸出最后的答案。人工智能邏輯推理時代最成功的企業是IBM,面向B端,IBM推出專家系統輔助企業決策,面向C端,IBM的深藍計算機在國際象棋上大放異彩,名噪一時。
2006年,辛頓等三位專家提出深度學習算法,一種基于神經網絡的新算法開始流行。深度學習模仿人類神經元感知事物的過程,在算法中,大量神經元組成神經層,多個神經層構建神經網絡,神經網絡的一邊是輸入的問題,另一邊是輸出的答案,而開發人員只要一遍遍地輸入問題和驗證答案,神經網絡就能模仿人類識別文字、圖像、視頻的能力。從而像人一樣思考、創作。以視覺舉例,我們眼睛看到的是一張樹葉的圖像,而這張圖像要經過神經層的層層識別,才會在我們大腦中挑出“樹葉”這個詞匯。所以,深度學習的本質是模仿人類。
深度學習是過去20年人工智能大廈的地基,而在地基上,領跑的是谷歌,在布局10年后,2016年谷歌推出阿爾法狗,下圍棋的AI,結果全球圍棋界被阿爾法狗殺得人仰馬翻。由于圍棋是東亞傳統項目,很多中國人通過阿爾法狗第一次開始正視智能時代的到來。而在阿爾法狗成功后,谷歌開始多領域普及深度學習。比如2012年起,谷歌就開始用深度學習布局自動駕駛,比如阿爾法狗升級為阿爾法折疊,開始在蛋白質特征預測領域發光發熱,甚至顛覆了整個蛋白質科學的研究方式。
谷歌在人工智能領域最重要的貢獻,是2017年發布的Transformer,算法描述非常復雜,比如注意力機制,比如允許對依賴關系建模,這些技術名詞對于我們社科類文章并無益處,所以只需知道一點特征,Transformer能夠實現更高水平的并行化。在深度學習時代,制約人工智能發展的基本要素是算法、數據和算力。而由于互聯網發展,互聯網產生的數據越來越充沛,而算力則相對不足。并行化的好處,就是能夠讓算力可以堆疊。一臺智算服務器的算力有限,那么1萬臺并行計算呢?這就為大規模數據訓練創造了很好的條件。
Transformer算法就是OpenAI開發的AI大模型ChatGPT的基礎,GPT中的T就是Transformer。而基于Transformer的大模型有很多,比如谷歌的bard,和GPT不同的是,bard的生成模式是填空,而GPT的生成模式是用前文來生成后一個字,逐字生成??梢钥闯觯珿PT具有相對優勢,因為逐字生成更符合人類語言特點。
2019年,GPT二代發布并開源,同年7月和微軟合作,轉為封頂盈利公司,其算法也從開源轉向閉源。此時,OpenAI在人工智能領域的名氣遠不如谷歌,直到2022年11月,ChatGPT正式發布,繼而一炮而紅,迎來了顛覆。ChatGPT是第一款面向C端的人工智能殺手級應用。谷歌倉促應戰,結果反而因為各種“答非所問”的狀況被比下去,OpenAI在AI大模型領域獨占鰲頭。而面對OpenAI的成功,美國和中國的科技巨頭都迅速展開算法、算力“軍備競賽”,“百模大戰”在中美兩國同時開啟。
ChatGPT為什么能脫穎而出?
因為OpenAI做對幾件事:首先是大力出奇跡,在ChatGPT之前,谷歌已經不止一次宣稱自家AI能通過圖靈測試,并在展示會上演示用AI訂餐,但谷歌自己并不相信通過海量語料學習會產生奇跡,所以,谷歌經常用中小模型在垂直領域里倒騰,自動駕駛、阿爾法狗都是垂直領域的應用。而背靠微軟之后,OpenAI獲得微軟語料數據和云計算的雙重支持,一頭扎進大模型里,用海量高質量數據去堆,最終大力出奇跡。OpenAI的成功經驗也告訴其他AI企業,只要舍得花錢去提高數據質量,提高并行算力,就能做出成果。
很顯然,相對于技術創新,燒錢是科技巨頭更為熟悉的路徑。而GPT的建設方式并非機密,用海量語料讓GPT熟悉人類語言習慣,用高質量語料規范GPT語言生成,再對GPT生成的語言結果進行打分。
2023年,中國國內開啟“百模大戰”,參與方包括互聯網科技公司、AI專業公司、學術科研機構、行業專家四類。2023年3月16日,百度捷足先登推出大語言模型“文心一言”,此后,阿里、華為、騰訊、京東、科大訊飛、360、字節跳動等科技公司都發布自家大模型??蒲性核癆I創業公司也發布了“悟道”“書生”“智譜”“KIMI”等大模型。截至2024年4月,中國大模型數量已近200個,通用大模型數量40個左右。僅用一年,就是一片欣欣向榮、萬物競發的景象。而從全球看,中國的人工智能產業規模毋庸置疑是全球第二,僅次于美國。歐盟、日韓等國的科技企業響應太慢,已經被我們甩在身后。而中國企業大干快上也并不盲目,而是有明確的目標。各國母語不同,GPT成長吸收了大量英語語料,中文語料相對較少,所以,中國企業更適合開發中文AI大模型領域,因為中國科技企業擁有更多中文語料數據。也許整體上對比GPT有差距,但中文方面,國產AI一定能夠超越GPT。
而和中國跟隨策略不同,在發布ChatGPT之后,OpenAI的發展路徑卻發生了轉向,兩條發展路徑齊頭并進:
一條路是繼續探索GPT在語言領域的應用,讓GPT和更多的軟件應用、數據網站融合,讓GPT成為一種工具而非一個單一的應用,所以GPT嵌入了大量外部插件。
另一條路是發展多模態。比如DALL·E是圖像生成,Sora是視頻生成,而GPT-4o則演示語音功能。OpenAI試圖用多模態構建一個完整的AI大模型生態,而一旦這個AI大模型生態完成,將全面取代人類創作文字、圖像、語音、視頻的能力。
綜合看,無論是GPT和軟件結合,還是多模態,OpenAI的主旨就是“萬物兼可GPT”,而非將GPT局限在一個領域、一個應用場景。
國外AI廠商也追隨OpenAI的腳步,多模態領域多點開花。在開源大模型領域,Meta AI(Llama)、Mistral AI等廠商領跑,在圖像生成領域,Midjourney、Stable Diffusion、OpenAI的DALL·E等大模型各領風騷,視頻生成領域,Runway的Gen、Pika和OpenAI的Sora等大模型各展所長。不僅如此,國外一些專業軟件企業也在通過AI大模型推進應用變革。比如Adobe在用圖片生成AI顛覆Photoshop的圖像編輯功能,比如epic將AI嵌入到虛幻引擎當中,優化游戲和動畫展現效果,再比如金融數據企業彭博社就推出了金融大模型BloombergGPT,利用了自身的數據優勢??傊?,從全球看,AI大模型正在不斷試探應用邊界,并已經在諸多領域打出名堂。
與之相對的,國內AI廠商雖有長足進步,但國內AI廠商正在掉入同質化競爭陷阱。大多數國內AI廠商發展的是智能體(AI Agent),也就是ChatGPT和GPT4.0類似的應用,而在多模態,AI大模型和應用融合上,國內AI廠商相對滯后。甚至出現了一種奇怪的現象,很多國內AI廠商熱衷于和GPT做對比評分,似乎在做題上超過對手,就是成功。而由于國內很多大模型是在GPT2.0基礎上迭代,所以有時候不同的AI產品甚至會給出近似的答案。更有甚者,有企業將國外AI大模型的API嵌入應用當中,討個殼當自己的技術成果。
是什么導致國內AI廠商同質化競爭?筆者認為有如下原因:
首先,國內互聯網數據生態較封閉。這里的封閉是多個維度的,一方面中國和海外互聯網之間存在隔斷,國內互聯網數據總量有限,另一方面中國各大互聯網公司之間存在數據生態壁壘,尤其是在數據入表之后,數據價值提升,很多企業嘗到數據價值的甜頭,更加不愿意分享數據,且往往以數據安全為由拒絕開放數據生態。封閉生態導致大模型很難和垂直行業領域的專業數據融合,只能基于公開數據來打造智能體,而公開數據往往缺少壁壘,大家都能獲得,所以產品也就走向同質化。
其次,國內算力存在瓶頸。還是老問題,美國禁售高算力顯卡和智能芯片,的確影響了國內大模型企業的AI大模型發展。事實上,語言類大模型需要的算力最小,語音、圖像、視頻生成的大模型算力遠高于語言文字類大模型,所以,算力制約了中國多模態的發展。
再者,國內對AI發展的安全性存在疑慮。AI大模型帶來的技術風險是顯而易見的,比如AI大模型算法可以和搜索引擎結合,更精準地找到數據,技術本無善惡,但技術對數據的精準挖掘很可能暴露國家機密、商業機密和個人隱私。再比如AI生成內容會侵犯隱私,若有人用A的頭像嫁接到B的視頻,那么就會侵犯A的肖像權。過去我們說“有圖有真相”,如今是“視頻也未必是真相”。再比如,AI潛在的崗位替代,會引發失業,當然,相對于其他問題,這顯然是個小問題,因為AI大模型并沒有這么強大。
總之,面對AI大模型帶來的風險,國內管理層有很強的規范動機,而這些規范行為雖然起到了作用,但也會限制AI技術的創新。安全和創新之間往往存在一定的沖突。相對而言,美國是判例法國家,雖然美國各界喊得很響亮,但并沒有實質性的法律限制措施。
最后,從歷史看,中國人有創新能力,但依然缺少原創精神。國內很多大模型是構筑在國外開源模型基礎之上的,比如OpenAI過去的老版本GPT2.0,比如Llama,甚至有很多套殼AI。對于原創精神,筆者總結出一點原因:中國企業很害怕長周期投資,因為長周期投資存在很大風險,且風險不只是技術開發失敗,而是應用落地可能遭遇多重阻力,比如審批通過難造成的不確定性。
除了同質化,國內AI產品還存在過度擬合和數據污染的問題。過度擬合往往是因為數據學習的量過大導致的。數據不足的時候,AI大模型往往會聯想和腦補,甚至會胡說八道編故事,這就是欠擬合。而數據過多的時候,AI大模型也會陷入思維定式,這就是過度擬合。舉個例子,AI看一張帶有鋸齒的樹葉,欠擬合下,AI會將樹葉描述成一棵樹,而過度擬合下,AI會只關注樹葉的鋸齒。隨著國內AI大模型數據訓練的加強,很多AI大模型存在過度擬合的情況,回答問題就像八股文一樣,有些AI大模型會給你列出很多點,但沒有一點答在點子上。
現實中,用戶生成內容的目的很多元,有時候要的就是AI的想象力,而由于學數據太多,AI會喪失想象力。雪上加霜的是,當前國內要求AI生成內容要合規,由于大模型算法本身是“技術黑箱”,開發者很難控制生成結果,有些結果哪怕概率再小,也依然有出現的可能,所以,客觀上合規要求導致國內AI過度擬合的問題更加嚴重。
而回頭看,國外AI廠商之所以探索應用融合和多模態的道路,事實上也是因為同質化和過度擬合限制了智能體的發展,所以,我認為未來國內AI廠商需要追隨國外AI廠商的腳步,用更多原創創新來找尋AI大模型新的應用路徑。
綜上,介于同質化和過度擬合等問題,國內AI產業有可能經歷一段冷靜期,直到AI領域新一輪原創創新爆發。
而從全球AI產業角度,實際上美國AI巨頭也很難逃脫技術周期。我們知道,很多創新產品將經歷概念期、成長期和成熟期。美國AI巨頭雖然在多模態領域有進展,但回頭看,OpenAI的很多應用都是紙面應用,有展示,沒有落地。當下,大多數美國AI巨頭并未通過AI實現正向盈利。而因為AI估值高企的硅谷公司,諸如微軟、英偉達、蘋果、谷歌等則存在顯著的估值泡沫,未來“殺估值”可能在所難免。事實上,這又只是歷史的重復,2001年以前,美國互聯網公司估值奇高,也屬于概念期,結果2001年科網泡沫破滅。繼而真正的成長期開始,從2001年開始延續了20年。任何科技從早期概念炒作到實際提升生產力,都會經歷一個過程,這是一輪優勝劣汰,并不會毀滅AI大模型,會去偽存真,為AI大模型進入成長期打好基礎。
總之,無論是國內還是國外AI產業,都將會有一輪風雨,但風雨過后必有彩虹。未來AI大模型產業有風浪,但依然能夠遠航。
縱觀AI大模型的過去和現在,我們不難發現,其實從上世紀50年代開始的信息革命,本質上就是智能革命,人為地將時代劃斷,分為信息時代和數智時代,也只是給時間加了標注。換句話說,AI大模型是信息技術革命的延續,所以AI大模型就是技術革命。尤其是深度學習算法的出現,讓人類看清了AI未來發展軌跡。人類發展AI的路徑更加清晰了,讓AI通過深度學習算法模仿人類,從而締造真正的仿生智能。
然而,制約AI發展的因素,實際上有且只有三個,就像廚師做菜,一道好菜,需要有好廚師(算法)、好菜(數據)、好火候(算力)。其中算法的關鍵在人才和創新,數據的關鍵在打破數據壁壘,算力的關鍵在打破技術封鎖。而當前,國內AI廠商最急迫的,是擺脫同質化。所以,人才和創新的激勵將是國內AI產業發展的重點,那么,如何讓“廚師”創新呢?
一個建議是算法創新的產權登記和產權保護。首先我們要明確一點,AI大模型算法不適合開源,因為AI大模型需要數據和算力,這些都要花錢,開源算法沒人去添磚加瓦,注定走不遠,這也是為什么OpenAI在非營利組織時期默默無聞,而在封頂閉源之后異軍突起。其次,在產權保護上我們有過成功的先例,從2015年開始,我國藥審中心開始擴容,并加快藥品審批進度,在2016年之后,我國迎來創新藥研究的爆發期,甚至在創新藥領域出現了研發內卷,“百舸爭流”造就了醫藥創新的大繁榮。事實上,知識產權保護一直是鼓勵原創最佳的手段。
編輯:王延春