陳徐毅
大模型的落地不能僅僅認為是“最后一公里”的事,而是從工程整體上檢驗案例項目的突破和進展。
以GPT為代表的生成式預訓練大語言模型這兩年在人工智能領域各項任務中表現出色,這是一種現今看來具有十億以上權重或參數的由人工神經網絡組成,使用自監督學習或半監督學習對大量未標記文本進行訓練的深度學習模型。關于大模型的訓練所需總算力,業內有一個公式:6×模型的參數量×訓練數據的token數=總算力(Flops),這里的模型參數量指的是構建和訓練大規模機器學習或深度學習模型時所使用的各種可調整的設置和數值,參數的數量級越大,模型的潛在體量與規模越大。而大模型參數數量級從一開始的過億級、十億級,發展到GPT—3的1750億、文心一言的2600億等,如今朝著萬億級的趨向演進。
2024年初,Sora的橫空出世讓原本僵持在千億參數級別的業內各方大模型瞬間有了危機感,一時間競逐加速。首先是初創公司Anthropic宣布Claude?3超越OpenAI的GPT—4稱王,旋即谷歌升級了Gemini系列模型并開放測試,國內月之暗面的Kimi助手也以不俗的表現贏得業界聚焦。值得注意的是,盡管面臨Sora(文生視頻)的壓力,業內各方仍決定從NLP(自然語言處理)產品的升級著手展開備戰,原因也許是Sora本身也只發布了預覽效果,且并未公開和組織規模性的測試,在AI視頻方面仍有較長的時間窗口。
內卷升級,賽道競逐日趨白熱化
由于過去一年生成式人工智能突飛猛進了一整年,在產業層面,國內外科技巨頭圍繞AI大模型打響了“百模大戰”;在資本市場,AI概念成為市場主線之一。因此2024年,業界觀點認為大模型領域的競爭將進一步白熱化,行業與資本的輪番交互將有望推動本輪AI行情進一步擴散。
當前國際市場自然語言生成式人工智能以OpenAI的ChatGPT(GPT—4)為代表,其主要競爭對手為谷歌DeepMind的Gemini(前身是Bard)、Meta的LLaMA模型、Anthropic的Claude?3以及正在進場的xAI等。大模型的主流框架則由TensorFlow和PyTorch二分天下。文生圖方面,DALL-E、Midjourney和Stable?Diffusion依然是主流三家,擴散模型在該領域運用得到了迅速發展。
國內方面,過去的AI四小龍商湯、曠視、依圖、云從由于生長在資本膨脹時期,趕上了AI風口,前期成長較好,在視覺CV領域各領風騷。然而進入到第二輪賽道競逐時,意識到訓練成本高昂,只有巨頭加碼燒錢,回報周期又長,故事就不好講了。資本退潮之后,無一不面臨著從模型應用到商業化落地的困境。
但隨著GPT—4的壓力和Sora的鲇魚效應,國內巨頭開始逐步發力。百度文心、阿里通義、騰訊混元模型升級并朝著多模態進軍;訊飛星火、百川智能、360智腦、日日新等逐漸殺出一條血路,還有初創新秀月之暗面Kimi逆風崛起。
經歷了大半年的僵持,資本從觀望開始向進場轉變,對大模型的加注也在持續升溫,初創的融資金額從千萬到數億不等;從融資輪次來看,70%的初創處于A輪及A輪前融資階段,B輪以上融資階段的企業總數接近30%,整個賽道朝著白熱化的趨勢變化。
AGI是終點,多模態是方向
目前大模型市場仍以自然語言處理NLP為主,這主要是因為NLP領域的應用需求巨大,且近年來在技術上取得了顯著的進展。NLP大模型如GPT系列、BERT、XLNet等在語義理解、文字生成和翻譯等任務上展現出卓越的性能,推動了智能助手、聊天機器人、內容推薦、搜索引擎優化等多個行業的革新。NLP大模型的框架成熟度、參數和token量級也是其他類模型目前所無法比擬的。
但是業界不會止步于此,首先就框架來說,Transformer架構已經在NLP領域取得了巨大成功,類似的結構可能會被擴展到多模態學習中,以更有效地處理和融合多種類型的數據。其次是跨模態學習深度,多模態大模型的核心挑戰之一是如何實現不同模態之間的有效交互和信息融合,未來的研究可能會探索新的跨模態學習技術,如注意力機制、聯合嵌入空間的構建等,以提高模型對多模態數據的理解和生成能力。還有就是數據集和基準的豐富,應用場景的拓寬(自動駕駛、健康醫療等等)對多模態理解復雜環境和用戶需求有著較高的要求。因此,大模型由單模態向多模態升級已然成為行業共識。
通用人工智能AGI作為AI的終極目標,現在去討論顯然是不合適的。目前AGI的發展還處于初級階段,雖然已有AI在某些特定領域表現出了超越人類的智能水平,但仍有很多局限性,如只能處理特定類型的任務,缺乏泛化能力,且不具備真正的自主學習和自動推理的能力。之前Sora引發的AGI論也只是資本市場短暫的泡沫和高調而已。
落地與盈利,觸手可及的希望
雖然研發和資本游戲仍在內卷,大模型的落地和盈利不論從商用還是消費來看,絕對不僅僅是“最后一公里”的事。除了少數AI開發者開放API賣升級服務之外,在更多資本可以想象的場景和市場仍然是一片空白。盡管如此,業界依然寄予厚望,多年來在經歷了區塊鏈、元宇宙等概念的泡沫和熱潮褪去之后,人工智能深度學習的崛起和大模型的表現讓人們看到了扎實的技術革新和觸手可及的希望。
正因為如此,隨著大模型落地拐點將近,科技巨頭開始為之奔走尋求行業支持,初創公司亦如雨后春筍而且精準啟動。蘋果CEO庫克今年3月現身上海首談生成式AI,諸如Apple?Watch的摔倒檢測以及iPhone的預測性文本輸入等功能,蘋果公司正在尋求為自家產品線引入大模型的支持。促使蘋果加速AI落地的往往來自同行的壓力,谷歌宣布用于取代Google?Assistant的Gemini也即將登陸各類安卓應用,而微軟作為OpenAI的金主,早已布局了自家生產力工具和產品的方方面面。國內大模型也緊跟趨勢,在多個行業如教育、醫療、金融、汽車等方面表現活躍,如星火認知大模型在智能座艙應用場景展現出強大的溝通和理解能力;日日新SenseNova在專業文本理解、代碼生成和輔助初步醫療問診方面表現亮眼。
大模型的落地和盈利要面對的挑戰是一個多維度的問題。首先算法和數據處理方面雖取得了顯著進展,但算法參數量激增,訓練成本高昂,對模型優化和微調提出了更高的要求。其次AI性能很大程度上取決于高質量的數據,數據的獲取、清洗、標注和處理是一大挑戰,尤其是在保護數據隱私和符合法規要求的前提下。還有場景和應用經驗、多模態任務的挑戰等等,所以大模型的落地不能僅僅認為是“最后一公里”的事,而是從工程整體上檢驗案例項目的突破和進展。隨著技術的迭代革新和市場逐步成熟,這些挑戰最后都能得到有效解決。