盧志武，最難是思想的突破

2025-01-01 00:00:00向治霖

南風窗 2025年1期

人工智能，容易唬人。業內的一眾人等，樂于為自己打造故事，或者說一些驚世之論，“重寫一切代碼”已經只是起步水準，“超強AI威脅人類”早就屢聽不鮮。

盧志武沒有這樣的故事，也不會講這樣的話，甚至看上去，他是一個訥言的人。

收起鋒芒，在人群中，他只是行色匆匆的普通人。與他交談時，他的語言也很樸素，音量不大。不同的是他的眼神，沉靜，清醒，似乎不怎么眨眼，能讓人感受到它的穿透力。

不像外表那樣的憨厚，盧志武是“有刺”的，尤其是提到團隊成果與OpenAI的Sora“撞車”的時候。

2024年2月，美國最強的人工智能公司OpenAI，發布它新一代視頻生成模型Sora。就像它的上一個產品ChatGPT那樣，Sora對視頻生成領域作出顛覆性改變，拋棄業界傳統的U-Net架構，改用擴展性更好的Diffusion Transformer（縮寫為DiT）。

就在世人驚呼Sora生成的視頻效果之好、DiT技術的前途無限時，業內赫然發現，在Sora發布的10個月前，在中國人民大學高瓴人工智能學院，盧志武教授的團隊早就公開發布了“幾乎一模一樣”視頻生成技術的研究成果。

科學史上，一項成果的首發者身份歸誰所有，是為數不多能讓“巨人們”爭得面紅耳赤的問題。盧志武的團隊領先10個月，沒什么“口水仗”可打。

不過，提到這個“撞車”事件，盧志武并不得意，也沒有笑容。他平淡的語氣反而變得嘲弄起來。“技術上我們是第一個提出的，但把產品做出來，我們為什么不能是第一個呢？”

“一口氣”與“一根刺”

時勢造英雄。盧志武得“時”，也得“勢”。

2019年，中國人民大學的校友、高瓴資本創始人張磊捐資，網羅了“一大批很牛的人”，建設專門做AI研究的學院。從此，他們盯住了業內的一切風吹草動。

更關鍵的是2020年，那是“大模型”剛剛被命名的一年。當年10月，北京智源人工智能研究院向時任北京市市長陳吉寧報告了“百人大模型計劃”，預備“煉大模型”，北京市決定大力支持。這一項目，就是后來被稱為中國第一個系列大模型的“悟道大模型”。

今天來看，悟道大模型是中國AI發展的轉折點，它也培養了中國第一批大模型人才。

煉大模型需要錢，“（北京市）一下子批了幾十億做大模型。所以，中國的大模型沒有掉隊得很厲害，都要感謝陳市長”。盧志武如此評價。

悟道項目中，最重要的高校力量是“清華隊”和“人大隊”。就這樣，盧志武隨“人大隊”加入了這個元老級的大模型項目。

而那個時候，美國是AI絕對的主陣地，國內的種種動向，也不過是聞風而起。

結合AI在美國的發展路線，會看得更清楚：2018年，谷歌發表著名的BERT論文，真正地將“預訓練”的潛能發揮出來，AI開始顯現出“一模多用”的可能；2020年，OpenAI的GPT-3模型問世，強大的性能震驚業內，其1750億的參數量，遠遠超過當時主流模型1億到10億的參數量，研究人員第一次感受到“暴力美學”。

從那時算，再過2年，由OpenAI領銜的新一代AI就將震撼世人。從未見過的玩法和產品，如生命演化中的寒武紀時期一般，有如神跡，至今層出不窮。

但作為AI學者，盧志武的眼中，“硅基生物的寒武紀”有跡可循，其演化也有邏輯存在。在2020年，雖然這一切還看不清楚，但他直覺到，大模型是真正的未來。

“肯定有理性的分析（來判斷），但是首先，這是一種直覺，你能立刻決定這個（大模型）能做。”盧志武說。

那時他判斷，在此之前的上一代AI雖然很火，但已經顯現出疲態來。舊版“AI四小龍”已經走到茍延殘喘之時，有一些任務以及場景始終做不好，“說明那一代AI的技術有缺陷”。盧志武的話語直白簡單。

悟道大模型項目是一個他珍視的機會。“我不知道別人是怎么想的，其實在我們自己心里，大家心里都有一口氣。”盧志武解釋，“我們”，也想做出世界范圍內的重要工作，說俗一點，我們也想青史留名。

他的語氣依然平實，又補充道：“你看歷史上的霍去病。你去當武將，肯定都想做霍去病這樣的人。”

沒人走過的路

盧志武是幸運的。谷歌的Bert與OpenAI的GPT-3，都是公開發表之作，或許令當時AI圈的人都有“直覺”。但在參與悟道大模型的項目后，盧志武有機會親自驗證直覺。

但是探索也從來是艱難的。正如今天的OpenAI被嘲笑為“CloseAI”，原因就在于，GPT-3之后，它不再公布任何旗下研究的技術文檔與細節。

大家開始了摸黑前進。

悟道大模型有4個項目，對應4個不同的大模型。“人大隊”由高瓴人工智能學院院長文繼榮帶隊，負責其中的“多模態大模型”研究任務，盧志武是團隊中的模型組的負責人。對應的大模型，后來被命名為“文瀾”。

“多模態”的概念不難理解。無論是Bert還是GPT-3，以至于最早的ChatGPT，它們屬于語言大模型，只能通過對語言的認知和理解能力完成任務，而“多模態大模型”既能理解文字，也能理解視覺（圖片、視頻等）。

上一代AI技術中的計算機視覺（CV），與多模態大模型有著繼承關系。不過，盧志武認為舊的范式在落地時有天然的缺陷，“它的通用性、泛化能力不強，這就是上一代AI公司盈利難的原因”。

時鐘撥回2020年，那時，沒幾個人相信一個AI模型能夠具有泛化能力。

盧志武團隊很快決定增加模型的參數量。“這個方向，我也不是100%確認，但如果有50%的把握，我就敢投入”，這是他一直以來的研究態度。

過程中，心中的把握逐漸切入80%，這讓盧志武和團隊都興奮不已。它是全新的創舉—2023年以前，多模態模型一直是“無人區”。而早在2020年，盧志武就想用圖文數據來訓練一個具有圖文能力的大模型，這是從未有人做過、甚至很少有人想到的。

2021年，盧志武曾對媒體說：“完全是在一片黑暗之中摸索的。”

關鍵在于原理設計。舊的計算機視覺時代，研究的都是專用小模型，相關經驗不可參考。而在大模型研究的早期，包括領先者谷歌，都采取主流的“圖文對”訓練視覺模型。意思是說，訓練數據只能由圖文對組成，圖文對是指一張圖片和一段對該圖片解釋說明的文字所組成的“對子”。通過將大量“對子”輸入機器，來訓練機器內部的神經網絡，最終，期待機器能理解圖片和文字。

因此，當盧志武決定煉多模態大模型時，緊隨而來的問題就是，如何獲取巨量的、新的訓練數據？

他們只好從網絡上爬圖，并且默認“一個圖片附近位置的文字，大概率是與它有關的，但是關系沒有（圖文對）那么強”，以此獲取了訓練數據。

新的問題又來了，弱聯系的“圖文對”，顯然不能按主流架構來訓練，會把機器越訓越傻。盧志武設計了“雙塔結構”來使用新的訓練數據。他們不再像主流做法那樣，對“圖文對”進行整體編碼，而是分別將圖片和文字都進行編碼，再作匹配等進一步的訓練。

這與機器學習中“自監督”或“無監督”的概念相似，但不完全是一回事。何況，“當時自監督、無監督，都是很新鮮的概念，還沒什么人提”，盧志武說。

它完全是新的訓練方法。

2021年3月，首個中文通用多模態預訓練大模型文瀾問世。在此兩個月前，OpenAI的第一個多模態大模型CLIP出爐。“你看CLIP，它跟我們的架構是一模一樣的，只是一些細節上有差異。”盧志武說。

最難突破的

文瀾與CLIP，是盧志武團隊與OpenAI的第一次“撞車”，類似的事情，又發生過兩次。

一次是多模態的應用產品，盧志武團隊、AI創企智子引擎，在2023年3月8日推出了全球第一個多模態對話應用“元乘象”。就在6天后，3月14日，OpenAI發布GPT-4，宣布它是一個多模態模型及應用。

另一次就是著名“撞車”事件，盧志武團隊在2023年5月公開發布的VDT（Video Diffusion Transformer）技術，與2024年2月Sora的底層架構DiT（Diffusion Transformer）撞車。盧志武把話又說了一遍，“幾乎一模一樣”。他補充說：“我甚至懷疑它（OpenAI）參考了我們的論文。”

“撞車”的描述來自媒體，談及對這個詞的看法，盧志武沉默了會兒，說道：“應該說是幾乎同時，或者（除了文瀾與CLIP），我們比它還稍微領先一些。”

不過，盧志武自己不能夠很好地解釋，為什么他能夠接二連三地做出全新的學術成果。

他的回答，頗有煉大模型的一種“暴力美學”范兒。他說：要在世界范圍內領先，當然是挺難的一個事情，有各種機緣巧合，跟人的認知有關，跟團隊的水平有關，跟當時所處的環境有關，這些得湊在一起。

成敗只是從事兒來看。盧志武也強調，做學術，做創新，“你認為（找到了）是這條路，但是沒成之前，你就是在黑暗中”。

即便邏輯理順了，要得到最終好的結果，中間其實有九九八十一難。

文瀾時期，他們的工作沒有任何經驗借鑒，“代碼都是一行一行重新敲的”。當時，團隊的人每天一睜眼，就要面臨全方位的問題，可能數據出問題，可能編程上出問題，可能算法上出問題，系統調用也會出問題……全靠團隊的人自己應付。

身處高校，盧志武和他的團隊，不會沒有論文考核的壓力。他記得訓文瀾時，一位特別年輕的女學生，入組三個月就弄出了高血壓。另有一位14歲上大學的“天才少年”，是訓練的主力，壓力之下，頭發都白了，“當然（文瀾項目）結束之后，頭發黑回來了，高血壓也消失了”。

做創新，最難的當然不是身體疲勞，是“沒有人告訴你該怎么做”。盧志武說：“我覺得最難的是思想上的難，實踐的時候肯定會有難度，但是那個難度是可克服的。”

思想上的難，第一難可能是，敢于不同。

無論是訓練文瀾，還是與Sora撞車的VDT，都與眾不同。盧志武說：“我是喜歡反著來的。”

于是，2022年，做多模態對話的盧志武轉入AI視頻生成的研究，技術上是很自然的。另一方面，他回憶，“當時聽到硅谷的消息，據傳2023年應該是AI視頻技術的一年”。

與文瀾時期類似，他不想走主流的路。當時，視頻AI創企一片火熱，如Pika、Runway等等，它們都用了傳統的技術架構U-Net。盧志武解釋說：“我一直想做有影響力的工作，不想跟著別人屁股后面走。你要說初心，要說真實的原因，就是這么簡單。”

盧志武并不覺得自己很特殊。他說，就像在Sora之前，要使用DiT架構做視頻生成，這件事不可能只有他想過，“肯定也有人想過做過但是沒成。只是我的執行力強而已”。

活下去

2024年初春時節，就在Sora的“宣傳片”掀起全網的浪潮時，中關村的人大系初創公司智子引擎也迎來戲劇性的一幕：從前這里門可羅雀，此后拜訪的人絡繹不絕。

在盧志武眼中，這一幕卻有悲劇的意味。

此時，他悄然露出鋒芒，“就是這樣，我們老是干這種事”，他譏誚道：“中間近一年的時間差，沒人愿意支持我們。大部分投資人不相信我們能做出來，可能也不相信中國人能做出來。假如我是一個美國人，他們馬上就信了。”

盧志武看得清楚，從悟道到具體的文瀾，再到視頻生成技術，與OpenAI“幾乎同時”，但是影響力完全不是一個量級。

與Sora“撞車”前，他也找過很多投資人，“他們聽得挺興奮的，但都是不敢出手”。即使撞車后，來訪的投資背景的人多了，盧志武也覺得“沒有太大意義，他們找我不是要投，只是想知道Sora的技術細節到底是什么樣的”。何況，Sora已經做出第一個產品來。

“（心里）肯定是不平。”盧志武說，但這沒有辦法，當前學術圈或者科技創新的圈子里，不公平的事有很多，這也不是頭一起了。

投資環境的不友好，疊加競爭對手的瘋狂“內卷”，令AI行業迅速進入淘汰期，活下去是第一訴求。

“現在的六小虎，明年可能要死一半。”這是盧志武的判斷。當然，他也無法逃離激烈的內卷，好在智子引擎“船小好調頭”，員工約50人，能夠控制住成本。

盧志武介紹，現在團隊的主力產品和服務，還是以多模態大模型為核心。客戶粗略分為大客戶和小客戶兩類，大客戶如地方政府、央國企等。

小客戶方面，盧志武著重介紹了“影樓”的例子。許多愛美的女性會到影樓拍寫真，影樓提供攝像以及搭建場景、搭配衣裝的服務。“可能拍攝100張照片，最后選出20張左右，做成集子”，其中大部分作品被浪費了。團隊想到的辦法是，經客戶同意，將有瑕疵的廢片制作成AI視頻，自由度高，風格多樣。結果證明，許多用戶愿意為此掏錢。

另一邊，影樓本身需要在各大論壇處引流，智子引擎還為其提供AI生成宣傳物料的服務，人力成本下降了，制作的物料卻成倍增長，營銷對象更加多樣、精細。

想用AI掙錢，必須要真正深入場景。盧志武介紹說，其實圖片生成、視頻生成的應用很多，智子引擎團隊用了大半年的時間，吃透場景，目前已經合作了數十家影樓。而影樓及其客戶，稱得上是對圖片質量要求最苛刻的人群，這反過來訓練了團隊和模型的基本功。

或許是因為見過上一代AI創企的窘迫，盧志武不愿賺自降身價的錢。比如，只是賣通用大模型，會因為開源模型的井噴導致模型逐漸廉價，走不通。一味強調定制化，針對每個場景都深度定制，成本太高，單純是個力氣活，也走不通。

訓練AI時，算法、架構的迭代演化，有時不只是為了實現，還為了更優雅地實現。做AI的生意，類似于此，不是為了眼前而涸澤而漁，內卷致死。

活下去，蟄伏，或許就能等到競爭環境的改善，等到理想主義的資本入場，等到高校與企業“產學研”架構更進一步的釋放。這些同樣需要思想上的突破，很難。

南風窗2025年1期

南風窗的其它文章: “開夫妻店”越來越難了？; 技術現實主義者宣言; 在歐洲，保護加密通信服務; 為什么要追求共同富裕; 提前大選卻逢慘案，朔爾茨還有戲？; “雙總統”時期的美國權力奇觀