GPT、Sora為什么都來自OpenAI？

2024-03-18 10:13:28蔣馨爾陳志芳王亞賽

科學大觀園 2024年6期

關鍵詞：模型

蔣馨爾　陳志芳　王亞賽

視頻生成模型 Sora 橫空出世半個月后，仍在強勢刷屏。

這款 AI 可以生成長達 60 秒的高質量視頻。最令人恐懼的是，其學習的對象不局限于畫面、像素，Sora 還“學會”了一些視頻中呈現的物理規律（比如人在雨后走過，水面有倒影）。因此，研發它的 OpenAI 稱其為“世界模擬器”。

但很多人的疑問是：幾乎所有的科技巨頭都在投入大模型研究，為什么這次出圈的模型，又是來自 OpenAI？

真正的偉大，無法被計劃

2015 年 OpenAI 成立之初，對如何實現目標毫無頭緒。

公司的創始人兼 CEO 薩姆·奧爾特曼回憶道，最初這個團隊連辦公室都沒有，大家聚集在公寓里，他腦子一直在想：我們該怎么辦？

這種狀態持續了很久。OpenAI 成立一年多時，所有事情都進展緩慢。大家只是胡亂嘗試一通，鉆研了解決視頻游戲的系統，在機器人技術上花費了大量精力，然后發幾篇論文。

奧爾特曼想起當時公司的景象時說：“我們知道我們想做什么，我們知道為什么要這么做，但我們不知道怎么做。”

不過，這個團隊一直被一種樂觀力量所驅使，大家對于 AGI 的瘋狂愿景，讓事情在最終迎來了轉機。所謂 AGI，即通用人工智能，也就是像人類一樣完成復雜任務的 AI。

這個愿景人類期待了很久，奧爾特曼和他的團隊也是。

奧爾特曼 8 歲時，父母送給他一臺電腦。一次玩至深夜，他的腦海中突然閃現出一個想法：“有一天，這臺計算機將學會思考。” 等奧爾特曼 2003 年進入斯坦福大學就讀時，他仍想完成年少時的夢想，為此修了部分人工智能的課程，但他覺得這些“根本沒什么用”。

退學后，奧爾特曼進入科技孵化器 Y Combinator 工作，并在 28 歲接任 CEO。那時，計算機已經能通過深度學習和神經網絡完成一些任務，比如給照片貼標簽、翻譯文本等。這些進步第一次讓他相信，AGI是觸手可及的。

然而，把AGI交到大公司手中，讓他感到擔憂。奧爾特曼認為大公司會過于專注自己的產品，而無法抓住機會盡快開發出通用人工智能，即使他們真的開發出來，也可能很魯莽地將其公之于眾。

當時，奧爾特曼一直在考慮競選加州州長，但很快他意識到，自己可以做一件更大的事：“領導一家可能改變人類的公司。”奧爾特曼開始尋找一些同行者，幫他共同創辦一家新型人工智能公司。

彼時，埃隆·馬斯克正因與谷歌聯合創始人拉里·佩奇的一場AI 討論，而倍感不快。馬斯克事后在 CNBC 的一次節目中談到此事，佩奇認為機器人和人類應當擁有平等的權利，并指責自己是物種歧視者。這種對于AI安全的“漠然”態度，讓馬斯克感到擔憂。

奧爾特曼和馬斯克一拍即合。幾個月內，奧爾特曼就從馬斯克和里德·霍夫曼等人那里籌集了資金。奧爾特曼開始招兵買馬，他將招聘范圍定得極窄：必須是AGI的信徒。憑借他本人和馬斯克的號召力，以及探索AGI這套誘人的話術，奧爾特曼挖來了 Stripe CTO Greg Brockman和谷歌大腦核心科學家 Ilya Sutskever 等人。

轉折點出現在公司成立一年多后，OpenAI先后等來了一個人和一項技術。

一個人是傳奇AI研究員Alec Radford。他 2016年加入 OpenAI 時，最大的興趣是讓神經網絡與人類進行清晰的對話。

他先是通過20億條Reddit評論來訓練語言模型。和OpenAI的許多早期實驗一樣，這個實驗失敗了，但這個23歲的年輕人獲得了繼續前進、再次失敗的許可。Alec Radford繼續使用1億條亞馬遜評論訓練模型，去預測、生成評論中的下一個字符。這一模型能夠判斷評論是正面還是負面的，如果讓模型創建一條正面或負面的評論，它也能做到。“這完全是意外之喜”，辨別評論的情感是一個復雜函數，但不知為何，Alec Radford的模型找到了一點感覺。

而OpenAI等來的技術則誕生自它的競爭對手谷歌。2017 年初，一篇由 8 位谷歌研究人員合著的研究論文預印本出現了，但并未引起人們的注意。這篇論文的正式標題是“Attention Is All You Need”，它后來被稱為“Transformer 論文”。Transformer使神經網絡能夠更高效地理解和生成語言，通過并行分析語料，找出哪些元素值得關注。這極大地優化了生成連貫文本以響應提示的過程。后來人們意識到，同樣的技術也可以生成圖像甚至視頻。

雖然該論文后來被稱為當前 AI狂潮的催化劑，但在當時，Ilya Sutskever只是少數幾個了解這一突破有多么強大的人之一。Brockman 回憶道，Ilya 看到 Transformer 出現時，驚喜地喊道：“這就是我們一直在等待的。”

之后，Alec Radford 開始試驗 Transformer 架構。他表示，當時在兩周內取得的進展超過了過去兩年的進展。

Radford 和他的合作者給他們創建的模型起的名字是“generatively pretrained transformer”——這就是今天我們耳熟能詳的 GPT 一詞縮寫的全稱。最終，這個模型被通稱為“生成式 AI”。該模型包含 1.17 億個參數或變量，在理解語言和生成答案方面的表現優于之前的所有模型。

僅從事后的敘述來看，OpenAI 的成功仿佛是一步一個腳印的，它把握住了所有關鍵時點，無一遺漏。但是奧爾特曼仍然強調：“我們沒有總體規劃。”OpenAI所做的一切就像“穿過迷宮到達終點”，而終點即是安全的 AGI。

即便是對于GPT的誕生，奧爾特曼也感到吊詭。他10歲時，對于AI的想象遵循這樣的路徑：有機器人后，先體力再腦力；在初級腦力工作后，再會做復雜腦力工作，比如證明一個數學定理，最后才是擁有創造、寫作等深層次能力的 AI。但“事實正朝著完全相反的方向發展”。

OpenAI的科學家肯尼斯·斯坦利和喬爾·雷曼在近期出版的書籍《為什么偉大不能被計劃》對此進行了高度總結：真正的偉大無法在計劃中誕生。

作者喬爾·雷曼在一次專訪中表示OpenAI做了很多了不起的事，但ChatGPT絕對不是OpenAI 成立之初的目標。OpenAI的許多早期探索還與電子游戲、多代理模擬（multi-agent simulations）和機器人有關，許多通往 ChatGPT 的踏腳石都沒有把 ChatGPT 當成最終目標。

某種意義上，ChatGPT 的緊急推出，也是一種營銷策略。

營銷踩點，OpenAI 搶走谷歌風頭

OpenAI 成立之初，頗有一層與谷歌對抗的意味。奧爾特曼和馬斯克都認為：與其讓大公司控制少量的 AI 系統，不如讓大量獨立的 AI 系統同時存在予以制衡，人們可以根據開放的源代碼建立各自的 AI 系統。

彼時的谷歌確實是 AI 領域的老大哥，ChatGPT 最初依賴的 Transformer 架構即來源于谷歌。但現在的 OpenAI 至少在 AI 領域，已有足夠的底氣和谷歌掰手腕。

僅從事后的敘述來看，OpenAI 的成功仿佛是一步一個腳印的，它把握住了所有關鍵時點，無一遺漏。但是奧爾特曼仍然強調：“我們沒有總體規劃。”OpenAI 所做的一切就像“穿過迷宮到達終點”，而終點即是安全的 AGI。

最近一次商戰在 2 月 16 日。

當時，谷歌推出了據稱性能上超越 GPT-4 Turbo 的 Gemini 1.5 PRO ，而僅僅在兩小時后，OpenAI 就推出了 Sora。Sora 推出后，奧爾特曼在社交媒體X上在線接單，按照用戶給出的提示詞一連發布了 8 條視頻。此外，OpenAI 官方號還進駐 TikTok 發布 Sora 視頻，僅一周時間就收獲了超 14 萬粉絲。這些方式進一步“炒火”了 Sora。

很難說，這只是一種巧合。我們發現在谷歌推出某項新產品、新模型或新計劃后，奧爾特曼常常會從“武器庫”里翻出一把利器。人們的目光便立刻從谷歌身上移開，并且不再回來。360 創始人周鴻祎對此表態：“OpenAI CEO 是個營銷大師，知道怎樣掌握節奏，他們手里的武器并沒有全拿出來。”

這樣的例子并不鮮見。

谷歌在 2023 年 3 月 22 日推出聊天機器人 Bard，當被問及與 ChatGPT 的區別時，Bard 就回復：“我不僅基于文本和代碼，并且有互聯網上的真實世界的信息作為支撐，因此我能夠做到 ChatGPT 做不到的事。”僅僅兩天后，OpenAI 就宣布向部分用戶開放插件和聯網功能。

到了 2023 年 5 月，谷歌和 OpenAI 的擂臺仍不休止。前腳是谷歌在開發者大會上宣布一系列 AI 成果——推出據稱部分能力超越 GPT4 的 PaLM 2 模型、演示 Bard 聯網，后腳 OpenAI 就宣布向會員開放插件和聯網功能。

當然 OpenAI 的營銷瞄準對象并不僅谷歌一家。

OpenAI在2022年4月份小范圍內推出了文生圖模型 DALL·E2，不過很快風頭就被開源的 Stable Diffusion 和另一競爭對手 Midjourney 蓋過。數以百萬計的用戶都在使用文生圖產品，一時間呈現出病毒式傳播現象。

OpenAI 從中獲得的啟示是，向大眾公開生成式 AI 產品，不僅能吸引大量用戶，收獲有價值的用戶數據，還可能引來更多資金。

那什么樣的營銷事件能讓話題關注度迅速回來？

OpenAI 的答案是聊天機器人。

彼時，OpenAI 在 GPT 4 上已經花了一整年，模型也基本準備就緒。但是來自市場層面的壓力迫使 OpenAI 調轉車頭，迅速發布一個聊天機器人。從計劃推出 GPT 4 轉到做一款聊天機器人，僅僅13天后，ChatGPT 就誕生了。

這種策略后來被稱為“迭代部署”，構建所謂的“最小可行產品”：先拼湊出一個很酷的演示，吸引一小群喜歡它的用戶，并根據用戶反饋進行改進，再把產品推向全世界。最終，如果足夠幸運并且做得正確的話，這將吸引大量用戶，點燃媒體炒作周期的導火索，巨額資金將隨之而來。

暴力美學，Scaling Law信仰

這次出圈爆火的Sora可以生成長達 60 秒的高質量視頻。令人恐懼的是，其學習的對象不再限于畫面和像素，它還“學會”了視頻中展示的物理規律。

Sora使用一種新的Diffusion Transformer模型，它融合了擴散模型與自回歸模型的雙重特性。不過，在 Sora 的技術文檔里，OpenAI并沒有展開模型的技術細節，只有透露了諸如“patch（視覺補丁）技術”“重新字幕技術”等拼圖碎片。

但是，一個核心理念——Scale又再次被提及。文檔寫道：Sora基于的Diffusion Transformer 模型也是符合規模效應的（scale effectively），隨著訓練計算量增加，視頻質量顯著提升。

這一理念以 Scaling Law（規模法則）的名稱為業內熟知。根據 Scaling Law，模型性能會在大算力、大參數、大數據的基礎上像摩爾定律一樣持續提升，這不僅適用于語言模型，也適用于多模態模型。

OpenAI 是 Scaling Law 的忠實信徒，其將 Scale 列為企業核心價值觀之一：“我們相信規模——在我們的模型、系統、自身、過程以及抱負中——具有魔力。如有疑問，擴大規模。”

來自 OpenAI 的科學家喬爾·雷曼在一次專訪中對此強調：有一條主線貫穿 OpenAI 研究的始終，即規模——大型神經網絡、大數據、大量算力的重要性，很多人遲遲沒有意識到這一點。這一表述揭示了 OpenAI 持續領跑的另一原因。

無論是一年多前風靡全球的 ChatGPT，還是目前火出圈的 Sora，再到 OpenAI 早期爆發業內地震的 GPT-3（有 1750 億參數，一位圖靈獎得主稱“全宇宙無非是 4.32 萬億個參數而已”），可以說都是 Scaling Law 的產物——當模型足夠“大”，就會產生智能涌現的能力。

那么，模型一定是越大越好嗎？如果數據量足夠大、算力足夠充沛，是否永遠觸不到上限？目前的觀點仍是莫衷一是的。

支持者認為，超大規模及足夠多樣性的數據、超大規模的模型、充分的訓練過程，是讓 AI 智能“涌現”的必由之路。路途之中，可能會出現出人意料的驚喜，也可能是驚嚇。

反對者認為，大模型雖好，但其性能有一個上限，雖然這個上限尚不明確。

最易被人理解的原因是“數據是有限的”，一篇 2022 年 MIT 的論文給出了這樣的估算結論：高質量的語言數據將會在 2026 年左右用光，低質量語言數據會在 2030 到 2050 年用光，低質量圖像數據會在 2030 到 2060 年用光。

還有一種觀點認為大模型存在方向上的路線錯誤。這一派觀點主要認為：大模型本質上只具有通過觀察進行因果歸納的能力，不具備因果演繹的能力。但是，AGI 應該是一個“能夠理解世界的模型”，而不僅僅是描述世界。

◎ 來源|澎湃新聞（有刪減）