AI新紀元

2023-04-14 00:54:10陳銳

第一財經 2023年4期

陳銳

人工智能正在把我們帶入一個新紀元，從很多維度看都是如此。

首先是一個叫作“人工智能生成內容”（Artificial IntelligenceGenerated Content，AIGC）的概念開始得到認可。它區別于之前的用戶生產內容（User Generated Content，UGG），也不同于更早期的專業機構生產內容（Professionally Generated Content，PGC）。這個歷程既表明了內容生產主體的切換，意味著具備生產能力和掌握發布權力的主體，正在從象征著“內容民主化”的個人，轉移到善用AI輔助創作的“超級個體”—甚至可以是獨立工作的AI本身；同時，它也意味著，AI能施展魔法的疆域正在跨越一個分界點：從“判別式領域”邁入“生成式領域”。

過去，AI被認為只能做好判別性的工作。比如，判斷一張圖片中的人臉是不是特定的某人，一封來自未知地址的郵件是否為垃圾郵件，一篇分享到社交網絡中的文章是否帶有負面情緒，或者在一輛自動駕駛汽車前面晃動的到底是需要避開的真人還是無須在意的樹影。

2022年面世的兩個文生圖產品改變了人們對AI的能力偏見。一個是DALL·E 2，發布者是后來因推出ChatGPT聞名的硅谷初創公司OpenAI。另一個是Stable Diffusion，出自位于倫敦、同樣是初創公司的Stability AI之手。兩個產品的圖片生成水平第一次讓業界看到商用可能。此前，業界最優秀的圖像生成工具是生成對抗網絡（Generative Adversarial Network，GAN），只能生成特定圖片—比如人臉，換成小狗就不行，得重新訓練—DALL·E 2和StableDiffusion沒有這種局限性。

上一個讓業界看到商用可能并大獲成功的AI技術是圖像識別。2015年，基于深度學習的計算機視覺算法在ImageNet數據庫里的識別準確率首次超過人類。此后，人臉識別系統迅速取代數字密碼，成為最新潮的身份標識；可識別商品的自助結算系統也很快進入各類線下門店；連追求安全至上的自動駕駛都用上了AI的視覺判斷。

Stable Diffusion和DALL·E2的商業前景毋庸置疑，但它們關于AI新時代的開啟充其量只是報幕員，ChatGPT才是主角，因為只有它解決了語言問題—起碼看起來如此。

語言問題的解決意味著新的交互革命，這是AI新紀元的另一個涵義。

科幻作家特德·姜（Te dChiang）體驗ChatGPT后，將其背后的AI模型（GPT）比作互聯網的“有損壓縮”，意思是，當它學習了所有網上文字的統計規律后，就相當于獲得了一個互聯網信息的壓縮版本—信息有所損失，但沒那么多，重要的是，我們需要保存的文件更小了。假使外星人襲來，互聯網毀滅，只要GPT還在，理論上我們能通過詢問它獲得原本存儲在互聯網上的所有東西。

事實上，不用幻想外星人入侵，特德·姜想象的這一天可能在不久之后就會到來。當人們可以用自然語言與機器交流，而機器不僅聽得懂這些自然語言，還能與人對話、按照人的話語行事—回答人的問題、畫一幅畫或者創作一個視頻、生成一款游戲，根據反饋意見再次修改，直到提出需求的人滿意為止—這時候，每個人的電腦、手機上還需不需要安裝那么多應用軟件就值得重新考慮。也許，只留一個ChatGPT就夠了。

此刻，相信你對無論ChatGPT還是更大范疇的AIGC到底意味著什么已有足夠感知，可能也聽過不少業界的溢美之詞，比如英偉達創始人黃仁勛稱現在為“AI的iPhone時刻”，比爾·蓋茨認為AI革命的重要性不亞于互聯網的誕生，微軟CEO納德拉則表示這種技術擴散堪比工業革命。

我們打算就此打住，不再過多陳述包括ChatGPT在內的生成式AI可能掀起的產業革命—隨后的幾篇文章會繼續從不同視角討論它。這里，我們后退一步，走到AIGC尤其ChatGPT的背后，看看這些最新出圈的AI明星究竟站在怎樣的基石之上。

ChatGPT發布之后，OpenAI團隊成員接受采訪，說公眾的熱情程度讓他們意外，因為“ChatGPT背后的大部分技術并不新鮮”。這一說法屬實，外界與之類似的總結是：ChatGPT是一種新時代的“煉金術”，把一個語言統計模型和基于人類反饋的強化學習放在一起，然后就是用可以拿到的語料、估計可行的人工神經網絡層數放在一起“煉丹”。

但相較于2018年以前的AI模型，ChatGPT背后的GPT至少有一樣東西是新的，那就是看待語言問題的視角。

人下一個會說出口的詞，往往是統計學上下一個最可能出現的詞—這個理念在語言學界早已有之，但將這種想法開發成對話語言模型是第一次。在此之前，幾乎所有號稱使用自然語言與人對話的機器人，從百度小度到微軟小冰，從亞馬遜Alexa到蘋果Siri，甚至拿到日本公民身份的Sophia，本質上都是基于搜索樹的查詢系統。而自然語言處理（Natural language processing，NLP）領域也被工程化地劃分為文本分類、機器翻譯、閱讀理解、文章分級等數十種任務，每種任務都對應一種或幾種算法模型。

注：黃色標注為Diffusion Model模型，其余為Transformer模型。數據來源：根據公開資料整理

這些看似不同的問題背后其實是同一個問題。比如，如果一個對話機器人“足夠聰明”，聰明到可以在電影評論中預測下一個單詞，那么它一定能完成一個簡單的正或負分類—成為一個電影分類器。

通關密碼就是2017年Google Brain團隊寫在論文里的Transformer（轉換器），GPT的歷代模型都基于這一算法架構。工作時，它會計算每個詞與之前輸入和生成的其他詞之間的依賴關系（通常被稱作“自注意機制”）。在最新發布的版本GPT-4中，模型能夠注意到的單詞量多達24576個。

Transfor mer認為，語言的內部數據之間長跨度地相互依賴，Transformer所做的工作，就是將既有文字的“內部依賴關系”轉換到未來的文字中去，也就是“生成”。

信息內部的基本要素之間相互依賴，且具有預測功能— 這種看待語言的視角之后也被用到了圖片上。2021年，Google Brain團隊再次推出一個叫“視覺轉換器”（VisionTransformer，ViT）的模型，通過計算同一圖像中像素與像素之間的依賴關系來識別圖像。

在此之前，語言和視覺被視為不同的東西。語言是線性的、序列的，視覺則是一種有空間結構的、并行的數據。但Transformer證明，圖片也可以當成序列問題來解決，一張圖片就是由像素起承轉合地構成的句子。

不僅圖片，大部分問題都可以轉化為序列問題。不要小看這種思維的轉變。2018年，DeepMind發布的AlphaFold具有預測蛋白質結構的能力，靠的就是對氨基酸序列的學習，其背后架構也是Transformer。

語言在人類智能中是圣杯，在人工智能中同樣如此。無論AIGC這個詞現在多么火熱，在ChatGPT解決語言問題之前，人們對于AIGC的態度跟之前對待元宇宙沒什么差別：熱情，但持疑。至少2022年年底前的AIGC浪潮中，沒有什么人提起過通用人工智能（Artificial General Intelligence，AGI）這個詞。

“涌現”也好，“質變”也罷，ChatGPT證明，機器可以從語言中得到的東西比我們預想的多。首先，它讓我們看到推理能力部分可以通過“見得足夠多”而模仿出來。就此宣稱ChatGPT有理解能力當然是種錯覺，我們明白它只是基于統計學上的關聯在推論。但“真正在思考”與“表現得像是在思考”，有時候只是哲學上的區別。

其次，基于Let’s think step by step的“思維鏈”（Chain-of-Thought prompting，CoT）技術表明，只要更富邏輯性地使用語言，機器就能學到更正確的東西，而不只是玩文字游戲。一個亞馬遜在其CoT相關論文中使用過的例子是，給AI看一張畫有餅干和薯條的圖片，然后問它兩者的共同點是什么，題目給出兩個選項，A.都是軟的；B.都是咸的。訓練時，工程師并不會訓練AI直接作出選A或者選B這樣的簡單關聯，而是訓練它生成一段邏輯充分的文字：對于餅干和薯條，AI都要被訓練說出它們各自的特性，比如薯條是咸的，有的餅干也是咸的；薯條捏的時候會變形，所以薯條是軟的，餅干捏的時候不會變形，所以餅干不是軟的；所以薯條和餅干的共同點是都是咸的，答案是B。

相似的一步步拆解問題的邏輯，你應該已經在ChatGPT的回答中看到過很多次，它們都基于提示詞工程師（Prompt Engineer）對足夠多問題的拆解。邏輯跳躍的教育常會讓學生不得要領，邏輯縝密的解題思路則讓兒童也能舉一反三。用人類語言學習的AI同樣如此。

語言能力本身是種智能，而它攜帶的智能更多—從推理能力到數學，這是語言學家們此前低估的東西。如果把各AI模型看作一個大家族，此前的AI多數只能從信息和智能都有限的數據中學習，比如商品圖片、人臉、交通信號燈，即使做文字識別或翻譯，它們也只是把文字當成圖片或成對信號，只有GPT這樣基于Transformer的語言模型，第一次直接從語言的內在結構中學習。只要語言中有的東西，幾何、色彩、味覺、速度、情感……假以時日和正確教育（比如更好的prompt），GPT這樣的模型都能學到，除非語言中沒有。

ChatGP T與Transformer讓人分別從使用體驗和算法兩個層面看到了通用人工智能的希望。尤其多模態的GPT-4推出之后，AI似乎變成了真正的全能助手—至少在網絡上：理解人的自然語言，能幫人做會議總結、做PPT、分析股票市場、想廣告文案、創作小說，還能根據意見不斷修改圖片，甚至一鍵生成與草圖相似的網頁代碼。似乎用不了多久，AI與AI之間就要開始用人的語言交流了。

但請注意，這些都不等于通用人工智能已經到來。所有基于Transformer的大型語言模型（Large Language Model），本質仍是文字游戲。它們無法在生成式技術內部解決事實性錯誤問題，也無法僅靠語言就掌握所有邏輯推理能力，比如“如果某事沒有發生會怎樣”的反事實推理。

涉及到文字外部的世界，基于Transformer的多模態模型（比如GPT-4）能多大程度地做好各種模態間的信息轉換，同樣是個問題。過去，圖與文、聲音與畫面、觸覺、嗅覺等等之間的信息轉換，在AI里面是個黑盒。電商場景中，一張圖片能獲得的文字描述的適配程度，取決于用于訓練的成對圖文語料質量。一旦圖片是新奇的，是否能獲得適配的文字描述就有待商榷。雖然已經將模態間的成對學習打碎到了像素級，Transformer無法足夠好地轉換文與圖的問題仍然存在。

假如要讓ChatGP T制作一幅海報，你擬定需要寫在海報上的標題和部分文字并確定海報風格，ChatGPT生成的東西可能看起來很像海報，但上面的每一個字都不是真正的字，而是筆畫錯亂的怪物。很簡單，當ChatGPT開始制作海報，它就進入了理解像素關系和搬運像素的作畫模式，而非輸出文字的語言模式。一個不錯的想象是，也許經過更多訓練，ChatGP T能夠學會寫漢字，畢竟中文字畫同源，而英語是表音文字，ChatGP T要學會可能就沒那么容易。

無論如何，一個會把文字轉換成怪物的AI很難稱得上是AGI。所以Transformer也并非一定是AI的未來。

和Transformer 一樣正在受追捧的算法是擴散模型（Diffusion Model），目前文生圖領域的幾個明星產品，從Stability AI的Stable Diffusion到Google的Imagen和Parti，以及產品與公司同名的Midjourney，背后的算法都不是Transformer，而是擴散模型。

3月初，通過在功能性磁共振成像（f MR I）數據上加載擴散模型，來自日本的兩位學者重建了包含在f MRI數據中的視覺圖像，初步表明擴散模型—而非Transformer—的生物合理性。

“人并不會像現在的A I體系一樣，往右邊一套生成式系統），往左邊又是一套（判別式系統），人只有一套閉環系統。那就是在內部建構一套‘世界模型’，然后對所有問題作出預測。”香港大學同心基金數據科學研究院院長馬毅在3月的一次線上論壇中說。早在1950年，圖靈第一次提出用隨意提問來判斷機器能否像人一樣回答問題的時候，“是否像人一樣”就是衡量AI智能程度的標準，這個標準永遠不會過時。