從超級(jí)電腦到虛擬小鎮(zhèn)：“人工智能代理”的媒介考古

2024-01-01 00:00:00胡泳張文杰

現(xiàn)代出版 2024年6期

內(nèi)容摘要：ChatGPT爆火后，老牌巨頭、后起新銳紛紛涌入大語(yǔ)言模型賽道，掀起一波生成式人工智能代理熱潮。實(shí)際上，人工智能代理并不是一個(gè)新興概念，其歷史可追溯至互聯(lián)網(wǎng)誕生之初，其蘊(yùn)含于過(guò)往的媒介想象中，經(jīng)歷了從理念建構(gòu)到實(shí)踐落地的范式轉(zhuǎn)型。可借鑒媒介考古學(xué)的媒介史研究視角，通過(guò)重訪(fǎng)與串聯(lián)那些未被重視的歷史細(xì)節(jié)，勾勒關(guān)于人工智能代理的媒介想象與傳播史線(xiàn)索。新近涌現(xiàn)的生成式人工智能代理的技術(shù)路線(xiàn)與平臺(tái)模式呈現(xiàn)若干特征。圍繞人工智能代理展開(kāi)的媒介實(shí)踐史生動(dòng)地呈現(xiàn)了新舊媒介的交錯(cuò)、糾纏與融合。如今，被視為“下一個(gè)平臺(tái)”的生成式人工智能代理本質(zhì)上是大語(yǔ)言模型范式的實(shí)體化產(chǎn)物，其開(kāi)發(fā)與應(yīng)用深嵌于以算力資源為核心的基礎(chǔ)設(shè)施網(wǎng)絡(luò)，而后者早已呈現(xiàn)日益深化的平臺(tái)化趨勢(shì)。

關(guān)鍵詞：人工智能代理；通用人工智能；媒介考古；平臺(tái)化；API

DOI：10.3969/j.issn.2095-0330.2024.06.003

一、引言

2023年4月7日，斯坦福大學(xué)與谷歌（Google）公司的研究者們發(fā)表了一篇轟動(dòng)人工智能領(lǐng)域的論文。他們構(gòu)建了一個(gè)名為“Smallville”的虛擬小鎮(zhèn)，25個(gè)人工智能代理在這個(gè)交互式沙盒環(huán)境中模擬人類(lèi)行為——它們?cè)谛℃?zhèn)散步、約會(huì)、聊天、用餐以及分享當(dāng)天的新聞，可謂讓美劇《西部世界》走進(jìn)現(xiàn)實(shí)。此后，Voyager、GITM、SIMA等生成式人工智能代理涌現(xiàn)出來(lái)，被視為強(qiáng)大的通用問(wèn)題求解器。2023年11月，微軟（Microsoft）公司創(chuàng)始人比爾·蓋茨（Bill Gates）在文章《人工智能即將徹底改變你使用計(jì)算機(jī)的方式》（AI Is about to Completely Change How You Use Computers）中描繪了人工智能代理成為“平臺(tái)”（platform）的未來(lái)景觀：“在計(jì)算行業(yè)，我們談?wù)撈脚_(tái)——構(gòu)建應(yīng)用程序和服務(wù)的技術(shù)。Android、iOS和Windows都是平臺(tái)。人工智能代理將是下一個(gè)平臺(tái)。”

此前，源自西方的“平臺(tái)”概念被定義為一種旨在組織用戶(hù)之間交互的可編程架構(gòu)，主要指由美國(guó)的五大科技巨頭GAFAM（Google-Alphabet，Amazon，F(xiàn)acebook-Meta，Apple和Microsoft）主導(dǎo)的社交媒體和其他數(shù)字服務(wù)市場(chǎng)；“平臺(tái)化”（platformization）則被用來(lái)描述平臺(tái)作為社交網(wǎng)絡(luò)的主導(dǎo)基礎(chǔ)設(shè)施和經(jīng)濟(jì)模式的崛起，以及社交媒體平臺(tái)擴(kuò)展到其他在線(xiàn)空間的后果。如今，孕育于人工智能領(lǐng)域的新型平臺(tái)備受矚目：新銳科技公司OpenAI于2022年11月30日發(fā)布GPT-3.5大語(yǔ)言模型以及根據(jù)該模型進(jìn)行微調(diào)的聊天機(jī)器人程序ChatGPT，又于2024年年初推出GPT商店（GPT Store），引發(fā)社會(huì)對(duì)新一波人工智能熱潮的追捧，大語(yǔ)言模型被視為正在崛起的新型平臺(tái)，而基于大語(yǔ)言模型的人工智能代理亦展現(xiàn)出平臺(tái)的潛力。

傳統(tǒng)的線(xiàn)性媒介史敘事或新媒體研究往往并不在意作為“旁枝末節(jié)”的媒介技術(shù)實(shí)踐，重在考察某種特定的媒介技術(shù)之于社會(huì)變遷的功能性作用；在這一媒介研究視野下，2023年以來(lái)人們津津樂(lè)道的“AI Agent”（人工智能代理）被描述為具有革新與顛覆意義的全新媒介技術(shù)。然而，被忽略的豐富歷史碎片表明，“AI Agent”并不是一個(gè)新興概念，關(guān)于技術(shù)代理的媒介想象與技術(shù)實(shí)踐早已有之，對(duì)“agent”的使用甚至可以追溯到20世紀(jì)互聯(lián)網(wǎng)誕生之初。從媒介考古的歷史研究視角來(lái)看，“當(dāng)下”與“未來(lái)”或許早已潛藏于“過(guò)去”之中，即便是偶一為之的“幻想媒介”（imaginary media）也可能不同程度上左右了媒介的發(fā)明與實(shí)踐。因此，對(duì)媒介運(yùn)作機(jī)制或權(quán)力關(guān)系的討論不能脫離設(shè)備、系統(tǒng)、編程、平臺(tái)等物質(zhì)基礎(chǔ)，研究者應(yīng)重訪(fǎng)更為豐富與復(fù)雜的媒介實(shí)踐歷史，考察那些似曾相識(shí)的媒介變體如何交錯(cuò)糾纏、循環(huán)往復(fù)。

借鑒媒介考古學(xué)的媒介史觀考掘人工智能代理的技術(shù)實(shí)踐史，或?qū)⒔议_(kāi)當(dāng)下科技市場(chǎng)熱點(diǎn)“智能體”的神秘面紗。人工智能的技術(shù)實(shí)踐何以演進(jìn)至今，又將通往何處？人工智能代理經(jīng)歷了怎樣的“前世今生”？新一波生成式智能代理的技術(shù)路線(xiàn)有哪些特征？人工智能代理領(lǐng)域緣何呈現(xiàn)鮮明的平臺(tái)化趨勢(shì)？以這些問(wèn)題為指引，本文將重訪(fǎng)未被重視的關(guān)于人工智能代理的未來(lái)想象與傳播歷史，梳理其從理念建構(gòu)到實(shí)踐成形的歷史脈絡(luò)，再落腳到當(dāng)下技術(shù)實(shí)踐的物質(zhì)基礎(chǔ)，以此窺見(jiàn)科技行業(yè)的平臺(tái)化趨勢(shì)。

二、未來(lái)考古：從未來(lái)想象到翻譯傳播

“未來(lái)考古學(xué)”（prospective archaeology）是德國(guó)學(xué)者西格弗里德·齊林斯基（Siegfried Zielinski）近年來(lái)重點(diǎn)關(guān)注的媒介研究路徑，意在重構(gòu)古老的媒介機(jī)器以期獲知過(guò)去以及可能的未來(lái)，從而提供一種不同于線(xiàn)性目的論的歷史敘述方式。與齊林斯基的技術(shù)路徑相比，“未來(lái)考古學(xué)”在偏向文本路徑的文學(xué)研究領(lǐng)域的根基更為深厚。美國(guó)文學(xué)研究學(xué)者弗雷德里克·詹姆遜（Fredric Jameson）在《未來(lái)考古學(xué)：烏托邦欲望和其他科幻小說(shuō)》（2005）一書(shū)中提出的“未來(lái)考古學(xué)”（archaeologies of the future），從歷史角度審視文學(xué)文本中的烏托邦世界與現(xiàn)世社會(huì)意識(shí)形態(tài)之關(guān)聯(lián)。兩條路徑的媒介考古意識(shí)并不相同，卻為審視既新亦舊的“人工智能代理”媒介提供了鏡鑒——作為媒介的技術(shù)代理周而復(fù)始地浮沉于歷史之中，對(duì)其進(jìn)行“未來(lái)考古”，就是對(duì)歷史過(guò)程中關(guān)于技術(shù)代理的未來(lái)想象及傳播進(jìn)行發(fā)掘、考據(jù)與剖析。

（一）人類(lèi)助手與電子管家

技術(shù)代理的未來(lái)想象文本，在1995年兩部摹畫(huà)即將到來(lái)的數(shù)字化時(shí)代的力作中可以清晰地看到。蓋茨在《未來(lái)之路》（The Road Ahead） -書(shū)中主張將扮演人類(lèi)助手角色的“agent”視為內(nèi)置于軟件中的合作者，其通過(guò)不斷學(xué)習(xí)計(jì)算機(jī)捕捉到的用戶(hù)與界面的交互行為，以類(lèi)似人際交談的形式為用戶(hù)提供幫助。同年，蓋茨的這一設(shè)想在微軟的人機(jī)界面Bob中得到嘗試，其內(nèi)置虛擬助手，指引用戶(hù)在主界面或應(yīng)用程序中執(zhí)行任務(wù)。在Bob失敗之后，微軟又在1997年推出Office助手Clippy，其形似回形針，位于電腦屏幕的一邊，意在幫助用戶(hù)掌握不易使用的軟件。然而Clippy由于交互體驗(yàn)令人沮喪也未能成功。

計(jì)算機(jī)科學(xué)家尼古拉·尼葛洛龐帝（Nicholas Negroponte）比蓋茨更早意識(shí)到人機(jī)交互的未來(lái)將建立在“agent”的基礎(chǔ)上。1970年，他最早將“agent”描述為電子“管家”，其可以執(zhí)行過(guò)濾電子郵件、安排約會(huì)、通知投資和安排旅行等任務(wù)。在1995年的暢銷(xiāo)書(shū)《數(shù)字化生存》（Being Digital）中，他寫(xiě)道：“界面應(yīng)該設(shè)計(jì)得像人一樣，而不是像儀表板一樣。”“未來(lái)，今天我們所謂的‘代理人界面’（agent-based interface）將崛起成為電腦和人類(lèi)互相交談的主要方式。”早在1967年，尼葛洛龐帝就在麻省理工學(xué)院（MIT）創(chuàng)建了媒體實(shí)驗(yàn)室（Media Lab）的前身建筑機(jī)器小組（Architecture Machine Group，ArcMac），創(chuàng)建這一團(tuán)隊(duì)的部分靈感來(lái)自伊凡·蘇澤蘭（Ivan Sutherland）有關(guān)“畫(huà)板”（Sketchpad）的博士論文，其對(duì)于計(jì)算機(jī)圖形和界面設(shè)計(jì)都有著開(kāi)創(chuàng)性的意義。實(shí)際上，蘋(píng)果公司和微軟公司的很多計(jì)算產(chǎn)品的想法出自尼葛洛龐帝早期對(duì)電腦在建筑領(lǐng)域影響的探究。尼葛洛龐帝的研究團(tuán)隊(duì)創(chuàng)造了一個(gè)名為“空間數(shù)據(jù)管理系統(tǒng)”的可視化數(shù)據(jù)管理系統(tǒng)原型，把系統(tǒng)設(shè)計(jì)得能讓用戶(hù)在30秒之內(nèi)學(xué)會(huì)操作，其作為一種對(duì)“不同的尺寸、形狀、顏色和語(yǔ)調(diào)”的界面的嘗試，日后影響了蘋(píng)果公司1987年的“知識(shí)導(dǎo)航員”（Knowledge Navigator）愿景和2011年面世的以會(huì)話(huà)為基礎(chǔ)的人機(jī)交互系統(tǒng)Siri。

（二）軟件代理人

在蘋(píng)果公司的愿景中，用戶(hù)與平板電腦的交互是通過(guò)軟件代理人來(lái)實(shí)現(xiàn)的。這代表了一種與從前截然不同的人機(jī)交互模式。與被動(dòng)的應(yīng)用程序相比，一個(gè)代理人扮演的是更積極主動(dòng)的角色，就像人類(lèi)助手一樣。代理人會(huì)以助手的身份與用戶(hù)合作，積極配合用戶(hù)做他想做的事情。到了20世紀(jì)90年代中期，在萬(wàn)維網(wǎng)迅速擴(kuò)張的刺激下，人們對(duì)軟件代理人的興趣迅速增長(zhǎng)。在媒體實(shí)驗(yàn)室追隨尼葛洛龐帝的帕蒂·梅斯（Pattie Maes）早已開(kāi)始開(kāi)發(fā)代表用戶(hù)完成任務(wù)的軟件助理。1994年，她發(fā)表了一篇廣受讀者歡迎的文章，題為《代理入能夠幫助人們減少工作量和信息過(guò)載》，文章描述了實(shí)驗(yàn)室開(kāi)發(fā)的許多原型代理人的功用——電子郵件管理、會(huì)議日程安排、新聞過(guò)濾和音樂(lè)推薦等。1995年，梅斯和實(shí)驗(yàn)室的幾個(gè)伙伴一起創(chuàng)立了Agents公司——一家音樂(lè)推薦服務(wù)公司。最終，這家公司被賣(mài)給微軟公司，后者使用了該公司的隱私技術(shù)Firefly，但并沒(méi)有對(duì)它最初的軟件助理構(gòu)想進(jìn)行商業(yè)化。

隨后的10年里，上百種類(lèi)似的代理人問(wèn)世，其中許多都基于互聯(lián)網(wǎng)。軟件代理技術(shù)似乎是一種很有前景的技術(shù)，而一大批軟件開(kāi)發(fā)公司，也很快成了網(wǎng)絡(luò)泡沫的一部分。從互聯(lián)網(wǎng)的大發(fā)展來(lái)講，軟件代理人只是其故事的很小一部分，但它卻是跟人工智能相關(guān)的最明顯的部分。如尼葛洛龐帝所說(shuō)：“當(dāng)我談到界面代理人（interface agent）時(shí)，經(jīng)常有人問(wèn)我：‘你指的是人工智能嗎？’答案是‘沒(méi)錯(cuò)’。但是這個(gè)問(wèn)題中夾雜著些微的懷疑，主要是因?yàn)檫^(guò)去人工智能給人們?cè)S多虛無(wú)的希望和過(guò)高的承諾。此外，很多人對(duì)機(jī)器能夠擁有智慧這樣的觀念，仍然深感不安。”其實(shí)人工智能研究者的夢(mèng)想并沒(méi)有錯(cuò)，只是在那一時(shí)期太超前而已。

Siri是20世紀(jì)90年代軟件代理人努力的直接產(chǎn)物，它是一個(gè)基于軟件的代理人，用戶(hù)可以用自然語(yǔ)言與之交互，它代替用戶(hù)執(zhí)行簡(jiǎn)單的任務(wù)。其他大眾市場(chǎng)的應(yīng)用商迅速跟進(jìn)：亞馬遜公司的Alexa、微軟公司的Cortana和谷歌公司的Google Assistant都實(shí)現(xiàn)了類(lèi)似功能。無(wú)一例外，它們都將開(kāi)發(fā)起源追溯到基于代理人的人工智能，當(dāng)然，實(shí)際上它們不可能在20世紀(jì)90年代出現(xiàn)，因?yàn)楫?dāng)時(shí)的硬件不足以支持其運(yùn)行。曾擔(dān)任Microsoft Bob營(yíng)銷(xiāo)經(jīng)理的梅琳達(dá)·蓋茨（Melinda Gates） 2017年承認(rèn)，該軟件“需要一臺(tái)比當(dāng)時(shí)大多數(shù)人所擁有的電腦更加強(qiáng)大的電腦”。至少到2010年后，移動(dòng)設(shè)備的計(jì)算能力才足以支持類(lèi)似軟件。

（三）中文譯法之辨

“agent”是一個(gè)舶來(lái)的概念，其在進(jìn)入中文語(yǔ)境的過(guò)程中衍生出不同的譯法，主要包括“代理／代理人”與“智能體”兩類(lèi)。在中國(guó)剛剛接入國(guó)際互聯(lián)網(wǎng)的20世紀(jì)90年代中期，前述兩本預(yù)測(cè)未來(lái)科技的著作迅速被翻譯成中文，由北京大學(xué)出版社出版于1996年的《未來(lái)之路》（辜正坤主譯）將“agent”譯為“代理者（程序）”，由海南出版社同年出版的《數(shù)字化生存》（胡泳、范海燕譯）則將“agent”譯為“代理人”。將人工智能領(lǐng)域的“agent”概念譯為“代理（者／人）”的方式實(shí)際上都考慮到內(nèi)含于技術(shù)物“agent”中的“委托代理”的經(jīng)濟(jì)邏輯。經(jīng)典教科書(shū)《人工智能：一種現(xiàn)代方法》（Artificial Intelligence：A Modern Approach）的第一章和第二章指出，人工智能向經(jīng)濟(jì)學(xué)借用了術(shù)語(yǔ)“理性代理人”（rational agent）來(lái)表述具有目標(biāo)導(dǎo)向的“智能代理”（intelligence agent），并指出，任何通過(guò)傳感器（sensor）感知環(huán)境（environment）并通過(guò)執(zhí)行器（actuator）作用于該環(huán)境的事物都可以被視為代理（agent）。

然而，人工智能學(xué)界從20世紀(jì)90年代初開(kāi)始將“intelligent agent”翻譯為“智能體”，在出版于2004年的中譯本《人工智能：一種現(xiàn)代方法》中，“agent”與“intelligent agent”都被翻譯為“智能體”。近年來(lái)，曾經(jīng)被尼葛洛龐帝視為通往“界面代理人”未來(lái)圖景的人工智能技術(shù)成功將當(dāng)時(shí)的許多科幻想象轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)。同時(shí)，國(guó)內(nèi)人工智能學(xué)界的學(xué)術(shù)發(fā)表仍以英文為主，并不重視中文語(yǔ)境下的概念內(nèi)涵與外延。于是，在勢(shì)不可當(dāng)?shù)娜斯ぶ悄軣岢蓖苿?dòng)下，“AI Agent”被部分國(guó)內(nèi)媒體與學(xué)界人士直接譯作“AI智能體”或“智能體”，并被廣泛傳播。

雖然“智能體”相較于“人工智能代理”更為簡(jiǎn)短易記，但是這種譯法不僅存在成分贅余之嫌，還遺失了其原初的“人幫助人”的經(jīng)濟(jì)學(xué)理念，忽略了將技術(shù)作為相對(duì)自主的“主體”的社會(huì)性命題。因此，在國(guó)內(nèi)尚未形成統(tǒng)一使用規(guī)范的情況下，本文主張以“人工智能代理”或“人工智能主體”來(lái)指代正處于風(fēng)口浪尖的英文“AI Agent”一詞，其指的是一種能夠理解、分析和響應(yīng)人類(lèi)輸入的信息，并像人類(lèi)一樣執(zhí)行任務(wù)、作出決策并與環(huán)境互動(dòng)，通過(guò)行動(dòng)來(lái)達(dá)成目標(biāo)的自主實(shí)體。

三、歷史脈絡(luò)：從理念建構(gòu)到實(shí)踐成形

前文追溯了歷史上關(guān)于“agent”的未來(lái)想象與翻譯傳播歷程，那么誕生于英文語(yǔ)境的“AI Agent”理念與實(shí)踐又經(jīng)歷了怎樣的轉(zhuǎn)型過(guò)程？人工智能領(lǐng)域的科學(xué)家、工程師們從探討人工產(chǎn)品是否具有能動(dòng)性（agency）的哲學(xué)概念及經(jīng)濟(jì)學(xué)中的代理人術(shù)語(yǔ)獲得啟發(fā)，拼湊出“AI Agent”這一概念，并推動(dòng)其理念的落地與進(jìn)化。

（一）初探期（1956-1995年）：概念實(shí)體化

20世紀(jì)50年代，阿蘭·圖靈（Alan Turing）提出著名的圖靈測(cè)試，以判斷人工實(shí)體是否具有智能——如果人不能區(qū)分置于黑箱子里的機(jī)器是人還是機(jī)器的話(huà)，這臺(tái)機(jī)器就被判定為有智能。這些人工智能實(shí)體通常被稱(chēng)為“agent”，成為人工智能系統(tǒng)的基本構(gòu)建模塊。由于人類(lèi)只能觀察到機(jī)器的外在行為，難以洞察形而上學(xué)的機(jī)器“意識(shí)”，包括圖靈在內(nèi)的許多人工智能研究人員都建議暫時(shí)擱置“agent”是否能夠思考或擁有意識(shí)的辯題，而以自主性、反應(yīng)性、主動(dòng)性和社交性等屬性來(lái)描述人工智能代理，將其從形而上的理論概念轉(zhuǎn)化為“可見(jiàn)”的計(jì)算實(shí)體。

在人工智能發(fā)展的最初30年里，符號(hào)人工智能（symbolic AI）占據(jù)了主導(dǎo)地位，其受到數(shù)學(xué)邏輯以及人們描述自身思考過(guò)程的方式的啟發(fā)，意在發(fā)展通用問(wèn)題求解器，如專(zhuān)家系統(tǒng)。亞符號(hào)人工智能（subsymbolic AI）則從神經(jīng)科學(xué)中汲取靈感，試圖捕捉隱藏在“快速感知”（fast perception）背后的無(wú)意識(shí)思考過(guò)程，如識(shí)別人臉或語(yǔ)音等，一個(gè)早期的例子是感知機(jī)，由心理學(xué)家弗蘭克·羅森布拉特（Frank Rosenblatt）于20世紀(jì)50年代末提出。20世紀(jì)50年代至60年代的人工智能，在符號(hào)演算和感知機(jī)兩個(gè)方向上都陷入了停滯。于是，20世紀(jì)60年代末和70年代初，人工智能進(jìn)入第一個(gè)寒冬。此后，以5至10年為周期，人工智能不斷上演“春天”－過(guò)度承諾和媒體炒作－“寒冬”的循環(huán)。到20世紀(jì)80年代，雖然有若干聚焦面狹窄的專(zhuān)家系統(tǒng)得到了成功部署，但之前研究者承諾的更通用的人工智能突破并未實(shí)現(xiàn)。1987年，專(zhuān)家系統(tǒng)計(jì)算機(jī)市場(chǎng)崩潰，第二個(gè)人工智能寒冬到來(lái)，一直持續(xù)到2000年。

在漫長(zhǎng)的人工智能寒冬中，人工智能學(xué)者仍然對(duì)“AI Agent”葆有濃厚興趣。1995年，英國(guó)人工智能學(xué)者邁克爾·伍爾德里奇（Michael Wooldridge）和尼克·詹寧斯（Nicholas R.Jennings）將“AI Agent”定義為能夠在某個(gè)環(huán)境中自主行動(dòng)以實(shí)現(xiàn)其設(shè)計(jì)目標(biāo)的計(jì)算實(shí)體。1998年，兩人合編了《代理技術(shù)：基礎(chǔ)、應(yīng)用和市場(chǎng)》（Agent Technology：Foundations，Applica tions，and Markets），這是第一本綜合介紹設(shè)計(jì)、構(gòu)建和使用代理應(yīng)用程序時(shí)遇到的問(wèn)題、挑戰(zhàn)的著作，既有對(duì)代理技術(shù)基礎(chǔ)的概述，也有在實(shí)踐中處理特定代理系統(tǒng)的報(bào)告。同期，美國(guó)人工智能學(xué)者彼得·諾維格（Peter Norvig）和斯圖爾特·J.羅素（Stuart J.Russell）將“AI Agent”的類(lèi)型細(xì)分為簡(jiǎn)單反射代理（simple reflex agents）、基于模型的代理（model-based agents）、基于目標(biāo)的代理（goal-based agents）、基于實(shí)用程序的代理（utility-based agents）和學(xué)習(xí)型代理（learning agents）5類(lèi)。至此，“AI Agent”概念獲得了明確的功能指向和實(shí)踐目標(biāo)，利用人工智能技術(shù)開(kāi)發(fā)的能夠解決特定問(wèn)題的軟件或硬件都可被納入人工智能代理范疇。

（二）分化期（1996-2011年）：產(chǎn)品類(lèi)型化

根據(jù)人工智能研究者在20世紀(jì)90年代給出的定義，后來(lái)的圍棋機(jī)器人AlphaGo、蘋(píng)果手機(jī)助手Siri、天貓精靈智能音箱等技術(shù)產(chǎn)品都可以被納入人工智能代理的范疇。此時(shí)，人工智能開(kāi)發(fā)的目標(biāo)從構(gòu)建可以像人類(lèi)一樣選擇的代理人轉(zhuǎn)向構(gòu)建能夠作出最優(yōu)選擇的代理人。也就是說(shuō)，是否通過(guò)圖靈測(cè)試并不重要，重要的是，能否代替人類(lèi)執(zhí)行最優(yōu)的選擇。

1997年，由IBM開(kāi)發(fā)的超級(jí)電腦“深藍(lán)”（Deep Blue）擊敗世界圍棋冠軍加里·卡斯帕羅夫（Gary Kasparov），成為首臺(tái)在“人機(jī)對(duì)戰(zhàn)”中戰(zhàn)勝人類(lèi)象棋冠軍的機(jī)器。“深藍(lán)”的對(duì)弈決策在通用超級(jí)計(jì)算機(jī)處理器和480顆特制的VLSI象棋加速器芯片的支持下完成，前者的軟件只執(zhí)行部分象棋運(yùn)算，后者則處理更復(fù)雜的棋步。盡管后來(lái)遭到質(zhì)疑的IBM拒絕與卡斯帕羅夫再戰(zhàn)，但人工智能也已經(jīng)能夠在“有完全信息的組合游戲”中擊敗人類(lèi)。根據(jù)“摩爾定律”（Moore's law），計(jì)算機(jī)芯片的性能平均每隔18個(gè)月就會(huì)翻一番，與之并駕齊驅(qū)的是突飛猛進(jìn)的計(jì)算機(jī)軟件。由此可以推論，由軟硬件驅(qū)動(dòng)的人工智能將會(huì)不斷進(jìn)化。的確，盡管“深藍(lán)”已經(jīng)被IBM大卸八塊，其后的人工智能代理產(chǎn)品卻推陳出新，且功能逐漸分化，拓展至算法推薦、智能家居、虛擬助手、航空航天等領(lǐng)域（見(jiàn)表1）。

（三）涌現(xiàn)期（2012年以來(lái)）：功能通用化

然而，在“深藍(lán)”之后的近20年內(nèi)，暴力搜索法、Alpha-beta剪枝、啟發(fā)式搜索等傳統(tǒng)的人工智能方法在面對(duì)組合可能性更多的圍棋游戲時(shí)都顯得無(wú)能為力。直到2015年左右，Google DeepMind才扭轉(zhuǎn)了這一僵局，其利用強(qiáng)化學(xué)習(xí)（reinforcement learning）技術(shù)訓(xùn)練的人工智能?chē)逑到y(tǒng)AlphaGo于2016年3月以4：1的總比分擊敗了曾經(jīng)14次榮膺世界冠軍的韓國(guó)職業(yè)九段棋手李世石。然而，雖說(shuō)AlphaGo在圍棋、國(guó)際象棋、日本象棋等棋類(lèi)游戲中的表現(xiàn)震撼人心，但它卻只能做下棋這一件事，既不能玩轉(zhuǎn)任何其他游戲，也無(wú)法完成現(xiàn)實(shí)生活中的簡(jiǎn)單任務(wù)。所以，人類(lèi)對(duì)AlphaGo的集體焦慮很快就消退了，因?yàn)橄缕逑碌煤貌⒉恍枰ㄓ弥悄堋Ｈ斯ぶ悄芟闰?qū)之一約翰·麥卡錫（John McCarthy）精準(zhǔn)地概括了人工智能發(fā)展的一個(gè)困境：“一旦它開(kāi)始奏效，就沒(méi)人再稱(chēng)它為人工智能了。”也就是說(shuō)，人工智能存在移動(dòng)的球門(mén)柱：當(dāng)計(jì)算機(jī)在某一特定任務(wù)上超越人類(lèi)時(shí)，我們就得出結(jié)論，該任務(wù)實(shí)際上并不需要智能。

對(duì)通用人工智能孜孜以求的科學(xué)家與工程師們不甘心將對(duì)人工智能代理的想象與探索止步于此，他們期待將《機(jī)器人瓦力》（Wall-E）、《星球大戰(zhàn)》（Star Wars）、《頭號(hào)玩家》（Ready Player One）等科幻作品變?yōu)楝F(xiàn)實(shí)，創(chuàng)造出充滿(mǎn)好奇心、能夠進(jìn)行終身學(xué)習(xí)的通用人工智能代理。在計(jì)算機(jī)軟硬件的支持下，人工智能領(lǐng)域在神經(jīng)網(wǎng)絡(luò)（neural network）、機(jī)器學(xué)習(xí)（machine learning）、大數(shù)據(jù)（big data）等方向取得新突破，一系列更為普遍的人工智能成果開(kāi)始在我們身邊悄然出現(xiàn)。從IBM的深藍(lán)到沃森（Watson）再到AlphaGo，統(tǒng)稱(chēng)為“深度學(xué)習(xí)”（deep learning）的人工智能方法已經(jīng)成了主流的人工智能范式，開(kāi)始在計(jì)算機(jī)視覺(jué)、語(yǔ)言、翻譯、預(yù)測(cè)、生成和無(wú)數(shù)其他問(wèn)題上顯示出明顯優(yōu)于其他方法的優(yōu)勢(shì)。到21世紀(jì)第二個(gè)10年，基于大語(yǔ)言模型的方法在語(yǔ)義理解與表達(dá)方面實(shí)現(xiàn)突破，掀起一波以ChatGPT為代表的生成式人工智能浪潮。2023年以來(lái)，Camel（3月21日）、AutoGPT（3月30日）、BabyAGI（4月3日）、Voyager（5月27日）等多個(gè)人工智能代理如雨后春筍般面世。不同于只能玩棋類(lèi)游戲的AlphaGo，這些由大語(yǔ)言模型驅(qū)動(dòng)的生成式智能代理被設(shè)計(jì)為能夠適應(yīng)跨游戲環(huán)境、自主學(xué)習(xí)游戲技能、自由探索游戲玩法的“玩家”。比如，2023年5月25日，商湯科技聯(lián)合清華大學(xué)、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)發(fā)布的GITM（Ghost in the Minecraft）能夠玩轉(zhuǎn)《我的世界》（Minecraft）；Google DeepMind于2024年3月14日推出的SIMA（Scalable Instructable Multiworld Agent）在《無(wú)人天空》（No Man’s Sky）、《拆遷》（Teardown）、《英靈神殿》（Valheim）和《模擬山羊3》（Goat Simulator 3等9款游戲中都進(jìn)行了訓(xùn)練與測(cè)試。

如今，在以GPT平臺(tái)（GPT Platform）為核心的開(kāi)發(fā)環(huán)境支持下，通用化的人工智能代理還在持續(xù)涌現(xiàn)。GPT（生成式預(yù)訓(xùn)練轉(zhuǎn)換器）是機(jī)器學(xué)習(xí)模型的核心架構(gòu)，為ChatGPT等大語(yǔ)言模型（LLM）提供動(dòng)力。而代理雖然也是一種大語(yǔ)言模型，但需要將其設(shè)置為在確定某些目標(biāo)／任務(wù)的情況下反復(fù)運(yùn)行。這與大語(yǔ)言模型在ChatGPT等工具中的“通常”使用方式不同。在這種工具中，用戶(hù)提出一個(gè)問(wèn)題，得到一個(gè)單獨(dú)的響應(yīng)作為答案。而代理具有復(fù)雜的工作流程，模型基本上是在沒(méi)有人強(qiáng)制干預(yù)的情況下進(jìn)行自我對(duì)話(huà)。隨著時(shí)間的推移，代理將在更強(qiáng)大的模型和工具的支持下變得越來(lái)越復(fù)雜，從而在未來(lái)化身為由通用人工智能驅(qū)動(dòng)、可以解決眾多任務(wù)的實(shí)體。

四、前沿趨勢(shì)：生成式人工智能代理

前述圍繞人工智能代理展開(kāi)的人工智能簡(jiǎn)史講述了人工智能的理念落地與進(jìn)化歷程，當(dāng)前的人工智能代理熱潮則是大模型驅(qū)動(dòng)下通用人工智能（Artificial General Intelligence，AGI）發(fā)展的階段性成果，涌現(xiàn)于人工智能領(lǐng)域的平臺(tái)化進(jìn)程之中。

（一）擬真式環(huán)境：游戲版真實(shí)世界

如上文所述，盡管深藍(lán)與AlphaGo等人工智能產(chǎn)品已經(jīng)展現(xiàn)出令人震撼的卓越能力，但它們?nèi)匀徊环峡茖W(xué)家關(guān)于智能代理的未來(lái)想象——它們還不能“像人類(lèi)一樣生存、探索和創(chuàng)造”。為了實(shí)現(xiàn)這一終極目標(biāo)，研究者們延承了始于20世紀(jì)70年代的擬真實(shí)驗(yàn)技術(shù)路線(xiàn)，即令人工智能代理在擬真式環(huán)境中進(jìn)行交互式學(xué)習(xí)，從而提高解決通用問(wèn)題的能力。1972年，為了將問(wèn)題的復(fù)雜性降到可管理的程度，計(jì)算機(jī)博士特里·威諾格拉德（Terry Winograd）搭建了一個(gè)模擬空間，其中包含了許多彩色物體（方塊、盒子和錐體），名為SHRDLU的虛擬機(jī)器人可以根據(jù)用戶(hù)的指令來(lái)排列對(duì)象，也可以使用模擬機(jī)械手臂來(lái)操作對(duì)象。人和機(jī)器人之間的交流通過(guò)鍵盤(pán)進(jìn)行，機(jī)器人的回復(fù)出現(xiàn)于屏幕底部。SHRDLU可以進(jìn)行關(guān)于虛擬世界的對(duì)話(huà)，也可以制訂及執(zhí)行行動(dòng)計(jì)劃，甚至還可以回答有關(guān)自身動(dòng)機(jī)的問(wèn)題——巧妙地“展示”（demo）了人類(lèi)通過(guò)發(fā)出指令讓機(jī)器人在特定環(huán)境中工作的場(chǎng)景。至20世紀(jì)80年代，源自麻省理工學(xué)院媒體實(shí)驗(yàn)室的“展示不了就去死”（demo or die）文化在人工智能圈盛行開(kāi)來(lái)。秉持這種實(shí)驗(yàn)室精神，在尚難以直接將智能代理嵌入真實(shí)世界的情況下，人工智能代理研究亦采取了先在擬真式虛擬環(huán)境中測(cè)試，再轉(zhuǎn)向現(xiàn)實(shí)物理世界的技術(shù)路線(xiàn)。

那么，如何為人工智能代理搭建一個(gè)擬真式實(shí)驗(yàn)環(huán)境呢？當(dāng)前，培育人工智能代理的“實(shí)驗(yàn)室”主要包括兩類(lèi)——現(xiàn)成的游戲平臺(tái)與后建的測(cè)試平臺(tái)。在現(xiàn)成的游戲平臺(tái)中，最受歡迎的莫過(guò)于微軟旗下游戲公司Mojang Studios開(kāi)發(fā)的沙盒類(lèi)游戲《我的世界》，從美國(guó)的DeepMind、OpenAI到國(guó)內(nèi)的商湯科技、清華大學(xué)、北京大學(xué)等，研究團(tuán)隊(duì)利用該游戲開(kāi)展人工智能代理訓(xùn)練。《我的世界》備受青睞的原因不難理解。首先，它仿佛一個(gè)縮小版的現(xiàn)實(shí)世界，為研究人員提供了一個(gè)觀察人工智能代理對(duì)復(fù)雜環(huán)境適應(yīng)性的模擬實(shí)驗(yàn)室；人工智能代理身處由隨機(jī)程序生成的形態(tài)各異的游戲環(huán)境中，可以通過(guò)使用原始的機(jī)械設(shè)備、電路、邏輯門(mén)以及內(nèi)置于游戲的材料“紅石塊”來(lái)構(gòu)建更為復(fù)雜的機(jī)械，在相互協(xié)作與競(jìng)爭(zhēng)中完成生存、探索和創(chuàng)造等各類(lèi)復(fù)雜的社會(huì)性活動(dòng)。其次，人類(lèi)玩家的對(duì)局?jǐn)?shù)據(jù)被“投喂”給大模型，為其訓(xùn)練提供了豐富的“學(xué)習(xí)資料”。此外，《我的世界》代碼相對(duì)簡(jiǎn)單，容易接入，便于研究團(tuán)隊(duì)利用現(xiàn)有資源搭建新的測(cè)試環(huán)境。當(dāng)然，與其他實(shí)驗(yàn)方式相比，擬真游戲環(huán)境成本更低、安全系數(shù)更高，亦促使其成為“從0到1”的探索性研究的不二之選。

除了利用現(xiàn)成的游戲平臺(tái)，亦有研究團(tuán)隊(duì)選擇利用來(lái)自真實(shí)世界的環(huán)境數(shù)據(jù)搭建虛擬環(huán)境，比如來(lái)自香港大學(xué)的Jihan Yang和紐約大學(xué)的謝賽寧等人通過(guò)APIs接入數(shù)字地圖、街景圖像等多種已成型的地理信息軟件或平臺(tái)，調(diào)用現(xiàn)有的環(huán)境數(shù)據(jù)與應(yīng)用界面，為人工智能代理創(chuàng)造了更加接近現(xiàn)實(shí)世界的、可擴(kuò)展的平臺(tái)——V-IRL，由此，人工智能代理在多個(gè)地理信息軟件“交互”而成的虛擬空間中完成探索性任務(wù)，如同被嵌入地球的真實(shí)城市街巷之中。

（二）交互式學(xué)習(xí)：社會(huì)化智能主體

按照主流智能理論，人工智能代理不僅需要在與環(huán)境交互過(guò)程中利用工具、規(guī)劃任務(wù)以解決問(wèn)題，還應(yīng)當(dāng)掌握與其他人工智能代理及人類(lèi)交互協(xié)作的能力，因而研究者在探索階段往往給予其“交互式”的工作任務(wù)，測(cè)試與提升人工智能代理的協(xié)作能力及協(xié)助人類(lèi)活動(dòng)的能力。“交互式學(xué)習(xí)”包括兩層含義。其一，人工智能代理與不確定的環(huán)境進(jìn)行交互，并從中掌握處理非線(xiàn)性任務(wù)的技能。其二，人工智能代理間交互、人機(jī)交互等多主體互動(dòng)模式，從根本上模擬了人類(lèi)社會(huì)的運(yùn)作機(jī)制——?jiǎng)趧?dòng)分工，致力于使智能主體的行動(dòng)更具“社會(huì)化”特征。

一方面，人工智能代理不是只能線(xiàn)性執(zhí)行人類(lèi)給出的程序指令的機(jī)器，而是在大語(yǔ)言模型的統(tǒng)籌指揮下開(kāi)展自主探索活動(dòng)，其學(xué)習(xí)過(guò)程具有非線(xiàn)性、創(chuàng)造性和靈活性特征。比如，英偉達(dá)的JimFan團(tuán)隊(duì)在向大語(yǔ)言模型下達(dá)“盡可能多地用各種工具挖礦”的總目標(biāo)，再針對(duì)基本規(guī)則與動(dòng)作進(jìn)行提示后，將人工智能代理Voyager“扔”進(jìn)《我的世界》中。在大語(yǔ)言模型的驅(qū)動(dòng)下，Voyager針對(duì)最終目標(biāo)生成細(xì)分任務(wù)，通過(guò)對(duì)世界環(huán)境的觀察和交互了解各種操作的效果，將正向操作（如用斧子砍樹(shù)比用手刨快）存儲(chǔ)于短期記憶之中，不斷優(yōu)化自身的子目標(biāo)，最終實(shí)現(xiàn)“挖礦”的總目標(biāo)。在這種情境下，Voyager并未遵循預(yù)設(shè)的程序與算法執(zhí)行確定的任務(wù)，而是在充滿(mǎn)不確定性的未知環(huán)境中“因地制宜”地采取多元化的行動(dòng)策略，“無(wú)師自通”地掌握了挖掘、建房屋、收集、打獵等技能。

另一方面，參照人類(lèi)的行動(dòng)交往模式，人工智能代理不僅需要完成“單打獨(dú)斗”式的任務(wù)，還應(yīng)能參與團(tuán)隊(duì)行動(dòng)，因此除了單一代理（single agent），多代理（agent-agent）、混合代理（agent-human）亦成為目前研究的重要類(lèi)型。多智能代理間協(xié)作的模式主要包括兩種。一是任務(wù)分配不均的雙代理模式，其前提在于假設(shè)現(xiàn)實(shí)社會(huì)存在大量a輔助b的任務(wù)執(zhí)行情況。二是任務(wù)分配均勻的多代理模式和人類(lèi)一代理人協(xié)作模式，其前提在于假設(shè)責(zé)任平等。作為—種用于新興游戲交互的基礎(chǔ)設(shè)施，MindAgent支持多NPC（Non-Player Character，指游戲中的非玩家角色）協(xié)作和人類(lèi)NPC協(xié)作，較全面地涵蓋了多智能代理間協(xié)作模式。它以多人合作模擬廚房游戲《分手廚房》（Overcooked）為參照，通過(guò)簡(jiǎn)化游戲的部分復(fù)雜操作，為人工智能代理搭建了新的支持人工智能代理間協(xié)作、人機(jī)協(xié)作以及VR交互的游戲場(chǎng)景CuisineWorld，作為玩家的多個(gè)人工智能代理須在規(guī)定時(shí)間內(nèi)合作完成各種菜品的制作并送到顧客手中。

實(shí)際上，早在1986年，美國(guó)人工智能科學(xué)家馬文·明斯基（Marvin Minsky）就在其著作《心智社會(huì)》（Society of Mind）中設(shè)想過(guò)人工智能代理的交互模式——智力是由許多具有特定功能的較小主體的相互作用產(chǎn)生的，這一新穎的智力理論不失為當(dāng)前多人工智能代理協(xié)作模式的一種前瞻性預(yù)測(cè)。

（三）生成式智能：通用人工智能之路

有趣的是，人工智能代理的應(yīng)用場(chǎng)景已經(jīng)覆蓋機(jī)器人、游戲、虛擬助理、自動(dòng)駕駛等細(xì)分領(lǐng)域，然而其技術(shù)功能卻始終未超出尼葛洛龐帝的電子“管家”設(shè)想，只不過(guò)媒介形態(tài)從內(nèi)置于計(jì)算機(jī)的軟件程序拓展至各類(lèi)物理實(shí)體。例如，瑞典大型金融科技公司Klarna表示，由OpenAI提供支持的AI助手在短短一個(gè)月內(nèi)承擔(dān)了700名全職客服的工作，完成了230萬(wàn)次對(duì)話(huà)，其客戶(hù)滿(mǎn)意程度“與人工客服人員相當(dāng)”。人工智能初創(chuàng)公司Rabbit在2024年CES（美國(guó)拉斯維加斯消費(fèi)電子展）上展出了一款主打語(yǔ)音交互功能的AI產(chǎn)品Rabbit Rl，這款智能助手形似縮小版的手機(jī)，卻不內(nèi)含應(yīng)用程序，能夠在GPT-4和其他大模型的驅(qū)動(dòng)下理解人的語(yǔ)音內(nèi)容，模仿人使用軟件的方式自動(dòng)完成點(diǎn)外賣(mài)、聽(tīng)音樂(lè)、軟件叫車(chē)等任務(wù)，仿佛一臺(tái)人與智能手機(jī)之間的智能對(duì)講機(jī)。

這類(lèi)被稱(chēng)為智能助手（AI Assistant）的人工智能代理在社會(huì)生產(chǎn)生活中擔(dān)任替代或者優(yōu)化部分人類(lèi)勞動(dòng)的“秘書(shū)”，而面向組織的人工智能代理則更像一個(gè)能夠通過(guò)分工協(xié)作自行解決問(wèn)題的合作團(tuán)隊(duì)。比如，人工智能實(shí)驗(yàn)室Cognition Labs于2024年3月12日推出世界上“第一位AI軟件工程師”，充分展現(xiàn)多代理協(xié)作。這個(gè)名為“Devin”的人工智能代理產(chǎn)品被設(shè)計(jì)為一個(gè)軟件團(tuán)隊(duì)，它不再像GitHub Copilot等編程AI助手那樣扮演程序員的“副駕駛”角色，而是在接收任務(wù)指令后自行進(jìn)行方案規(guī)劃、需求創(chuàng)建和任務(wù)分配，創(chuàng)建出更多小型AI助手，它們?cè)诟髯缘纳澈薪K端、代碼編輯器和瀏覽器之間穿梭以完成特定任務(wù)。整個(gè)團(tuán)隊(duì)經(jīng)過(guò)持續(xù)測(cè)試、調(diào)試并迭代，直至創(chuàng)建出完整的應(yīng)用程序供用戶(hù)檢查并請(qǐng)求更改。

從這些簡(jiǎn)略的描述即可窺見(jiàn)，新一波人工智能代理熱潮的核心關(guān)鍵詞為“通用”。與受控于預(yù)先確定的參數(shù)、只能完成單一任務(wù)的人工智能相比，通用人工智能的目標(biāo)是完成規(guī)定參數(shù)之外的任務(wù)。所謂的“通用”指的是人工智能面對(duì)不確定性環(huán)境處理多個(gè)任務(wù)的自學(xué)能力。可見(jiàn)，不同于由確定的計(jì)算機(jī)程序控制的NPC，生成式人工智能代理不受固定的動(dòng)作參數(shù)限制，而是探索限定動(dòng)作之外的多元“玩法”，更接近通用人工智能的設(shè)想。那么，人工智能代理的“通用”潛質(zhì)從何而來(lái)？近年來(lái)，大語(yǔ)言模型的突破性進(jìn)展表現(xiàn)為ChatGPT、Midjourney、Runway、Pika等原生AI應(yīng)用的流行，但是這些模型不僅具有文案、圖片和視頻的生成以及學(xué)習(xí)、體驗(yàn)與搜索的優(yōu)化功能，還被研究者視為通用問(wèn)題求解器。在此背景下涌現(xiàn)的GITM等人工智能代理代表了智能代理研究范式轉(zhuǎn)型的實(shí)踐成果——人工智能代理突破了強(qiáng)化學(xué)習(xí)的傳統(tǒng)技術(shù)架構(gòu)，轉(zhuǎn)向以大語(yǔ)言模型為智能驅(qū)動(dòng)力的新范式。此前，強(qiáng)化學(xué)習(xí)式人工智能代理面臨的難題在于如何將極為復(fù)雜的任務(wù)映射到最底層的鍵盤(pán)鼠標(biāo)操作。與之相比，生成式人工智能模型利用海量數(shù)據(jù)集進(jìn)行訓(xùn)練，能夠使用類(lèi)似于人類(lèi)創(chuàng)作的文本、音頻或視覺(jué)效果來(lái)響應(yīng)人類(lèi)查詢(xún)；同時(shí)，大語(yǔ)言模型還具備量級(jí)巨大的知識(shí)庫(kù)和緊急零樣本規(guī)劃能力，能夠?qū)⒆匀徽Z(yǔ)言指令分解為一系列子任務(wù)，再使用低級(jí)控制器執(zhí)行子任務(wù)，逐步將復(fù)雜任務(wù)分解為子任務(wù)、結(jié)構(gòu)化動(dòng)作，直到最底層的鍵盤(pán)鼠標(biāo)操作。圍繞人工智能代理展開(kāi)的游戲化訓(xùn)練與商業(yè)化應(yīng)用本質(zhì)上受制于大語(yǔ)言模型處理文本、統(tǒng)籌規(guī)劃的能力，實(shí)驗(yàn)環(huán)境運(yùn)轉(zhuǎn)的前提是對(duì)擁有龐大知識(shí)庫(kù)、具備緊急零樣本規(guī)劃能力的大語(yǔ)言模型的穩(wěn)定接入；而生成于擬真訓(xùn)練過(guò)程的數(shù)據(jù)資源最終也將“反哺”大語(yǔ)言模型的改進(jìn)與迭代，進(jìn)一步擴(kuò)充其量級(jí)巨大的知識(shí)庫(kù)，提升其語(yǔ)言處理、任務(wù)分配與主體調(diào)度的靈活度和創(chuàng)造力。

不過(guò)，大語(yǔ)言模型的幻覺(jué)問(wèn)題依然難以解決，人們發(fā)現(xiàn)以“命令－執(zhí)行”的線(xiàn)性方式來(lái)要求大語(yǔ)言模型輸出答案常常并不奏效。實(shí)際上，人工智能代理的技術(shù)理念最終要回歸作為技術(shù)設(shè)計(jì)者與使用者的人本身——研發(fā)者通過(guò)調(diào)整“提示”（prompt）來(lái)調(diào)用大語(yǔ)言模型，激發(fā)后者未被利用的技術(shù)實(shí)力，以構(gòu)建符合自身需求的定制版人工智能代理。

五、余論：平臺(tái)化滲透人工智能市場(chǎng)

行文至此，人工智能代理起源與發(fā)展的歷史脈絡(luò)已然浮現(xiàn)。對(duì)人工智能代理的媒介考古表明，盛行于各個(gè)時(shí)段的人工智能代理項(xiàng)目，都曾是當(dāng)時(shí)人工智能領(lǐng)域核心范式的實(shí)體化產(chǎn)物。當(dāng)然，任何由商業(yè)力量推動(dòng)的技術(shù)浪潮都難以避免炒作色彩，同時(shí)也反映出階段性的科技趨勢(shì)與市場(chǎng)形勢(shì)。因此，我們暫且擱置2023年以來(lái)被冠以“智能體”的技術(shù)熱潮是否可能化為泡沫的預(yù)測(cè)，而是將其視為生成式人工智能技術(shù)實(shí)體化的產(chǎn)物，討論其何以形成，以及如何帶動(dòng)市場(chǎng)資源的流動(dòng)與市場(chǎng)關(guān)系的整合。

新一輪人工智能代理熱潮的技術(shù)路線(xiàn)以大語(yǔ)言模型為范式，游戲測(cè)試本質(zhì)上是為了測(cè)試和提高大語(yǔ)言模型的多智能代理規(guī)劃能力，即為多個(gè)人工智能代理制定協(xié)作計(jì)劃、避免發(fā)生沖突的能力；而各大科技公司紛紛推出的人工智能代理商業(yè)應(yīng)用也無(wú)非是大語(yǔ)言模型應(yīng)用的變體，對(duì)接的是科技行業(yè)的變現(xiàn)需求，即將消耗巨大算力資源的大模型落地為創(chuàng)收項(xiàng)目。

大語(yǔ)言模型驅(qū)動(dòng)的人工智能代理被視為下一代平臺(tái)的前提在于智能代理根植于以算力資源為核心的基礎(chǔ)設(shè)施網(wǎng)絡(luò)，而后者早已呈現(xiàn)不可逆轉(zhuǎn)的平臺(tái)化趨勢(shì)。也就是說(shuō)，任何個(gè)人或組織想“定制”自己的人工智能代理，都無(wú)法脫離由各種外部工具構(gòu)成的復(fù)雜基礎(chǔ)設(shè)施環(huán)境，而這一可編程的智能代理開(kāi)發(fā)環(huán)境本就由平臺(tái)公司及其合作伙伴搭建。

首先，在政治經(jīng)濟(jì)轉(zhuǎn)型（金融化和放松管制）的宏觀影響和網(wǎng)絡(luò)效應(yīng)、數(shù)據(jù)驅(qū)動(dòng)等獨(dú)特因素的塑造下，網(wǎng)絡(luò)計(jì)算資源從傳統(tǒng)壟斷基礎(chǔ)設(shè)施模式轉(zhuǎn)向平臺(tái)化基礎(chǔ)設(shè)施模式，呈現(xiàn)出鮮明的私有化與分裂化趨勢(shì)。在“基礎(chǔ)設(shè)施即服務(wù)”（Infrastructure as a Service，IaaS）模式下，任何算力資源都能被轉(zhuǎn)變?yōu)榉?wù)提供給不同用戶(hù)（包括企業(yè)、科研機(jī)構(gòu)、個(gè)人用戶(hù)等），企業(yè)無(wú)須購(gòu)買(mǎi)包括軟件、硬件等在內(nèi)的復(fù)雜架構(gòu)的產(chǎn)品并在現(xiàn)場(chǎng)安裝以創(chuàng)建網(wǎng)絡(luò)，只需為自己所需的特定服務(wù)付費(fèi)，從而極大地節(jié)省成本與盤(pán)活資源。算力資源基礎(chǔ)設(shè)施的私有化與分裂化也意味著，算力資源持有者構(gòu)成相互牽制的關(guān)系網(wǎng)絡(luò)，任何技術(shù)力量都無(wú)法獨(dú)立運(yùn)行。比如，掌握有限算力資源的OpenAI等新銳巨頭通過(guò)向第三方租借GPT-4等基礎(chǔ)設(shè)施型資源形成在大語(yǔ)言模型乃至人工智能領(lǐng)域的優(yōu)勢(shì)地位；而OpenAI的ChatGPT亦非獨(dú)立存在的技術(shù)產(chǎn)品，其采取向微軟、谷歌、英偉達(dá)等老牌科技巨頭租用芯片、云服務(wù)的算力租賃方式完成復(fù)雜的訓(xùn)練與運(yùn)行過(guò)程，因而人工智能代理的發(fā)展亦可能進(jìn)一步強(qiáng)化微軟、英偉達(dá)等老牌巨頭在科技行業(yè)的壟斷地位。其中，支撐GPT服務(wù)的硬件設(shè)備主要是芯片及搭載芯片的數(shù)千臺(tái)服務(wù)器和數(shù)百個(gè)標(biāo)準(zhǔn)機(jī)柜。根據(jù)英偉達(dá)估算，訓(xùn)練一個(gè)ChatGPT-175B大模型需使用1，024塊Al00芯片，即128臺(tái)8卡Al00服務(wù)器，硬件采購(gòu)成本就高達(dá)1.54億元人民幣。囿于高昂的硬件采買(mǎi)成本，OpenAI及其他中小企業(yè)便采取算力租賃方式進(jìn)行大模型訓(xùn)練，以控制成本。在云服務(wù)一側(cè)，受微軟注入資本影響，ChatGPT的合作伙伴從谷歌云服務(wù)平臺(tái)轉(zhuǎn)向微軟的Azure平臺(tái)，但仍然消耗巨大的成本。可以說(shuō)，具備算力與資本優(yōu)勢(shì)的微軟等老牌科技巨頭以出租云服務(wù)、注入資本等方式布局人工智能領(lǐng)域，成為人工智能平臺(tái)市場(chǎng)的底座式玩家。

其次，老牌巨頭的觸角不僅抵達(dá)ChatGPT背后的OpenAI，還零散分布于游戲等細(xì)分市場(chǎng)之中——此前較少被關(guān)注的“游戲即平臺(tái)”模式隨著人工智能代理訓(xùn)練的流行而浮出水面。《我的世界》等游戲之所以在人工智能代理熱潮中扮演模擬實(shí)驗(yàn)室角色，是因?yàn)槠渖虡I(yè)模式越來(lái)越趨近于平臺(tái)模式，作為第三方的研究人員可以通過(guò)租賃服務(wù)、API接口接入游戲環(huán)境，根據(jù)自身需要搭建新的基礎(chǔ)設(shè)施環(huán)境。《我的世界》自2009年誕生起便被描述為一個(gè)“平臺(tái)”，但其含義更多指向“社區(qū)”，即強(qiáng)調(diào)業(yè)余粉絲玩家對(duì)游戲演進(jìn)的共同參與，與“平臺(tái)資本主義”的定義相去甚遠(yuǎn)。近年來(lái)，杰弗里·帕克（Geoffrey Parker）等人提出的數(shù)據(jù)驅(qū)動(dòng)的“網(wǎng)絡(luò)效應(yīng)”逐漸凸顯于該游戲的發(fā)展歷程中，起因是《我的世界》于2014年被微軟收購(gòu)，至今已擁有3億銷(xiāo)量與1.5億月活躍用戶(hù)，成為全球有史以來(lái)最暢銷(xiāo)的視頻游戲，儲(chǔ)備了龐大的用戶(hù)數(shù)據(jù)。學(xué)者大衛(wèi)·墨菲（David Murphy）指出，《我的世界》仿佛游戲界的Facebook和Google，在過(guò)去10年的發(fā)展過(guò)程中建立了游戲史上前所未有的用戶(hù)規(guī)模基礎(chǔ)，從一種實(shí)驗(yàn)性的、令人驚訝的社交游戲轉(zhuǎn)變?yōu)椤坝螒蚣雌脚_(tái)”的商業(yè)模式，已化身為基礎(chǔ)設(shè)施型平臺(tái)。

最后，對(duì)于提供算力資源服務(wù)的平臺(tái)公司來(lái)說(shuō)，可繼續(xù)編寫(xiě)或重新組裝的Web應(yīng)用框架是其提供給“用戶(hù)”的產(chǎn)品之一。這些軟件應(yīng)用程序既不相互獨(dú)立，也不緊密聯(lián)結(jié)，而是呈現(xiàn)模塊化狀態(tài)。作為“用戶(hù)”的程序員利用像“鉤子”一樣的應(yīng)用程序接口（Application Programming Interface，API）將像“模塊”一樣的軟件應(yīng)用程序組裝成新的軟件產(chǎn)品，節(jié)省了從頭編寫(xiě)或構(gòu)建軟件的成本。所謂的API實(shí)際上是一組編程代碼，是軟件間通信與數(shù)據(jù)交換的媒介，支持軟件系統(tǒng)（例如數(shù)字平臺(tái)）之間的編程通信以及數(shù)據(jù)和功能交換，并作為核心基礎(chǔ)設(shè)施元素為第三方和合作伙伴創(chuàng)建的應(yīng)用程序和服務(wù)保駕護(hù)航。隨著平臺(tái)商業(yè)模式的崛起，平臺(tái)研究學(xué)者通過(guò)追溯Google和Facebook等的平臺(tái)演化歷程，認(rèn)識(shí)到平臺(tái)公司在當(dāng)今社會(huì)的“數(shù)據(jù)主導(dǎo)地位”與API在數(shù)字基礎(chǔ)設(shè)施中的核心地位，指出API業(yè)已成為“主宰數(shù)字世界”的一種方式。也就是說(shuō)，利用API與第三方共享數(shù)據(jù)或集成服務(wù)成為平臺(tái)商業(yè)模式的核心技術(shù)環(huán)節(jié)。通過(guò)API接入平臺(tái)現(xiàn)成資源的“第三方”開(kāi)發(fā)人員基于自身的創(chuàng)造性需求，在平臺(tái)的核心基礎(chǔ)設(shè)施之上搭建新的應(yīng)用場(chǎng)景，生成新的技術(shù)產(chǎn)品或服務(wù)；與此同時(shí)，平臺(tái)本身也在這些外部力量的共同參與下不斷演化，通過(guò)控制“接口使用”的標(biāo)準(zhǔn)化以維持自身穩(wěn)定性。API的工作原理如圖1所示。

與傳統(tǒng)的信息通信公司相比，平臺(tái)公司的經(jīng)濟(jì)和組織特性表現(xiàn)為“可編程性”（programmability），即通過(guò)將“用戶(hù)”（包括但不限于非營(yíng)利組織、政府、企業(yè)、內(nèi)容開(kāi)發(fā)商和廣告商）聚集在一起運(yùn)營(yíng)“多邊市場(chǎng)”，其功能在于促成用戶(hù)間的交互與交易，仿佛一個(gè)容納多元主體的“生態(tài)系統(tǒng)”。曾經(jīng)主導(dǎo)基礎(chǔ)設(shè)施的“系統(tǒng)構(gòu)建者”可能要讓位于“生態(tài)系統(tǒng)構(gòu)建者”，后者不是靠直接提供資源而是利用可編程性和互聯(lián)互通來(lái)實(shí)現(xiàn)控制。誰(shuí)將成為新的“生態(tài)系統(tǒng)構(gòu)建者”？現(xiàn)在給出定論還為時(shí)過(guò)早，但到熱潮退卻的那一天，這將是科技行業(yè)面臨的核心問(wèn)題。

（作者胡泳系北京大學(xué)新聞與傳播學(xué)院教授、博士生導(dǎo)師；張文杰系北京大學(xué)新聞與傳播學(xué)院2023級(jí)博士研究生）

現(xiàn)代出版2024年6期

現(xiàn)代出版的其它文章: 《現(xiàn)代出版》征稿啟事; 簡(jiǎn)體字本古籍出版的價(jià)值及其實(shí)現(xiàn)路徑; 書(shū)寫(xiě)的口語(yǔ)性：回到跨模態(tài)的織網(wǎng); 古書(shū)新造：民國(guó)古籍出版熱中文本的再生產(chǎn)邏輯; 出版史學(xué)的想象力：從書(shū)籍史研究范式借鑒到出版場(chǎng)的建構(gòu); 國(guó)民數(shù)字閱讀素養(yǎng)內(nèi)涵體系創(chuàng)建