朱秋雨

在生成式AI爆發的2023年,有實力的科技廠商把一個賽道也帶火了—人形機器人。
2023年12月,特斯拉發布了Optimus 2.0人形機器人演示視頻。視頻里,它不僅擁有靈活的手指,還能做瑜伽、夾雞蛋。
這些進步讓外界驚嘆。要知道,人形機器人在過往,連加速跑、靈活跳躍都會讓科技圈振奮。
小鵬汽車董事長何小鵬也在2023年10月“秀”了一把自己的實力。他在新車發布會上,宣布自研出了一個可以敏捷行走、會踢足球的類人機器人PX5。
那一天,他興奮地對臺下的觀眾談暢想:“等我老了,機器人可以跟我一起打摜蛋,幫我換尿布了。”
聽上去,科幻電影的場景很快就能在現實中實現了。但這些美好設想,在21世紀初,機器人產業飛速發展的日本、美國都提出過。那時也有人以為,智能機器人即將“占領”世界,重復、無聊的人類勞動,馬上將被機器人取代。
事實倒是,發展了20多年,那些人類暢想的智能機器人,仍然沒進入普通人的生活。
2023年,當人形機器人再度成為投資人眼里的大熱點時,一個問題仍存:為什么產業發展了20多年,現在的機器人,看上去仍像智力不高、只能完成單一功能的機器。
為此,我去參觀了兩家國內年輕的機器人公司,分別與公司創始人、大學教授聊了聊這個新賽道。關于機器人如何發展的共識并不多,但一個可見的結論是,AI大模型正顛覆產業,催促眾人爭相追逐前方的不確定性。
對深圳市樂聚機器人董事長冷曉琨及同事的采訪,經常會伴隨嗡嗡的機械背景音。
冷曉琨剛滿30歲,喜歡衛衣配球鞋,說話爽快,走路也快。2016年,在哈爾濱工業大學就讀博士時,他與十余位校友在深圳創立了這家機器人公司。
如今,他們將人形機器人迭代了4版。最新的這一版,約1.4米高,重量約45公斤;有兇猛的胸肌以及與之協調的粗壯雙腿,有點兒像高達。據稱,這是“國內首款可跳躍,可適應多場地行走”的人形機器人。
他們叫它,“夸父”。
我去到時,“夸父”們正被開膛破肚,吊在天花板垂下的兩條線上,由工程師做最后的調試。它們即將交付,訂購者主要來自中國高校科研團隊。
幕后研發人員告訴我,當下的難點是,如何讓機器人做到走路既快又穩,同時行動靈活。
這是一個對人類而言非常簡單的行為。但放到人形機器人領域,要想穩步行走的難度大。這是因為,人形機器人首先是雙足機器人。而一些人體的運作規律,連人類自己都沒完全搞清楚。比如,我們的大小腦是如何與四肢配合、穩住重心,讓我們自如行走、旋轉跳躍的?這些盲區讓機器人的發展舉步維艱。
更別提其中面對的各類工程問題。從續航能力看,目前人形機器人多數只能續航1—2小時,未來預測可以提升到20小時。而對比持續工作7—8小時的工人而言,人型機器人遠未達到可用的程度。
盡管難度擺在面前,眼下,這卻是受眾人矚目的賽道。
“人形機器人,2023年可以說是產業化的元年。”冷曉琨興奮地對我說。
從2021年馬斯克宣布造人形機器人Optimus開始,冷曉琨明顯感到,越來越多人與錢涌入了昔日冷門賽道。
接著,2023年,ChatGPT和生成式AI的爆火,再次催熟了這個產業。人們開始相信,未來的機器人要長得像人,要有包括兩只腳的四肢,這樣它可以爬樓梯,也可以適應各種地形條件和生活場景。
國內最出圈的創業者,是有250萬粉絲的B站UP主稚暉君(彭志輝)。他在2023年宣布從華為辭職,創業做人形機器人。僅僅用了10個月,“稚暉君”的智元機器人已經估值約40億元。
一切的火爆與追隨,都源于一種全新的相信—在軟件層面,當AI可以被訓練得像人一樣智慧時,這一進步說不定也能被轉移到它的實體—機器人上。
“從2016年我創業做人形機器人時,我就一直被別人問,‘這玩意到底能干什么?’”冷曉琨回憶。
他曾在回答這個問題時一度語塞—個人的技術信仰很難回應外界的疑問。“現在,不用我說,大家都能知道它可以干什么了。”
“90后”邱迪聰也在2023年,從某自動駕駛公司技術副總裁(VP)職位離職,加入創業大軍。
新公司在2023年4月成立,坐落在香港科技大學(廣州)的實驗室。地方不大,但透明敞亮。
對比做人形機器人,邱迪聰選擇了從更簡單的移動機器人入手。他目前的機器人demo,有一只機械臂,專門服務于超市補貨場景。表面看,這個機器人的外觀與過往的工業機器人無異,但邱迪聰興奮地告訴我,機器人的發展范式即將發生改變。
他做的雅可比機器人,最大的亮點是可以聽懂人的語言,與人進行交互并完成簡單任務。
“這也許是(創業)最好的時間點。”談及有點冒險的決定時,他非常堅定地說。
“更早以前,做機器人連技術通路都沒有,前路充滿不確定性。”而過去這一年AI的智能涌現,讓業內人士包括邱迪聰有了奮身前進的方向。
他在全球知名的機器人院校—卡內基梅隆大學博士畢業,非常清楚這些年的變化。要想弄清楚現在,他在白板上畫了一張思維導圖,和我解釋過去。
傳統的機器人包括三個部分:感知、決策、執行。這些分別對應著人類的感官、腦和肢體三部分。
過去,要想驅動機器人行動,工程師必須使用閉源數據集,訓練機器人感知。同時,程序員還要預先寫好大量代碼,幫助機器人決策和規劃,最后,驅使機器人行動。
這個辦法耗費大量人力,機器人能做的事還十分有限,經常被嘲笑為“人工智障”。
如今,它被一套新的思路顛覆了。邱迪聰說,AI涌現智能后,業內想將大模型(LLM)理解語言和推理的能力搬到機器人的大腦(決策)系統里。
這種能力是什么?
“人面向沒見過的東西,不會傻愣或者死機,而是進一步做很多猜想、推理,這叫開放認知。”他解釋說。
開放感知加上開放的決策能力,結合在小腦(執行)部分的創新,給機器人行業帶來了新變化。
“這是一套新的技術路線,讓機器人從封閉的感知走向全開放的世界。這在過去是不可能發生的。”邱迪聰表現得依然很興奮。
新思路讓機器人產業盎然向上,但深耕產業多年的人都清楚,眼下像登山般終于見到了前方的一座山峰,但究竟怎么走、怎樣更快抵達,一切仍是未知的。
邱迪聰在香港科技大學(廣州)的公司擺了兩排貨架,上面放著可樂、雪碧、維他奶等飲料,就像一個簡易的便利店。平日里,白色的、擁有底座的機器人在“便利店”里來回熟悉環境,聽人的語言指令,取相應的貨物。
他們的目標是,訓練出區別于工業機器人的智能體。“以前的工業機器人,一般只會識別一種零部件,”邱迪聰說,“人也不敢輕易靠近,因為可能引發機器人的錯誤識別。”
但現在,他們想要的是智能機器人。這意味著,機器人時刻能理解和認知環境,“人看到它也不用繞路走,它可以自己規劃路線、解決問題”。
只是,理解和認知環境—這一對人類極自然的事情,卻是機器人領域最大的難題之一。香港城市大學機械系助理教授殷鵬用自動駕駛汽車類比,和我說明造機器人的難度。
走在馬路上的自動駕駛汽車,經常面對的是從一地到另一地,從A點到B點的問題。但要做一個走入人類生活的機器人,需要認識的環境復雜程度遠高于路面。
殷鵬舉例和我解釋:“不同的家庭,它的結構、裝修風格完全不同,光照條件也非常不同;室內環境和室外又不一樣;屋子里面的動態障礙物,也會干擾機器人的判斷。”
這些難題之所以在機器人行業存在多年,還有一個更重要的前提—機器人不具有像人類一樣的常識。人類很多天生的能力,在機器人這蕩然無存。
殷鵬把這些能力概括為感性認知。他說,即使當下大模型可以通過拍照、多模態等方法,告訴機器人眼前為何物,但機器人始終無法理解真實的空間。
“比如我距離你近或者遠,它沒有概念;一個東西的硬度、剛度,它都沒有感覺,只能依靠數據的標注。”殷鵬說。
如果再概括地說,機器人缺的是一種“非數據化的、抽象的概念的理解,也就是對這個世界的理解”。
這也是為何,2023年,無論在業界還是學界,都在為ChatGPT等生成式AI心潮澎湃。“通過與ChatGPT交流,我們確實感到它有智力,這不是單單線性公式可以實現的。”殷鵬解釋。
因此,學界想把ChatGPT的智能更往外擴,讓它跟物理世界建立關聯。
邱迪聰也認可這樣的思路—用AI驅動實體機器人認知世界,也就是學界常說的“具身智能”。
但真正投入這片藍海時,他發現,如今核心的問題來自整個系統的協調性。那就是,即便他們成功讓機器人擁有了像ChatGPT一樣聰明智慧的大腦,但如何讓大腦與機器人的感知、執行的兩個部分銜接,又是另一個難題。
這便是AI在虛擬世界和物理世界的能力差距。
比如,“今天,如果你想吃雪糕了。”邱迪聰和我舉例,“你可以告訴ChatGPT說,你給我拿雪糕,ChatGPT能聽懂。”
“但問題是,它要如何驅動其他部分,真的去打開冰箱給我拿雪糕呢?”
面對上述核心且關鍵的問題,各家公司有各自的解法。
走在最前沿的馬斯克人形機器人Optimus,提出了 “端到端”(End to End)的模式。比起將機器人模塊化地分為三部分,特斯拉更傾向于將這三部分當做一個整體,輸入原始數據就可以得出最終結果,相當于用數據引導行動。
這是一個風險性與實驗性并存的激進方法。邱迪聰告訴我,“端到端”模式最大的特點,那就是“黑匣子”。當AI模型操縱整個系統,“端到端”地輸出結果,一旦遇到問題,“很難找到出錯的原因”。
這也是特斯拉等人形機器人公司一直以來面臨的爭議。英國《每日郵報》在2023年底爆料稱,美國得克薩斯州特斯拉汽車的工廠,曾發生一起殘暴血腥的事故,一名工程師遭到機器人襲擊。一位代表特斯拉合同工人的律師還揭露,該工廠的受傷人數被瞞報了。

殷鵬也認為,如同自動駕駛當下的處境,安全性會是人形機器人落地的一大阻礙。
這里面,難度指數取決于場景的復雜程度。
“把機器人放在無人的工廠里,會是一個難度量級,而把機器人放在有人的工廠,又是一個量級,放在生活家居場景,又是更高一層的難。”
他認為,當機器人最終形態是協助人類、陪伴人類時,我們不能忽略它是具有大扭矩的機器。“當你身邊充斥機器人的時候,如果程序出現紊亂,對人動粗,或者黑客黑進去遠程操縱它,你覺得一般人能抵抗得了嗎?”他問我。
一位機器人賽道投資人表示,她在觀察這一新興領域時,會著重觀察公司在細節上的交付能力,否則沒有客戶愿意為產品買單。這主要是因為,硬件在場景解決上的容錯率很低,“這可能是涉及硬件的AI和純軟件AI最大的區別”。
也因此,包括冷曉琨等上述受訪業界人士對我表達了一個共識—當下距離具身智能機器人充斥人類生活的未來,還有一段距離。各家機器人公司如今準備從簡單且有需求的場景切入,慢慢迭代,再逐漸讓機器人進入復雜的場景,與人類共存。
冷曉琨將他的人形機器人發展之路分為三個階段,預計5年內實現。首先,樂聚將產品交付給高校,接下來會切入特種、物業等簡單場景領域。第三階段,讓復合型的機器人進入家居場景。
他為這個美好的未來提了一個口號:“讓機器人像博士一樣聰明,像家電一樣便宜。”
殷鵬卻認為,等待技術成熟,至少仍要10年左右。其中的一個關鍵,便是真實場景的數據十分稀缺。各家公司只能在實際落地中,積累更多數據,不斷迭代技術。只有這樣,機器人才能更好地處理現實生活中極端的長尾場景(corner case)。
好消息是,對創業公司和追趕者而言,前方的賽道勝局未定。誰都有超越的可能。
“數據雖然重要,但光有佐料也不行,” 殷鵬說,“巨頭特斯拉有數據歸有數據,但還缺一個高級的大廚,把這些數據用起來。”
“這需要一套非常合理且優雅的算法。”他告訴我。
現在,這個優雅算法,大家都在嘗試突破。