
回顧人工智能的發展歷程,生成式人工智能在近幾年取得里程碑式的突破,各種大語言模型的發展和應用呈現井噴之勢。但是在人工智能和真實物理世界進行交互時,進展卻顯得相對緩慢。
為了讓智能體通過物理實體跟周圍環境實時互動,實現感知、認知、決策和行動的一體化,人們付出了艱難的探索和努力,這就是具身智能(Embodied Intellgence,簡稱El)。具身智能的核心理論包括具身認知(認知與身體、環境緊密耦合)、形態計算(借物理形態實現部分計算)、感知行動循環(通過反饋優化策略)等,在具身實現時一般滿足本體(如機器人、汽車等物理載體)、智能體(多模態大模型驅動的核心模塊)、環境(物理世界)三要素。
目前,具身智能的最主要載體就是機器人。在2025世界機器人大會和2025世界人形機器人運動會中,機器人的魅力再度綻放,從護理機器人、維修機器人、分揀機器人,到機器人足球、機器人拳擊、機器人田徑賽等,這些精彩的機器人表演給人們帶來了一場具身智能的視覺盛宴。如果用挑剔的眼光來看,這些表面光鮮的機器人還有很多缺陷和薄弱之處,甚至有些人形機器人的低級失誤讓人大跌眼鏡。這也是人形機器人暫時還無法直接進入成熟應用的原因,畢竟,在精細和精密的工作要求中,一些小的失誤就可能造成災難性的后果。
為了讓機器人適應人類的形態和生活空間,很多時候需要機器人具有人形,這樣一來,首先要解決的就是模仿人類的兩足行走,這是人形機器人的入門挑戰。為了更接近人類,人形機器人還要解決很多高難度的技術和動作,如直膝行走、動靜態平衡、前后空翻、聽覺視覺等。有時我們覺得很簡單的事(如直膝行走、前空翻),機器人實現起來卻很難。所以我們看到的人形機器人,常常是彎著腿瞞前行,不小心還會摔倒,有時還跟著一個拿遙控器的操作員,似乎并沒有什么智能可言。
雖然每一個突破都非常艱難,人們還是放不下對人形的執念,更放不下對具身智能的追求。人類對自身的形態最為熟悉和認同,人類的身體結構經過數百萬年的進化,已經高度適應了各種復雜的環境和任務,人工智能也必然會向著地球上最高級的智慧生命—人,看齊和進發。有時,這種執念也會形成局限和障礙,就像科幻小說中對外星人的想象一樣,也常常跳不出人形的概念。若將機器人用于工業流水線上,往往不再使用人形,克服和規避了很多障礙和難題,極大地提升了應用效率。而在智能駕駛上,也不再考慮人形本體,用程序驅動硬件,實現對真實世界的感知和交互。但對具身智能的追求,往往是人工智能較高發展水平的象征,也是實現通用人工智能和強人工智能的關鍵環節。
未來,具身智能將朝著多模態融合的方向不斷前進,視覺、聽覺、觸覺等多種感知能力將實現深度融合,讓智能體能夠更全面、準確地感知環境。機器視覺、傳感器技術、深度學習算法等的不斷進步,為具身智能的發展提供了堅實的基礎。然而,具身智能的發展也面臨著諸多挑戰。要實現真正像人類一樣靈活、智能的具身智能體,還有很長的路要走。另外,具身智能的廣泛應用也會帶來倫理和安全問題。
無論如何,具身智能作為人工智能領域的前沿方向,承載著人們對未來智能生活的無限憧憬。人工智能行業對具身智能的執著追求,必將為人類社會帶來深刻的變革,從而開啟一個全新的智能時代。