在3月29日召開的2025中關村論壇年會通用人工智能論壇上,北京通用人工智能研究院公布了最新研究成果,覆蓋通用智能體+行業智能體+社會智能體三大智能體矩陣,其成果以“原創技術—產業賦能—社會智能”三級聯動模式,推動人工智能從單一智能向社會智能轉變。
“通通”2.0有了“三觀”
全球首個通用智能人“通通”2.0在論壇上發布。相較于1.0版本,“通通”2.0在語言、認知、動作、學習、情緒、交互方面實現了多種核心能力的升級。
當前,國內外諸多大語言模型通過指令微調和強化學習下的人機價值對齊等技術手段,雖然能夠較好地完成人機多輪對話任務,但此類對話更多是圍繞用戶的需求及觀點進行,本質上缺乏自身相對連貫的價值觀、世界觀以及據此演繹出來的對話內容,很難實現價值與心智驅動的多輪對話。
“通通”2.0版本實現了一個有自身價值觀、世界觀的小女孩,在理解對話目標意圖的基礎上,遵循自身價值和人格,利用對話策略來引導對話的走向,從而達到自身的目的。在價值調控對話生成、消除模型幻覺、保持對話前后連貫性以及“言行一致”等方面取得突破。
基于交互反饋的推理和學習方面,“通通”生活在高度仿真的復雜、動態三維虛擬場景中,1.0版本的“通通”在任務執行過程中,如果周圍環境時刻在發生變化,會導致它原本規劃的任務無法順利完成。但“通通”2.0可以實時響應外界場景的變化,進行反思和重新規劃,對已有任務進行掛起、恢復、修改或取消等處理,同時動態生成新的任務規劃,從而以更靈活、智能、多變的方式完成指令。
不僅如此,不同于當前大語言模型普遍采用的離線數據驅動的學習模式,“通通”在和場景交互(自主學)及與人類的多模態對話(他人教)過程中,能動態更新自身的知識庫、價值函數和技能,使得它初步具備類人的持續反思和成長的能力。
在多智能體交互方面,研究人員為“通通”打造了幼兒園、六口之家等多智能體場景,并在場景中設置了各自獨立,具備自身價值、能力、人設、狀態的多個智能體,使“通通”擁有了自己的家人和朋友。
在這種多智能體場景中,“通通”不僅需要理解周圍環境,還需要理解環境中其他智能體,識別它們的身份、性格和自身的關系、彼此之間的關系和物品的關系、當前動作、意圖、氣氛等,并在此基礎之上進行自身的任務規劃,包括發起和響應對話,實施幫助、搗亂等復雜行為交互。
隨著“通通”的持續迭代,它的能力也在穩步提升,目前研究人員正利用認知心理學定義的5—6歲兒童應掌握的經典任務對它進行測試,“通通”已經通過了多項綜合性強、復雜度高的任務考核。未來它將成為通用底座支撐各類垂直應用場景,進一步學習行業特定的知識和技能,形成千萬個“通用智能人”賦能千行百業,同時與具身智能機器人相結合,為智能制造、智慧城市、養老陪護、數字助理、家用機器人等領域帶來革命性的變化,更好地服務居民日常生活。
為人工智能能力評估搭建數理框架
近年來人工智能技術取得了顯著進展,但通用人工智能的發展仍面臨諸多挑戰,如跨領域知識的遷移、自主探索與學習、情感與價值觀的融入等。除此之外,通用人工智能的倫理、法律和安全問題也引起了廣泛關注。
通用人工智能是指具有高效的學習和泛化能力、能夠根據所處的復雜動態環境自主產生并完成任務的通用人工智能體,具備自主的感知、認知、決策、學習、執行和社會協作等能力,且符合人類情感、倫理與道德觀念。其研究發展通常涉及眾多學科領域,包括計算機科學、認知科學、心理學、神經科學等。
當前,國際上缺乏通用人工智能的嚴格數理定義,更缺少衡量一個AI系統是否達到了通用人工智能的測試標準與平臺。圖靈測試僅限于定性測試人機對話的表現;OpenAI、DeepMind等機構僅給出了AGI較為寬泛的應用層面的描述。制訂一個嚴格的AGI定義和定量評級標準與測試平臺是一個世界性的科學難題。
論壇上北京通用人工智能研究院發布了全球通用人工智能數理定義、評級標準與測試平臺通智測試(TongTest)。該平臺主要是為了測試通用智能體的能力,由北京通用人工智能研究院自主設計開發。
通智測試(TongTest)是專為評估通用人工智能(AGI)而設計的綜合評測體系,該體系包含一個六維度(視覺、語言、認知、運動、學習、價值)、五層級(初級自身價值、高級自身價值、多智能體互動的價值、基礎社交價值、高級社交價值)的智能體評級標準,以及一個支撐該評級標準實現的智能體虛擬測試平臺。通智測試基于“論績、論跡、論理、論心”四論標準,即以結果為核心的基礎評價、關注行為過程與軌跡、聚焦推理路徑的合理性、探究動機與價值觀的正確性,實現了“通用能力測試—專項能力測試—行業應用測試”三位一體。
測試平臺基于動態具身的物理和社會交互環境,通過模擬復雜的真實世界任務,全面評估AGI在不同維度上的能力與價值等級。在技術特點上,TongTest可無限測試任務生成,同時注重能力與價值測量并重,平臺提供與虛擬環境中的其他角色和元素的互動,并能夠根據評級體系對AGI達到的等級進行定量描述。
TongTest突破了傳統人工智能測試方法的局限,填補了通用人工智能評測的國際空白,為規范通用人工智能的發展提供了科學的度量與指揮棒,為人工智能的安全與標準提供了數理框架,同時也為我國在通用人工智能領域搶占國際話語權提供了科學依據。
經過TongTest"86項綜合任務(比如收拾房間、整理餐桌等)對“通通”進行的階段性測試結果顯示,與人類兒童發展階段對比,“通通”主要能力維度已初步達到5—6歲發展水平,相當于幼兒園小朋友的水平。TongTest也能夠測試當前的主流大模型,將其封裝為具身智能體后,測試其場景感知與任務規劃、空間交互與任務執行等能力,大模型無法做到知行合一。
論壇上還發布了三維場景重建與具身智能數據構建平臺“通通到我家”。該平臺能“把現實世界搬進電腦”,讓智能體“通通”走進千家萬戶。通用人工智能行業智能體工場(TongAgents),是助力行業AI"Agent快速孵化的高效工具與平臺,就像一個智能體的“制造工廠”。北京通用人工智能研究院多智能體實驗室負責人陳爍介紹了社會級智能體,并現場演示了大型社會模擬器(Large Social Simulator)。
與此同時,北京通用人工智能研究院還聯合樂聚機器人、宇樹科技等多家人形機器人公司共同發起成立“通智大腦聯盟”。該聯盟通過打破技術壁壘,聚焦垂域場景的通智大腦和具身本體協同研發及應用,將實現在物理空間上具身智能體從感知到決策、從學習到執行的閉環,加速核心技術突破與成果轉化。
北京通用人工智能研究院分別與樂聚機器人、宇樹科技等公司合作,通過共建人形機器人聯合實驗室,打造具身智能科研中心,加速推進具身智能、人形機器人等關鍵技術和底層技術的攻關突破。聯合實驗室將共同打造具備感知、認知、決策和行動能力,在復雜動態環境下能自主識別需求并執行相關任務的具身智能機器人,并拓展其在高危作業、工業生產、家庭服務、導覽導購等多個垂直領域的場景應用技能開發,實現場景的多模態識別、場景目標物作業互動、人機交互等能力,助推產業規模化、賦能新質生產力發展。
此外,會上還發布了“北京人工智能安全治理協同創新矩陣”,該矩陣以北京市科委、中關村管委會組織設立的6家北京市重點實驗室為關鍵節點,鏈接國家級科研機構、頂尖高校、新型研發機構與行業領軍企業的創新資源,共織生態網絡、共享創新勢能,構建系統化的安全與治理體系。