自變量發布新一代自研具身智能基礎模型WALL-B
222
訂閱已訂閱已收藏
收藏點擊播報本文,約
“早上七點,鬧鐘響了。你從床上爬起來,走到客廳。拖鞋不知踢到哪裡,廚房的碗還沒洗,孩子的書包扔在地上,貓打翻了一杯水。”自變量創始人兼CEO王潛認為,家庭環境的本質是隨機、碎片和不斷變化的。“目前全球沒有任何一台機器人可以在無遙控操作的情況下獨立完成上述場景中的綜合整理任務。”
他解釋道,舞台上的后空翻、跳街舞、寫毛筆字等機器人演示雖然視覺沖擊力強,但這些動作本質是預設軌跡的“命令行機器人”,每一個動作都經過預先編程或遙控操作。工廠中已經部署的工業機器人同樣不構成可比案例:工廠環境下,一個動作可以重復一萬次且每次條件相同﹔而在家庭中,一萬個動作每個可能隻做一次,每次的環境條件都不一樣。因此,機器人進入家庭也被視為“這個時代最難的技術問題之一”。
4月21日,自變量機器人正式發布新一代自研具身智能基礎模型WALL-B,這是基於世界統一模型架構(WorldUnifiedModel,WUM)的具身智能基礎模型,標志著具身基礎模型從VLA架構向原生多模態融合架構的重大跨越。同時,自變量機器人宣布將在35天后的5月25日搭載WALL-B的新一代機器人將首批入駐真實家庭。
具體應用方面,自變量與58同城合作,將搭載WALL-AS模型的機器人送入真實家庭,與保潔阿姨協同作業,實現機器人進入家庭,並服務人類復雜的家居生活。
據自變量聯合創始人兼CTO王昊介紹,WALL-B真正區別於行業其他方案的核心,是其從VLA到WUM的架構革命。
該架構的設計思路類似於AppleSilicon的統一內存架構:在蘋果M1芯片之前的Mac上,CPU、GPU、內存各自獨立,數據搬運產生的延遲和損耗成為性能瓶頸﹔蘋果通過統一內存架構讓所有處理單元共享同一塊內存,性能由此大幅提升。
在機器人領域,VLA就類似於M1之前的筆記本電腦架構,視覺模塊、語言模塊、動作模塊各自為政,數據在模塊之間搬來搬去,每搬一次就丟一次信息。視覺學到的豐富信息,傳到動作模塊時隻剩一個模糊的摘要。
WALL-B採用的WUM的核心理念與之相同,將視覺、語言、動作、物理預測等所有能力,放在同一個網絡中從零開始聯合訓練、融為一體,消除模塊間的邊界和數據搬運損耗。
基於這一架構,WALL-B實現了三項區別於行業現有模型的核心技術特征:
第一,原生多模態。WALL-B從訓練第一天起,即對視覺、聽覺、語言、觸覺、動作等多模態數據進行同步標注與聯合訓練,實現“多模態進、多模態出”。這意味著模型不需要通過“傳話”的方式在不同模塊間轉譯信息——它看到杯子的同時就已經在准備伸手,感覺到重量的同時就已經在調整力度。這種架構還首次賦予了模型一種被稱為“原生本體感”的能力:WALL-B無需持續觀察自身全身或依賴大量外部傳感器,即可內在地感知自身的空間尺寸,如高度、寬度、手臂伸展范圍,並判斷能否通過某個空間或觸及某個物體。這是一種內生的空間感知能力,而非通過外部測量或建模獲得。王昊指出,這一點甚至許多動物都不具備。
第二,物理世界的“世界觀”。WALL-B能夠感知並預測重力、慣性、摩擦力、速度等基本物理規律。在從未見過的場景中——例如一個盤子一半懸空在桌沿外——模型可以推斷出盤子掉落摔碎,從而採取預防動作。這種對物理規律的理解為零樣本泛化提供了基礎。日常生活中,物理規律在不同環境中均保持一致,WALL-B在任何一個它從未去過的家庭中,都能利用對基本物理常識的理解來應對新場景,不需要針對每個家庭重新訓練。
第三,與世界交互並自我進化。這是WUM架構區別於所有現有VLA模型的最根本特征。目前主流機器人在任務失敗后通常直接停止,返回錯誤信息,無法從失敗中學習。WALL-B的行為模式則完全不同:它在失敗后會調整策略再次嘗試,如果成功,則將這次成功的經驗直接更新到模型參數中。這種機制使模型在真實環境中完成自我迭代,無需工程師重新訓練、無需人工注入新數據、無需返回實驗室。王昊將其類比為人類學習使用筷子的過程,“筷子掉了無數次,但每一次失敗都在調整手上的控制,最終形成穩定的技能。WALL-B克服了Transformer架構難以進行長期內化記憶的問題,所有經驗以原生多模態記憶的方式,通過類似人腦記憶的機制實現自我更新。”
“盡管進入家庭的機器人現在還很笨,走得很慢,經常犯錯。人類從嬰兒時期邁出的第一步也是如此。每一個偉大的旅程,都是從踉踉蹌蹌的第一步開始的。如今,機器人已經在最復雜的地方開始了它學習和進化的征程。”王潛說道。
關注公眾號:人民網財經
分享讓更多人看到
- 評論
- 關注































微信掃一掃


第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量