字節跳動發布通用機器人模型 GR-3:配套設計 ByteMini 機器人
7月22日,Seed GR-3 是字節跳動 Seed 團隊提出的全新 Vision-Language-Action Model(VLA)模型,它具備泛化到新物體和新環境的能力,能理解包含抽象概念的語言指令,還能夠精細地操作柔性物體。
據 Seed 介紹,與此前需要大量機器人軌跡訓練的 VLA 模型不同,GR-3 通過少量的人類數據即可實現高效微調,從而快速且低成本地遷移至新任務,以及認識新物體。此外,得益于改進的模型結構,GR-3 能有效處理長程任務并能進行高靈巧度的操作,包括雙手協同操作、柔性物體操作,以及融合底盤移動的全身操作等。
具體而言,這些能力是通過一種多樣的模型訓練方法實現的:除遙操作機器人收集的高質量真機數據外,團隊還經過用戶授權,征集了基于 VR 設備的人類軌跡數據,以及公開、可用的大規模視覺語言數據進行聯合訓練 —— 多樣性數據的融合是 GR-3 區別于現有 VLA 模型的亮點之一。
同時,字節跳動 Seed 團隊還開發了一款具備高靈活性、高可靠性的通用雙臂移動機器人 ByteMini,相當于是專為 GR-3 這顆“大腦”打造的“靈活軀體”。ByteMini 具備 22 個全身自由度以及獨特的手腕球角設計,使它能夠像人類一樣靈活,在狹小空間中完成各種精細操作,攜帶 GR-3 模型這顆“機器人大腦”,可高效在真實環境中處理復雜任務。
GR-3 在各類任務中展現的特點包括:
“心靈”:GR-3 在超長序列 (子任務數≥ 10) 的餐桌整理任務中,可高魯棒性、高成功率地完成任務,并在過程中嚴格跟隨人類發出的分步指令;
“手巧”:GR-3 在復雜靈巧的掛衣服任務中,能夠控制雙臂協同操作可形變的柔性物體,甚至可以魯棒地識別并整理不同擺放方式的衣物;
泛化好:GR-3 在各類物體的抓取放置任務中,可以泛化到抓取未見過的物體,同時可理解包含復雜抽象概念的指令。
經過團隊上千次系統性實驗測試,GR-3 表現超過業界此前可測試具體性能的 VLA 頭部模型 π0。未來,團隊希望 GR-3 可以成為邁向通用機器人“大腦”的重要一步。在基礎場景和新環境中,加入公開可用的圖文數據進行訓練不會帶來能力損失;在未見過的復雜指令和新物品任務中,這部分數據分別能帶來 42.8% 和 33.4% 的成功率提升。