機器人自回歸的創新，讓星海圖橫掃了7大具身評測基準

編輯｜Panda

上個月，Physical Intelligence 發布了新一代基礎模型π0.7，引發了一輪對具身智慧泛化能力的討論熱潮。而就在今天，北京的星海圖（Galaxea）又為世界帶來了G0.5

影片連結：https://mp.weixin.qq.com/s/nTJCsLfKtMglgicr_oqKbA

在橫跨模擬、真機、零樣本、長程任務的7 個獨立基準上，G0.5 全面超越π0.5，並在其中多項上取得SOTA。

這不是靠堆數據堆出來的成績。 G0.5 的底層邏輯是對目前VLA 模型主流架構做出了一個根本性的判斷，並用實驗數據證明了這個判斷是對的。

7 大基準，全面領跑

G0.5 的成績涵蓋了VLA 領域最主流的評測維度，數據如下：

這7 項評測範圍廣泛，從不同角度檢測了一個通用VLA 模型真正需要具備的能力：開箱即用的零樣本遷移跨本體微調效率仿真環境下的指令跟隨以及現實世界中的長程複雜操作

要在這些維度上同時保持領先，單點效能優化是做不到的。

零樣本遷移能力（DROID）

機器人是目前規模最大的真實機器人操作資料集之一，包含來自多個實驗室、多種場景的Franka 機械手臂演示資料。

G0.5 在完全沒有針對該平台進行任何微調的情況下，直接部署於10 項桌面操作任務，平均成功率達到了82.5%，超過π0.5-DROID（57.5%）整整25 個百分點。

尤其在需要多步驟順序執行的任務「將積木放入抽屜並關閉抽屜」上，MolmoAct2 完全失敗，而G0.5 超過半數試驗成功完成。零樣本能力直接反映的是預訓練階段沉澱下來的可遷移操作先驗，而不是針對某一平台的過擬合。

真實機器人微調（R1 Lite / R1 Pro）

在星海圖自研平台上，G0.5 和π0.5、GR00T-N1.7 使用相同的訓練資料、相同的運算預算（各16 張H20 GPU），分別完成折疊毛巾、摺疊紙箱、鉛筆盒整理和箱子搬運堆疊等6 項任務的評測。這些任務都不是「抓取放置」等級的簡單操作，例如折疊毛巾要求機器人從籃子裡取出一條變形毛巾，透過雙臂協調將其展開、鋪平、按預定形狀折好，再放入指定區域，任何一步的抓握力度或拉伸張力出現偏差，都會導致整個流程功虧一簣。

在同等條件下，G0.5 的平均成功率76.7%，比π0.5 的53.0% 高出23 個百分點，比GR00T-N1.7 的24.4% 高出一倍有餘。

模擬基準（LIBERO / RoboTwin 2.0 / SimplerEnv-Bridge）

三項仿真測試涵蓋了單臂指令跟隨（自由人）、雙臂協調操作（機器人雙胞胎2.0）和跨資料集遷移（更簡單的環境橋）三類場景。

G0.5 在LIBERO 上以98.9% 的成績位居當前已公開結果的首位，尤其在LIBERO-Long（長程式列任務子集）上以98.6% 的成績超越所有對比模型。這恰恰是對長程推理能力最直接的考驗。

左右滑動查看

RoboTwin 2.0 包含超過50 個雙臂任務，G0.5 以93.3% 的均值刷新了該基準的最高紀錄。

G0.5 在SimplerEnv-Bridge 上也達到87.3% 的平均成績，超過其它所有模型。

長程移動操作（BEHAVIOR-1K）

這是7 項評測裡門檻最高的一項，也是最能說明問題的一項。

行為-1K挑戰賽由50 個完整家庭場景任務構成，每段演示平均時長6.6 分鐘，最長長達14 分鐘，機器人需要控制R1 Pro 在房間尺度的空間裡導航、取物、使用電器、整理物品，其中任何一個中間步驟的失敗都會影響後續所有進度。

G0.5 使用單一checkpoint、僅經過1 個後訓練epoch，Task Success Score 便達到0.2904，不僅超越了π0.5 訓練4 個epoch 的成績（0.2626），也超越了使用4 個checkpoint 集成的賽事冠軍（0.2605）。訓練增加至4 個epoch 時，G0.5 的得分提升至0.3136。在50 個任務中，G0.5 在29 個上領先π0.5，π0.5 只在15 個上領先G0.5。

1 個epoch 贏過4 個epoch，單一模型贏過整合方案。這組數字直接證明差異來自預訓練底座的質量，而非微調策略。

架構創新，而非資料堆疊

G0.5 能取得這些成績，根源在於星海圖對目前VLA 主流架構做出的一個判斷：問題不在於資料量，而在於VLM 被放錯了位置

過去幾年，VLA 領域的主流做法是「VLM 作為編碼器」：讓一個預先訓練好的視覺-語言模型負責理解圖像和語言，然後把它的輸出作為條件信號，傳遞給另一個獨立訓練的「動作專家」（通常是擴散模型或流匹配網絡）來產生最終控制指令。

這種分工有明顯的效率優勢。但也有代價：VLM 在預訓練中累積的思維鏈（CoT）、上下文學習、提示引導等核心能力，只能經過這道壓縮瓶頸間接影響最終動作，即VLM 成了一個條件編碼器，而非真正的決策者。

G0.5 的選擇是徹底去除這道瓶頸，讓同一套模型權重、在同一條自迴歸序列裡，同時完成推理與動作生成

技術報告：https://opengalaxea.github.io/G05/Galaxea_G0_5.pdf
專案網址：https://opengalaxea.github.io/G05/

圖像、語言、推理痕跡、物理動作，在G0.5 裡全部被轉換為共享詞彙表中的token，經過同一個Transformer 解碼器、同一次前向傳播生成。這樣一來，推理就成了動作的一部分。

為了讓這套自回歸路線在基礎模型規模上保持實用，G0.5 引入了三個關鍵設計。

跨本體動作編解碼器（ActionCodec）：將預訓練階段涵蓋的18 種機器人本體資料統一對應到27 維動作空間，每類運動部件（左臂、右臂、軀幹）對應結構化的動作token。更重要的是，推理時只產生目前需要移動的部件的token，靜止關節直接跳過。這種稀疏預測機制，讓自回歸VLA 在高頻控制場景下真正變得可行。

預訓練資料中包含的本體。左側圓餅圖總結了預訓練資料集中不同本體類別的相對比例。

原生思維鏈（Native CoT）：模型在產生動作之前，先在同一序列裡輸出四類推理token：原子子任務文字、目標物件邊界框、二維末端執行器軌跡、動作提示。這些推理token 與動作token 受同一個交叉熵損失函數約束。實驗顯示，在「麵包放入氣炸鍋」任務上開啟原生CoT 後，成功率提升了30 個百分點；在「培根煎製」上提升35 個百分點—— 這兩個任務都是模型從未見過的分佈外場景。

G0.5 在R1 Lite 上零樣本執行「把毛巾放進洗手台」：在同一自回歸流中，模型先生成思考（子任務、目標物體框），再輸出動作token，並從每一幀觀測閉環重規劃。

視覺記憶模組：在Vision Transformer 的每四層中插入分解的時空注意力模組，將多秒歷史幀的視覺資訊輕量級地融入當前決策。訓練時額外加入30% 的歷史影格隨機丟棄機制，防止過度擬合的同時，讓模型學會在歷史資訊缺失時依然穩健運作。這項設計對BEHAVIOR-1K 裡移動箱子到儲物間、整理臥室等需要反覆穿越空間的長程任務效果尤為明顯。

言出法隨：用自然語言直接控制機器人行為

統一自回歸架構也帶來了另一個能力：透過改寫自然語言提示，直接改變機器人的動作風格和執行細節，無需重新訓練。這是先前在VLA 領域基本上沒有被系統驗證過的新能力！

現在，這套能力在G0.5 上得到了兩個層面的系統性驗證。

第一層：思維鏈對動作的增益隨任務長度放大。

星海圖團隊在單一預訓練checkpoint 上，透過切換推理模式（開啟/關閉CoT）和動作解碼方式（自回歸AR/流匹配FM），做了一組嚴格控制的消融實驗。

結果顯示，在單階段的Pick-and-Place 任務上，開啟CoT 對自迴歸模式的成功率提升只有3.1 個百分點。但隨著任務階段增加，這個差距急劇拉大：在五階段的「麵包放入氣炸鍋」任務（入場→開門→抓麵包→放入→關門）上，開啟CoT 帶來30 個百分點的提升；在同樣是五階段的「培根煎製」任務上，提升達到35 個百分點。

這說明思考鏈的價值不在於幫助模型「想清楚簡單的事」，而在於透過逐階段的子任務分解與目標定位，防止長程任務裡的錯誤累積和狀態漂移。

第二層：提示改寫可以直接調控動作粒度。

在上述分佈外任務上，星海圖進一步將每個階段的簡短指令（例如“打開門”）改寫為帶有豐富副詞和空間修飾語的版本（“輕輕地把門完全打開”）。這種改寫並沒有引入任何新的訓練數據，只是讓指令攜帶了更細緻的執行意圖。

結果：氣炸鍋任務的成功率在AR+CoT 基礎上再提升15 個百分點，培根任務再提升10 個百分點，兩項從未出現在預訓練資料中的複雜任務完整成功率均突破50%。

為什麼這件事只有自回歸架構能做到？

對比數據給出了答案。同樣開啟CoT、同樣共享預訓練權重，僅把動作解碼從自回歸切換為流匹配（FM）模式：CoT 對FM 在氣炸鍋任務上的提升只有10 個百分點，培根任務上同樣是10 個百分點；均不足AR 模式下提升幅度的三分之一。

星海圖團隊對CoT 輸出的準確率進行了人工評分，AR 和FM 模式下的推理品質相近（PP Bench 約90%，氣炸鍋約85%，培根約80%）。因此這個差距不來自推理本身的質量，而來自動作的解碼方式：自回歸token 與推理token 共處同一條序列，動作生成時可以直接回看CoT 內容；而流匹配專家在產生動作前，已經把推理軌跡壓縮進了一個緊湊的條件向量，細節丟失了。

這也是G0.5 的核心主張得到實驗支持的最直接證據：推理和動作必須共享同一個上下文，才能讓「思考」真正驅動「行動」

言出法隨

G0.5 的PP Bench 結果也揭示了另一個值得關注的維度：視覺脈絡對語言跟隨的影響

在50 小時後訓練設定下，標準指令（僅有文字名稱）的語言跟隨率為84.4%，任務成功率為75.0%。星海圖團隊進一步向模型輸入了目標物和容器的裁切視覺影像作為額外上下文，語言跟隨率隨即躍升至98.4%，任務成功率升至84.4%。

這說明對於語義歧義的長尾物體（例如用中文標註“馬”字的中國象棋棋子），視覺上下文提供的細粒度外觀線索能夠彌補純語言描述的不足，而G0.5 的多圖像接口可以自然地接收並利用這類補充信息。

操控機器人行為的方式正朝向操控大語言模型的方式收斂。使用者無需重新擷取資料或發動新一輪微調，僅靠自然語言的措詞選擇，就能調整機器人在陌生場景下的行為粒度與執行風格，真像是「言出法隨」。

全端閉環下的中國創新

G0.5 是星海圖「整機+智慧」全端路線的產物。這家成立於2023 年9 月、累計融資近50 億人民幣的公司，自研的R1 Pro 和R1 Lite 輪式雙臂機器人平台已服務包括斯坦福、Physical Intelligence、華為在內的全球近百家頂尖具身智能機構，並被用於π0.5 真機數據的採集。

G0.5 基於Qwen3.5 2B 視覺-語言模型初始化，預訓練資料涵蓋18 種機器人本體，與約1 億個視覺-語言問答資料聯合訓練（其中含5,000 萬個具身場景VQA），整個預訓練過程約12 萬步。

這種全端閉環的意義在於：星海圖的本體資料助力了G0.5 的預訓練，G0.5 的泛化能力又反過來降低了本體適配的成本。自回歸架構則可以讓這個閉環累積的推理能力傳導到機器人的物理行動。

值得一提的是，架構路線上的判斷已不止G0.5 一例。星海圖團隊前段時間發布的快速WAM論文（arXiv:2603.16666），在世界動作模型（WAM）方向給出了同樣的底層判斷：明確的未來想像對動作性能的貢獻遠小於預訓練階段的視頻聯合建模本身，即真正重要的是訓練時學到的世界表徵，而不是推理時所創造的預測幀

兩篇工作指向的是同一個方向：在具身智慧的底層建模上，中國團隊正在做原創性的架構判斷，而不只是在既有框架上堆參數、堆資料。

當然，具身智能還有很長的路要走，但架構的選擇已經在決定誰走得更快。

Related Posts:

相關文章

全線失守！克里米亞制空權被烏軍強勢奪走了

還以為擱置了！ 「南天門計畫」突然上新，央視這次放的不是科幻

蔣中正親筆書寫的任命狀衝上熱議！書法的好壞，永遠意見不一？

還以為擱置了！「南天門計畫」突然上新，央視這次放的不是科幻