智元發布SOP:讓機器人在真實世界規模化部署與智能化運行


it之家 1 月 6 日消息,智元具身研究中心提出 sop(scalable online post-training)—— 一套面向真實世界部署的在線後訓練系統。官方稱,這是業界首次在物理世界的 vla 後訓練中,系統性地融合在線學習、分布式架構與多任務通才性,使機器人集群能夠在真實環境中持續進化,讓個體經驗在群體中高效復用,從而將“規模”轉化為“智能”。

智元發布SOP:讓機器人在真實世界規模化部署與智能化運行 -

it之家附官方介紹如下:

01、真實世界中的規模化智能增長挑戰

要在真實世界中大規模運行,通用機器人必須同時滿足兩個看似矛盾的要求:

  • 在複雜多變的環境中保持穩定性與可靠性
  • 在處理差異巨大的任務時,仍具備良好的泛化能力

現有 vla 預訓練模型已經提供了強大的通用性。但真實世界的部署受困於更高的任務專精度要求,以及離線數據採集方式的邊際效益遞減,往往需要通過後訓練獲得更高的任務成功率。遺憾的是,當前主流的 vla 後訓練方法仍受離線、單機、串行採集等因素制約,難以支撐高效、持續的真實世界學習。

這些限制並非源自具體算法,而是來自學習範式本身。

02、sop:分布式在線後訓練框架

sop 的核心目標,是讓機器人在真實世界中實現分布式、持續的在線學習。

我們將 vla 後訓練從“離線、單機、順序”重構為“在線、集群、並行”,形成一個低延遲的閉環系統:多機器人並行執行 → 雲端集中在線更新 → 模型參數即時迴流。

1.sop 架構設計

智元發布SOP:讓機器人在真實世界規模化部署與智能化運行 -

sop 採用 actor–learner 異步架構:

  • actor(機器人側)並行經驗採集

多台部署了同一 policy 模型的機器人(actors)在不同地點同時執行多樣任務,持續採集成功、失敗以及人類接管產生的交互數據。每台機器人的經驗數據被匯總傳輸至雲端 experience buffer 中。

  • learner(雲端)在線學習

所有交互軌跡實時上傳至雲端 learner,形成由在線數據與離線專家示教數據組成的數據池。

系統通過動態重採樣策略,根據不同任務的性能表現,自適應調整在線 / 離線數據比例,以更高效地利用真實世界經驗。

  • 即時參數同步

更新後的模型參數在分鐘級別內同步回所有機器人,實現集群一致進化,維持在線訓練的穩定性。

sop 本身是一套通用的框架,可以即插即用的使用任意後訓練算法,讓 vla 從在線經驗數據中獲益。我們選取 hg-dagger(交互式模仿學習)與 recap(離線強化學習)作為代表性算法,將其接入 sop 框架以進化為分布式在線訓練。

2.關鍵優勢

  • 高效狀態空間探索

分布式多機器人並行探索,顯著提升狀態–動作覆蓋率,避免單機在線學習的局限。

  • 緩解分布偏移

所有機器人始終基於低延遲的最新策略進行推理採集,提升在線訓練的穩定性與一致性。

  • 在提升性能的同時保留泛化能力

傳統的單機在線訓練往往會使模型退化為只擅長單一任務的“專家”,sop 通過空間上的並行而非時間上的串行,在提升任務性能的同時保留 vla 的通用能力,避免退化為單任務專家。

3.實驗評估:性能提升與預訓練的關係

我們圍繞三個問題系統評估 sop:

1、sop 能為預訓練 vla 帶來多大性能提升?

實驗結果說明,在各類測試場景下,結合 sop 的後訓練方法均得到了顯著的性能提升。相比預訓練模型,結合 sop 的 hg-dagger 方法在物品繁雜的商超場景中實現了 33% 的綜合性能提升。對於靈巧操作任務(疊衣服和紙盒裝配),sop 的引入不僅提升了任務的成功率,結合在線經驗學習到的錯誤恢復能力還能明顯提升策略操作的吞吐量。

結合 sop 的 hg-dagger 方法讓疊衣服的相比 hg-dagger 吞吐量躍升 114%。sop 讓多任務通才的性能普遍提升至近乎完美,不同任務的成功率均提升至 94% 以上,紙盒裝配更是達到 98% 的成功率。

智元發布SOP:讓機器人在真實世界規模化部署與智能化運行 -

sop 性能提升

為了進一步測試真機 sop 訓練後 vla 模型是否達到專家級性能,我們讓 sop 訓練的 vla 模型進行了長達 36 小時的連續操作,模型展現出了驚人的穩定性和魯棒性,能夠有效應對真實世界中出現的各種疑難雜症。

完整視頻請訪問我們的網站:

2、機器人規模如何影響學習效率

我們使用了三種機器人隊伍數量(單機、雙機、四機配置),在同樣的數據傳送總量的基礎上,進行了比較。實驗結果表明,在相同的總訓練時間下,更多數量的機器人帶來了更高的性能表現。在總訓練時間為 3 小時的限制下,四機進行學習的最終成功率達到了 92.5%,比單機高出 12%。我們認為,多機採集可以有效阻止模型過擬合到單機的特定特徵上。同時,sop 還將硬件的擴展轉化為了學習時長的大幅縮短,四機器人集群相比單機能夠將模型達到目標性能的訓練速度增至 2.4 倍。

智元發布SOP:讓機器人在真實世界規模化部署與智能化運行 -

sop 學習效率提升

3、不同預訓練規模下 sop 是否穩定有效?

最後,我們探究了 sop 和預訓練數據之間的關係。我們把總量為 160 小時的多任務預訓練數據分為了三組:20 小時,80 小時和 160 小時,分別訓練一組初始模型後再進行 sop。我們發現,預訓練的規模決定了基座模型和後訓練提升的軌跡。sop 能為所有初始模型帶來穩定的提升,且最終性能與 vla 預訓練質量正相關。

同時,對比 80 小時和 160 小時實驗效果,我們也可以明顯注意到,在解決特定失敗情況時,在軌策略經驗帶來了非常顯著的邊際效果。sop 在三小時的在軌經驗下就獲得了約 30% 的性能提升,而 80 小時額外人類專家數據只帶來了 4% 的提升。這說明在預訓練出現邊際效應遞減的情況下,sop 能夠高效突破 vla 性能瓶頸。

智元發布SOP:讓機器人在真實世界規模化部署與智能化運行 -

sop 在不同預訓練數據規模下的對比

4.部署即進化:重塑機器人生命周期

最後我們將機器人隊伍放到了預訓練模型沒有見到的真實新環境下執行任務,並使用 sop 進行在線訓練。

當機器人被置於不同的環境時,即便是同樣的任務,起初成功率和吞吐量如預期般下降,但在 sop 介入僅僅幾個小時後,機器人的性能便顯著回升,能夠魯棒地執行相對複雜的實際任務。

結語

sop 改變的不僅是訓練範式,更是機器人系統的生命周期。我們相信機器人不應當是“性能固定的標品”,而是“在真實世界中持續提升的生命體”。部署不是技術迭代的終點,而是更大規模學習的起點。如果說 vla 讓機器人第一次具備了通用理解與行動能力,那麼 sop 所做的是讓眾多機器人的經驗共同驅動智能的快速成長。訓練不被鎖死在過去,智能成長在當下。

分享你的喜愛