【techweb】3月3日消息,近日,具身智能真實數據採集技術取得重要突破。由螞蟻數科天璣實驗室團隊研發的aoe(always-on egocentric)持續性第一人稱視頻採集框架,提出了一種輕量化且低成本的具身數據採集方案。通過一台手機和一個低於 20 美元的頸掛式支架,就可以替代動輒數萬美元的專業設備,實現具身智能的高質量數據採集。該技術方案的提出,有效化解了具身數據採集成本高、規模化難的困局。目前,這一技術論文已經在 arxiv 發布。
隨着基礎模型持續演進,模型的泛化能力和跨場景適應能力,越來越依賴真實世界交互數據的規模、質量與覆蓋範圍。aoe的核心突破在於將“人+手機”轉化為可持續運行的數據節點,其載體是一款符合人體工學的頸掛式支架,通過機械夾具、磁吸等方式能將手機穩固於胸前,持續採集貼近用戶視角的第一人稱畫面,從而完整記錄自然交互過程。
該方案在保持毫米級軌跡精度和90%以上手部關鍵點識別準確率的同時,實現了數千台設備並發採集與雲端自動化處理。實測表明,針對unitree g1機器人的關電腦任務,僅靠50條遙操作數據時成功率為 45%,而引入200條aoe數據後,成功率躍升至95%。在數據匱乏時,aoe承擔了“啟動學習”的關鍵補位角色。
低成本採集只是起點。據論文介紹,螞蟻數科攻克了“長視頻轉化為訓練數據”的技術難題:該方案通過端側輕量級視覺模型自動識別手物交互並觸發錄製,利用大語言 – 視覺模型將連續視頻切分為帶語義標籤的原子動作片段,最終經雲端自動標註、過濾與清洗,讓手機錄製的視頻自動轉化為高質量、標準化的訓練數據。
此外,aoe 還構建了一套端雲協同的方案,實現了採集、預處理、清洗、篩選和調度的自動化處理,在降低人工介入的基礎之上,提升了整體吞吐量。
據悉,螞蟻數科正大力投入 ai tob。以 ai 落地產業為方向,旗下天璣實驗室重點布局 ai+數據,ai+安全,ai+金融及ai+具身智能等領域,加速技術成果轉化和應用。2026 開年以來,螞蟻數科 ai 動作頻頻,此前宣布成立“大模型技術創新部” ,並計劃推出企業級大模型產品。(周小白)