<nobr id="zkazv"></nobr>

      午夜精品一区二区三区成人,中文字幕av一区二区,亚洲AVAV天堂AV在线网阿V,肥臀浪妇太爽了快点再快点,国产网友愉拍精品视频手机,国产精品无码a∨麻豆,久久中文字幕一区二区,a级国产乱理伦片在线观看al
      中國自動化學會專家咨詢工作委員會指定宣傳媒體
      新聞詳情

      首個機器人4D世界模型來了!

      http://www.kblhh.cn 2025-01-08 13:39 來源:智元機器人

      EnerVerse 主要科研成員來自智元機器人研究院具身算法團隊。論文共同一作黃思淵是上海交通大學與上海人工智能實驗室的聯培博士生,師從 CUHK-MMLab 的李鴻升教授。博士期間的研究課題為基于多模態大模型的具身智能以及高效智能體的研究。在 CoRL、MM、 IROS、ECCV 等頂級會議上,以第一作者或共同第一作者身份發表多篇論文。另一位共同一作陳立梁是智元機器人的具身算法專家,主要負責具身空間智能與世界模型的研究。

      如何讓機器人在任務指引和實時觀測的基礎上規劃未來動作,一直是具身智能領域的核心科學問題。然而,這一目標的實現受兩大關鍵挑戰制約:

      • 模態對齊:需要在語言、視覺和動作等多模態空間之間建立精確的對齊策略。
      • 數據稀缺:缺乏大規模、多模態且帶有動作標簽的數據集。

      針對上述難題,智元機器人團隊提出了 EnerVerse 架構,通過自回歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。不同于現有方法簡單應用視頻生成模型,EnerVerse 深度結合具身任務需求,創新性地引入稀疏記憶機制(Sparse Memory)與自由錨定視角(Free Anchor View, FAV),在提升 4D 生成能力的同時,實現了動作規劃性能的顯著突破。實驗結果表明,EnerVerse 不僅具備卓越的未來空間生成能力,更在機器人動作規劃任務中實現了當前最優(SOTA)表現。

      項目主頁與論文已上線,模型與相關數據集即將開源:

      歡 迎 訪 問

      主頁地址:https://sites.google.com/view/enerverse/home

      論文地址:https://arxiv.org/abs/2501.01895

      如何讓未來空間生成賦能機器人動作規劃?

      機器人動作規劃的核心在于基于實時觀測和任務指令,預測并完成一系列復雜的未來操作。然而,現有方法在應對復雜具身任務時存在如下局限:

      通用模型局限性:當前通用視頻生成模型缺乏對具身場景的針對性優化,無法適應具身任務中的特殊需求。

      視覺記憶泛化能力不足:現有方法依賴稠密連續的視覺記憶,容易導致生成長程任務序列時邏輯不連貫,動作預測性能下降。

      為此,EnerVerse 通過逐塊生成的自回歸擴散框架,結合創新的稀疏記憶機制與自由錨定視角(FAV)方法,解決了上述瓶頸問題。

      技術方案解析

      逐塊擴散生成:Next Chunk Diffusion

      EnerVerse 采用逐塊生成的自回歸擴散模型,通過逐步生成未來具身空間來引導機器人動作規劃。其關鍵設計包括:

      擴散模型架構:基于結合時空注意力的 UNet 結構,每個空間塊內部通過卷積與雙向注意力建模;塊與塊之間通過單向因果邏輯(causal logic)保持時間一致性,從而確保生成序列的邏輯合理性。

      稀疏記憶機制:借鑒大語言模型(LLM)的上下文記憶,EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼(mask),推理階段以較大時間間隔更新記憶隊列,有效降低計算開銷,同時顯著提升長程任務的生成能力。

      任務結束邏輯:通過特殊的結束幀(EOS frame),實現對任務結束時機的精準監督,確保生成過程在合適節點終止。

      靈活的4D生成:Free Anchor View (FAV)

      針對具身操作中復雜遮擋環境和多視角需求,EnerVerse 提出了自由錨定視角(FAV)方法,以靈活表達 4D 空間。其核心優勢包括:

      自由設定視角:FAV 支持動態調整錨定視角,克服固定多視角(fixed multi-anchor view)在狹窄場景中的局限性。例如,在廚房等場景中,FAV 可輕松適應動態遮擋關系。

      跨視角空間一致性:基于光線投射原理(ray casting),EnerVerse 通過視線方向圖(ray direction map)作為視角控制條件,并將 2D 空間注意力擴展為跨視角的 3D 空間注意力(cross-view spatial attention),確保生成視頻的幾何一致性。

      Sim2Real 適配:通過在仿真數據上訓練的 4D 生成模型(EnerVerse-D)與 4D 高斯潑濺 (4D Gaussian Splatting) 交替迭代,EnerVerse 構建了一個數據飛輪,為真實場景下的 FAV 生成提供偽真值支持。

      高效動作規劃:Policy Head

      EnerVerse 通過在生成網絡下游集成 Diffusion 策略頭(Diffusion Policy Head),打通未來空間生成與機器人動作規劃的全鏈條。其關鍵設計包括:

      高效動作預測:生成網絡在逆擴散的第一步即可輸出未來動作序列,無需等待完整的空間生成過程,確保動作預測的實時性。

      稀疏記憶支持:在動作預測推理中,稀疏記憶隊列存儲真實或重建的 FAV 觀測結果,有效提升長程任務規劃能力。

      實驗結果

      1. 視頻生成性能

      在短程與長程任務視頻生成中,EnerVerse 均展現出卓越的性能:

      在短程生成任務中,EnerVerse 表現優于現有微調視頻生成模型,如基于 DynamiCrafter 與 FreeNoise 的擴散模型。

      在長程生成任務中,EnerVerse 展現出更強的邏輯一致性與連續生成能力,這是現有模型無法實現的。

      此外,EnerVerse在LIBERO仿真場景和AgiBot World真實場景中生成的多視角視頻質量也得到了充分驗證。

      2. 動作規劃能力

      在LIBERO基準測試中,EnerVerse在機器人動作規劃任務中取得了顯著優勢:

      • 單視角(one FAV)模型在LIBERO四類任務中的平均成功率已超過現有最佳方法。

      • 多視角(three FAV)設定進一步提升任務成功率,在每一類任務上均超越現有方法。

      3. 消融與訓練策略分析

      • 稀疏記憶機制:消融實驗表明,稀疏記憶對長程序列生成的合理性及長程動作預測精度至關重要。

      • 二階段訓練策略:先進行未來空間生成訓練,再進行特定場景動作預測訓練的二階段策略,可顯著提升動作規劃性能。

      4. 注意力可視化

      通過可視化 Diffusion 策略頭中的交叉注意力模塊,研究發現 EnerVerse 生成的未來空間與預測的動作空間具有較強的時序一致性。這直觀體現了 EnerVerse 在未來空間生成與動作規劃任務中的相關性與優勢。

      智元機器人通過 EnerVerse 架構開創了未來具身智能的新方向。通過未來空間生成引導動作規劃,EnerVerse 不僅突破了機器人任務規劃的技術瓶頸,還為多模態、長程任務的研究提供了全新范式。

      版權所有 工控網 Copyright?2025 Gkong.com, All Rights Reserved
      主站蜘蛛池模板: 久久中精品中文字幕入口| 国内极度色诱视频网站 | 日韩午夜福利视频在线观看 | 国产首页一区二区不卡| 午夜精品福利亚洲国产| 国产一区二区黄色激情片| 欧洲精品色在线观看| 噜噜久久噜噜久久鬼88| 国产精品白浆免费视频| 国产一二三五区不在卡| 欧美在线人视频在线观看| 中文字幕乱偷无码av先锋蜜桃| 色国产视频| 成A人片亚洲日本久久| 91精品国产一二三产区| 午夜av高清在线观看| 真实单亲乱l仑对白视频| 久久精品无码免费不卡 | 中文字幕乱码一区二区免费| 亚洲精品美女一区二区| 免费av深夜在线观看| 亚洲av午夜成人片| 波多野结衣久久一区二区| 国产精品老熟女一区二区| 国产精品午夜精品福利| 啪啪av一区二区三区| 韩国三级网一区二区三区| 激情 自拍 另类 亚洲| 亚洲精品三区四区成人少| 日韩精品人妻av一区二区三区| 四虎影视一区二区精品| 国产精品美女一区二三区| 九九综合va免费看| 国产精品中文字幕一二三| 久久综合色一综合色88欧美| 亚洲一区二区三区色视频| 嫩草研究院久久久精品| 乱码精品一区二区亚洲区| 丰满少妇高潮无套内谢| 免费特黄夫妻生活片| caoporn成人免费公开|