起碰免费公开97在线视频,人妻中文字幕一区二区三,翘臀少妇被扒开屁股日出水爆乳 ,国产高清自产拍AV在线,97色成人综合网站

首個機器人4D世界模型來了！

http://www.kblhh.cn 2025-01-08 13:39 來源：智元機器人

EnerVerse 主要科研成員來自智元機器人研究院具身算法團隊。論文共同一作黃思淵是上海交通大學與上海人工智能實驗室的聯培博士生，師從 CUHK-MMLab 的李鴻升教授。博士期間的研究課題為基于多模態大模型的具身智能以及高效智能體的研究。在 CoRL、MM、 IROS、ECCV 等頂級會議上，以第一作者或共同第一作者身份發表多篇論文。另一位共同一作陳立梁是智元機器人的具身算法專家，主要負責具身空間智能與世界模型的研究。

如何讓機器人在任務指引和實時觀測的基礎上規劃未來動作，一直是具身智能領域的核心科學問題。然而，這一目標的實現受兩大關鍵挑戰制約：

模態對齊：需要在語言、視覺和動作等多模態空間之間建立精確的對齊策略。
數據稀缺：缺乏大規模、多模態且帶有動作標簽的數據集。

針對上述難題，智元機器人團隊提出了 EnerVerse 架構，通過自回歸擴散模型（autoregressive diffusion），在生成未來具身空間的同時引導機器人完成復雜任務。不同于現有方法簡單應用視頻生成模型，EnerVerse 深度結合具身任務需求，創新性地引入稀疏記憶機制（Sparse Memory）與自由錨定視角（Free Anchor View, FAV），在提升 4D 生成能力的同時，實現了動作規劃性能的顯著突破。實驗結果表明，EnerVerse 不僅具備卓越的未來空間生成能力，更在機器人動作規劃任務中實現了當前最優（SOTA）表現。

項目主頁與論文已上線，模型與相關數據集即將開源：

歡迎訪問

主頁地址：https://sites.google.com/view/enerverse/home

論文地址：https://arxiv.org/abs/2501.01895

如何讓未來空間生成賦能機器人動作規劃？

機器人動作規劃的核心在于基于實時觀測和任務指令，預測并完成一系列復雜的未來操作。然而，現有方法在應對復雜具身任務時存在如下局限：

通用模型局限性：當前通用視頻生成模型缺乏對具身場景的針對性優化，無法適應具身任務中的特殊需求。

視覺記憶泛化能力不足：現有方法依賴稠密連續的視覺記憶，容易導致生成長程任務序列時邏輯不連貫，動作預測性能下降。

為此，EnerVerse 通過逐塊生成的自回歸擴散框架，結合創新的稀疏記憶機制與自由錨定視角（FAV）方法，解決了上述瓶頸問題。

技術方案解析

逐塊擴散生成：Next Chunk Diffusion

EnerVerse 采用逐塊生成的自回歸擴散模型，通過逐步生成未來具身空間來引導機器人動作規劃。其關鍵設計包括：

擴散模型架構：基于結合時空注意力的 UNet 結構，每個空間塊內部通過卷積與雙向注意力建模；塊與塊之間通過單向因果邏輯（causal logic）保持時間一致性，從而確保生成序列的邏輯合理性。

稀疏記憶機制：借鑒大語言模型（LLM）的上下文記憶，EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼（mask），推理階段以較大時間間隔更新記憶隊列，有效降低計算開銷，同時顯著提升長程任務的生成能力。

任務結束邏輯：通過特殊的結束幀（EOS frame），實現對任務結束時機的精準監督，確保生成過程在合適節點終止。

靈活的4D生成：Free Anchor View (FAV)

針對具身操作中復雜遮擋環境和多視角需求，EnerVerse 提出了自由錨定視角（FAV）方法，以靈活表達 4D 空間。其核心優勢包括：

自由設定視角：FAV 支持動態調整錨定視角，克服固定多視角（fixed multi-anchor view）在狹窄場景中的局限性。例如，在廚房等場景中，FAV 可輕松適應動態遮擋關系。

跨視角空間一致性：基于光線投射原理（ray casting），EnerVerse 通過視線方向圖（ray direction map）作為視角控制條件，并將 2D 空間注意力擴展為跨視角的 3D 空間注意力（cross-view spatial attention），確保生成視頻的幾何一致性。

Sim2Real 適配：通過在仿真數據上訓練的 4D 生成模型（EnerVerse-D）與 4D 高斯潑濺 (4D Gaussian Splatting) 交替迭代，EnerVerse 構建了一個數據飛輪，為真實場景下的 FAV 生成提供偽真值支持。

高效動作規劃：Policy Head

EnerVerse 通過在生成網絡下游集成 Diffusion 策略頭（Diffusion Policy Head），打通未來空間生成與機器人動作規劃的全鏈條。其關鍵設計包括：

高效動作預測：生成網絡在逆擴散的第一步即可輸出未來動作序列，無需等待完整的空間生成過程，確保動作預測的實時性。

稀疏記憶支持：在動作預測推理中，稀疏記憶隊列存儲真實或重建的 FAV 觀測結果，有效提升長程任務規劃能力。

實驗結果

1. 視頻生成性能

在短程與長程任務視頻生成中，EnerVerse 均展現出卓越的性能：

在短程生成任務中，EnerVerse 表現優于現有微調視頻生成模型，如基于 DynamiCrafter 與 FreeNoise 的擴散模型。

在長程生成任務中，EnerVerse 展現出更強的邏輯一致性與連續生成能力，這是現有模型無法實現的。

此外，EnerVerse在LIBERO仿真場景和AgiBot World真實場景中生成的多視角視頻質量也得到了充分驗證。

2. 動作規劃能力

在LIBERO基準測試中，EnerVerse在機器人動作規劃任務中取得了顯著優勢：

• 單視角（one FAV）模型在LIBERO四類任務中的平均成功率已超過現有最佳方法。

• 多視角（three FAV）設定進一步提升任務成功率，在每一類任務上均超越現有方法。

3. 消融與訓練策略分析

• 稀疏記憶機制：消融實驗表明，稀疏記憶對長程序列生成的合理性及長程動作預測精度至關重要。

• 二階段訓練策略：先進行未來空間生成訓練，再進行特定場景動作預測訓練的二階段策略，可顯著提升動作規劃性能。

4. 注意力可視化

通過可視化 Diffusion 策略頭中的交叉注意力模塊，研究發現 EnerVerse 生成的未來空間與預測的動作空間具有較強的時序一致性。這直觀體現了 EnerVerse 在未來空間生成與動作規劃任務中的相關性與優勢。

智元機器人通過 EnerVerse 架構開創了未來具身智能的新方向。通過未來空間生成引導動作規劃，EnerVerse 不僅突破了機器人任務規劃的技術瓶頸，還為多模態、長程任務的研究提供了全新范式。

首個機器人4D世界模型來了！

相關新聞

編輯精選

工控原創