智元宣布开源机器人数据集,对机器人学习领域的意义是什么?
作者:卡卷网发布时间:2025-01-10 19:15浏览数量:78次评论数量:0次
<>EnerVerse主要科研成员来自智元机器人研究院具身算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生,师从CUHK-MMLa的李鸿升教授。博士期间的研究课题为基于多模态大模型的具身智能以及高效智能体的研究。在CoRL、MM、IROS、ECCV等会议上,以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的具身算法专家,主要负责具身空间智能与世界模型的研究。>
针对上述难题,智元机器人团队提出了<>EnerVerse架构>,通过自回归扩散模型(autoregressivediffusion),在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型,EnerVerse深度结合具身任务需求,创新性地引入稀疏记忆机制(SparseMemory)与自由锚定视角(FreeAnchorView,F),在提升4D生成能力的同时,实现了动作规划性能的显著突破。<>实验结果表明,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。>
项目主页与论文已上线,模型与相关数据集即将开源:
<>欢迎访问>
<>主页:>
<>论文:>
<>如何让未来空间生成赋能机器人动作规划?>
<>技术方案解析>
<>逐块扩散生成:NextChunkDiffusion>
EnerVerse采用逐块生成的自回归扩散模型,通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括:
<>灵活的4D生成:FreeAnchorView(F)>
针对具身作中复杂遮挡环境和多视角需求,EnerVerse提出了自由锚定视角(F)方法,以灵活表达4D空间。其核心优势包括:
<>高效动作规划:PolicyHead>
EnerVerse通过在生成网络下游集成Diffusion策略头(DiffusionPolicyHead),打通未来空间生成与机器人动作规划的全链条。其关键设计包括:
<>实验结果>
<>1.视频生成性能>
在短程与长程任务视频生成中,EnerVerse均展现出卓越的性能:
此外,EnerVerse在LIERO场景和AgiotWorld实场景中生成的多视角视频质量也得到了充分验证。
<>2.动作规划能力>
在LIERO基准中,EnerVerse在机器人动作规划任务中取得了显著优势:
•单视角(oneF)模型在LIERO四类任务中的平均成功率已超过现有最佳方法。
•多视角(threeF)设定进一步提升任务成功率,在每一类任务上均超越现有方法。
<>3.消融与训练策略分析>
<>•稀疏记忆机制:>消融实验表明,稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。
<>•二阶段训练策略:>先进行未来空间生成训练,再进行特定场景动作预测训练的二阶段策略,可显著提升动作规划性能。
<>4.注意力可视化>
通过可视化Diffusion策略头中的交叉注意力模块,研究发现EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了EnerVerse在未来空间生成与动作规划任务中的相关性与优势。
智元机器人通过EnerVerse架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划,EnerVerse不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
相关推荐

你 发表评论:
欢迎