当前位置:首页 > 每日看点 > 正文内容

智元宣布开源机器人数据集,对机器人学习领域的意义是什么?

卡卷网12个月前 (01-10)每日看点187

<>EnerVerse主要科研成员来自智元机器人研究院具身算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生,师从CUHK-MMLa的李鸿升教授。博士期间的研究课题为基于多模态大模型的具身智能以及高效智能体的研究。在CoRL、MM、IROS、ECCV等会议上,以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的具身算法专家,主要负责具身空间智能与世界模型的研究。

如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。然而,这一目标的实现受两大关键挑战制约:

    <>模态对齐:需要在语言、视觉和动作等多模态空间之间建立精确的对齐策略。<>数据稀缺:缺乏大规模、多模态且带有动作标签的数据集。

针对上述难题,智元机器人团队提出了<>EnerVerse架构,通过自回归扩散模型(autoregressivediffusion),在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型,EnerVerse深度结合具身任务需求,创新性地引入稀疏记忆机制(SparseMemory)与自由锚定视角(FreeAnchorView,F),在提升4D生成能力的同时,实现了动作规划性能的显著突破。<>实验结果表明,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。

项目主页与论文已上线,模型与相关数据集即将开源:

<>欢迎访问

<>主页:

s://sites.google/view/enerverse/home

<>论文:

s://arxiv.org/as/1.01895

<>如何让未来空间生成赋能机器人动作规划?

机器人动作规划的核心在于基于实时观测和任务指令,预测并完成一系列复杂的未来作。然而,现有方法在应对复杂具身任务时存在如下局限:

    <>通用模型局限性:当前通用视频生成模型缺乏对具身场景的针对性优化,无法适应具身任务中的特殊需求。<>视觉记忆泛化能力不足:现有方法依赖稠密连续的视觉记忆,容易导致生成长程任务序列时逻辑不连贯,动作预测性能下降。

为此,EnerVerse通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角(F)方法,解决了上述瓶颈问题。

<>技术方案解析

<>逐块扩散生成:NextChunkDiffusion

EnerVerse采用逐块生成的自回归扩散模型,通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括:

    <>扩散模型架构:基于结合时空注意力的UNet结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑(causallogic)保持时间一致性,从而确保生成序列的逻辑合理性。<>稀疏记忆机制:借鉴大语言模型(LLM)的上下文记忆,EnerVerse在训练阶段对历史帧进行高例随机掩码(mask),推理阶段以较大时间间隔更新记忆队列,有效降低计算开销,同时显著提升长程任务的生成能力。<>任务结束逻辑:通过特殊的结束帧(EOSframe),实现对任务结束时机的精准,确保生成过程在合适节点终止。

<>灵活的4D生成:FreeAnchorView(F)

针对具身作中复杂遮挡环境和多视角需求,EnerVerse提出了自由锚定视角(F)方法,以灵活表达4D空间。其核心优势包括:

    <>自由设定视角:F支持动态调整锚定视角,克服固定多视角(fixedmulti-anchorview)在狭窄场景中的局限性。例如,在厨房等场景中,F可轻松适应动态遮挡关系。<>跨视角空间一致性:基于光线投射原理(raycasting),EnerVerse通过视线方向图(raydirectionmap)作为视角控制条件,并将2D空间注意力扩展为跨视角的3D空间注意力(cross-viewspatialattention),确保生成视频的几何一致性。<>Sim2Real适配:通过在数据上训练的4D生成模型(EnerVerse-D)与4D高斯泼溅(4DGaussianSplatting)交替迭代,EnerVerse构建了一个数据飞轮,为实场景下的F生成提供伪值支持。

<>高效动作规划:PolicyHead

EnerVerse通过在生成网络下游集成Diffusion策略头(DiffusionPolicyHead),打通未来空间生成与机器人动作规划的全链条。其关键设计包括:

    <>高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。<>稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储实或重建的F观测结果,有效提升长程任务规划能力。

<>实验结果

<>1.视频生成性能

在短程与长程任务视频生成中,EnerVerse均展现出卓越的性能:

    在短程生成任务中,EnerVerse表现优于现有微调视频生成模型,如基于DynamiCrafter与FreeNoise的扩散模型。在长程生成任务中,EnerVerse展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。

此外,EnerVerse在LIERO场景和AgiotWorld实场景中生成的多视角视频质量也得到了充分验证。

<>2.动作规划能力

在LIERO基准中,EnerVerse在机器人动作规划任务中取得了显著优势:

•单视角(oneF)模型在LIERO四类任务中的平均成功率已超过现有最佳方法。

•多视角(threeF)设定进一步提升任务成功率,在每一类任务上均超越现有方法。

<>3.消融与训练策略分析

<>•稀疏记忆机制:消融实验表明,稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。

<>•二阶段训练策略:先进行未来空间生成训练,再进行特定场景动作预测训练的二阶段策略,可显著提升动作规划性能。

<>4.注意力可视化

通过可视化Diffusion策略头中的交叉注意力模块,研究发现EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了EnerVerse在未来空间生成与动作规划任务中的相关性与优势。

智元机器人通过EnerVerse架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划,EnerVerse不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/8317.html

分享给朋友:

相关文章

电脑c盘哪些文件可以删除?

电脑c盘哪些文件可以删除?

电脑上的文件夹都是英文,很多朋友都不敢乱删,下面这几个文件夹里的文件,你可以放心删除。一、可删除的文件1、Backup这是一个备份文件夹,很多装机软件经常会把需要备份的东西,放在这个文件夹中。而当我们需要的软件正常保存之后,这些东西也就没有...

有什么音乐软件可以全部免费下载歌曲?

有什么音乐软件可以全部免费下载歌曲?

作为音乐发烧友,我几乎把市面上所有的发烧碟、试音碟,全都给收藏,下载下来了!音质都是无损的,品质特别高,有5.1环绕的、有DTS的、有中文的、有英文的。大家可以看看这个音乐目录,大概有30万张专辑。有需要下载软件的朋友,可以双击屏幕,然后搓...

电视参数哪个最重要?

电视参数哪个最重要?

在选择智能电视时,面板类型是一个关键因素。IPS面板以其宽广的视角和出色的色彩还原能力受到青睐,尤其适合日常观看和游戏。尽管可能会有轻微的漏光,但在大多数情况下,这并不影响使用体验。相比之下,VA面板提供更高的对比度和更深的黑色,增强了沉浸...

支付宝碰一碰市场如何?

支付宝碰一碰市场如何?

今年,支付宝又整了新的大活,即无须扫码即能完成支付操作的“支付宝碰一碰”正式登场。下面就来给大家分析分析,这是个什么情况,为什么都在说能赚钱。支付宝碰一下怎么赚钱的?都有谁能赚到这份钱?1.支付宝碰一下原理支付宝碰一下的本质依旧是“条码支付...

有哪些正规的兼职平台?

1.阿里巴巴云客服:工作优点是时间自由,可自主选择班次,不需要去公司坐班,多做多得2.蚂蚁云客服:同样是阿里巴巴旗下的兼职平台,工作优点是时间自由,可自主选择班次,不需要去公司坐班,多做多得。3.菜鸟优加云客服:工作优点是时间自由,可自主选...

腾讯文档回收站彻底删除文件真的找不回来了吗?

趁早打电话联系腾讯文档的人可能还有救,一般这种都是数据库里标记为删除,文件还没有实际删除,然后经过一段时间后程序统一进行真删除。这个“一段时间”可长可短,可能是一小时也可能是几天几个月甚至几年,要看腾讯服务器的程序是怎么写的。不过你联系腾讯...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。