当前位置:首页 > 每日看点 > 正文内容

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?

卡卷网10个月前 (01-17)每日看点167

谢邀。

咱们开门见山先抛结论,个人认为MiniMax这个全⾃研的模型架构开源,一定程度上挑战了Transformer架构一直以来的霸主地位。


模型技术架构创新

目前,国内外主流大模型几乎都基于 Transformer 架构,其最显著的特点是注意力机制。注意力机制能够自适应不同长度的上下文,在处理序列数据时展现出强大的建模能力。然而,注意力计算的复杂度与序列长度呈平方关系,这导致在处理长序列数据时显存占用和算力需求显著增加。

如果在推理阶段希望上下文长度扩展 32 倍,那么训练阶段也需要支持相应长度的上下文。这种扩展会使注意力计算量和显存占用增长到原来的 1024 倍,带来指数级的资源消耗。这不仅严重拖慢模型的训练和推理速度,还对算力资源提出了更高的要求,成为限制模型上下文长度进一步扩展的主要瓶颈。

在保证效果的前提下,如果能够优化注意力机制的二次方复杂度,将其降至线性复杂度,将极大推动大模型的发展。2023 年 5 月,Mamba 架构针对这一问题进行了探索。通过基于状态空间模型的递归公式,Mamba 将注意力计算的复杂度从二次方成功降低为线性。然而,由于其并行化支持较弱、通用性不足,以及在多模态任务中的适配性较差,Mamba 尚未能在大语言模型领域得到广泛应用或显著突破。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第1张

去年8月,我就有观察到MiniMax研发的新一代 MOE+ Linear Attention 模型技术发布。这个架构能够高效训练海量的数据,实用性和响应速度都有不小提升,大幅减少了大模型的训练和推理成本。相比于通用Transformer架构,在128K的序列长度下,这个新架构成本减少90%以上,而且序列长度越长,优势越明显。

如今,我们可以看到MiniMax完成了行业首个成功的大规模Linear Attention实现,这个创新让大模型推理速度更快、成本更低,也是解决无限长度输入和无限长度输出的关键一步。

简单来说,Linear Attention就是通过把Transformer 中的计算左乘找到一个右乘的近似,把传统模型架构中输入长度和计算复杂度之间平方增长的关系,变成线性的关系。通过使用Linear Attention,原生Transformer 的计算复杂度可从二次复杂度大幅下降到线性复杂度。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第2张


在我看来, Linear Attention也有助于构建更加轻量化的模型,减少模型的参数数量和计算量,使模型更易于部署和应用在资源受限的设备上,比如说像手机这样的移动设备、嵌入式设备等等,这都是未来的趋势。


模型效果表现

讲完架构创新,可能有人会觉得有点空,那咱们就来看看模型具体表现,就知道是否真的有这么高的含金量。

  • 超长上下文输入

话不多说直接看成绩对比吧。在标准的学术测试集上,我们可以看到MiniMax-Text-01 基本上能媲美GPT-4o、Claude 3.5 Sonnet 等闭源模型以及 Qwen2.5、DeepSeek v3、Llama 3.1 这些 SOTA 开源模型。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第3张

受益于架构创新,模型在处理⻓输⼊时非常⾼效,接近线性复杂度

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第4张

在⼤部份的学术集上,都取得了对⻬海外第⼀梯队的结果。

  • 长上下文理解

在长上下文理解上,相比于其他模型,MiniMax-Text-01的表现也比较领先。在长上下文理解任务上,MiniMax 给到了大家Ruler 和 LongBench v2 这两个常见基准。

举个例子,在 RULER这一基准上(英伟达发布的一个大模型长文本的评估基准,包含检索、多跳追踪、聚合、问答四大类共13项任务。),我们可以看到发现当上下文长度超过 128k 时,到后面256k、512k乃至1M时,MiniMax-Text-01 的模型架构优势就愈发明显,可以一起看下第三方的最新评测数据。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第5张

传统大模型在处理长文本任务时,随着输入长度的增加,通常会出现能力显著下降的情况。具体而言,当文本长度超过传统上下文窗口的支持范围后,模型往往难以保持前后文的逻辑一致性,导致生成内容脱节或信息遗漏。

而 MiniMax-01 凭借其创新的架构设计和优化算法,成功克服了这一瓶颈,展现了在超长文本任务中的卓越处理能力。尤其是在需要处理海量上下文信息的场景中,MiniMax-01 的性能稳定性得到了充分体现。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第6张


例如,在网络小说生成中,MiniMax-01 可支持 1M Token 的超长上下文范围,完整记忆人物设定、关键情节及世界观细节,保证续写逻辑连贯,避免传统模型在超长文本中出现内容断层或情节紊乱的问题。

在法律合同分析中,MiniMax-01 能一次性处理整份合同,精准提取关键条款、争议点或隐藏的逻辑,为法律从业者提供高效支持。在历史记录和事件时间轴生成中,MiniMax-01 凭借其强大的长距离依赖捕获能力,梳理事件因果关系与时间脉络,表现出色,适用于复杂的多层次分析任务。

此外,为了评估模型在长文本任务中的记忆和检索能力,团队构建了一个名为 多轮针尖大海捞针(MR-NIAH) 的挑战性评估维度,专注于多轮对话上下文中的长文本检索任务。MR-NIAH 的任务模拟历史对话场景,其中用户查询是基于事件描述和创意写作的明确请求,要求模型在最后一轮中准确重复历史请求中的一个响应。

测试范围覆盖从 2K 到 1M Token 的上下文窗口,最多可涵盖 2000 次交互。评估中对每个响应的核心事实进行调整后的召回率分析(Adjusted Recall),以更精确地衡量模型的长文本检索能力。正如上图所示,MiniMax-Text-01 在中英文任务中表现优越,无论是短窗口还是长窗口(如 512k 或 1M Token),其性能下降幅度均显著小于其他模型(如 GPT、Claude、Gemini 变体)

  • 多模态理解

基于 MiniMax-Text-01文本模型,MiniMax 还开发了⽤于多模态理解任务的MiniMax-VL-01。从测试结果来看,⽤于多模态理解任务的MiniMax VL-01,也有较为领先的结果,整体能与其它知名SOTA 模型媲美,并可在一些基准上可以拔得头筹。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第7张

多模态理解上也有类似的结果

当然,每一家模型都存在一定自身局限性。比如说面对复杂高级编程任务,目前的模型表现有限,技术报告中表示未来会增加更多的训练数据来进行校准,增加这方面的能力。

此外,团队还表示未来会实现更高效的架构,即纯线性架构,不再使用Softmax注意力。


MiniMax技术开源的动作和行业意义

Agent,一个2024年在各种大模型发布会/国际学术会议,一直不断被各位AI大模型公司创始人/行业大牛反复提到的概念。涉及到长链路任务,或者复杂任务的时候,长上下文就是Agent应用开发的必要条件。

作为一个创业公司,坚持自己的技术判断做创新,还是很值得鼓励的。未来,希望我们国内像Deepseek、MiniMax这样的团队,可以越来越多。

参考资料

  • 1.开源地址:github.com/MiniMax-AI
  • 2.Hugging Face:huggingface.co/MiniMaxA
  • 3.技术报告:filecdn.minimax.chat/_A
  • 4.网页端:海外版hailuo.aiAPI 国内版:https://hailuoai.com

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/9793.html

分享给朋友:

相关文章

互联网算命,是不是个好生意?能不能赚钱?

互联网算命,是不是个好生意?能不能赚钱?

现在的年轻人也开始“迷信”了。疫情、降薪、失业、内卷……2020年或许是这届年轻人最为困难的一年,无尽的焦虑与压力之下,他们陷入了失落与迷茫之中,失去了未来的方向。如果此时有人能够为你指引出未来的道路,你是会...

小米15就要来了,不知道小米15值不值得买?

小米15就要来了,不知道小米15值不值得买?

俗话说得好,好饭不怕晚,看似有点姗姗来迟的小米15系列,一官宣就迅速登上热搜。在此次小米14发布会上,雷军曾说过小米14将是最后一代3999起的旗舰,那么这一次涨价了的小米15,值不值得买呢?下面为大家总结一下小米15将会有哪些升级点:软件...

中国芯片产量达1399亿颗,这意味着什么?

美国并不是没有明白人,只是特朗普不懂芯片产业的情况,冒冒失失在ZZ正确下,开启了对中国芯片的掐脖子,结果没掐死,反而让人练出了铁肺。芯片是所有科技产业的上游,美国原本在上游呆得很舒服,靠英伟达、AMD、德州仪器、高通等这些几十年霸主地位的公...

抖音小店三个月了一单没出,也没有流量,一个星期好像都没有一个点击,怎么办?

抖音小店三个月了一单没出,也没有流量,一个星期好像都没有一个点击,怎么办?

好消息,你有毅力上200多个品,还能坚持三个月坏消息,一单没出我感觉你还是别碰抖店了,甚至电商平台都别碰 你没这个缘分我要是这样,我得用一百辆叉车叉死我自己你如果还想坚持,我直接给你这套至少价值19800学来的新思路简单来说就是 你做的好的...

如何评价小米14pro顶配可以选配卫星通话,小米15全系都无法选配?

如何评价小米14pro顶配可以选配卫星通话,小米15全系都无法选配?

雷总不是说了吗,我可以不用,但你不能没有。市面上OPPO Find X8 Pro和vivo X200 Pro的卫星通信版分别加价300,而荣耀Magic7和Magic7 Pro有卫星通信版且不加价,荣耀更显诚意。我觉得有是更好的,虽然使用卫...

为什么神经网络可以解偏微分方程,是什么原理?

为什么神经网络可以解偏微分方程,是什么原理?

题主一直比较关心神经网络在其他科学领域的应用,比如数学、物理学还有生物学,比如AlphaFold。本次带来的这篇文章傅里叶神经网络算子解偏微分方程就是一个很有意思的方向,其实我自己去年在给美国一个客户做兼职预测数字货币期权价格的时候就用到过...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。