当前位置:首页 > 每日看点 > 正文内容

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?

卡卷网7个月前 (01-17)每日看点132

谢邀。

咱们开门见山先抛结论,个人认为MiniMax这个全⾃研的模型架构开源,一定程度上挑战了Transformer架构一直以来的霸主地位。


模型技术架构创新

目前,国内外主流大模型几乎都基于 Transformer 架构,其最显著的特点是注意力机制。注意力机制能够自适应不同长度的上下文,在处理序列数据时展现出强大的建模能力。然而,注意力计算的复杂度与序列长度呈平方关系,这导致在处理长序列数据时显存占用和算力需求显著增加。

如果在推理阶段希望上下文长度扩展 32 倍,那么训练阶段也需要支持相应长度的上下文。这种扩展会使注意力计算量和显存占用增长到原来的 1024 倍,带来指数级的资源消耗。这不仅严重拖慢模型的训练和推理速度,还对算力资源提出了更高的要求,成为限制模型上下文长度进一步扩展的主要瓶颈。

在保证效果的前提下,如果能够优化注意力机制的二次方复杂度,将其降至线性复杂度,将极大推动大模型的发展。2023 年 5 月,Mamba 架构针对这一问题进行了探索。通过基于状态空间模型的递归公式,Mamba 将注意力计算的复杂度从二次方成功降低为线性。然而,由于其并行化支持较弱、通用性不足,以及在多模态任务中的适配性较差,Mamba 尚未能在大语言模型领域得到广泛应用或显著突破。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第1张

去年8月,我就有观察到MiniMax研发的新一代 MOE+ Linear Attention 模型技术发布。这个架构能够高效训练海量的数据,实用性和响应速度都有不小提升,大幅减少了大模型的训练和推理成本。相比于通用Transformer架构,在128K的序列长度下,这个新架构成本减少90%以上,而且序列长度越长,优势越明显。

如今,我们可以看到MiniMax完成了行业首个成功的大规模Linear Attention实现,这个创新让大模型推理速度更快、成本更低,也是解决无限长度输入和无限长度输出的关键一步。

简单来说,Linear Attention就是通过把Transformer 中的计算左乘找到一个右乘的近似,把传统模型架构中输入长度和计算复杂度之间平方增长的关系,变成线性的关系。通过使用Linear Attention,原生Transformer 的计算复杂度可从二次复杂度大幅下降到线性复杂度。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第2张


在我看来, Linear Attention也有助于构建更加轻量化的模型,减少模型的参数数量和计算量,使模型更易于部署和应用在资源受限的设备上,比如说像手机这样的移动设备、嵌入式设备等等,这都是未来的趋势。


模型效果表现

讲完架构创新,可能有人会觉得有点空,那咱们就来看看模型具体表现,就知道是否真的有这么高的含金量。

  • 超长上下文输入

话不多说直接看成绩对比吧。在标准的学术测试集上,我们可以看到MiniMax-Text-01 基本上能媲美GPT-4o、Claude 3.5 Sonnet 等闭源模型以及 Qwen2.5、DeepSeek v3、Llama 3.1 这些 SOTA 开源模型。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第3张

受益于架构创新,模型在处理⻓输⼊时非常⾼效,接近线性复杂度

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第4张

在⼤部份的学术集上,都取得了对⻬海外第⼀梯队的结果。

  • 长上下文理解

在长上下文理解上,相比于其他模型,MiniMax-Text-01的表现也比较领先。在长上下文理解任务上,MiniMax 给到了大家Ruler 和 LongBench v2 这两个常见基准。

举个例子,在 RULER这一基准上(英伟达发布的一个大模型长文本的评估基准,包含检索、多跳追踪、聚合、问答四大类共13项任务。),我们可以看到发现当上下文长度超过 128k 时,到后面256k、512k乃至1M时,MiniMax-Text-01 的模型架构优势就愈发明显,可以一起看下第三方的最新评测数据。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第5张

传统大模型在处理长文本任务时,随着输入长度的增加,通常会出现能力显著下降的情况。具体而言,当文本长度超过传统上下文窗口的支持范围后,模型往往难以保持前后文的逻辑一致性,导致生成内容脱节或信息遗漏。

而 MiniMax-01 凭借其创新的架构设计和优化算法,成功克服了这一瓶颈,展现了在超长文本任务中的卓越处理能力。尤其是在需要处理海量上下文信息的场景中,MiniMax-01 的性能稳定性得到了充分体现。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第6张


例如,在网络小说生成中,MiniMax-01 可支持 1M Token 的超长上下文范围,完整记忆人物设定、关键情节及世界观细节,保证续写逻辑连贯,避免传统模型在超长文本中出现内容断层或情节紊乱的问题。

在法律合同分析中,MiniMax-01 能一次性处理整份合同,精准提取关键条款、争议点或隐藏的逻辑,为法律从业者提供高效支持。在历史记录和事件时间轴生成中,MiniMax-01 凭借其强大的长距离依赖捕获能力,梳理事件因果关系与时间脉络,表现出色,适用于复杂的多层次分析任务。

此外,为了评估模型在长文本任务中的记忆和检索能力,团队构建了一个名为 多轮针尖大海捞针(MR-NIAH) 的挑战性评估维度,专注于多轮对话上下文中的长文本检索任务。MR-NIAH 的任务模拟历史对话场景,其中用户查询是基于事件描述和创意写作的明确请求,要求模型在最后一轮中准确重复历史请求中的一个响应。

测试范围覆盖从 2K 到 1M Token 的上下文窗口,最多可涵盖 2000 次交互。评估中对每个响应的核心事实进行调整后的召回率分析(Adjusted Recall),以更精确地衡量模型的长文本检索能力。正如上图所示,MiniMax-Text-01 在中英文任务中表现优越,无论是短窗口还是长窗口(如 512k 或 1M Token),其性能下降幅度均显著小于其他模型(如 GPT、Claude、Gemini 变体)

  • 多模态理解

基于 MiniMax-Text-01文本模型,MiniMax 还开发了⽤于多模态理解任务的MiniMax-VL-01。从测试结果来看,⽤于多模态理解任务的MiniMax VL-01,也有较为领先的结果,整体能与其它知名SOTA 模型媲美,并可在一些基准上可以拔得头筹。

MiniMax 最近开源的 MiniMax-01 系列,有哪些值得关注的点?  第7张

多模态理解上也有类似的结果

当然,每一家模型都存在一定自身局限性。比如说面对复杂高级编程任务,目前的模型表现有限,技术报告中表示未来会增加更多的训练数据来进行校准,增加这方面的能力。

此外,团队还表示未来会实现更高效的架构,即纯线性架构,不再使用Softmax注意力。


MiniMax技术开源的动作和行业意义

Agent,一个2024年在各种大模型发布会/国际学术会议,一直不断被各位AI大模型公司创始人/行业大牛反复提到的概念。涉及到长链路任务,或者复杂任务的时候,长上下文就是Agent应用开发的必要条件。

作为一个创业公司,坚持自己的技术判断做创新,还是很值得鼓励的。未来,希望我们国内像Deepseek、MiniMax这样的团队,可以越来越多。

参考资料

  • 1.开源地址:github.com/MiniMax-AI
  • 2.Hugging Face:huggingface.co/MiniMaxA
  • 3.技术报告:filecdn.minimax.chat/_A
  • 4.网页端:海外版hailuo.aiAPI 国内版:https://hailuoai.com

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/9793.html

分享给朋友:

相关文章

那些极速版软件其存在目的是什么?

那些极速版软件其存在目的是什么?

我看了很多回答,其实都没有回答道点子上。你知道极速版APP为什么叫极速版吗?是他看视频更快吗?显然不是。只是它的安装包体积更小,下载安装速度更快而已,所以叫极速版app。当然啦,现在极速版APP和原声版APP,安装包已经没有区别了,这是因为...

手机用久了,垃圾都在哪里,总是内存显示不够,还很卡,这可怎么解决?

手机用久了,垃圾都在哪里,总是内存显示不够,还很卡,这可怎么解决?

大家的手机在使用一段时间之后啊,是不是都会出现又卡又慢的情况,尤其是安卓手机,这种现象更是非常明显,而且很多朋友啊,也都知道手机之所以会出现这些问题,一般都是手机安装了大量软件,而这些软件在使用过程中会产生大量的缓存垃圾,因此啊时间久了就会...

Layui 不更新了么?

Layui 不更新了么?

layui2.8已经于今天正式发布了,新增优化了大量特性,这里按照layui更新日志的模块结构,详细为你一一介绍。基础风格调整新版调整主色调为#16baaa,在原有的墨绿基础上赋予了清新。更简单的构建构建代码更简单,除字体外,只有js和cs...

为什么我们一直在给B站充大会员但B站却一直处于亏损状态?

我讲一下离谱的真相吧,欢迎喷我。很多人都觉得B站在赶走人才,赶走优秀的长视频创作者,也觉得知乎在这么做,是没错的。确实在这么做。而原因很简单。只有影响力很大的KOL才有商业价值。(KOL是指“关键意见领袖”)而你说你是人才?对不起,人才不赚...

都是前端框架,为什么用 React 的人会有优越感?

都是前端框架,为什么用 React 的人会有优越感?

上家公司一直搞react,最近第一次写个vue3项目。老板朋友来了看了下页面说:这用vue写的吧。我:是...老板朋友:一看就知道是vue做的。这tm你看一眼页面就知道用的啥框架?这感觉就是,我一直用苹果,偶尔用了下华为打电话,有个人离老远...

如何做电商行业?

如何做电商行业?

“如何做电商*开网店”跟“如何找老婆”一样,没概况条件、没明确标准,就是扯犊子。我把话题具体一点说:具备“两三万”启动资金、掌握“选品+上架优化”基础技能,小则月入三五千、多则上万。跟摆地摊一样,有进货的钱、也不怕苦不怕累、稍微有点生意头脑...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。