当前位置:首页 > 每日看点

如何评价字节新发布的豆包深度思考模型?

卡卷网1年前 (2025-04-17)每日看点372

短的结论:国产推理模型再攀高峰
基本信息:

  • 成本:16块每百万
  • 速度:约85字每秒
  • 平均长度:约11400字
  • 平均耗时:134秒

如何评价字节新发布的豆包深度思考模型?  第1张


测试方式:参见zhuanlan.zhihu.com/p/32
这次测试基于4月题目,已经增加#34 & #35 2道Hard题,所以所有模型的分数相比3月有变动。


官方在介绍模型时,与DeepSeek R1相比,表示豆包thinking比R1,在人类评估上超DeepSeek R1 8%。目前笔者实测下来基本吻合,略超R1。
豆包thinking的首字delay时间相当优秀,300毫秒不到,仅次于Step R1 mini的200毫秒。是所有大模型中最低的一档。当然考虑到这与服务部署有关,并不是相同硬件条件下直接对裸模测试的结果,因此这只代表通过方舟平台使用服务的延迟,不代表模型本身能力。
豆包thinking的定价也是对标R1,但由于豆包输出长度略长,因此成本还是略高于R1。
在输出风格上,还显得较为随意,半数问题有标准markdown格式,另外一半或是简略答案,或是推理摘要。或长或短。
以下就重点对比豆包thinking与R1。


优势:

  • 在大部分涉及复杂指令的问题上,豆包表现轻微好于R1。R1偶尔会因为幻觉,忘记一些指令细节,而豆包可以比R1稍微多记住一些。典型如#2文本提取,豆包取得满分,前不久发布的商汤日日新6.0 reason也同样是满分。
  • 计算能力略强于R1。如#22连续计算问题,豆包拿到接近满分,与Gemini 2.5 pro,o3 mini等表现相似。而R1由于其较高的幻觉率,在计算中途会产生偏差。



劣势:

  • 喜欢使用暴力。#23密文破译 虽然正确,但有运气成分,他并没有观察到密文的结构特征,而是暴力猜测,刚好猜对了密钥。于是同样考验人类直觉但更难的#24 找规律问题以及#29 数学符号还原问题,豆包就束手无策了。在暴力推导20000字后无果放弃。
  • 前面提到豆包指令遵循略好,但并非没有badcase。豆包的问题主要在于“自我意识”过强,如#30 日记整理,其中一条约束是要把满足条件的物品改用英文,而豆包坚持在英文翻译后再补充中文原文。遵守了,但没完全遵守。
  • 幻觉现象依然不轻,#32 干支纪年,题目已经提示先找数学规律,豆包确实找了,但推理到中途就忘了自己在算什么,迷失在中文与数字交错的文本中,后续的万余字推理已经失去意义。



总评:
在2月DeepSeek R1席卷全国时,豆包App坚持不接入R1,让混元抢占先机,吸引了许多用户。而豆包团队的坚持是对的,如今即是收获季节。当豆包拿出(略)超过R1的推理模型时,混元阁下又当如何应对呢。
不过话说回来,整个4月大模型行业风起云涌,目前已新收录了16个新发布或更新。其中不乏grok3 mini这样,性能和性价比都在豆包之上的强力竞争者。但考虑到豆包thinking只有200B参数,仅为R1的1/3不到,理论上有充足降价空间。
豆包thinking有一款vision模型,会加入到后续的多模态vision测试中。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/04/12568.html

分享给朋友:

相关文章

五个私藏宝贝网站!上班族摸鱼必备,打造快乐小天地

五个私藏宝贝网站!上班族摸鱼必备,打造快乐小天地

有朋友提到,虽然一整天都在“摸鱼”,但却感觉身心俱疲,甚至比一直忙碌工作还要累。其实这背后是有科学依据的。当人专注于工作时,会进入一种“心流”状态,这种状态让人感到兴奋、满足且充实。相反,如果在工作时分心“摸鱼”,会导致注意力分散,增加认知…

电脑c盘哪些文件可以删除?

电脑c盘哪些文件可以删除?

电脑上的文件夹都是英文,很多朋友都不敢乱删,下面这几个文件夹里的文件,你可以放心删除。 一、可删除的文件1、Backup这是一个备份文件夹,很多装机软件经常会把需要备份的东西,放在这个文件夹中。而当我们需要的软件正常保存之后,这些东西也…

抖音小店三个月了一单没出,也没有流量,一个星期好像都没有一个点击,怎么办?

抖音小店三个月了一单没出,也没有流量,一个星期好像都没有一个点击,怎么办?

好消息,你有毅力上200多个品,还能坚持三个月 坏消息,一单没出 我感觉你还是别碰抖店了,甚至电商平台都别碰 你没这个缘分 我要是这样,我得用一百辆叉车叉死我自己 你如果还想坚持,我直接给你这套至少价值19800学来的新思路 简单来说就是…

为什么闲鱼越做越差?

理想的闲鱼:卖家视角:4000块钱买的手机,用了半年不想用了,挂一个3000块,和买家一顿交流,最后2500块成交,我得到了回血,买家得到了便宜; 买家视角:想用一台4000块的手机,但是手里只有2500块,来到闲鱼和卖家一顿交流,最后25…

在 Kubernetes 中,Service 的实现原理是什么,它是如何实现服务发现的?

行,问的这个问题挺有意思,Kubernetes 里 Service 是怎么实现的,服务发现是怎么回事,咱就直说了。这事儿看起来挺玄乎,但掰开揉碎了讲,也就那么回事。你得把这事儿想得简单点,别一上来就被啥术语吓住了——其实全是些搬砖的套路。…

客观的讲,华为是不是真的遥遥领先?

客观的讲,华为是不是真的遥遥领先?

最近,华为上市了最新款的三折叠屏手机,于是很多大V们把这款手机吹上了天,吹成是技术上遥遥领先于全世界。谁要是敢质疑华而不实,就会被人扣上一顶汉奸卖国贼美狗的帽子。把一个商品捧成了宗教和菩萨,你只能说好,不能说不好。其实这个世界上,只要是人和…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。