当前位置：首页 > 每日看点

如何评价字节新发布的豆包深度思考模型？

卡卷网1年前 (2025-04-17)每日看点417

短的结论：国产推理模型再攀高峰
基本信息：

成本：16块每百万
速度：约85字每秒
平均长度：约11400字
平均耗时：134秒

测试方式：参见https://zhuanlan.zhihu.com/p/32834005000
这次测试基于4月题目，已经增加#34 & #35 2道Hard题，所以所有模型的分数相比3月有变动。

官方在介绍模型时，与DeepSeek R1相比，表示豆包thinking比R1，在人类评估上超DeepSeek R1 8%。目前笔者实测下来基本吻合，略超R1。
豆包thinking的首字delay时间相当优秀，300毫秒不到，仅次于Step R1 mini的200毫秒。是所有大模型中最低的一档。当然考虑到这与服务部署有关，并不是相同硬件条件下直接对裸模测试的结果，因此这只代表通过方舟平台使用服务的延迟，不代表模型本身能力。
豆包thinking的定价也是对标R1，但由于豆包输出长度略长，因此成本还是略高于R1。
在输出风格上，还显得较为随意，半数问题有标准markdown格式，另外一半或是简略答案，或是推理摘要。或长或短。
以下就重点对比豆包thinking与R1。

优势：

在大部分涉及复杂指令的问题上，豆包表现轻微好于R1。R1偶尔会因为幻觉，忘记一些指令细节，而豆包可以比R1稍微多记住一些。典型如#2文本提取，豆包取得满分，前不久发布的商汤日日新6.0 reason也同样是满分。
计算能力略强于R1。如#22连续计算问题，豆包拿到接近满分，与Gemini 2.5 pro，o3 mini等表现相似。而R1由于其较高的幻觉率，在计算中途会产生偏差。

劣势：

喜欢使用暴力。#23密文破译虽然正确，但有运气成分，他并没有观察到密文的结构特征，而是暴力猜测，刚好猜对了密钥。于是同样考验人类直觉但更难的#24 找规律问题以及#29 数学符号还原问题，豆包就束手无策了。在暴力推导20000字后无果放弃。
前面提到豆包指令遵循略好，但并非没有badcase。豆包的问题主要在于“自我意识”过强，如#30 日记整理，其中一条约束是要把满足条件的物品改用英文，而豆包坚持在英文翻译后再补充中文原文。遵守了，但没完全遵守。
幻觉现象依然不轻，#32 干支纪年，题目已经提示先找数学规律，豆包确实找了，但推理到中途就忘了自己在算什么，迷失在中文与数字交错的文本中，后续的万余字推理已经失去意义。

总评：
在2月DeepSeek R1席卷全国时，豆包App坚持不接入R1，让混元抢占先机，吸引了许多用户。而豆包团队的坚持是对的，如今即是收获季节。当豆包拿出(略)超过R1的推理模型时，混元阁下又当如何应对呢。
不过话说回来，整个4月大模型行业风起云涌，目前已新收录了16个新发布或更新。其中不乏grok3 mini这样，性能和性价比都在豆包之上的强力竞争者。但考虑到豆包thinking只有200B参数，仅为R1的1/3不到，理论上有充足降价空间。
豆包thinking有一款vision模型，会加入到后续的多模态vision测试中。