当前位置:首页 > 每日看点 > 正文内容

如何评价谷歌的 Gemini flash 2.5 模型?

卡卷网9个月前 (04-19)每日看点163

短的结论:Google刀法精准,但代价是变慢
基本信息:

  • Gemini 2.5 flash
    • 成本:4.3块每百万
    • 速度:约181字每秒
    • 平均长度:约3180字
    • 平均耗时:16秒

如何评价谷歌的 Gemini flash 2.5 模型?  第1张

  • Gemini 2.5 flash thinking
    • 成本:22块每百万
    • 速度:约190字每秒
    • 平均长度:约16300字
    • 平均耗时:85秒

如何评价谷歌的 Gemini flash 2.5 模型?  第2张


测试方式:参见zhuanlan.zhihu.com/p/32
这次测试基于4月题目,已经增加#34 & #35 2道Hard题,所以所有模型的分数相比3月有变动。


有Gemini 2.5 Pro的珠玉在前,大家对2.5 Flash的期待也水涨船高。在Gemini过往的各种Gemini实验版中,Pro总是轻微胜Flash一筹,这次也不例外。
不一样的是,这次2.5的Pro和Flash都得到了转正待遇,即,有了各自的定价。从价格来看,推理模型刀法精准,贵的模型就是好。基础模型Flash以足够低的价格,几乎判了其他第一梯队推理模型的“死刑”,当然这是夸张的说法,下文分析优劣会详细展开。
不过要注意,Flash前代平均长度仅2400,耗时不到14秒。而新版输出速度差不多,但因为输出更长,回答耗时涨到了16秒。未来或许会失去最快模型的地位。


Flash的基础版和推理版很多方面有相似性,下面合在一起做分析。


优势:

  • 基础模型Flash平均输出达到3180字,个别问题甚至到16000字(9000 token),达到推理模型才有的规模。这使得在一些场景,需要大模型输出尽量详细步骤时,可以使用Flash,而非一些推理模型。
  • 数学计算正确率高,从简单四则运算到复杂函数运算,只要Flash没理解错题,大概率能算对。表现甚至好于部分第二梯队的推理模型。并且,简单的运算问题,Flash、Flash Thinking和2.5 Pro几乎拉不开差距,只在稳定性上2.5 Pro更好。但复杂计算如#22连续计算,#28特殊规则计算,还是2.5Pro > Flash Thinking > Flash。Flash主要丢分在对于小数计算,更倾向于过早的进行舍入,导致精度误差累计。



劣势:

  • Flash和Flash Thinking共性问题是上下文幻觉略重(相对2.5 Pro),如#34地铁换乘,二者都会数错经停站,而2.5Pro表现要好一些。
  • 在人类直觉/找规律类问题上,Flash和Flash Thinking虽然不会暴力求解,但会沿着错误思路走到头,如#32干支纪年,二者都是找错了数学规律,Flash沿着错误规律尝试求解,解到8000多字时发现自己被绕进去了,干脆放弃。
  • Flash和Flash Thinking都有轻微字符幻觉,Flash在要求保留原文的题目上甚至会修改原文,实际使用时要特别留意。Flash Thinking表现好很多。
  • 前面提到,Flash在正确理解题目前提下,计算成功率高。而Flash对部分没有直接思路的计算问题,如#25算24点,表现就显著的差,不但算错,还在字符幻觉的公共作用下,无中生有的造出新数字。Flash Thinking则基本无此问题。
  • Flash Thinking在面对多重条件时,容易“慌乱”,表现是推理中途搞错条件,然后错到底。如#1猜单词,#20桌游模拟,#30日记整理均如此。表现甚至略差于Flash。
  • Flash有少量问题会陷入死循环,用满max token。



赛博史官曰:
Google这套组合拳打得好,把基础模型的成本降下去,速度提上来,进而给推理模型留够工程策略空间。不过随着最近各家都大量使用合成数据,蒸馏推理模型数据,导致基础模型的输出长度也越来越长。Flash也从前代2400涨到了3180,30%的输出提升换来20%的智力提升。这样下去,恐怕很快又需要一个小模型对基础模型输出再做一次汇总了。
对海外用户而言,Flash Thinking的单价虽然低,但使用成本并没有比o4 mini high便宜多少,更是不如medium档位的o3 mini/o4 mini。推理耗时也不占优。对国内用户而言,这个问题要小一些,早2天发布的豆包推理版本用一半成本做到相同性能,而且人家还有降价空间。何况豆包的稳定性甚至更好。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/04/12684.html

分享给朋友:

相关文章

WordPress建设的网站为什么不推荐国内机房?

WordPress建设的网站为什么不推荐国内机房?

我劝大家不要用WordPress做国内网站,不要用国内机房的主机。原因如下:1 WordPress 很多主题和插件都是国外开发的,特别是付费版本,需要联网验证,或者远程写入。国内机房的虚拟主机和服务器大概率会屏蔽或者阻断这些连接,无法完成任...

台积电通知其中国客户,从下周开始,所有 7nm 及以下芯片出货将停止。如何看待这一行为?

台积电通知其中国客户,从下周开始,所有 7nm 及以下芯片出货将停止。如何看待这一行为?

我说美国快要没招了,你信么?这次台积电宣布停止向中国大陆客户供应7纳米及更先进AI芯片,再加上前段时间台积电对华为的制裁,我们基本可以认为,台积电在高端芯片领域,已经彻底把大陆给拉黑了,这也意味着中美芯片战已经到了最关键的时刻,一旦我们克服...

天涯神帖,第一神帖是什么?

天涯神帖,第一神帖是什么?

一些个人觉得比较经典的天涯神贴(更新进去了):话说1999年那会儿,中国的互联网还是个小婴儿,BAT三巨头都还在穿开裆裤呢,天涯社区就已经悄然诞生了。时光飞逝,到了2007年,这小小社区竟然已经吸引了超过2000万的注册用户,不得不说是个小...

有没有能够兼顾便携并且流畅运行各种AI应用的笔记本?求推荐?

有没有能够兼顾便携并且流畅运行各种AI应用的笔记本?求推荐?

看了下题主的描述,可以考虑「联想YOGA Air 15 Aura AI元启版」,今年9月底出的一款轻薄本,也通过了英特尔Evo严苛认证。处理器用了英特尔最新的「酷睿 Ultra 7 258V」,主要亮点就是AI性能、图形处理能力和能效,很适...

在追求家居美学的过程中,如何选择一款电视机,使其既具备出色的音画质又能与家居装饰相得益彰?

在追求家居美学的过程中,如何选择一款电视机,使其既具备出色的音画质又能与家居装饰相得益彰?

先看照片,你就说美不美吧?我家这个40平的客厅东西放得不少,其中最提升观感的是各种灯光,在这么多灯光中,是不是第一眼视觉中心就落在了电视上?没错,因为这电视是非常特别的环景光电视,与显示器的神光同步一样,会随着画面的变化而变化不同的光效,它...

在 Kubernetes 中,Service 的实现原理是什么,它是如何实现服务发现的?

行,问的这个问题挺有意思,Kubernetes 里 Service 是怎么实现的,服务发现是怎么回事,咱就直说了。这事儿看起来挺玄乎,但掰开揉碎了讲,也就那么回事。你得把这事儿想得简单点,别一上来就被啥术语吓住了——其实全是些搬砖的套路。咱...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。