当前位置：首页 > 每日看点

如何评价谷歌的 Gemini flash 2.5 模型？

卡卷网1年前 (2025-04-19)每日看点245

短的结论：Google刀法精准，但代价是变慢
基本信息：

Gemini 2.5 flash

成本：4.3块每百万
速度：约181字每秒
平均长度：约3180字
平均耗时：16秒

Gemini 2.5 flash thinking

成本：22块每百万
速度：约190字每秒
平均长度：约16300字
平均耗时：85秒

测试方式：参见https://zhuanlan.zhihu.com/p/32834005000
这次测试基于4月题目，已经增加#34 & #35 2道Hard题，所以所有模型的分数相比3月有变动。

有Gemini 2.5 Pro的珠玉在前，大家对2.5 Flash的期待也水涨船高。在Gemini过往的各种Gemini实验版中，Pro总是轻微胜Flash一筹，这次也不例外。
不一样的是，这次2.5的Pro和Flash都得到了转正待遇，即，有了各自的定价。从价格来看，推理模型刀法精准，贵的模型就是好。基础模型Flash以足够低的价格，几乎判了其他第一梯队推理模型的“死刑”，当然这是夸张的说法，下文分析优劣会详细展开。
不过要注意，Flash前代平均长度仅2400，耗时不到14秒。而新版输出速度差不多，但因为输出更长，回答耗时涨到了16秒。未来或许会失去最快模型的地位。

Flash的基础版和推理版很多方面有相似性，下面合在一起做分析。

优势：

基础模型Flash平均输出达到3180字，个别问题甚至到16000字(9000 token)，达到推理模型才有的规模。这使得在一些场景，需要大模型输出尽量详细步骤时，可以使用Flash，而非一些推理模型。
数学计算正确率高，从简单四则运算到复杂函数运算，只要Flash没理解错题，大概率能算对。表现甚至好于部分第二梯队的推理模型。并且，简单的运算问题，Flash、Flash Thinking和2.5 Pro几乎拉不开差距，只在稳定性上2.5 Pro更好。但复杂计算如#22连续计算，#28特殊规则计算，还是2.5Pro > Flash Thinking > Flash。Flash主要丢分在对于小数计算，更倾向于过早的进行舍入，导致精度误差累计。

劣势：

Flash和Flash Thinking共性问题是上下文幻觉略重(相对2.5 Pro)，如#34地铁换乘，二者都会数错经停站，而2.5Pro表现要好一些。
在人类直觉/找规律类问题上，Flash和Flash Thinking虽然不会暴力求解，但会沿着错误思路走到头，如#32干支纪年，二者都是找错了数学规律，Flash沿着错误规律尝试求解，解到8000多字时发现自己被绕进去了，干脆放弃。
Flash和Flash Thinking都有轻微字符幻觉，Flash在要求保留原文的题目上甚至会修改原文，实际使用时要特别留意。Flash Thinking表现好很多。
前面提到，Flash在正确理解题目前提下，计算成功率高。而Flash对部分没有直接思路的计算问题，如#25算24点，表现就显著的差，不但算错，还在字符幻觉的公共作用下，无中生有的造出新数字。Flash Thinking则基本无此问题。
Flash Thinking在面对多重条件时，容易“慌乱”，表现是推理中途搞错条件，然后错到底。如#1猜单词，#20桌游模拟，#30日记整理均如此。表现甚至略差于Flash。
Flash有少量问题会陷入死循环，用满max token。

赛博史官曰：
Google这套组合拳打得好，把基础模型的成本降下去，速度提上来，进而给推理模型留够工程策略空间。不过随着最近各家都大量使用合成数据，蒸馏推理模型数据，导致基础模型的输出长度也越来越长。Flash也从前代2400涨到了3180，30%的输出提升换来20%的智力提升。这样下去，恐怕很快又需要一个小模型对基础模型输出再做一次汇总了。
对海外用户而言，Flash Thinking的单价虽然低，但使用成本并没有比o4 mini high便宜多少，更是不如medium档位的o3 mini/o4 mini。推理耗时也不占优。对国内用户而言，这个问题要小一些，早2天发布的豆包推理版本用一半成本做到相同性能，而且人家还有降价空间。何况豆包的稳定性甚至更好。