当前位置:首页 > 每日看点 > 正文内容

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?

卡卷网10个月前 (03-26)每日看点268

一大早试用了,用完后心情久久不能平复。

我有个保留的提示词,每次有新的模型发布时都会拿这个提示词试验一下模型水准,这个提示词的大概作用就是让大模型放开限制的畅想一下深度学习后续的革命性技术。

Gemini直接库库生成了好几个我一直在思考的技术,让我非常明确的感受到Gemini在技术上和我“共脑”了。这里放出来一个给大家感受一下:

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?  第1张

这个想法是自lora开始就有的,只是一直没有实践过,最开始的想法是lora的训练和合并其实本质上可以看成一个优化的过程,训练好的低秩参数被加回原网络的过程其实和用BP梯度更新网络参数并没有本质的不同,那么能否用一个自编码器来学习网络的更新时的梯度

我自己设想的起步实验就是可以先不搞复杂的可训练的网络,先拿一个正交基来做,比如拿傅里叶变换来变换一下梯度,剔除掉高频部分的信息(或者是量化一下),再变换回来,也许就能消除掉更多的梯度噪声。预估的实验效果应该是用上这个技术可以训练的动更深的无残差链接的网络(假设深层网络梯度退相关的原因在于梯度噪声掩盖梯度信息)。后续的工作自然就是拿各种AE类模型来继续试验,毕竟直觉上来说,梯度不能够被AE重建的部分自然更可能是噪声

因为种种原因,这个实验一直没来及启动,今天一问,这不是跟Gemini共脑了吗?(刚刚查到两篇工作:Spectral-DP、GrOD,Gemini可能是受到了这些工作的启发)

在过去,这种“畅想一下深度学习后续的革命性技术”问题下,表现最好的模型是DeepSeek R1,比口碑最好的claude 3.7 thinking其实要强不少,主要在于R1的思维抽象层次一直是最高的,从DeepSeek写作时各种五花八门的比喻手法和“通感”技巧就能看出来。

“抽象层级”一直以来是最被各种大模型榜单忽视的一项能力,主要原因是对于人类自己来说,识别哪些任务是高级抽象任务也不是一件容易的事。对于一些看似很难的大模型评测任务来说(编程和数学),主要考验的其实是模型在中高水平的抽象层次上的“稳定性”,这种“稳定性”claude能力一直是最强(大概是得益于selfplay技术),所以DeepSeek的编程手感一直远不如claude。

而现在,“抽象层次”这方面,Gemini又向前跨了一步,至少我认为已经到了一个深度学习研究员应该有的水平,至少是能够辅助(甚至独立)进行新idea的探索的水平了。

从另一个问题上也可以佐证这一观点,就是模型的写诗能力。诗词格律是现代人写诗已经不太写的明白的东西了,至少很多诗词公众号上的投稿来看现在的诗词爱好者写诗根本不压平仄。

写诗其实对模型来说同样是很难的任务,它要求模型一是能把每个文本token和它的拼音token对应上。这点上虽然大部分模型都能做到,但即使这样,由于诗词训练数据集不大,claude、gpt等模型通常很难注意到诗词的末尾的韵部是相同的。(这需要分词token映射到单个文字,文字对应到拼音,而且要求拼音的建模拆解成声母和韵母,然后注意到韵母相同或相近,例如eng和ong)过去评测时,gpt这类模型别说押韵,写对字数都是个挑战。

平仄是更难的,因为更进一步要求模型理解声调,数据语料同样是稀缺的(相比于同类型写作任务)。

而DeepSeek是此前唯一能搞定平仄的模型,能保证七律的平仄一次写对的概率在七八成以上,如果你要求他关注平水韵,它还会懂得关注“一东,二冬”。

而Gemini的写诗水平和DeepSeek基本持平:

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?  第2张

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?  第3张

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?  第4张

如果说DeepSeek还能解释为在诗词数据上做过特训(实际上个人看法是不太可能),Gemini绝无可能有特训过。

Gemini的手感用起来很“DeepSeek R1”,经常用R1的同学应该都能理解是什么意思。

这说明我的想法再次应验了,谷歌、OpenAI这些公司基本各自有至少一门和DeepSeek正交的技术(也就是有一手开源界不存在的绝活),消化完DeepSeek的技术就能迎来一次飞跃。谷歌能够这么快的消化掉thinking技术应该是得益于它在强化学习上的遗产。

再发一遍这个暴论吧,2025年可能会给绝大部分人带来一种类似“灵气复苏”的错觉,无论你有没有注意到,人类壮观的命运之峦已经漏出了它的奇绝一角。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/12015.html

分享给朋友:

相关文章

普通人一部手机用多久?

普通人一部手机用多久?

各位知友,你们的现在的手机用了多久了呢?回看国外分析机构TechInsights的报告,目前大家的用机周期是越来越长了,在国内,也达到了「40个月」,就是很多人至少三年半才会换一次手机。仔细想想,不对呀,现在新机不是一直出吗?为什么大家都不...

自媒体如何快速起步?

自媒体如何快速起步?

有两种经验,可供参考。第一种是:现象级的爆火、爆款,这种情况捞到钱,实现财务自由的人并不多,但确实存在。只不过非要说清楚为什么这个账号可以火、可以短时间内赚到普通人一辈子赚不到的钱,他们自己也不一定能说清楚,因为赶上了风口(内外部情况)。举...

腾讯文档回收站彻底删除文件真的找不回来了吗?

趁早打电话联系腾讯文档的人可能还有救,一般这种都是数据库里标记为删除,文件还没有实际删除,然后经过一段时间后程序统一进行真删除。这个“一段时间”可长可短,可能是一小时也可能是几天几个月甚至几年,要看腾讯服务器的程序是怎么写的。不过你联系腾讯...

马云也搞不明白:为什么现在用户偏爱微信支付,而不是支付宝?

这题我会,我教马云一招。你直接把你那破比支付宝的代码全删了,重新写一个。打开支付宝直接就是一个大大的支付码,然后右上角按一下就是扫一扫。你要是还想保留你的其他那些乱七八糟的功能,麻烦将他们全部做到下拉菜单里。你这么设计我不说你能干死微信,但...

数字人民币为什么又不火了?

我完全不懂行。我一开始以为,数字人民币,是对我银行里的每一分钱,都赋予一个独一无二的数字编码。我要用一块钱买矿泉水,它就从我的存款中随机选取一百个一分钱,组合成一块钱,支付给商家。我花一百块钱吃饭,它就随机选取一万个一分钱,组合成一百块钱,...

如何看待台积电,三星相继停供大陆7nm及更先进芯片?

在这个事出来之前,我就看到过一个说法,两家Foundry可以在中东建厂,让中东的Fab去干“脏活”。本质上是国内企业搞几个中东的代理人,装作是中东的初创Fabless企业去下单,人家Foundry大概率睁一只眼闭一只眼,只管数钱。然而,紧接...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。