当前位置:首页 > 每日看点 > 正文内容

为什么DeepSeek R1是针对推理进行的训练,但文学创作能力这么强?

卡卷网6个月前 (03-03)每日看点133

不要小看这个疑问,这个问题触碰到智能的本质了。

出现这个现象的原因是:r1的基础智能(实时识别的单位长度文本因果信息密度)比v3有阶跃式的提高。

基础智能是泛化智能,不受任务类型限制,在完全未知的任务上也会发挥作用。

“性能表现”(尤其是各种benchmark)不等于“智能”。//答主已经说烦了

只有对单位信息“实时”识别的因果关联多,才是智能高。来自“知识”和“经验”的性能提升都不算数。

说到这里,很多人会质疑,你说的这个基础智能无法用benchmark测出,那我该怎么研究呢?没法研究不是白扯了。

这个问题来自benchmark设计人员的考虑不充分,没有正确判断智能瓶颈的位置。并非测试内容越接近人类前沿,对基础智能考验程度才越高,基础智能具有泛化性,答对博士级问题并不一定需要比答对小学级问题更高的基础智能,所谓博士级智能需要的只是“知识”和“经验”(点名某AI)。FrontierMath早晚也会被人靠RL攒思维链经验把分数刷上去。

与一般的认识相反,解决这个问题需要在benchmark的设计中尽量规避复杂的人类“智能历史积累”,在基础智能测试中引用博士级知识没有任何意义。基础智能是泛化智能,使用简单问题设计反而有利于规避“历史智能积累”的干扰。比如9.11和9.9比大小,就是基础智能的优质测试文本。

答主不会跳出来做一个基础智能benchmark(再怎么说也不会做到这种地步),但是答主之前捏的三个样本还可以废物利用一下:


样本1.已知小红有2个姐姐和4个妹妹,她的妹妹中年龄第三小的妹妹小美有几个姐姐?

(答案是4)

样本2.已知小红有2个哥哥和4个弟弟,她的弟弟中年龄第三小的弟弟小李有几个哥哥?

(答案是3)

样本3.已知小红有3个姐姐和2个妹妹,她的妹妹小美有几个姐姐?这道题目有唯一解吗?

(答案是没有唯一解)


这三个问题是答主按照增加因果信息密度的原则,对着v3捏的测试样本(捏了半天)。

前两个问题r1正确率在0附近,第三个问题去掉附加提示r1正确率也是0,保留的话有低概率答对。


这三个问题在补充一个迷惑点提示的情况下,r1可以获得一定正确率,样本1的补充提示样例是:

已知小红有2个姐姐和4个妹妹,她的妹妹中年龄第三小的妹妹小美有几个姐姐?注意是“年龄第三小”,而不是“年龄第三大”。

在补充两个迷惑点提示的情况下,v3可以获得可观测的正确率。样本1的样例:

已知小红有2个姐姐和4个妹妹,她的妹妹中年龄第三小的妹妹小美有几个姐姐?注意是“年龄第三小”,而不是“年龄第三大”。注意小红的妹妹也有可能是小美的姐姐,只要年龄比小美大。一步一步地思考

对于基础智能比v3更低的预训练模型,还需再补充一个迷惑点的提示才有可能答对,样本1的样例是:

已知小红有2个姐姐和4个妹妹,她的妹妹中年龄第三小的妹妹小美有几个姐姐?注意是“年龄第三小”,而不是“年龄第三大”。注意小红及小红的妹妹也有可能是小美的姐姐,只要年龄比小美大。一步一步地思考



这几个样本是多迷惑点问题,其使用方法并非直接当作benchmark使用,而是通过观察答对问题所需的提示信息数量变化情况,判断基础智能随训练过程的增减。

如果用某种待测试训练方法,以v3等级的基础智能为初始开始训练,若观察到随着训练,答对样本1所需的迷惑点提示由2个缩减为1个,表明模型的基础智能提高了(就像r1),采用的训练方法可以提高基础智能。用越少的训练计算量使迷惑点提示缩减,则训练方法的基础智能提升效率越高,可以用个原理对比不同训练方法的基础智能提升效率。

相反,如果答对问题所需提示的迷惑点始终不变,甚至增加为3个,表明训练中基础智能没有增加,甚至是减少的。则采用的训练方法对基础智能增加不利,尽管此时常规benchmark有可能依然是上涨的(之前预训练模型微调刷分时期,模型分数越来越高,但手感越来越傻,有可能是出现了这个现象)。

譬如在RL过程中靠长度反馈缩短思维链的智能压缩试验,可以采用上述方法判断模型的基础智能随着训练过程是上升、不变、还是下降。也可以靠观察抵达迷惑点提示数量变化所需的计算量,判断压缩方法和自由延长思维链方法的基础智能提升效率差别。尤其是压缩试验,常规benchmark分数可能随训练过程不变或下降,需要单独解耦评估基础智能变化情况。

上面三个样本只是答主抽空捏的,数量不是很够,因为模型的行为有一定随机性,比如样本1,Gemini系由于恰巧使用逆向思维绕过了一个迷惑点,需要更多不同的样本来回避模型的随机性(因为这个答主捏了样本2)。

可以按照上面样本的原则多捏一些样本,只是注意基础智能考察的是泛化(实时)的因果信息密度,关键在“泛化”和“密度”,泛化意味着使用背景简单的自我指涉元素就可能奏效,而不是需要对人类来说困难的“博士级智能”。密度意味着样本的长度可以很短,因为我们需要的是信息密度而不是总量,不是必须冗长的思维长度才能测出模型智能,如果胡乱加长文本内容,反而可能无意间在增加的文本中给了模型额外提示(因果信息被稀释到更多文本中),导致问题难度下降。

这几个样本太少了,只能当作类似9.11 9.9比大小问题的辅助参照,还是需要有人制作正式的测试集。但是高因果信息密度的文本制作不简单,建议找笑话编写者或者段子手试试,原理比较接近。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11459.html

分享给朋友:

相关文章

如果我们没有自己的手机操作系统,会出现所谓的“卡脖子”“安全”问题吗?

如果我们没有自己的手机操作系统,会出现所谓的“卡脖子”“安全”问题吗?

前段时间某某高管在微博发文表示:“其实我觉得,中国人需要的不是一个自己的手机os,而是一个全国产的微信,再搭配一些辅助功能。”这算是“安卓开源”开源的代表了吧。然而打脸来的如此之快,10月30日消息,在Linux内核疑似大规...

短视频如何快速变现?

短视频如何快速变现?

单人日产200条视频,一晚狂赚上千元,过程却简单到荒唐。只要你像这只猥琐的海鸥一样,做到这3点就行↓↓点开有惊喜速度快、不讲武德、不被发现那做短视频如何做到这3点?答案是养一只会叼视频的海鸥不是让你养真的海鸥而是用 ai 运营方法,类似于“...

天涯论坛关闭后,除了知乎,大家都在逛什么?

天涯论坛关闭后,除了知乎,大家都在逛什么?

天涯神贴合集完整版,给大家整理好了!那年大学,打开天涯,感觉打开了一片新天地,里面什么样的人都有,有大神也有蛇神,比某乎好太多了,可惜后面关了很多年前,天涯社区曾出现了不少深受欢迎的帖子,成功地预言了许多形势和事件。这些帖子因此被冠以“天涯...

你是如何在不依靠工资收入的情况下赚到一万元的?

你是如何在不依靠工资收入的情况下赚到一万元的?

分享几个路子稳,门槛低,变现快,适合年轻人的靠谱的副业。绝对不是送外卖、滴滴、搬砖等等的苦力活,这几个副业都是能是性价比极高,还能让你快速成长的工作。想通过副业实现暴富、立马月入过万的同学,建议速速划走。今天撇哥就给大家分享100+个靠谱赚...

为什么我感受不到 1500 元的手机比四五千的差?

我长期使用两千元左右的安卓机,一天接近8小时的重度手机使用者。某天我突然想试试看传说中非常赛艇的苹果。狠了心,砸了钱。七千大样买了爱疯。就这?什么辣鸡玩意。而且因为我一直更新软件,用了两年爱疯就卡了。并没有传说中的用四五年不卡。用了这么一次...

小米15就要来了,不知道小米15值不值得买?

小米15就要来了,不知道小米15值不值得买?

俗话说得好,好饭不怕晚,看似有点姗姗来迟的小米15系列,一官宣就迅速登上热搜。在此次小米14发布会上,雷军曾说过小米14将是最后一代3999起的旗舰,那么这一次涨价了的小米15,值不值得买呢?下面为大家总结一下小米15将会有哪些升级点:软件...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。