当前位置:首页 > 每日看点

DeepSeek最大的贡献是什么?

卡卷网1年前 (2025-02-17)每日看点297

最近很忙很忙,没时间龙吟了,简单写几个个人观点,临表涕零不知所云,见谅。

1、r1基本复现了openai半年前的成果,这一点已经被多方验证,包括openai的人也有发声。开源界的一系列实验表明rl确实能自我推理出思维链。原来openai传了一年的草莓、q*就是这个。

2、500万美金训练成本有待进一步验证,但fp8甚至fp4是大势所趋。25年应该会看到更多模型从fp16转fp8/fp4。

3、蒸馏数据是公开的秘密,但很多表现不是蒸馏能解释的。比如v3的中文能力,很多用词和表达方式非常接地气,如果不细看甚至让我产生了一种“文学不存在了”的幻觉。估计用了新的语料或者合成方法做的预训练。在我看来这比蒸馏更重要,可惜重视的人似乎不多。

4、一个奇怪的问题是r1的思维链被人发现有“根据openai的规范”之类的文字。这当然是因为蒸馏,但问题是,有各种方法很容易地把语料里的openai字样替换掉,替换成deepseek不就行了。为什么ds会犯这种低级错误?据说r1只训了3周,难道真的是有人想做个小实验没想到一不小心成了?这个问题很快不见了,因为去掉openai字样不用重训模型,system prompt里加个要求就行。

5、r1只是reasoner的初级阶段,但reasoner模型和此前的模型有质的区别。之前的模型就像一个学渣每天填鸭刷题,其实大部分半懂不懂,知其然而不知其所以然,只是凭借超强的记忆力,居然很多题也能凭经验蒙混过关,不过稍一拷问就要抓瞎。r1就像这个学渣偷看了隔壁学霸的答案,虽然学霸故意把解题过程遮住,但是学渣每日对着答案苦思,试图反推解题步骤,竟也成功复现了部分题的思路,知其然更知其所以然,从此功力大涨。这个故事励志的部分在于,原来学渣靠努力,也有追上学霸的希望。不那么励志的部分在于,学霸不会做的题,学渣还是不会做。

rl解决了此前一个关键问题:为什么预训练+sft,把世界上能看的书都看了一遍,智力却没有质的飞跃?就好比,为什么我初中就学了三定律,却不能变成牛顿?为什么我看完三体倒背如流,却不能变成大刘?

下一个更关键的问题是:就算rl能让ai逼近牛顿,但它能否超越牛顿?能不能解决人类顶尖科学家一辈子也解决不了的问题?学霸也不会做的题,学渣靠苦思冥想就会做吗?没有答案的问题,还能借助rl得到过程吗?

6、下一步可能的范式:让模型自己出题自己做,自己检查做的对不对。比如,模型出了1万亿道题(题云?),做出了其中1亿道,自己检查后发现只有100万道能验证是对的。那么解出这100万道题的思维链就成了新的训练数据。用这些数据训练后得到的2.0模型,能够解出更难的题,思维链更长。如此迭代实现自我进化,最终当思维链长到比人类顶尖科学家几十年每天苦思冥想的内心戏连到一起都要长的时候,也许ai就真超过人类了。

至少对于数理化计算机这类任务,ai要做的不是和人类对齐,而是和宇宙对齐。因为所有数据都是在宇宙这个计算机内部折腾,然后收集它给出的反馈。最终的结果,可能是一群ai就一个科学问题切磋得热火朝天,你能看到每个模型的所有思维链,可是几乎看不懂,因为ai为了高效传输信息用自己发明的黑话压缩了思维链。ai不是新工具而是新物种,agent的下一步是ai社会。

7、有人说sft不存在了。不可能的,最多是人类标注的sft不存在了。那么取而代之的是什么呢?ai标注的sft。没错,模型rl得到的思维链做sft训练新模型,大模型的思维链训练小模型。一年多前我说人类数据是ai的药引子,没想到这么快就实现了。

上一代模型是个靠经验猜题的学渣,但其实我们大部分人在大部分工作中都是学渣。比如,我让r1写一段极其简单的常用代码,它纠结了10分钟,探索各种边界情况,最后也拿不出一个完美的解法。而claude只用了几秒钟,就给出了一个足以应付大部分日常情况的大路学渣解法。ai编程领域现在有实用价值的只有claude和r1,但claude不是reasoner模型!我们日常写的代码,说白了都是别人写过的东西缝合一下,经验还是很有用的。

8、r1的思维链很初级,经常陷入转圈圈到处碰壁的牛角尖。我觉得是不是可以用另一个ai线程来监控正在生成的思维链(双思维链),实时提醒“你是不是想多了”。另外,有实验表明r1对于数学证明题不是太行。可能是因为rl生成思维链的时候主要看结果,而证明题的结果只有true/false,过程可以纯靠糊弄。这些都是细节问题,估计在r2可以解决。

9、ai进化之路上的每个大突破,回过头看都感觉出乎意料的简单。比如在gpt之前,都觉得agi难如登天,根本无从下手,谁能想到单凭纯文字预测下一个token就能得到智能?预训练得到的模型就是个只会文字接龙的书呆子,谁能想到一个简单的sft就能让书呆子变成聊天万事通?谁能想到单凭rl,就能让聊天机器人变成推理者?如果后面的突破还是这么“简单”,那么agi/asi真的近在眼前了。

10、借用牛顿的名言:我们只是捡到了几块漂亮的贝壳,而真正的ai大海,我们还没有发现呢!前途仿佛一片光明,只是天空中飘着两朵乌云。openai做出o1至少已经半年多了,领先幅度也没有预期的那么大。50系显卡出炉,英伟达和台积电都没有交出令人再次惊艳的产品。到底是这些巨头遥遥领先故意留力,还是真的不给力?以我谨慎乐观的性格看,rl之后绝非一片坦途。

11、传统vc的思路已经跟不上ai时代的格局了。还在说什么壁垒壁垒,你看openai有壁垒吗?最多半年。那么deepseek有壁垒吗?人家开源了。传统商业是占山为王思维,高筑墙广积粮。ai是大航海时代,地球是平的,人人有机会,个个没把握。看不懂就别投,你不投有的是人投。去口口的壁垒,去口口的PMF,deepseek有pmf吗?出圈了就有,没出圈就继续烧量化的钱。

12、所以我们到底赢了没有?赢了,但是赢的还不够多。基本上每个谈论deepseek的人,无论懂不懂行,都是一片欢呼,一片乐观。这叫小赢,不叫大赢。那么大赢是什么呢?等到你们疯狂地冲进deepseek的机房、疯狂地砸烂几十亿的服务器的时候,等到海对面的人也同样疯狂地冲击openai的时候,就像你们从教科书上读到的,工业革命时期的英国工人砸烂蒸汽机那样,大的就来了。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/02/10622.html

分享给朋友:

相关文章

为什么大家不再提 5G 了?

现在看来,只有美国那种5g的思路是对的。 美国的运营商一开始就发现5g和4g并没有质的飞跃,无非就是提升频率/降低穿透力/提升带宽的故事。而美国运营商又是自负盈亏,因此一开始就仅在人口高密度地区或富裕地区布置5g。 虽然说人家4g也菜,但是…

感觉手机配置都差不多,为什么有的手机能卖2k-3k,而有的手机却能卖到6k-8k?

感觉手机配置都差不多,为什么有的手机能卖2k-3k,而有的手机却能卖到6k-8k?

与所有的商品一样,手机的价格,也是由它的成本所决定的。 虽然看起来3000元的手机和6000的手机配置差不多,甚至处理器都可能是同一个,但在很多大家容易忽略的地方,决定了两者价格的不同: 例如手机的外观,塑料的机身,与素皮机身和玻璃机身就完…

拼多多百亿补贴买手机电脑等数码产品靠谱吗?

大家很多人都在问pdd百亿补贴购机靠谱吗? 首先声明一下,我不是pdd的人,我只是一个普普通通混迹从事pc行业的数码玩家,我只是在评论区看到很多人都在无脑推百亿补贴,特地发一条怗子来说明一下这个东西。此怡不存在偏向引导,此站仅站在我个人角度…

华为纯血鸿蒙,从此天下三分了吗?

华为纯血鸿蒙,从此天下三分了吗?

万众期待的纯血版 HarmonyOS NEXT 终于是端上来了,主打一个自研,从里到外,从内核到架构,都是自研。 用户的激情已经被点燃,可见大家对于纯血鸿蒙的期待,但是鸿蒙系统能不能真正与安卓、iOS三分天下呢?目前来说,还为时过早。…

为什么闲鱼越做越差?

理想的闲鱼:卖家视角:4000块钱买的手机,用了半年不想用了,挂一个3000块,和买家一顿交流,最后2500块成交,我得到了回血,买家得到了便宜; 买家视角:想用一台4000块的手机,但是手里只有2500块,来到闲鱼和卖家一顿交流,最后25…

被网络诈骗了,钱还能追得回来吗?

我刷单被骗,当时不知道怎么办在百度上找个律师说他们能追回,还说不用报警,我傻的就信了,支付了费用签合同,我还是不信他们,报警了,报警没几天警官就连系我追回一笔钱让我注意银行卡到账通知,又过几天我第二笔钱到账了,律师说是他们追回的,要我支付后…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。