当前位置:首页 > 每日看点 > 正文内容

如何看待deepseek自我介绍时提到openai模型?

卡卷网10个月前 (01-12)每日看点138

如何你愿意用翻译软件读一下《DeepSeek-V3 Technical Report》的话,就能够在论文的摘要,也就是报告最开始的一段话[1],提取到这两段关键的介绍。

如何看待deepseek自我介绍时提到openai模型?  第1张

第一段:

To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2.

这句话的表明了DeepSeek V3的主要目的是为了实现高效推理(inference)和具有成本效益的训练(cost-effective training),采用了两种关键架构:Multi-head Latent Attention (MLA)DeepSeekMoE,并且这些架构已经在其前一版本 DeepSeek-V2 中经过充分验证。

更通俗点来讲,DeepSeek自己也提到了它的主要目的是“用最少的卡,实现尽可能好的效果”,这是它的出发点。

第二段:

在后面的这句话里提供了结果。

Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training. In addition, its training process is remarkably stable.

DeepSeek-V3性能领先于其他的开源模型,甚至和领先的Close-AI(特指OpenAI的GPT4o)性能相当。与此同时,DeepSeek-V3仅用了2.788M的GPU训练时间就完成了训练,而GPT4o需要25000块的A100显卡,是DeepSeek的10倍左右。

你看,DeepSeek通篇就说了两个点:

1 将大模型训练的成本打下去!

2 性能上达到第一梯度。

都实现了。

而题目中提到的问题,其实根本不算什么大事,因为这种问题根本不算“事实”,事实就是那些现实中已经有定论的,比如铁元素的化学符号是Fe,如果出现这种问题,那可以说明模型训练有问题。

但这种非常主观,且容易受到数据污染的问题,说明不了什么,甚至到不了瑕不掩瑜的程度。

外网DeepSeek的热度已经爆了,跟Qwen并称为国内两大顶流。

更为深度的解读,其实可以看他们的Github的总体介绍。

GitHub - deepseek-ai/DeepSeek-V3

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/8966.html

分享给朋友:

相关文章

每天5点就下班了,闲着也是闲着,有哪些副业可以推荐?

每天5点就下班了,闲着也是闲着,有哪些副业可以推荐?

今天整理了36个搞钱APP可以先接触学习看看,然后选定一个感兴趣的方向去精进要知道机会不是一下子来临的,而一定是你前期做了很多准备每天进步一点点,就像滚雪球一样希望所以女生,能够在2024年提升自己,立下一个新的搞钱Flag吧实用APP安利...

学了两个月网络安全,一直未入门怎么办,知乎大佬们给些建议吧?

学了两个月网络安全,一直未入门怎么办,知乎大佬们给些建议吧?

你才学两个月,就想入门,笑不活了,我学了8年了,还被人说是个菜鸟。我学了这么多的渗透,依然挖不到自己的漏洞。ailx10:学习CSRF漏洞ailx10:学习PHP XXE漏洞ailx10:学习CORS漏洞ailx10:学习ClickJack...

为什么苹果贵没人喷,华为贵一群人喷?

苹果:6:¥5288,6s:¥5288,7:¥5288,8:¥5288,XR:¥6299,11:¥5499,12:¥5999,13:¥5999,14:¥5999,15:¥5999,16:¥5999华为:P8:¥2888,P9:¥2988,P...

有哪些正规的兼职平台?

1.阿里巴巴云客服:工作优点是时间自由,可自主选择班次,不需要去公司坐班,多做多得2.蚂蚁云客服:同样是阿里巴巴旗下的兼职平台,工作优点是时间自由,可自主选择班次,不需要去公司坐班,多做多得。3.菜鸟优加云客服:工作优点是时间自由,可自主选...

拼多多,怎么就成为了年轻人的「赛博菜市场」?

拼多多,怎么就成为了年轻人的「赛博菜市场」?

可惜你不在拼多多买水果蔬菜,很难一句话跟你解释,我只能笨拙的用经历来慢慢讲。我们公司有微波炉,同事们几乎都是自己带饭来上班,便当荤素搭配、水果零食;都是好看又好吃。我自己本来就不喜欢外卖,当然也加入了带饭大军: 直到某一天深夜我闲着无聊刷了...

为什么说不懂电脑的不要碰AMD?

作为一个资深垃圾佬,说缺点前,先说优点吧AMD CPU(后续简称AU)的优点:处理器对比Intel,三级缓存更大,最明显的感知就是,网游帧数更高(5900X,7900X之类高端型号都是双CCX共享大缓存,反而不如次一点的CPU帧数更高);相...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。