当前位置:首页 > 每日看点 > 正文内容

如何看待deepseek自我介绍时提到openai模型?

卡卷网1年前 (2025-01-12)每日看点204

如何你愿意用翻译软件读一下《DeepSeek-V3 Technical Report》的话,就能够在论文的摘要,也就是报告最开始的一段话[1],提取到这两段关键的介绍。

如何看待deepseek自我介绍时提到openai模型?  第1张

第一段:

To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2.

这句话的表明了DeepSeek V3的主要目的是为了实现高效推理(inference)和具有成本效益的训练(cost-effective training),采用了两种关键架构:Multi-head Latent Attention (MLA)DeepSeekMoE,并且这些架构已经在其前一版本 DeepSeek-V2 中经过充分验证。

更通俗点来讲,DeepSeek自己也提到了它的主要目的是“用最少的卡,实现尽可能好的效果”,这是它的出发点。

第二段:

在后面的这句话里提供了结果。

Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training. In addition, its training process is remarkably stable.

DeepSeek-V3性能领先于其他的开源模型,甚至和领先的Close-AI(特指OpenAI的GPT4o)性能相当。与此同时,DeepSeek-V3仅用了2.788M的GPU训练时间就完成了训练,而GPT4o需要25000块的A100显卡,是DeepSeek的10倍左右。

你看,DeepSeek通篇就说了两个点:

1 将大模型训练的成本打下去!

2 性能上达到第一梯度。

都实现了。

而题目中提到的问题,其实根本不算什么大事,因为这种问题根本不算“事实”,事实就是那些现实中已经有定论的,比如铁元素的化学符号是Fe,如果出现这种问题,那可以说明模型训练有问题。

但这种非常主观,且容易受到数据污染的问题,说明不了什么,甚至到不了瑕不掩瑜的程度。

外网DeepSeek的热度已经爆了,跟Qwen并称为国内两大顶流。

更为深度的解读,其实可以看他们的Github的总体介绍。

GitHub - deepseek-ai/DeepSeek-V3

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/8966.html

分享给朋友:

相关文章

创业:集思广益并完善您的商业理念

用史蒂夫乔布斯的话来说,“做伟大工作的唯一方法就是热爱你所做的事情。开始自己的事业是迈向自己喜欢的工作的一步。但是,从形成想法到创建商业网站,在您深入研究之前,需要考虑几个基本步骤和问题:您要解决什么问题?您的目标受众是谁?您的产品或服务与...

创业容易吗?

创业容易吗?创建企业不一定是困难或令人生畏的。它可以从一个简单但有力的想法开始,比如小强意识到,如果洗手液能杀死真菌,尤其是拳击台上的真菌,就会更加有用。创业确实需要奉献精神、努力工作和仔细规划——这是没有办法的。虽然这本身可能并不容易,但...

k70和红米note14pro+咋选啊?

k70和红米note14pro+咋选啊?

首选红米K70,可满足题主的功能需求。红米 Note 14 pro+的使用者定位并不是学生,红米K70的使用者定位才是学生。一、k70和红米note14pro+各自的参数红米K70推出的定位初衷,是主打性能为主。最佳使用对象是喜欢游戏者,...

NAS那么好,为什么还是没能成为大多数家庭必备的存储设备?

NAS那么好,为什么还是没能成为大多数家庭必备的存储设备?

最主要原因是因为——贵!看看我家里搭建的这一套吧。目前我家中有5台常用的NAS,分别为群晖DS1522+、威联通TS-464C2、绿联DX4600 Pro 、极空间Z4S、威联通TS-AI642。个人认为,这其中的每台NAS都是时代的翘楚,...

如何看待台积电,三星相继停供大陆7nm及更先进芯片?

在这个事出来之前,我就看到过一个说法,两家Foundry可以在中东建厂,让中东的Fab去干“脏活”。本质上是国内企业搞几个中东的代理人,装作是中东的初创Fabless企业去下单,人家Foundry大概率睁一只眼闭一只眼,只管数钱。然而,紧接...

鸿蒙到底是不是安卓套壳?

鸿蒙到底是不是安卓套壳?

把它是不是套壳先放在一边吧。我讲一个事情,大家自己判断。华为有一个应用,叫手机管家。这个手机管家对一些系统底层设置有影响:比如华为从 EMUI 9 开始不允许将第三方启动器设置为默认启动器,依靠的就是这个手机管家。为什么这么说呢?在网上搜索...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。