当前位置:首页 > 每日看点 > 正文内容

如何看待deepseek自我介绍时提到openai模型?

卡卷网7个月前 (01-12)每日看点105

如何你愿意用翻译软件读一下《DeepSeek-V3 Technical Report》的话,就能够在论文的摘要,也就是报告最开始的一段话[1],提取到这两段关键的介绍。

如何看待deepseek自我介绍时提到openai模型?  第1张

第一段:

To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2.

这句话的表明了DeepSeek V3的主要目的是为了实现高效推理(inference)和具有成本效益的训练(cost-effective training),采用了两种关键架构:Multi-head Latent Attention (MLA)DeepSeekMoE,并且这些架构已经在其前一版本 DeepSeek-V2 中经过充分验证。

更通俗点来讲,DeepSeek自己也提到了它的主要目的是“用最少的卡,实现尽可能好的效果”,这是它的出发点。

第二段:

在后面的这句话里提供了结果。

Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training. In addition, its training process is remarkably stable.

DeepSeek-V3性能领先于其他的开源模型,甚至和领先的Close-AI(特指OpenAI的GPT4o)性能相当。与此同时,DeepSeek-V3仅用了2.788M的GPU训练时间就完成了训练,而GPT4o需要25000块的A100显卡,是DeepSeek的10倍左右。

你看,DeepSeek通篇就说了两个点:

1 将大模型训练的成本打下去!

2 性能上达到第一梯度。

都实现了。

而题目中提到的问题,其实根本不算什么大事,因为这种问题根本不算“事实”,事实就是那些现实中已经有定论的,比如铁元素的化学符号是Fe,如果出现这种问题,那可以说明模型训练有问题。

但这种非常主观,且容易受到数据污染的问题,说明不了什么,甚至到不了瑕不掩瑜的程度。

外网DeepSeek的热度已经爆了,跟Qwen并称为国内两大顶流。

更为深度的解读,其实可以看他们的Github的总体介绍。

GitHub - deepseek-ai/DeepSeek-V3

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/8966.html

分享给朋友:

相关文章

你捡过最大的漏是什么?

你捡过最大的漏是什么?

买了套二手房,软磨硬泡便宜了1个w 结果就是一屋子狼藉 原业主说反正你们要重新装修 就不收拾了 等完了你们一起收拾掉吧 落了很多柜子 电器是啥的 今天打开卧室柜子一看…现在是去存钱的路上有朋友知道这样存钱银行会给发大米跟油吗...

为什么扫码支付在中国流行,在发达国家被排斥?

因为这是一种落后的技术。卖菜的大爷花5毛钱就可以打印出一张二维码来接受付款。你觉着这种先进么?跟先进完全不沾边的。正是因为不先进,所以才能流行。卖菜大爷用不起一台先进的、具有NFC感应功能的、还能刷各种银行卡的收款机。这就是现实。发达国家,...

阿里云服务器续费价格好贵,想换一家云服务厂商,该怎么选择?

阿里云服务器续费价格好贵,想换一家云服务厂商,该怎么选择?

最近一台买了3年时间的腾讯云轻量服务器到期了,还有5天时间。当时买的价格是3年198元。配置是2核CPU、4GB内存,80GB SSD云硬盘,1200GB 流量包,然后中途给免费升级了CPU,从2核变成了4核。平均下来一年的费用70元不到,...

国内AI大模型已近80个,哪个最有前途?

国内AI大模型已近80个,哪个最有前途?

题主说错了,不是80个,是168个!虽然“最有前途”不好说,但是我可以帮题主排除一些错误方向:开源大模型一定比闭源的有前途吗?参数量大的模型一定就比小模型有前途吗?榜单排名高的大模型一定更有前途吗?2024年3月更新,243个大模型中有哪几...

你觉得oppo Find X8怎么样?

你觉得oppo Find X8怎么样?

OPPO FindX8发布也差不多一个月了,各位上手体验如何呢?作为OPPO的年度旗舰,性能,外观,屏幕等方面都有不小的提升,篇幅有限,下面挑最值得讲的两个点,就是OPPO Find X8的外观和影像。众所周知,这次OPPO Find X8...

SWITCH销量会破亿吗?

SWITCH销量会破亿吗?

不可能破亿的。能过5000万就了不起了。我觉得是过不了5000万这条线的,要是过了的话,每过100万我在这个回答里更新一个任天堂游戏人物的画像。愿赌服输。5100万突破的马里奥5200万突破的碧琪公主财报更新了,目前5577万。5300万突...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。