当前位置:首页 > 每日看点

单张4090能运行的最强开源大模型是哪个?

卡卷网1年前 (2025-01-17)每日看点280

24GB 显存, 目前能运行最强模型是 Qwen2.5-32B-Instruct-GPTQ-Int4, vllm 输入长度大概 8400, 速度 37 tokens/s (显卡 3090)

如果想更长输入,可以加 --cpu-offload-gb 2 参数卸载 2GB 到 RAM 中, 我是 i5-13490f + DDR4 4200HZ 速度降到 6 tokens/s

两个方案,

  1. windows 使用 wsl2 ,pip install vllm 一行代码启动 openai 风格 api

python -m vllm.entrypoints.openai.api_server --model /data/models/Qwen2.5-32B-Instruct-GPTQ-Int4 --dtype float16 --api-key '' --tensor-parallel-size 1 --trust-remote-code --gpu-memory-utilization 1 --port 8000 --max_model_len 8400 --enforce-eager

2. ollama 同时支持 windows 和 linux,使用 gguf 量化模型:

Qwen2.5-32b-instruct-q3_k_m, 初始化大约占用 15GB, 剩下显存足够输入 20000 文本长度

有老外评测了模型在计算机科学领域回答效果:

单张4090能运行的最强开源大模型是哪个?  第1张

比 Gemma2-27b-it-q8 强 25.6%, 量化后损失极小。


参数大是王道,

Qwen2.5-32b-instruct-q3_k_m 是 int3 量化,

效果远比 Qwen2.5-14b-instruct float16 强大

老外评论挺有意思的:

单张4090能运行的最强开源大模型是哪个?  第2张


单张4090能运行的最强开源大模型是哪个?  第3张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/01/9698.html

分享给朋友:

相关文章

k70和红米note14pro+咋选啊?

k70和红米note14pro+咋选啊?

首选红米K70,可满足题主的功能需求。 红米 Note 14 pro+的使用者定位并不是学生,红米K70的使用者定位才是学生。 一、k70和红米note14pro+各自的参数 红米K70推出的定位初衷,是主打性能为主。最佳使用对象是喜欢…

4499 元起的荣耀Magic7 系列实际使用体验怎么样,值得入手吗?

全是软文。。。。。。不过我买了,标准版。为什么买荣耀:屏幕看着舒服,玩游戏选择大屏,超声波指纹解锁。其它,系统、续航、充电、拍照,不是最强,但均衡下来短板都不是很短。其它米OV,IQ、一加,都看了,预算有限,米OV的小屏不感兴趣,OPPO硬…

被网络诈骗了,钱还能追得回来吗?

我刷单被骗,当时不知道怎么办在百度上找个律师说他们能追回,还说不用报警,我傻的就信了,支付了费用签合同,我还是不信他们,报警了,报警没几天警官就连系我追回一笔钱让我注意银行卡到账通知,又过几天我第二笔钱到账了,律师说是他们追回的,要我支付后…

微信占用存储空间很大,如何解决?

微信占用存储空间很大,如何解决?

微信用久了,越来越占内存怎么办?确实如此,微信使用时间久了,如果不定期清理数据的话,就会占用特别多的内存,几G甚至几十G。你是不是也正在为这种事情而头痛?碰到这种情况,除了卸载重装微信以外,我们可以通过下面几种方法来释放内存。 方法一:…

面试官问“你的SQL能力怎么样?”时应该如何回答?

面试官问“你的SQL能力怎么样?”时应该如何回答?

如果面试时被问你SQL能力怎么样?要么是考查一下题目,怎么写SQL语句。要么是问SQL优化相关的,更容易问出一个人的水平。 sql优化是一个大家都比较关注的热门话题,无论你在面试,还是工作中,都很有可能会遇到。 如果某天你负责的某个线上接口…

怎样使自己处于高能量状态?

1、 不要习惯性的回顾过去那些让你尴尬和犯了错误的事情,不要嫌弃自己蠢。 学会原谅自己,当你不断回忆那些错误和囧事的时候,告诉自己:自己确实做错了,下次不要再犯即可,不需一遍遍的回忆。 这件事情已经发生,不要再一遍遍的折磨自己,不断回忆一点…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。