单张4090能运行的最强开源大模型是哪个?
作者:卡卷网发布时间:2025-01-17 00:35浏览数量:82次评论数量:0次
24GB 显存, 目前能运行最强模型是 Qwen2.5-32B-Instruct-GPTQ-Int4, vllm 输入长度大概 8400, 速度 37 tokens/s (显卡 3090)
如果想更长输入,可以加 --cpu-offload-gb 2 参数卸载 2GB 到 RAM 中, 我是 i5-13490f + DDR4 4200HZ 速度降到 6 tokens/s
两个方案,
- windows 使用 wsl2 ,pip install vllm 一行代码启动 openai 风格 api
python -m vllm.entrypoints.openai.api_server --model /data/models/Qwen2.5-32B-Instruct-GPTQ-Int4 --dtype float16 --api-key '' --tensor-parallel-size 1 --trust-remote-code --gpu-memory-utilization 1 --port 8000 --max_model_len 8400 --enforce-eager
2. ollama 同时支持 windows 和 linux,使用 gguf 量化模型:
Qwen2.5-32b-instruct-q3_k_m, 初始化大约占用 15GB, 剩下显存足够输入 20000 文本长度
有老外评测了模型在计算机科学领域回答效果:
比 Gemma2-27b-it-q8 强 25.6%, 量化后损失极小。
参数大是王道,
Qwen2.5-32b-instruct-q3_k_m 是 int3 量化,
效果远比 Qwen2.5-14b-instruct float16 强大
老外评论挺有意思的:
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
- 上一篇:DIY Nas用什么系统好?
- 下一篇:Rust 语言未来会怎么样?
相关推荐

你 发表评论:
欢迎