当前位置：卡卷网 / 每日看点 / 正文

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？

作者：卡卷网发布时间：2025-03-10 21:09浏览数量：225次评论数量：0次

大模型相关技术发展太快了，我在2025-2-16的时候写过一篇文章，对比的是DeepSeek-R1满血版和我们自己部署的DeepSeek-R1-distill-Qwen-32B 4bit量化版。当时我考了它们4道题目，百分制下满血版DeepSeek-R1得分99分，DeepSeek-R1-distill-Qwen-32B 4bit量化版得分35分，差距还是比较大的。具体情况见文章链接，

遥远地方剑星：DeepSeek R1 满血版和 4-bit 32B 量化版的简单对比

没想到短短不到一个月之后，阿里就发布了QwQ-32B，这是一个经过强化训练（RL）、具备推理能力的千问32B大模型。阿里自己认为这个大模型的能力在几个测试集上（AIME24、LiveCodeBench、liveBench、IFEval、BFCL）的表现都不逊于或超过满血版DeepSeek-R1，我一开始也是比较惊讶的。

当然，阿里发布的这款QwQ-32B是16bit参数的，而我之前对比的是我们自己部署的DeepSeek 蒸馏 4bit量化版本，所以毫无疑问阿里这款QwQ-32B能力应该是比我当时对比的4bit量化版的能力要强的。但是这个QwQ-32B能否比肩满血版DeepSeek-R1呢？毕竟满血版的R1是671B的参数规模。下面我还是用我之前文章中的4道题目对QwQ-32B做一次面试，仍然是在允许深度思考但关闭联网搜索的基础上进行面试，情况如下：

测试题目1：《红楼梦》第五回中警幻仙姑请贾宝玉欣赏的红楼十二支曲子的名字都叫什么？

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第1张

《红楼梦》第五回中，警幻仙姑为贾宝玉展现的《红楼梦》十二支曲子（即“金陵十二钗正册”判词对应的曲名）共有十二首，其名称及对应人物如下：
---
### **1. 《终身误》**
- **对应人物**：贾宝玉、林黛玉、薛宝钗
- 内容：揭示宝玉与宝钗、黛玉之间的婚姻悲剧与命运错位。
---
### **2. 《枉凝眉》**
- **对应人物**：贾宝玉、林黛玉
- 内容：以宝黛爱情为线索，暗示两人因“木石前盟”而终成虚幻。
---
### **3. 《恨无常》**
- **对应人物**：史湘云
- 内容：以史湘云的“寿夭”命运为象征，隐喻美好事物的短暂与无常。
---
### **4. 《分骨肉》**
- **对应人物**：贾探春
- 内容：预示探春远嫁异乡，骨肉分离的悲剧。
---
### **5. 《乐中悲》**
- **对应人物**：贾元春
- 内容：暗喻元春入宫为妃的荣耀与最终的凄凉结局。
---
### **6. 《世难容》**
- **对应人物**：妙玉
- 内容：反映妙玉孤高自许却难逃世俗污染的悲剧。
---
### **7. 《喜冤家》**
- **对应人物**：贾迎春
- 内容：暗示迎春嫁入孙家后被虐待致死的悲惨命运。
---
### **8. 《虚花误》**
- **对应人物**：贾惜春
- 内容：预示惜春看破红尘，遁入空门的结局。
---
### **9. 《聪明累》**
- **对应人物**：王熙凤
- 内容：讽刺王熙凤机关算尽却反误自身的命运。
---
### **10. 《留余庆》**
- **对应人物**：巧姐（贾琏之女）
- 内容：暗示巧姐虽出身显赫，却因家族败落被刘姥姥救赎。
---
### **11. 《晚韶华》**
- **对应人物**：李纨
- 内容：描绘李纨青春守寡、晚年“封诰”却晚景凄凉的矛盾。
---
### **12. 《好事终》**
- **对应人物**：秦可卿
- 内容：以秦可卿的早逝为象征，暗示宁国府“树倒猢狲散”的结局。
---
### **补充说明**
- **命名特点**：十二支曲名均以“悲、恨、误、冤、虚、累”等字眼收尾，暗示人物命运的悲剧性。
- **结构顺序**：曲目顺序并非完全按人物地位排列，而是通过诗意的关联串联全书主题，如《终身误》与《枉凝眉》以宝黛爱情开篇，最终以《好事终》收尾，象征“白茫茫大地真干净”的结局。
这些曲子与太虚幻境中的判词共同构成《红楼梦》的预言体系，是解读全书命运线索的重要依据。

这个回答把《恨无常》与《乐中悲》对应的人物搞反了，而且《虚花悟》错写为《虚花误》。另外，其实红楼十二支曲子共有十四首，还有前面的引子和后面的收尾，这篇回答也未提及。所以，总体上给20分吧。

测试题目2：用尺规作图（无刻度的直尺+圆规）可以做出哪些奇数条边的正多边形？

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第2张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第3张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第4张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第5张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第6张

这道题目QwQ-32B的回答与满血版DS-R1的回答相当，都可以给24分，扣掉1分是由于没有明确给出共有31中可能的奇数边正多边形。

测试题目3：请帮忙给出下面这道题的解答：一个工厂生产两种产品 A 和 B，生产一件产品 A 需要消耗原材料甲 3 千克、原材料乙 2 千克，耗时 4 小时，可获利 80 元；生产一件产品 B 需要消耗原材料甲 2 千克、原材料乙 4 千克，耗时 3 小时，可获利 100 元。现在工厂有原材料甲 100 千克，原材料乙 120 千克，总生产时间为 150 小时。问：如何安排生产产品 A 和产品 B 的数量，才能使工厂获得最大利润，最大利润是多少？

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第7张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第8张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第9张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第10张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第11张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第12张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第13张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第14张

这道题目QwQ-32B给出的回答相当精彩，完全不输满血版R1。它思考的过程也很长，和满血版R1的思考过程也相当。所以，这道题目给它满分，25分。

测试题目4：请告诉我你觉得张若虚的《春江花月夜》和李白的《蜀道难》这两首诗哪一首更好一些？

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第15张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第16张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第17张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第18张

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第19张

对于这道题目的回答，我觉得QwQ-32B水平应该说基本能够比肩满血版DS-R1，从最后的总结来看，文学色彩稍逊一点点，差距不是很大，我给它23分（当然，这个评分是有一些主观性的）。DS-R1满血版的回复可参见我前面文章的链接。

分析总结：

阿里开源 320 亿参数模型吊打 DeepSeek-R1，网友：参数少性能强是真突破还是营销噱头？第20张

三款模型对比表

从这次面试情况来看，QwQ-32B（16bit）的总得分为92分，远高于“DeepSeek-R1-distill-Qwen-32B 4bit量化版”的35分，略逊于满血版 DeepSeek-R1 671B的99分。所以，我的结论是：

QwQ-32B水平与DeepSeek-R1 671B总体上相当，远高于我们当初部署的“DeepSeek-R1-distill-Qwen-32B 4bit量化版”。但毕竟由于参数规模小，与DeepSeek-R1 671B相比，在记忆力方面（第一题）有所差距，在文学水平方面（第四题）略逊，但是在推理能力方面看不出有什么差别。

一个32B规模的模型能够与一个公认高水平的671B的大模型能力相当，是非常不容易的，但是肯定不能说QwQ-32B吊打DeepSeek-R1 671B，这是不现实的。

按道理说，一个32B规模的模型是很难超越一个高水平的671B模型的。我觉得QwQ-32B之所以能够做到与DeepSeek-R1 671B相当的程度，其中一个重要原因是“DeepSeek-R1 671B”采用的是MOE架构，它的参数矩阵总体上比较稀疏，虽然总共有671B的参数，但是每次计算时涉及到的参数大概在37B左右。QwQ-32B显然是一个训练得比较精干的模型，能够充分发挥这32B参数的作用。我想，QwQ-32B每次计算应该都会用到这32B的参数，与DeepSeek-R1 671B每次计算用到的37B参数规模相当，因此才有可能做到模型总体能力与DeepSeek-R1 671B相当。当然，做到这一点肯定是很不容易的。

QwQ-32B达到这样一个水平，说明目前大模型参数规模还有“挤水分”的空间，同时也给以后独立部署能力较强的大模型带来了可能性。设想随着GPU、NPU能力的提升，以及同等能力的大模型参数规模的下降，也许日后我们的手机、pad、电脑等个人设备都可以独立运行能力较强的大模型了，甚至未来的人形机器人也可能把大模型作为自己的大脑独立部署了。到那一天，机器人就不再是“机器”了，而更像是个“人”了。

END

免责声明：本文由卡卷网编辑并发布，但不代表本站的观点和立场，只提供分享给大家。

评论打赏