当前位置:首页 > 每日看点 > 正文内容

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?

卡卷网7个月前 (03-10)每日看点266

步骤:

0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。


2、提示词,出新题


3、代码


4、得到QWQ32b、Deepseek-R1各400、800道题


5、AI重新答题。

QWQ正确率平均96%,做QWQ自己出的题目99%,做Deepseek出的题目正确率95%

Deepseek正确率平均96%,做QWQ出的题目96%,做Deepseek出的题目正确率96%


6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况。



0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第1张

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。

2、提示词:请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以josn格式返回LaTeX格式,不要其他多余的话。

{

"题目": "",

"选项": {

"A": "",

"B": "",

"C": "",

"D": ""

},

"正确的选项": ""

}


3、代码

import time import pandas as pd from openai import OpenAI # 初始化API配置 api_key = "sk-" api_base = "https://maas-api.cn-huabei-1.xf-yun.com/v1" client = OpenAI(api_key=api_key, base_url=api_base) # 初始化Excel文件 excel_file = "output.xlsx" sheet_name = "Sheet1" # 如果文件不存在,创建一个新的Excel文件并写入表头 try: df = pd.read_excel(excel_file, sheet_name=sheet_name) except FileNotFoundError: df = pd.DataFrame(columns=["raw_content", "reasoning_content"]) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 运行200次 for i in range(200): try: # 调用API生成内容 response = client.chat.completions.create( model="xopqwenqwq32b", # messages=[{"role": "user", "content": "1+3等于多少?"}], messages=[{ "role": "user", "content": """请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以json格式返回LaTeX格式,不要其他多余的话。 { "题目": "", "选项": { "A": "", "B": "", "C": "", "D": "" }, "正确的选项": "" }""" }], stream=False, temperature=0.6, max_tokens=14096, extra_headers={"lora_id": "0"}, stream_options={"include_usage": True} ) print("已经提问") # 获取内容 raw_content = response.choices[0].message.content reasoning_content = response.choices[0].message.reasoning_content # 打印内容 print(f"第 {i+1} 次运行结果:") print("Raw Content:") print(raw_content) print('-' * 40) # 将内容保存到Excel new_row = pd.DataFrame([{"raw_content": raw_content, "reasoning_content": reasoning_content}]) df = pd.concat([df, new_row], ignore_index=True) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 休眠一下,避免频繁调用API time.sleep(0.5) except Exception as e: print(f"第 {i+1} 次运行出错: {e}")

4、得到QWQ32b、Deepseek-R1各400、800道题(更多题目还在出题中)

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第2张

5、再整理这些题目,答案。将题目、提示词上传AI,让AI重新答题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第3张

QWQ正确率

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第4张

Deepseek-R1正确率

6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况:

1、提示词让AI出新题,但是依旧是旧题。

2、AI出的题,达不到高考或者考研数学水平。

3、AI出的题,AI有独特的解题捷径。

4、AI出的题,答案有错误。


8、完整数据

【金山文档 | WPS云文档】 题目合并2025.3.10-1qwq解题完成-分析版

kdocs.cn/l/csjoRovTolHw

【金山文档 | WPS云文档】 题目合并2025.3.9-1 - ds答题-分享版

kdocs.cn/l/cbKIMJ688mJW

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第5张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11841.html

分享给朋友:

相关文章

抖音和快手最大的区别是什么?

1、目标人群定位不同抖音:一二线城市,占比52%,大专学历以上,女性偏多。抖音以年轻群体居多。快手:三四线城市,占比64%,高中学历以下,男女更均衡。快手所覆盖的年龄段范围更广。2、内容创作的形式和深度不同抖音:偏深层,内容的装饰及表达更高...

自媒体如何快速起步?

自媒体如何快速起步?

有两种经验,可供参考。第一种是:现象级的爆火、爆款,这种情况捞到钱,实现财务自由的人并不多,但确实存在。只不过非要说清楚为什么这个账号可以火、可以短时间内赚到普通人一辈子赚不到的钱,他们自己也不一定能说清楚,因为赶上了风口(内外部情况)。举...

马云也搞不明白:为什么现在用户偏爱微信支付,而不是支付宝?

这题我会,我教马云一招。你直接把你那破比支付宝的代码全删了,重新写一个。打开支付宝直接就是一个大大的支付码,然后右上角按一下就是扫一扫。你要是还想保留你的其他那些乱七八糟的功能,麻烦将他们全部做到下拉菜单里。你这么设计我不说你能干死微信,但...

无人机真的是中国领先吗?

无人机真的是中国领先吗?

巧了这是。捡到了一台大疆。应该是别人飞丢的。在草丛中泡过水,轴承锈死,电池鼓涨已,经没有维修价值了。但作为玩电子的,免不了要把它解剖,研究一番。那么,我们看看它的国产化率能有多少吧。图片说话:解释一下吧。图一,高通 美国图二,MPS: 美国...

台积电通知其中国客户,从下周开始,所有 7nm 及以下芯片出货将停止。如何看待这一行为?

台积电通知其中国客户,从下周开始,所有 7nm 及以下芯片出货将停止。如何看待这一行为?

我说美国快要没招了,你信么?这次台积电宣布停止向中国大陆客户供应7纳米及更先进AI芯片,再加上前段时间台积电对华为的制裁,我们基本可以认为,台积电在高端芯片领域,已经彻底把大陆给拉黑了,这也意味着中美芯片战已经到了最关键的时刻,一旦我们克服...

夸克浏览器受欢迎的原因是什么?

夸克浏览器受欢迎的原因是什么?

这是可以说的嘛~哈哈,它比较吸引我的几点是:安全无广、页面简洁、功能丰富、反应速度快......首页页面支持自定义,喜欢什么样子都可以自己调整,没有花里胡哨的各种资讯推送,热搜日报整理归纳好,想看再点开查看,看着舒适度直接拉满!实用日常工具...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。