当前位置:首页 > 每日看点 > 正文内容

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?

卡卷网5个月前 (03-10)每日看点242

步骤:

0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。


2、提示词,出新题


3、代码


4、得到QWQ32b、Deepseek-R1各400、800道题


5、AI重新答题。

QWQ正确率平均96%,做QWQ自己出的题目99%,做Deepseek出的题目正确率95%

Deepseek正确率平均96%,做QWQ出的题目96%,做Deepseek出的题目正确率96%


6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况。



0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第1张

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。

2、提示词:请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以josn格式返回LaTeX格式,不要其他多余的话。

{

"题目": "",

"选项": {

"A": "",

"B": "",

"C": "",

"D": ""

},

"正确的选项": ""

}


3、代码

import time import pandas as pd from openai import OpenAI # 初始化API配置 api_key = "sk-" api_base = "https://maas-api.cn-huabei-1.xf-yun.com/v1" client = OpenAI(api_key=api_key, base_url=api_base) # 初始化Excel文件 excel_file = "output.xlsx" sheet_name = "Sheet1" # 如果文件不存在,创建一个新的Excel文件并写入表头 try: df = pd.read_excel(excel_file, sheet_name=sheet_name) except FileNotFoundError: df = pd.DataFrame(columns=["raw_content", "reasoning_content"]) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 运行200次 for i in range(200): try: # 调用API生成内容 response = client.chat.completions.create( model="xopqwenqwq32b", # messages=[{"role": "user", "content": "1+3等于多少?"}], messages=[{ "role": "user", "content": """请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以json格式返回LaTeX格式,不要其他多余的话。 { "题目": "", "选项": { "A": "", "B": "", "C": "", "D": "" }, "正确的选项": "" }""" }], stream=False, temperature=0.6, max_tokens=14096, extra_headers={"lora_id": "0"}, stream_options={"include_usage": True} ) print("已经提问") # 获取内容 raw_content = response.choices[0].message.content reasoning_content = response.choices[0].message.reasoning_content # 打印内容 print(f"第 {i+1} 次运行结果:") print("Raw Content:") print(raw_content) print('-' * 40) # 将内容保存到Excel new_row = pd.DataFrame([{"raw_content": raw_content, "reasoning_content": reasoning_content}]) df = pd.concat([df, new_row], ignore_index=True) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 休眠一下,避免频繁调用API time.sleep(0.5) except Exception as e: print(f"第 {i+1} 次运行出错: {e}")

4、得到QWQ32b、Deepseek-R1各400、800道题(更多题目还在出题中)

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第2张

5、再整理这些题目,答案。将题目、提示词上传AI,让AI重新答题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第3张

QWQ正确率

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第4张

Deepseek-R1正确率

6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况:

1、提示词让AI出新题,但是依旧是旧题。

2、AI出的题,达不到高考或者考研数学水平。

3、AI出的题,AI有独特的解题捷径。

4、AI出的题,答案有错误。


8、完整数据

【金山文档 | WPS云文档】 题目合并2025.3.10-1qwq解题完成-分析版

kdocs.cn/l/csjoRovTolHw

【金山文档 | WPS云文档】 题目合并2025.3.9-1 - ds答题-分享版

kdocs.cn/l/cbKIMJ688mJW

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第5张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11841.html

分享给朋友:

相关文章

自媒体如何快速起步?

自媒体如何快速起步?

有两种经验,可供参考。第一种是:现象级的爆火、爆款,这种情况捞到钱,实现财务自由的人并不多,但确实存在。只不过非要说清楚为什么这个账号可以火、可以短时间内赚到普通人一辈子赚不到的钱,他们自己也不一定能说清楚,因为赶上了风口(内外部情况)。举...

为什么雷军身上没有酒色财气?

武大建校130周年时,雷军向母校个人捐款13亿。在2023年8月14日晚上七点,雷总在国家会议中心举行的进行第四次年度演讲「成长」:全篇都在谈成长、梦想,这么多年了,始终做到了知行合一,我相信酒色财气可能真不是他所追求的,一直追求的就像他演...

抖音小店三个月了一单没出,也没有流量,一个星期好像都没有一个点击,怎么办?

抖音小店三个月了一单没出,也没有流量,一个星期好像都没有一个点击,怎么办?

好消息,你有毅力上200多个品,还能坚持三个月坏消息,一单没出我感觉你还是别碰抖店了,甚至电商平台都别碰 你没这个缘分我要是这样,我得用一百辆叉车叉死我自己你如果还想坚持,我直接给你这套至少价值19800学来的新思路简单来说就是 你做的好的...

有哪些好玩到爆的小网站?推荐?

有哪些好玩到爆的小网站?推荐?

1、Poki 免费在线游戏https://poki.com/zh免费在线小游戏网站。上千款在线游戏,完全免费,无需登录,打开就能玩。2、http://YORG.iohttps://yorg.io超耐玩的塔防游戏。搭建自己的防御基地、开采资源...

是什么原因让你一定要用 iPhone?

是什么原因让你一定要用 iPhone?

1、不用清理内存,iPhone真的可以开机用上一年,你根本不用关注期间打开过什么软件。2、支持的频段足够多,天天在国内走动倒是无所谓,很多Android手机一旦出去了,就会发现很多运营商接入都是问题,更不用说各种本土化的服务了。3、屏幕素质...

SWITCH销量会破亿吗?

SWITCH销量会破亿吗?

不可能破亿的。能过5000万就了不起了。我觉得是过不了5000万这条线的,要是过了的话,每过100万我在这个回答里更新一个任天堂游戏人物的画像。愿赌服输。5100万突破的马里奥5200万突破的碧琪公主财报更新了,目前5577万。5300万突...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。