当前位置:首页 > 每日看点 > 正文内容

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?

卡卷网1年前 (2025-03-10)每日看点367

步骤:

0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。


2、提示词,出新题


3、代码


4、得到QWQ32b、Deepseek-R1各400、800道题


5、AI重新答题。

QWQ正确率平均96%,做QWQ自己出的题目99%,做Deepseek出的题目正确率95%

Deepseek正确率平均96%,做QWQ出的题目96%,做Deepseek出的题目正确率96%


6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况。



0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第1张

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。

2、提示词:请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以josn格式返回LaTeX格式,不要其他多余的话。

{

"题目": "",

"选项": {

"A": "",

"B": "",

"C": "",

"D": ""

},

"正确的选项": ""

}


3、代码

import time import pandas as pd from openai import OpenAI # 初始化API配置 api_key = "sk-" api_base = "https://maas-api.cn-huabei-1.xf-yun.com/v1" client = OpenAI(api_key=api_key, base_url=api_base) # 初始化Excel文件 excel_file = "output.xlsx" sheet_name = "Sheet1" # 如果文件不存在,创建一个新的Excel文件并写入表头 try: df = pd.read_excel(excel_file, sheet_name=sheet_name) except FileNotFoundError: df = pd.DataFrame(columns=["raw_content", "reasoning_content"]) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 运行200次 for i in range(200): try: # 调用API生成内容 response = client.chat.completions.create( model="xopqwenqwq32b", # messages=[{"role": "user", "content": "1+3等于多少?"}], messages=[{ "role": "user", "content": """请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以json格式返回LaTeX格式,不要其他多余的话。 { "题目": "", "选项": { "A": "", "B": "", "C": "", "D": "" }, "正确的选项": "" }""" }], stream=False, temperature=0.6, max_tokens=14096, extra_headers={"lora_id": "0"}, stream_options={"include_usage": True} ) print("已经提问") # 获取内容 raw_content = response.choices[0].message.content reasoning_content = response.choices[0].message.reasoning_content # 打印内容 print(f"第 {i+1} 次运行结果:") print("Raw Content:") print(raw_content) print('-' * 40) # 将内容保存到Excel new_row = pd.DataFrame([{"raw_content": raw_content, "reasoning_content": reasoning_content}]) df = pd.concat([df, new_row], ignore_index=True) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 休眠一下,避免频繁调用API time.sleep(0.5) except Exception as e: print(f"第 {i+1} 次运行出错: {e}")

4、得到QWQ32b、Deepseek-R1各400、800道题(更多题目还在出题中)

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第2张

5、再整理这些题目,答案。将题目、提示词上传AI,让AI重新答题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第3张

QWQ正确率

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第4张

Deepseek-R1正确率

6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况:

1、提示词让AI出新题,但是依旧是旧题。

2、AI出的题,达不到高考或者考研数学水平。

3、AI出的题,AI有独特的解题捷径。

4、AI出的题,答案有错误。


8、完整数据

【金山文档 | WPS云文档】 题目合并2025.3.10-1qwq解题完成-分析版

kdocs.cn/l/csjoRovTolHw

【金山文档 | WPS云文档】 题目合并2025.3.9-1 - ds答题-分享版

kdocs.cn/l/cbKIMJ688mJW

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第5张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11841.html

分享给朋友:

相关文章

OZON平台什么产品好卖?

ozon选品的核心重点我不说 你们全网也不见说的这么干的教学了你信我就按照我说的思路去走 不信的出去买课去 一时间消化不了的先点赞收藏起来 真不中了下载也行 因为最近总有坏人给我使诈 平台已经下了我八个视频了 还都是实操教学不废话的那种 气...

感觉手机配置都差不多,为什么有的手机能卖2k-3k,而有的手机却能卖到6k-8k?

感觉手机配置都差不多,为什么有的手机能卖2k-3k,而有的手机却能卖到6k-8k?

与所有的商品一样,手机的价格,也是由它的成本所决定的。虽然看起来3000元的手机和6000的手机配置差不多,甚至处理器都可能是同一个,但在很多大家容易忽略的地方,决定了两者价格的不同:例如手机的外观,塑料的机身,与素皮机身和玻璃机身就完全不...

拼多多,怎么就成为了年轻人的「赛博菜市场」?

拼多多,怎么就成为了年轻人的「赛博菜市场」?

可惜你不在拼多多买水果蔬菜,很难一句话跟你解释,我只能笨拙的用经历来慢慢讲。我们公司有微波炉,同事们几乎都是自己带饭来上班,便当荤素搭配、水果零食;都是好看又好吃。我自己本来就不喜欢外卖,当然也加入了带饭大军: 直到某一天深夜我闲着无聊刷了...

WordPress建站同时面向B端和C端,有什么好的解决方案?

这个很容易实现呀,只不过需要自己开发,整体用权限管理就可以实现了,B端和C端是不同用户权限,C端能看到的菜单入口和B端不一样就行了。技术层面实现没问题的,只不过就是看你们的技术能力和投入了 ,这样的需求应该没有现成的开源插件。只能找人定制开...

提升自己最快的方式是什么?

提升自己最快的方式是什么?

1.稻盛和夫说过:“改变自己最快的方法就是做自己害怕的事,不敢做的事,认为自己做不到,觉得不可能的事。如果在自己的舒适区待久了,就会丧失斗志,如果想快速的改变,可以坚持去做一些对自己有益的事。2.早睡早起,坚持运动保持旺盛的精力,人生拼到最...

如何做电商行业?

如何做电商行业?

“如何做电商*开网店”跟“如何找老婆”一样,没概况条件、没明确标准,就是扯犊子。我把话题具体一点说:具备“两三万”启动资金、掌握“选品+上架优化”基础技能,小则月入三五千、多则上万。跟摆地摊一样,有进货的钱、也不怕苦不怕累、稍微有点生意头脑...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。