当前位置:首页 > 每日看点

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?

卡卷网1年前 (2025-03-10)每日看点417

步骤:

0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。


2、提示词,出新题


3、代码


4、得到QWQ32b、Deepseek-R1各400、800道题


5、AI重新答题。

QWQ正确率平均96%,做QWQ自己出的题目99%,做Deepseek出的题目正确率95%

Deepseek正确率平均96%,做QWQ出的题目96%,做Deepseek出的题目正确率96%


6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况。



0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第1张

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。

2、提示词:请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以josn格式返回LaTeX格式,不要其他多余的话。

{

"题目": "",

"选项": {

"A": "",

"B": "",

"C": "",

"D": ""

},

"正确的选项": ""

}


3、代码

import time import pandas as pd from openai import OpenAI # 初始化API配置 api_key = "sk-" api_base = "https://maas-api.cn-huabei-1.xf-yun.com/v1" client = OpenAI(api_key=api_key, base_url=api_base) # 初始化Excel文件 excel_file = "output.xlsx" sheet_name = "Sheet1" # 如果文件不存在,创建一个新的Excel文件并写入表头 try: df = pd.read_excel(excel_file, sheet_name=sheet_name) except FileNotFoundError: df = pd.DataFrame(columns=["raw_content", "reasoning_content"]) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 运行200次 for i in range(200): try: # 调用API生成内容 response = client.chat.completions.create( model="xopqwenqwq32b", # messages=[{"role": "user", "content": "1+3等于多少?"}], messages=[{ "role": "user", "content": """请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以json格式返回LaTeX格式,不要其他多余的话。 { "题目": "", "选项": { "A": "", "B": "", "C": "", "D": "" }, "正确的选项": "" }""" }], stream=False, temperature=0.6, max_tokens=14096, extra_headers={"lora_id": "0"}, stream_options={"include_usage": True} ) print("已经提问") # 获取内容 raw_content = response.choices[0].message.content reasoning_content = response.choices[0].message.reasoning_content # 打印内容 print(f"第 {i+1} 次运行结果:") print("Raw Content:") print(raw_content) print('-' * 40) # 将内容保存到Excel new_row = pd.DataFrame([{"raw_content": raw_content, "reasoning_content": reasoning_content}]) df = pd.concat([df, new_row], ignore_index=True) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 休眠一下,避免频繁调用API time.sleep(0.5) except Exception as e: print(f"第 {i+1} 次运行出错: {e}")

4、得到QWQ32b、Deepseek-R1各400、800道题(更多题目还在出题中)

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第2张

5、再整理这些题目,答案。将题目、提示词上传AI,让AI重新答题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第3张

QWQ正确率

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第4张

Deepseek-R1正确率

6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况:

1、提示词让AI出新题,但是依旧是旧题。

2、AI出的题,达不到高考或者考研数学水平。

3、AI出的题,AI有独特的解题捷径。

4、AI出的题,答案有错误。


8、完整数据

【金山文档 | WPS云文档】 题目合并2025.3.10-1qwq解题完成-分析版

kdocs.cn/l/csjoRovTolHw

【金山文档 | WPS云文档】 题目合并2025.3.9-1 - ds答题-分享版

kdocs.cn/l/cbKIMJ688mJW

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第5张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11841.html

分享给朋友:

相关文章

免费流量才是王道 独立网站如何正确“花钱” ?

免费流量才是王道 独立网站如何正确“花钱” ?

获客难、广告成本高、效益差是平台卖家普遍遇到的发展瓶颈,由此也让不少卖家转向独立站之路。由平台转向独立站、曾做到谷歌全球搜索排名前三的成人用品独立站卖家林健认为,独立站由于不限制广告方式和渠道的优势,成为跨境电商卖家的一个很好选择。“如果谷…

有了Istio,开发还需要微服务架构吗?

有了Istio,开发还需要微服务架构吗?

Istio 是一个开源的服务网格(Service Mesh),通过它可以实现对服务间通信的管理和监控。对于那些本身没有设计为具备安全功能的传统应用程序,Istio 可以提供一个“透明”的安全保护层,而不需要对应用本身进行任何代码修改。…

B 站上有哪些很好的学习资源?

B 站上有哪些很好的学习资源?

前!方!高!能!精选了多位学习Up主,不乏百万粉丝的大V,还有超多珍贵的学习资源推荐。 进了小破站,完全不用担心学完了该怎么办?因为根本学不完啊!!!B站的学习干货实在太多了! 语言学习葉子先生酱 https://space.bilib…

什么时候你意识到做技术永无出路?

什么时候你意识到做技术永无出路?

2016年,帮一个朋友的忙,写了个软件给他的工作室用, 象征性的收了5000块钱。 大概过了三四年吧,他酒后吐真言,这个软件在他这个细分行业,很有用,他这几年把我写的这个软件卖了很多份出去,收益远超30万。 因为是离线软件,给他的就是一个e…

我怎么也无法理解网络游戏为什么会有外挂?

我怎么也无法理解网络游戏为什么会有外挂?

因为你把服务器想象成了无所不能的上帝;但在我们程序猿眼里,服务器不过是一个黑大傻粗的计算器。 比如说,我们在某个位置打开一个宝箱: 那么,你觉得,程序背后应该做了些什么呢? 一、天真的玩法天真的程序猿会觉得,啊,这事简单!我就告诉服…

iPhone真的安全到连FBI也无法破解吗?

iPhone真的安全到连FBI也无法破解吗?

听退伍的一个朋友说部队有一台机器,只要数据线插到手机上,啥数据都能读出来,我问他iPhone也行么,他说可以,不知道是不是真的,部队里应该也没啥人用iPhone吧 --------------------------------------…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。