当前位置:首页 > 每日看点 > 正文内容

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?

卡卷网11个月前 (03-10)每日看点333

步骤:

0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。


2、提示词,出新题


3、代码


4、得到QWQ32b、Deepseek-R1各400、800道题


5、AI重新答题。

QWQ正确率平均96%,做QWQ自己出的题目99%,做Deepseek出的题目正确率95%

Deepseek正确率平均96%,做QWQ出的题目96%,做Deepseek出的题目正确率96%


6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况。



0、上周做了QWQ32b、Deepseek-R1历年高考真题1500题测评,数学正确率在满分、99%范围,一个大伙比较关心的疑问是AI是不是背历年真题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第1张

0.1、采用AI自己出新题、AI答题的方法尝试测试AI有没有背题。

1、正式开始。

2、提示词:请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以josn格式返回LaTeX格式,不要其他多余的话。

{

"题目": "",

"选项": {

"A": "",

"B": "",

"C": "",

"D": ""

},

"正确的选项": ""

}


3、代码

import time import pandas as pd from openai import OpenAI # 初始化API配置 api_key = "sk-" api_base = "https://maas-api.cn-huabei-1.xf-yun.com/v1" client = OpenAI(api_key=api_key, base_url=api_base) # 初始化Excel文件 excel_file = "output.xlsx" sheet_name = "Sheet1" # 如果文件不存在,创建一个新的Excel文件并写入表头 try: df = pd.read_excel(excel_file, sheet_name=sheet_name) except FileNotFoundError: df = pd.DataFrame(columns=["raw_content", "reasoning_content"]) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 运行200次 for i in range(200): try: # 调用API生成内容 response = client.chat.completions.create( model="xopqwenqwq32b", # messages=[{"role": "user", "content": "1+3等于多少?"}], messages=[{ "role": "user", "content": """请出一道符合考研数学难度的原创单选题,要求不要使用网络或者知识库曾经出现过的题目和数值,并给出4个类似、迷惑的选项,有且只有一个正确选项。结果只以json格式返回LaTeX格式,不要其他多余的话。 { "题目": "", "选项": { "A": "", "B": "", "C": "", "D": "" }, "正确的选项": "" }""" }], stream=False, temperature=0.6, max_tokens=14096, extra_headers={"lora_id": "0"}, stream_options={"include_usage": True} ) print("已经提问") # 获取内容 raw_content = response.choices[0].message.content reasoning_content = response.choices[0].message.reasoning_content # 打印内容 print(f"第 {i+1} 次运行结果:") print("Raw Content:") print(raw_content) print('-' * 40) # 将内容保存到Excel new_row = pd.DataFrame([{"raw_content": raw_content, "reasoning_content": reasoning_content}]) df = pd.concat([df, new_row], ignore_index=True) df.to_excel(excel_file, sheet_name=sheet_name, index=False) # 休眠一下,避免频繁调用API time.sleep(0.5) except Exception as e: print(f"第 {i+1} 次运行出错: {e}")

4、得到QWQ32b、Deepseek-R1各400、800道题(更多题目还在出题中)

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第2张

5、再整理这些题目,答案。将题目、提示词上传AI,让AI重新答题。

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第3张

QWQ正确率

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第4张

Deepseek-R1正确率

6、简单结论。

QWQ背题率为100%-96%=4%

Deepseek背题率为98%-96%=2%


7、结论不成立的可能情况:

1、提示词让AI出新题,但是依旧是旧题。

2、AI出的题,达不到高考或者考研数学水平。

3、AI出的题,AI有独特的解题捷径。

4、AI出的题,答案有错误。


8、完整数据

【金山文档 | WPS云文档】 题目合并2025.3.10-1qwq解题完成-分析版

kdocs.cn/l/csjoRovTolHw

【金山文档 | WPS云文档】 题目合并2025.3.9-1 - ds答题-分享版

kdocs.cn/l/cbKIMJ688mJW

阿里巴巴发布开源推理模型通义千问 QwQ-32B,它的水平如何?  第5张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11841.html

分享给朋友:

相关文章

普通人一部手机用多久?

普通人一部手机用多久?

各位知友,你们的现在的手机用了多久了呢?回看国外分析机构TechInsights的报告,目前大家的用机周期是越来越长了,在国内,也达到了「40个月」,就是很多人至少三年半才会换一次手机。仔细想想,不对呀,现在新机不是一直出吗?为什么大家都不...

闲鱼上为什么会有人问都不问直接下单?

我去年卖一个荣耀90,挂的2200,最终成交2137.5元。对方是一个高高壮壮的西北口音,要求的自取。大概我吃过午饭,约了旁边的商场,那里有荣耀售后。见了面,先看了手机,试了好一会儿,各种测试,没问题。然后去了商场二楼的荣耀售后,让人家售后...

用红米手机会很丢人吗?

前些日子遇到了一位快递小哥,京东的,签收小哥年纪不算大,目测二十多岁他的手机上全是一道道极严重的划痕,有点卡,他开热点了,热点名就是手机型号,红米9a,我父母的同款现在他那边操作了一会,然后又是我这边操作了一会小哥看着我手机刷刷的,颇有些好...

如何判断 Java 工程师的基础知识是否扎实?

我来给你出几道大题,能答对70%,你就算基础扎实了。第一部分 Java基础(27)1. 程序本质:代码是如何被执行的?CPU、操作系统、虚拟机各司何职?2. 基础语法:从CPU角度看变量、数组、类型、运算、跳转、函数等语法3. 引用类型:同...

腾讯云为何在云服务市场败给了阿里云?

IDC领域,2010年以前,万网、新网互联、新网,三家公司瓜分天下,其中万网市场份额最高,排名第一。当时,万网的域名是http://www.net.cn,通过该域名就可以判断万网的地位。2010年阿里云成立,直接收购了万网,大量用户直接流向...

有没有高手指点一下Google做SEO现在的技巧啊?心好累。

有没有高手指点一下Google做SEO现在的技巧啊?心好累。

搜索引擎优化 (SEO) 的目标是让 Google 在用户输入相关搜索查询时提供您的网页链接。虽然没有固定的蓝图可以保证您获得最高排名,但有几种 SEO 最佳实践(您可以将其视为 SEO 规则)可以增加您在非付费结果中获得良好排名的机会。谷...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。