常识问答 x 答案错误排名

AI BENCHY 分类失败

看看哪些 AI 模型在常识问答上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

133

受影响最多的模型

Qwen3.7 Max 1

失败原因

答案错误133 API 错误13 无答案8

分类

领域专项325 反AI技巧250 编程201 谜题求解154 常识问答133 指令遵循54 综合53 通用智能36 数据解析与提取35 工具调用2

133/133

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
总测试数 1 错误测试数 1 总成本 $0.927 响应时间（平均） 53.5s
#43	Kimi K2.5 medium	Moonshot AI	1	3.0	$0.348	0/1	83.9s
总测试数 1 错误测试数 1 总成本 $0.348 响应时间（平均） 83.9s
#44	Mercury 2 medium	Inception	1	3.0	$0.058	0/1	2.58s
总测试数 1 错误测试数 1 总成本 $0.058 响应时间（平均） 2.58s
#45	GPT-5.3 Chat none	OpenAI	1	3.0	$0.433	0/1	4.38s
总测试数 1 错误测试数 1 总成本 $0.433 响应时间（平均） 4.38s
#46	GPT-5.4 Nano medium	OpenAI	1	3.0	$0.107	0/1	4.81s
总测试数 1 错误测试数 1 总成本 $0.107 响应时间（平均） 4.81s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
总测试数 1 错误测试数 1 总成本 $0.288 响应时间（平均） 122.9s
#48	DeepSeek V3.2 medium	DeepSeek	1	3.0	$0.044	0/1	84.0s
总测试数 1 错误测试数 1 总成本 $0.044 响应时间（平均） 84.0s
#49	Claude Opus 4.7 none	Anthropic	1	3.0	$0.505	0/1	1.46s
总测试数 1 错误测试数 1 总成本 $0.505 响应时间（平均） 1.46s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	3.0	$0.044	0/1	56.8s
总测试数 1 错误测试数 1 总成本 $0.044 响应时间（平均） 56.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	1	3.0	$0.106	0/1	12.5s
总测试数 1 错误测试数 1 总成本 $0.106 响应时间（平均） 12.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
总测试数 1 错误测试数 1 总成本 $0.609 响应时间（平均） 63.5s
#54	Hy3 preview medium	Tencent	1	3.0	$0.021	0/1	39.9s
总测试数 1 错误测试数 1 总成本 $0.021 响应时间（平均） 39.9s
#55	Claude Sonnet 4.6 none	Anthropic	1	3.0	$0.316	0/1	4.67s
总测试数 1 错误测试数 1 总成本 $0.316 响应时间（平均） 4.67s
#56	GLM 5V Turbo medium	Z.ai	1	3.0	$0.457	0/1	41.0s
总测试数 1 错误测试数 1 总成本 $0.457 响应时间（平均） 41.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.0	$0.034	0/1	5.76s
总测试数 1 错误测试数 1 总成本 $0.034 响应时间（平均） 5.76s

←

1 2 3 4 9

→

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

常识问答：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型