常识问答 x API 错误排名

看看哪些 AI 模型在常识问答上最容易遇到 API 错误，更快找出薄弱点。排序方式: 测试正确 ↓.

显示的模型数

失败总数

受影响最多的模型

Gemini 3 PRO Preview 1

失败原因

答案错误168 API 错误13 无答案13

分类

编程45 综合26 工具调用17 反AI技巧14 数据解析与提取14 常识问答13 谜题求解12 通用智能12 领域专项7 指令遵循1

13/13

排名	模型	公司	API 错误次数	分类得分	总成本	测试正确	响应时间（平均）
#133	Gemini 3 PRO Preview medium	Google	1	3.0	$0.385	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.385 响应时间（平均） 0ms
#137	North Mini Code medium	Cohere	1	3.0	$0.000	0/1	305.0s
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 305.0s
#162	Ling-2.6-1T none	Inclusionai	1	3.0	$0.016	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.016 响应时间（平均） 0ms
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.033 响应时间（平均） 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.009 响应时间（平均） 0ms
#193	Elephant Alpha none	Openrouter	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#195	Elephant Alpha medium	Openrouter	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.015 响应时间（平均） 0ms
#204	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/1	177.0s
总测试数 1 错误测试数 1 总成本 $0.036 响应时间（平均） 177.0s
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.004 响应时间（平均） 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms

筛选模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

常识问答：API 错误

筛选模型

按 API 错误 次数 排名的顶级模型

API 错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型