通用智能 x API 错误排名

看看哪些 AI 模型在通用智能上最容易遇到 API 错误，更快找出薄弱点。排序方式: 测试正确 ↓.

显示的模型数

失败总数

受影响最多的模型

Nemotron 3 Ultra 1

失败原因

未遵循指令78 答案错误59 API 错误12 超时4

分类

编程45 综合26 工具调用17 反AI技巧14 数据解析与提取14 常识问答13 谜题求解12 通用智能12 领域专项7 指令遵循1

12/12

排名	模型	公司	API 错误次数	分类得分	总成本	测试正确	响应时间（平均）
#51	Nemotron 3 Ultra medium	NVIDIA	1	3.7	$0.774	0/1	2.52s
总测试数 1 错误测试数 1 总成本 $0.774 响应时间（平均） 2.52s
#76	DeepSeek V3.2 medium	DeepSeek	1	3.4	$0.078	0/1	58.3s
总测试数 1 错误测试数 1 总成本 $0.078 响应时间（平均） 58.3s
#135	Hy3 preview high	Tencent	1	3.0	$0.048	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.048 响应时间（平均） 0ms
#153	Hy3 preview low	Tencent	1	3.0	$0.015	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.015 响应时间（平均） 0ms
#173	DeepSeek V3.2 none	DeepSeek	1	4.7	$0.054	0/1	9.32s
总测试数 1 错误测试数 1 总成本 $0.054 响应时间（平均） 9.32s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.033 响应时间（平均） 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.009 响应时间（平均） 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.015 响应时间（平均） 0ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.004 响应时间（平均） 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms

筛选模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

通用智能：API 错误

筛选模型

按 API 错误 次数 排名的顶级模型

API 错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型