答案错误失败排名

看看哪些 AI 模型最常遇到答案错误，让你在选择前先发现稳定性风险。排序方式: 失败次数 ↑.

显示的模型数

失败总数

1585

受影响最多的模型

Gemini 3.6 Flash 1

分类

在分类领域专项中421 在分类反AI技巧中293 在分类编程中259 在分类谜题求解中204 在分类常识问答中172 在分类综合中69 在分类通用智能中62 在分类指令遵循中61 在分类数据解析与提取中41 在分类工具调用中3

215/215

排名	模型	公司	答案错误次数	分数	总成本	测试正确	响应时间（平均）
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
总测试数 22 错误测试数 12 总成本 $0.200 响应时间（平均） 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
总测试数 22 错误测试数 10 总成本 $0.756 响应时间（平均） 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
总测试数 22 错误测试数 6 总成本 $0.177 响应时间（平均） 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
总测试数 22 错误测试数 10 总成本 $0.777 响应时间（平均） 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
总测试数 22 错误测试数 11 总成本 $1.207 响应时间（平均） 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
总测试数 22 错误测试数 13 总成本 $0.469 响应时间（平均） 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
总测试数 22 错误测试数 12 总成本 $0.779 响应时间（平均） 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
总测试数 22 错误测试数 11 总成本 $0.103 响应时间（平均） 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
总测试数 22 错误测试数 17 总成本 $0.163 响应时间（平均） 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
总测试数 19 错误测试数 13 总成本 $0.015 响应时间（平均） 6.73s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
总测试数 22 错误测试数 8 总成本 $1.055 响应时间（平均） 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
总测试数 22 错误测试数 7 总成本 $1.017 响应时间（平均） 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
总测试数 22 错误测试数 9 总成本 $0.774 响应时间（平均） 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
总测试数 22 错误测试数 9 总成本 $0.571 响应时间（平均） 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
总测试数 22 错误测试数 7 总成本 $0.197 响应时间（平均） 4.52s

答案错误失败

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

答案错误 失败

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

答案错误失败

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型