Wrong answer Failure Ranking

AI BENCHY Failures

See which AI models run into Wrong answer most often, so you can spot reliability risks before choosing one. Sort by: Total Cost ↓.

Models Shown

Total Failures

1243

Most Affected Model

Grok 4.20 Multi Agent Beta 4

Categories

In category Domain specific325 In category Anti-AI Tricks250 In category Coding201 In category Puzzle Solving154 In category Trivia133 In category Instructions following54 In category Combined53 In category General Intelligence36 In category Data parsing and extraction35 In category Tool Calling2

169/169

Rank	Model	Company	Wrong answer Count	Score	Total Cost	Tests Correct	Response Time (avg)
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	7	8.1	$0.158	13/21	15.1s
Total Tests 21 Wrong Tests 8 Total Cost $0.158 Response Time (avg) 15.1s
#41	DeepSeek V4 Pro high	DeepSeek	6	7.6	$0.157	9/21	77.2s
Total Tests 21 Wrong Tests 12 Total Cost $0.157 Response Time (avg) 77.2s
#75	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.146	13/21	18.1s
Total Tests 21 Wrong Tests 8 Total Cost $0.146 Response Time (avg) 18.1s
#40	MiniMax M3 medium	Minimax	3	7.6	$0.131	11/21	68.2s
Total Tests 21 Wrong Tests 10 Total Cost $0.131 Response Time (avg) 68.2s
#112	GPT-5.4 none	OpenAI	13	5.8	$0.122	7/21	1.42s
Total Tests 21 Wrong Tests 14 Total Cost $0.122 Response Time (avg) 1.42s
#52	Gemini 3 Flash Preview low	Google	5	7.4	$0.111	16/21	5.76s
Total Tests 21 Wrong Tests 5 Total Cost $0.111 Response Time (avg) 5.76s
#71	Gemini 3.5 Flash minimal	Google	5	6.8	$0.108	14/21	1.57s
Total Tests 21 Wrong Tests 7 Total Cost $0.108 Response Time (avg) 1.57s
#46	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.107	11/21	12.0s
Total Tests 21 Wrong Tests 10 Total Cost $0.107 Response Time (avg) 12.0s
#51	MiMo-V2.5-Pro medium	Xiaomi	3	7.4	$0.106	12/21	26.1s
Total Tests 21 Wrong Tests 9 Total Cost $0.106 Response Time (avg) 26.1s
#127	MiniMax M2.7 medium	Minimax	6	5.2	$0.104	5/21	38.2s
Total Tests 21 Wrong Tests 16 Total Cost $0.104 Response Time (avg) 38.2s
#149	Grok 4.20 Beta none	X AI	10	4.7	$0.087	6/18	1.19s
Total Tests 18 Wrong Tests 12 Total Cost $0.087 Response Time (avg) 1.19s
#79	GPT-5 Nano medium	OpenAI	9	6.7	$0.081	9/21	42.5s
Total Tests 21 Wrong Tests 12 Total Cost $0.081 Response Time (avg) 42.5s
#70	Qwen3.5-Flash medium	Qwen	4	6.8	$0.080	12/21	63.3s
Total Tests 21 Wrong Tests 9 Total Cost $0.080 Response Time (avg) 63.3s
#111	Kimi K2.6 none	Moonshot AI	11	5.8	$0.079	7/21	13.3s
Total Tests 21 Wrong Tests 14 Total Cost $0.079 Response Time (avg) 13.3s
#61	GLM 5.2 none	Z.ai	8	7.1	$0.076	12/21	6.34s
Total Tests 21 Wrong Tests 9 Total Cost $0.076 Response Time (avg) 6.34s

Wrong answer Failures

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)