Wrong answer Failure Ranking

AI BENCHY Failures

See which AI models run into Wrong answer most often, so you can spot reliability risks before choosing one. Sort by: Total Cost ↑.

Models Shown

Total Failures

1243

Most Affected Model

North Mini Code 9

Categories

In category Domain specific325 In category Anti-AI Tricks250 In category Coding201 In category Puzzle Solving154 In category Trivia133 In category Instructions following54 In category Combined53 In category General Intelligence36 In category Data parsing and extraction35 In category Tool Calling2

169/169

Rank	Model	Company	Wrong answer Count	Score	Total Cost	Tests Correct	Response Time (avg)
#115	Grok 4.1 Fast medium	X AI	4	5.6	$0.069	9/19	23.8s
Total Tests 19 Wrong Tests 10 Total Cost $0.069 Response Time (avg) 23.8s
#80	Step 3.5 Flash medium	Stepfun	4	6.6	$0.070	11/20	72.5s
Total Tests 20 Wrong Tests 9 Total Cost $0.070 Response Time (avg) 72.5s
#34	Gemini 3.1 Flash Lite medium	Google	7	7.8	$0.071	13/21	3.23s
Total Tests 21 Wrong Tests 8 Total Cost $0.071 Response Time (avg) 3.23s
#100	Qwen3.6 Max Preview none	Qwen	10	6.0	$0.075	11/21	3.30s
Total Tests 21 Wrong Tests 10 Total Cost $0.075 Response Time (avg) 3.30s
#61	GLM 5.2 none	Z.ai	8	7.1	$0.076	12/21	6.34s
Total Tests 21 Wrong Tests 9 Total Cost $0.076 Response Time (avg) 6.34s
#111	Kimi K2.6 none	Moonshot AI	11	5.8	$0.079	7/21	13.3s
Total Tests 21 Wrong Tests 14 Total Cost $0.079 Response Time (avg) 13.3s
#70	Qwen3.5-Flash medium	Qwen	4	6.8	$0.080	12/21	63.3s
Total Tests 21 Wrong Tests 9 Total Cost $0.080 Response Time (avg) 63.3s
#79	GPT-5 Nano medium	OpenAI	9	6.7	$0.081	9/21	42.5s
Total Tests 21 Wrong Tests 12 Total Cost $0.081 Response Time (avg) 42.5s
#149	Grok 4.20 Beta none	X AI	10	4.7	$0.087	6/18	1.19s
Total Tests 18 Wrong Tests 12 Total Cost $0.087 Response Time (avg) 1.19s
#127	MiniMax M2.7 medium	Minimax	6	5.2	$0.104	5/21	38.2s
Total Tests 21 Wrong Tests 16 Total Cost $0.104 Response Time (avg) 38.2s
#51	MiMo-V2.5-Pro medium	Xiaomi	3	7.4	$0.106	12/21	26.1s
Total Tests 21 Wrong Tests 9 Total Cost $0.106 Response Time (avg) 26.1s
#46	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.107	11/21	12.0s
Total Tests 21 Wrong Tests 10 Total Cost $0.107 Response Time (avg) 12.0s
#71	Gemini 3.5 Flash minimal	Google	5	6.8	$0.108	14/21	1.57s
Total Tests 21 Wrong Tests 7 Total Cost $0.108 Response Time (avg) 1.57s
#52	Gemini 3 Flash Preview low	Google	5	7.4	$0.111	16/21	5.76s
Total Tests 21 Wrong Tests 5 Total Cost $0.111 Response Time (avg) 5.76s
#112	GPT-5.4 none	OpenAI	13	5.8	$0.122	7/21	1.42s
Total Tests 21 Wrong Tests 14 Total Cost $0.122 Response Time (avg) 1.42s

Wrong answer Failures

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)