Coding x Wrong answer Ranking

AI BENCHY Category Failures

See which AI models are most likely to hit Wrong answer on Coding, so you can spot weak points faster. Sort by: Tests Correct ↓.

Models Shown

Total Failures

230

Most Affected Model

Gemini 3 Flash Preview 1

Failure Reasons

Wrong answer230 API error43 Timed out25 No answer18 Did not follow instructions16 Extra formatting12

Categories

Domain specific368 Anti-AI Tricks270 Coding230 Puzzle Solving173 Trivia150 Combined58 Instructions following56 General Intelligence49 Data parsing and extraction36 Tool Calling3

134/134

Rank	Model	Company	Wrong answer Count	Category Score	Total Cost	Tests Correct	Response Time (avg)
#70	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
Total Tests 3 Wrong Tests 2 Total Cost $0.539 Response Time (avg) 3.29s
#71	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
Total Tests 3 Wrong Tests 2 Total Cost $0.034 Response Time (avg) 13.4s
#73	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
Total Tests 3 Wrong Tests 2 Total Cost $0.023 Response Time (avg) 2.15s
#75	MiMo-V2-Flash medium	Xiaomi	1	6.0	$0.043	1/3	10.7s
Total Tests 3 Wrong Tests 2 Total Cost $0.043 Response Time (avg) 10.7s
#78	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
Total Tests 3 Wrong Tests 2 Total Cost $0.036 Response Time (avg) 70.3s
#81	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
Total Tests 3 Wrong Tests 2 Total Cost $0.025 Response Time (avg) 1.80s
#82	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
Total Tests 3 Wrong Tests 2 Total Cost $0.054 Response Time (avg) 1.35s
#85	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
Total Tests 3 Wrong Tests 2 Total Cost $0.108 Response Time (avg) 2.75s
#90	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
Total Tests 3 Wrong Tests 2 Total Cost $0.061 Response Time (avg) 97.1s
#91	Mimo V2 PRO medium	Xiaomi	1	6.0	$0.333	1/3	94.2s
Total Tests 3 Wrong Tests 2 Total Cost $0.333 Response Time (avg) 94.2s
#92	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
Total Tests 3 Wrong Tests 2 Total Cost $0.013 Response Time (avg) 38.4s
#93	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
Total Tests 3 Wrong Tests 2 Total Cost $0.081 Response Time (avg) 41.6s
#96	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
Total Tests 3 Wrong Tests 2 Total Cost $0.026 Response Time (avg) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Total Tests 3 Wrong Tests 2 Total Cost $0.018 Response Time (avg) 967ms
#99	Gemini 3.1 Flash Lite low	Google	2	5.5	$0.028	1/3	1.53s
Total Tests 3 Wrong Tests 2 Total Cost $0.028 Response Time (avg) 1.53s

←

1 3 4 5 9

→

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)

Top Models by Estimated Wasted Cost

Coding: Wrong answer

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)

Top Models by Estimated Wasted Cost