Wrong answer Failure Ranking

See which AI models run into Wrong answer most often, so you can spot reliability risks before choosing one. Sort by: Score ↓.

Models Shown

Total Failures

1558

Most Affected Model

Gemini 3 Flash Preview 1

Categories

In category Domain specific412 In category Anti-AI Tricks293 In category Coding252 In category Puzzle Solving201 In category Trivia168 In category Combined68 In category Instructions following61 In category General Intelligence59 In category Data parsing and extraction41 In category Tool Calling3

209/209

Rank	Model	Company	Wrong answer Count	Score	Total Cost	Tests Correct	Response Time (avg)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Total Tests 22 Wrong Tests 1 Total Cost $0.742 Response Time (avg) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Total Tests 22 Wrong Tests 2 Total Cost $1.976 Response Time (avg) 15.1s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Total Tests 22 Wrong Tests 4 Total Cost $0.971 Response Time (avg) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Total Tests 22 Wrong Tests 4 Total Cost $1.316 Response Time (avg) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Total Tests 22 Wrong Tests 4 Total Cost $1.234 Response Time (avg) 11.7s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Total Tests 22 Wrong Tests 3 Total Cost $1.253 Response Time (avg) 10.1s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Total Tests 22 Wrong Tests 2 Total Cost $1.361 Response Time (avg) 21.5s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Total Tests 22 Wrong Tests 4 Total Cost $1.116 Response Time (avg) 40.6s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Total Tests 22 Wrong Tests 3 Total Cost $0.642 Response Time (avg) 8.20s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Total Tests 22 Wrong Tests 4 Total Cost $4.137 Response Time (avg) 38.4s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Total Tests 22 Wrong Tests 3 Total Cost $0.433 Response Time (avg) 5.55s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Total Tests 22 Wrong Tests 5 Total Cost $1.707 Response Time (avg) 76.5s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Total Tests 22 Wrong Tests 6 Total Cost $0.920 Response Time (avg) 17.0s
#14	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
Total Tests 22 Wrong Tests 4 Total Cost $1.931 Response Time (avg) 12.5s
#15	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
Total Tests 22 Wrong Tests 4 Total Cost $1.477 Response Time (avg) 7.61s

1 2 14

→

Wrong answer Failures

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)