Wrong answer Failure Ranking

See which AI models run into Wrong answer most often, so you can spot reliability risks before choosing one. Sort by: Score ↓.

Models Shown

Total Failures

1558

Most Affected Model

Gemini 3 Flash Preview 1

Categories

In category Domain specific412 In category Anti-AI Tricks293 In category Coding252 In category Puzzle Solving201 In category Trivia168 In category Combined68 In category Instructions following61 In category General Intelligence59 In category Data parsing and extraction41 In category Tool Calling3

209/209

Rank	Model	Company	Wrong answer Count	Score	Total Cost	Tests Correct	Response Time (avg)
#16	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Total Tests 22 Wrong Tests 7 Total Cost $1.357 Response Time (avg) 25.0s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Total Tests 22 Wrong Tests 5 Total Cost $3.478 Response Time (avg) 17.2s
#18	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Total Tests 22 Wrong Tests 7 Total Cost $1.533 Response Time (avg) 23.1s
#19	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Total Tests 22 Wrong Tests 6 Total Cost $1.143 Response Time (avg) 67.5s
#20	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
Total Tests 22 Wrong Tests 6 Total Cost $0.935 Response Time (avg) 15.6s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Total Tests 22 Wrong Tests 8 Total Cost $0.951 Response Time (avg) 22.6s
#22	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
Total Tests 22 Wrong Tests 6 Total Cost $1.928 Response Time (avg) 61.7s
#23	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Total Tests 22 Wrong Tests 6 Total Cost $0.922 Response Time (avg) 12.5s
#24	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Total Tests 22 Wrong Tests 9 Total Cost $0.647 Response Time (avg) 11.5s
#25	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Total Tests 22 Wrong Tests 7 Total Cost $0.643 Response Time (avg) 21.2s
#26	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Total Tests 22 Wrong Tests 10 Total Cost $0.237 Response Time (avg) 27.6s
#27	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Total Tests 22 Wrong Tests 10 Total Cost $1.694 Response Time (avg) 31.5s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Total Tests 22 Wrong Tests 7 Total Cost $1.006 Response Time (avg) 64.2s
#29	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Total Tests 22 Wrong Tests 8 Total Cost $0.515 Response Time (avg) 26.4s
#30	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Total Tests 22 Wrong Tests 8 Total Cost $0.604 Response Time (avg) 7.65s

Wrong answer Failures

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)