Domain specific x Wrong answer Ranking

See which AI models are most likely to hit Wrong answer on Domain specific, so you can spot weak points faster. Sort by: Response Time (avg) ↑.

Models Shown

Total Failures

421

Most Affected Model

Claude Sonnet 4.6 1

Failure Reasons

Wrong answer421 Timed out43 Extra formatting17 No answer8 API error7 Did not follow instructions1

Categories

Domain specific421 Anti-AI Tricks293 Coding259 Puzzle Solving204 Trivia172 Combined69 General Intelligence62 Instructions following61 Data parsing and extraction41 Tool Calling3

202/202

Rank	Model	Company	Wrong answer Count	Category Score	Total Cost	Tests Correct	Response Time (avg)
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
Total Tests 3 Wrong Tests 2 Total Cost $0.033 Response Time (avg) 24.1s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
Total Tests 3 Wrong Tests 3 Total Cost $0.078 Response Time (avg) 24.3s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
Total Tests 3 Wrong Tests 3 Total Cost $5.599 Response Time (avg) 24.7s
#55	Nemotron 3 Ultra medium	NVIDIA	3	3.5	$0.774	0/3	24.9s
Total Tests 3 Wrong Tests 3 Total Cost $0.774 Response Time (avg) 24.9s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
Total Tests 3 Wrong Tests 2 Total Cost $1.116 Response Time (avg) 24.9s
#79	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
Total Tests 3 Wrong Tests 2 Total Cost $0.777 Response Time (avg) 27.0s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
Total Tests 3 Wrong Tests 2 Total Cost $1.253 Response Time (avg) 28.1s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
Total Tests 3 Wrong Tests 3 Total Cost $0.467 Response Time (avg) 29.0s
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
Total Tests 3 Wrong Tests 2 Total Cost $0.971 Response Time (avg) 29.1s
#41	Qwen3.6 Plus medium	Qwen	3	2.9	$0.405	0/3	29.6s
Total Tests 3 Wrong Tests 3 Total Cost $0.405 Response Time (avg) 29.6s
#27	Muse Spark 1.1 low	Meta	3	2.9	$0.647	0/3	29.7s
Total Tests 3 Wrong Tests 3 Total Cost $0.647 Response Time (avg) 29.7s
#78	GLM 5.1 medium	Z.ai	1	5.3	$0.535	1/3	29.8s
Total Tests 3 Wrong Tests 2 Total Cost $0.535 Response Time (avg) 29.8s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.7	$1.361	2/3	32.7s
Total Tests 3 Wrong Tests 1 Total Cost $1.361 Response Time (avg) 32.7s
#107	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
Total Tests 3 Wrong Tests 2 Total Cost $0.082 Response Time (avg) 34.5s
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
Total Tests 3 Wrong Tests 3 Total Cost $0.010 Response Time (avg) 35.0s

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)

Top Models by Estimated Wasted Cost

Domain specific: Wrong answer

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)

Top Models by Estimated Wasted Cost