Domain specific x Wrong answer Ranking

See which AI models are most likely to hit Wrong answer on Domain specific, so you can spot weak points faster. Sort by: Response Time (avg) ↑.

Models Shown

Total Failures

421

Most Affected Model

Claude Sonnet 4.6 1

Failure Reasons

Wrong answer421 Timed out43 Extra formatting17 No answer8 API error7 Did not follow instructions1

Categories

Domain specific421 Anti-AI Tricks293 Coding259 Puzzle Solving204 Trivia172 Combined69 General Intelligence62 Instructions following61 Data parsing and extraction41 Tool Calling3

202/202

Rank	Model	Company	Wrong answer Count	Category Score	Total Cost	Tests Correct	Response Time (avg)
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	3	2.9	$0.482	0/3	35.3s
Total Tests 3 Wrong Tests 3 Total Cost $0.482 Response Time (avg) 35.3s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
Total Tests 3 Wrong Tests 2 Total Cost $0.391 Response Time (avg) 35.6s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
Total Tests 3 Wrong Tests 2 Total Cost $0.643 Response Time (avg) 37.3s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
Total Tests 3 Wrong Tests 2 Total Cost $0.457 Response Time (avg) 38.1s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
Total Tests 3 Wrong Tests 2 Total Cost $0.138 Response Time (avg) 38.2s
#116	Gemma 4 31B medium	Google	1	7.7	$0.107	2/3	38.5s
Total Tests 3 Wrong Tests 1 Total Cost $0.107 Response Time (avg) 38.5s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
Total Tests 3 Wrong Tests 2 Total Cost $1.234 Response Time (avg) 39.5s
#159	Hy3 preview low	Tencent	2	5.9	$0.015	1/3	40.4s
Total Tests 3 Wrong Tests 2 Total Cost $0.015 Response Time (avg) 40.4s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
Total Tests 3 Wrong Tests 2 Total Cost $0.454 Response Time (avg) 43.3s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
Total Tests 3 Wrong Tests 2 Total Cost $1.055 Response Time (avg) 43.4s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
Total Tests 3 Wrong Tests 3 Total Cost $0.237 Response Time (avg) 44.6s
#40	Qwen3.7 Plus medium	Qwen	3	3.6	$0.267	0/3	45.3s
Total Tests 3 Wrong Tests 3 Total Cost $0.267 Response Time (avg) 45.3s
#42	GLM 5.2 medium	Z.ai	1	4.1	$0.187	0/3	45.5s
Total Tests 3 Wrong Tests 3 Total Cost $0.187 Response Time (avg) 45.5s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
Total Tests 3 Wrong Tests 2 Total Cost $2.077 Response Time (avg) 45.5s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
Total Tests 3 Wrong Tests 2 Total Cost $1.316 Response Time (avg) 47.9s

←

1 9 10 11 14

→

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)

Top Models by Estimated Wasted Cost

Domain specific: Wrong answer

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)

Top Models by Estimated Wasted Cost