Domain specific x Wrong answer Ranking

See which AI models are most likely to hit Wrong answer on Domain specific, so you can spot weak points faster. Sort by: Response Time (avg) ↓.

Models Shown

Total Failures

421

Most Affected Model

LongCat 2.0 1

Failure Reasons

Wrong answer421 Timed out43 Extra formatting17 No answer8 API error7 Did not follow instructions1

Categories

Domain specific421 Anti-AI Tricks293 Coding259 Puzzle Solving204 Trivia172 Combined69 General Intelligence62 Instructions following61 Data parsing and extraction41 Tool Calling3

202/202

Rank	Model	Company	Wrong answer Count	Category Score	Total Cost	Tests Correct	Response Time (avg)
#121	Gemma 4 31B none	Google	1	7.7	$0.021	2/3	3.22s
Total Tests 3 Wrong Tests 1 Total Cost $0.021 Response Time (avg) 3.22s
#69	Gemini 3.1 Flash Lite medium	Google	3	2.9	$0.117	0/3	3.16s
Total Tests 3 Wrong Tests 3 Total Cost $0.117 Response Time (avg) 3.16s
#158	Qwen3.6 27B none	Qwen	1	7.7	$0.087	2/3	3.03s
Total Tests 3 Wrong Tests 1 Total Cost $0.087 Response Time (avg) 3.03s
#154	Owl Alpha none	Openrouter	2	5.3	$0.000	1/3	3.00s
Total Tests 3 Wrong Tests 2 Total Cost $0.000 Response Time (avg) 3.00s
#162	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
Total Tests 3 Wrong Tests 3 Total Cost $0.015 Response Time (avg) 2.49s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
Total Tests 3 Wrong Tests 2 Total Cost $0.646 Response Time (avg) 2.36s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
Total Tests 3 Wrong Tests 2 Total Cost $0.000 Response Time (avg) 2.33s
#147	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
Total Tests 3 Wrong Tests 3 Total Cost $0.041 Response Time (avg) 2.24s
#163	Mimo V2 Omni none	Xiaomi	2	5.3	$0.021	1/3	2.10s
Total Tests 3 Wrong Tests 2 Total Cost $0.021 Response Time (avg) 2.10s
#151	GLM 5V Turbo none	Z.ai	2	5.3	$0.052	1/3	2.09s
Total Tests 3 Wrong Tests 2 Total Cost $0.052 Response Time (avg) 2.09s
#157	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
Total Tests 3 Wrong Tests 3 Total Cost $0.164 Response Time (avg) 1.99s
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
Total Tests 3 Wrong Tests 2 Total Cost $0.187 Response Time (avg) 1.99s
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
Total Tests 3 Wrong Tests 2 Total Cost $0.047 Response Time (avg) 1.97s
#153	Mimo V2 PRO none	Xiaomi	2	5.3	$0.045	1/3	1.78s
Total Tests 3 Wrong Tests 2 Total Cost $0.045 Response Time (avg) 1.78s
#117	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Total Tests 3 Wrong Tests 3 Total Cost $0.044 Response Time (avg) 1.72s

←

1 9 10 11 14

→

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)

Top Models by Estimated Wasted Cost

Domain specific: Wrong answer

Filter models

Top Models by Wrong answer Count

Wrong answer Count vs Score

Top Models by Response Time (avg)

Top Models by Estimated Wasted Cost