AI BENCHY Category Failures

Anti-AI Tricks

Wrong answer

See which AI models are most likely to hit Wrong answer on Anti-AI Tricks, so you can spot weak points faster.

Models Shown

Total Failures

Most Affected Model

Related Failure Reasons

Wrong answer53 Did not follow instructions12 Extra formatting8 No answer1 Timed out1

Related Categories

Domain specific98 Puzzle Solving55 Anti-AI Tricks53 Instructions following26 Combined21 Data parsing and extraction14 General Intelligence6 Tool Calling2

Rank	Model	Company	Wrong answer Count	Category Score	Tests Correct	Response Time (avg)
#37	Qwen3.5-Flash none	Qwen	3	2.3	0/3	1.62s
#38	Gemini 2.5 Flash none	Google	3	10.0	0/3	668ms
#42	Qwen3.5-35B-A3B none	Qwen	3	10.0	0/3	1.76s
#44	GPT-5.4 none	OpenAI	3	10.0	0/3	1.41s
#45	Trinity Large Preview none	Arcee AI	3	10.0	0/3	3.59s
#46	Kimi K2.5 none	Moonshot AI	3	2.7	0/3	11.4s
#49	GLM 4.7 Flash none	Z.ai	3	10.0	0/3	6.59s
#51	Mercury 2 none	Inception	3	10.0	0/3	466ms
#54	MiMo-V2-Flash none	Xiaomi	3	10.0	0/3	1.36s
#55	LFM2-24B-A2B none	Liquid	3	10.0	0/3	471ms
#29	Qwen3.5 Plus 2026-02-15 none	Qwen	2	4.0	1/3	2.74s
#31	GLM 5 none	Z.ai	2	4.0	1/3	3.39s
#40	Qwen3.5-122B-A10B none	Qwen	2	4.0	1/3	927ms
#41	Qwen3.5-27B none	Qwen	2	4.0	1/3	796ms
#47	GPT-4o-mini none	OpenAI	2	4.0	1/3	1.83s
#50	Qwen3 Coder Next medium	Qwen	2	1.3	0/3	15.3s
#53	Grok 4.1 Fast none	X AI	2	1.3	0/3	1.73s
#16	Gemini 2.5 Flash medium	Google	1	7.3	2/3	6.98s
#17	Gemini 3.1 Flash Lite Preview low	Google	1	7.0	2/3	2.18s
#18	DeepSeek V3.2 medium	DeepSeek	1	7.0	2/3	33.4s
#20	Gemini 3 Flash Preview none	Google	1	7.0	2/3	1.59s
#22	Gemini 3.1 Flash Lite Preview none	Google	1	6.0	1/3	1.16s
#33	DeepSeek V3.2 none	DeepSeek	1	10.0	0/3	8.79s
#34	GPT-5 Nano medium	OpenAI	1	7.0	2/3	37.7s
#48	Qwen3 Coder Next none	Qwen	1	2.3	0/3	4.39s
#52	GLM 4.7 Flash medium	Z.ai	1	4.0	1/3	27.1s

Top Models by Wrong answer Count