Coding Model Ranking

AI BENCHY Category

See which AI models perform best on Coding, which ones stay reliable, and where the biggest gaps appear.

Models Shown

Average Coding Score

7.2

Best Model

Failure Reasons

With failure reason Wrong answer26 With failure reason Timed out12 With failure reason API error6 With failure reason Did not follow instructions2

Rank	Model	Company	Coding Score	Score	Tests Correct	Response Time (avg)
#1	Gemini 3 Flash Preview medium	Google	10.0	10.0	1/1	79.7s
#2	Gemini 3.1 Pro Preview medium	Google	10.0	9.6	1/1	19.9s
#3	Gemini 3 Flash Preview low	Google	10.0	8.8	1/1	6.94s
#4	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.6	1/1	74.5s
#5	GPT-5.3-Codex medium	OpenAI	10.0	8.6	1/1	8.95s
#6	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	8.5	1/1	120.9s
#8	Qwen3.5-27B medium	Qwen	10.0	8.4	1/1	70.4s
#11	GLM 5 medium	Z.ai	10.0	8.4	1/1	79.1s
#13	Gemini 2.5 Flash medium	Google	10.0	8.2	1/1	16.2s
#14	GPT-5.4 medium	OpenAI	10.0	8.2	1/1	13.0s
#15	Gemini 3.1 Flash Lite Preview medium	Google	10.0	8.2	1/1	4.34s
#16	GLM 5 Turbo medium	Z.ai	10.0	8.1	1/1	12.3s
#19	Gemini 3 Flash Preview none	Google	10.0	8.1	1/1	1.59s
#20	Gemini 3.1 Flash Lite Preview low	Google	10.0	8.1	1/1	2.20s
#21	MiMo-V2-Pro medium	Xiaomi	10.0	8.1	1/1	52.1s

1 2 3 4 5 6

→

Coding Ranking