General Intelligence Model Ranking

AI BENCHY Category

See which AI models perform best on General Intelligence, which ones stay reliable, and where the biggest gaps appear. Sort by: Response Time (avg) ↓.

Models Shown

Average General Intelligence Score

5.9

Best Model

Qwen3.5-9B 2.8

Failure Reasons

With failure reason Did not follow instructions74 With failure reason Wrong answer32 With failure reason API error12 With failure reason Timed out4

Rank	Model	Company	General Intelligence Score	Score	Tests Correct	Response Time (avg)
#101	Mimo V2 Omni none	Xiaomi	4.1	6.0	0/1	2.33s
#3	Gemini 3.5 Flash low	Google	10.0	9.4	1/1	2.27s
#95	Qwen3.5 Plus 2026-02-15 none	Qwen	4.4	6.3	0/1	2.26s
#109	GLM 5V Turbo none	Z.ai	4.6	5.8	0/1	2.22s
#134	GLM 5 Turbo none	Z.ai	4.2	5.2	0/1	2.18s
#85	Gemma 4 31B none	Google	10.0	6.5	1/1	2.09s
#132	Mistral Small 4 medium	Mistral	4.8	5.3	0/1	2.05s
#63	GPT-5.3 Chat none	OpenAI	4.6	7.2	0/1	1.99s
#144	GPT-5.4 Mini none	OpenAI	4.8	4.9	0/1	1.82s
#125	GPT-5.4 none	OpenAI	4.4	5.5	0/1	1.78s
#152	MiMo-V2-Flash none	Xiaomi	4.6	4.6	0/1	1.67s
#74	Qwen3.6 Max Preview none	Qwen	4.3	6.9	0/1	1.62s
#122	GLM 4.7 Flash none	Z.ai	4.0	5.5	0/1	1.59s
#124	Kimi K2.6 none	Moonshot AI	5.4	5.5	0/1	1.55s
#50	Gemini 3.1 Flash Lite Preview low	Google	4.0	7.4	0/1	1.54s

General Intelligence Ranking

Top Models by General Intelligence Score

General Intelligence Score vs Total Cost

Top Models by Response Time (avg)