AI BENCHY Compare

Grok 4.20 Multi Agent Beta vs Z.ai: GLM 5.1

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-07

Métrica	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lançamento: 2026-03-12	GLM 5.1 GLM 5.1 none Lançamento: 2026-04-07

Métrica	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lançamento: 2026-03-12	GLM 5.1 GLM 5.1 none Lançamento: 2026-04-07
Pontuação	6.2	5.6
Posição	#56	#67
Consistência	7.2	8.2
Testes corretos
Taxa de acerto por tentativa	54.9%	39.2%
Testes instáveis	6	4
Execuções totais	51	51
Custo por resultado	82.962	1.000
Custo total	$4.978	$0.050
Preço de entrada	$0.000 / 1M	$1.000 / 1M
Preço de saída	$0.000 / 1M	$3.200 / 1M
Tokens de saída	298,948	3,219
Tokens de raciocínio	296,529	0
Tempo de resposta (médio)	8.64s	4.01s
Tempo de resposta (máx.)	35.28s	32.57s
Tempo de resposta (total)	129.64s	68.23s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Multi Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322
GLM 5.1	8.3	10.0	50.0%	0		1.58s	66	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Multi Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686
GLM 5.1	5.7	10.0	33.3%	0		1.48s	152	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Comparação rápida

Trocar par de comparação

Gemma 4 26B A4BnoneDisponível grátisvsGrok 4.20 Multi Agent Betamedium Mistral Small 4mediumvsGLM 5.1none DeepSeek V3.2nonevsGrok 4.20 Multi Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi Agent Betamedium Grok 4.20 Multi Agent BetamediumvsMiMo-V2-Omninone MiniMax M2.5mediumDisponível grátisvsGLM 5.1none Grok 4.20 Multi Agent BetamediumvsGLM 5V Turbonone Seed-2.0-LitenonevsGrok 4.20 Multi Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi Agent Betamedium Qwen3.5-35B-A3BnonevsGrok 4.20 Multi Agent Betamedium gpt-oss-120bmediumDisponível grátisvsGLM 5.1none Hunter AlphanonevsGrok 4.20 Multi Agent Betamedium