AI BENCHY Compare

Grok 4.20 Beta vs Z.ai: GLM 5V Turbo

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-02

Métrica	Grok 4.20 Beta Grok 4.20 Beta medium Lançamento: 2026-03-12	GLM 5V Turbo GLM 5V Turbo medium Lançamento: 2026-04-01

Métrica	Grok 4.20 Beta Grok 4.20 Beta medium Lançamento: 2026-03-12	GLM 5V Turbo GLM 5V Turbo medium Lançamento: 2026-04-01
Pontuação	7.9	7.7
Posição	#26	#30
Consistência	9.0	7.4
Testes corretos
Taxa de acerto por tentativa	72.6%	76.5%
Testes instáveis	2	6
Execuções totais	51	51
Custo por resultado	5.525	2.697
Custo total	$0.608	$0.270
Preço de entrada	$0.000 / 1M	$1.200 / 1M
Preço de saída	$0.000 / 1M	$4.000 / 1M
Tokens de saída	1,487	1,947
Tokens de raciocínio	87,922	54,313
Tempo de resposta (médio)	8.54s	15.03s
Tempo de resposta (máx.)	24.21s	67.08s
Tempo de resposta (total)	145.26s	255.55s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583
GLM 5V Turbo	7.2	6.1	75.0%	2		10.76s	587	7,872

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212
GLM 5V Turbo	6.9	3.8	66.7%	1		15.06s	403	2,523

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281
GLM 5V Turbo	10.0	10.0	100.0%	0		9.60s	236	4,333

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255
GLM 5V Turbo	5.3	7.2	44.4%	1		38.15s	32	29,035

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440
GLM 5V Turbo	10.0	10.0	100.0%	0		11.09s	131	2,183

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	8.3	10.0	50.0%	0		4.97s	57	7,107
GLM 5V Turbo	9.9	10.0	100.0%	0		3.74s	72	1,813

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	8.2	7.2	88.9%	1		3.85s	249	6,660
GLM 5V Turbo	7.7	7.3	77.8%	1		10.91s	193	5,789

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384
GLM 5V Turbo	7.0	3.7	66.7%	1		12.53s	293	765

Comparação rápida

Trocar par de comparação

Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20 Betamedium Gemini 3 Flash PreviewnonevsGrok 4.20 Betamedium GPT-5.2 ChatnonevsGLM 5V Turbomedium GPT-5.2 ChatnonevsGrok 4.20 Betamedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.20 Betamedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium GPT-5.3 ChatnonevsGLM 5V Turbomedium Gemini 3 Flash PreviewnonevsGLM 5V Turbomedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5V Turbomedium GPT-5.3 ChatnonevsGrok 4.20 Betamedium Claude Sonnet 4.6nonevsGLM 5V Turbomedium Claude Sonnet 4.6nonevsGrok 4.20 Betamedium