Navegação
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

xAI: Grok 4.20 Beta vs Z.ai: GLM 5

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-12

Métrica Grok 4.20 Beta Grok 4.20 Beta medium Lançamento: 2026-03-12 GLM 5 GLM 5 none Lançamento: 2026-02-12
Posição #24 #33
Pontuação média 7.0 6.0
Consistência 9.0 10.0
Custo por resultado 5.989 0.200
Custo total $0.599 $0.018
Testes corretos
Taxa de acerto por tentativa 70.8% 56.3%
Testes instáveis 2 0
Execuções totais 48 48
Tokens de saída 1,481 1,548
Tokens de raciocínio 86,628 0
Tempo de resposta (médio) 8.89s 4.03s
Tempo de resposta (máx.) 24.21s 11.07s
Tempo de resposta (total) 142.18s 36.30s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação média vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 7.0 7.2 88.9% 1 3.19s 262 6,289
GLM 5 4.0 10.0 33.3% 0 3.39s 272 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 10.0 10.0 100.0% 0 20.93s 227 12,212
GLM 5 10.0 10.0 0.0% 0 4.98s 406 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 9.9 10.0 100.0% 0 4.01s 180 5,281
GLM 5 9.9 10.0 100.0% 0 5.78s 203 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 4.0 10.0 33.3% 0 21.33s 251 40,255
GLM 5 10.0 10.0 0.0% 0 2.24s 19 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 10.0 10.0 100.0% 0 5.78s 72 3,440
GLM 5 10.0 10.0 100.0% 0 3.27s 103 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 9.0 10.0 50.0% 0 4.97s 57 7,107
GLM 5 10.0 10.0 100.0% 0 1.48s 61 0
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 7.0 7.2 88.9% 1 3.85s 249 6,660
GLM 5 7.0 10.0 66.7% 0 2.05s 264 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 10.0 10.0 0.0% 0 12.39s 183 5,384
GLM 5 10.0 10.0 100.0% 0 11.07s 220 0

Comparação rápida

Trocar par de comparação