Navegação
AI BENCHY
Your ad here

AI BENCHY Compare

xAI: Grok 4.20 Multi-Agent Beta vs Z.ai: GLM 5

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-17

Métrica Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Lançamento: 2026-03-12 GLM 5 GLM 5 none Lançamento: 2026-02-12
Posição #44 #40
Pontuação 6.2 6.7
Consistência 7.2 10.0
Custo por resultado 82.962 0.201
Custo total $4.978 $0.019
Testes corretos
Taxa de acerto por tentativa 54.9% 52.9%
Testes instáveis 6 0
Execuções totais 51 51
Tokens de saída 298,948 1,551
Tokens de raciocínio 296,529 0
Tempo de resposta (médio) 8.64s 3.77s
Tempo de resposta (máx.) 35.28s 11.07s
Tempo de resposta (total) 129.64s 37.66s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Multi-Agent Beta 6.9 5.8 75.0% 2 3.46s 33,706 33,077
GLM 5 4.8 10.0 25.0% 0 2.37s 275 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
GLM 5 3.0 10.0 0.0% 0 4.98s 406 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Multi-Agent Beta 10.0 10.0 100.0% 0 5.54s 25,306 25,051
GLM 5 10.0 10.0 100.0% 0 5.78s 203 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Multi-Agent Beta 2.9 7.2 11.1% 1 24.67s 164,609 163,647
GLM 5 3.0 10.0 0.0% 0 2.24s 19 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Multi-Agent Beta 5.8 2.8 66.7% 1 6.40s 15,848 15,746
GLM 5 10.0 10.0 100.0% 0 3.27s 103 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Multi-Agent Beta 8.3 10.0 50.0% 0 4.63s 25,457 25,322
GLM 5 10.0 10.0 100.0% 0 1.48s 61 0
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Multi-Agent Beta 7.2 5.1 77.8% 2 5.01s 34,022 33,686
GLM 5 7.7 10.0 66.7% 0 2.05s 264 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
GLM 5 10.0 10.0 100.0% 0 11.07s 220 0

Comparação rápida

Trocar par de comparação