Navegação
AI BENCHY
Your ad here

AI BENCHY Compare

xAI: Grok 4.20 Beta vs Z.ai: GLM 4.7 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-12

Métrica Grok 4.20 Beta Grok 4.20 Beta none Lançamento: 2026-03-12 GLM 4.7 Flash GLM 4.7 Flash medium Lançamento: 2026-01-19
Posição #52 #62
Pontuação média 4.4 3.1
Consistência 9.1 6.4
Custo por resultado 2.214 1.040
Custo total $0.089 $0.042
Testes corretos
Taxa de acerto por tentativa 33.3% 41.7%
Testes instáveis 2 7
Execuções totais 48 48
Tokens de saída 1,511 38,682
Tokens de raciocínio 0 64,952
Tempo de resposta (médio) 1.22s 36.84s
Tempo de resposta (máx.) 6.48s 174.55s
Tempo de resposta (total) 19.53s 331.58s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação média vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 3.3 7.9 22.2% 1 562ms 245 0
GLM 4.7 Flash 4.0 4.5 55.6% 2 27.09s 1,085 5,597
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 10.0 10.0 0.0% 0 6.48s 282 0
GLM 4.7 Flash 10.0 2.1 33.3% 1 65.57s 2,585 20,648
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 9.9 10.0 100.0% 0 601ms 197 0
GLM 4.7 Flash 5.0 10.0 50.0% 0 1.51s 584 2,755
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 10.0 10.0 0.0% 0 611ms 160 0
GLM 4.7 Flash 10.0 4.4 33.3% 2 174.55s 33,000 25,394
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 5.0 10.0 0.0% 0 541ms 87 0
GLM 4.7 Flash 10.0 9.7 0.0% 0 18.14s 18 2,138
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 4.5 10.0 0.0% 0 687ms 60 0
GLM 4.7 Flash 5.0 5.8 66.7% 1 2.97s 388 2,181
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 4.0 7.2 55.6% 1 541ms 291 0
GLM 4.7 Flash 10.0 7.2 11.1% 1 12.90s 798 5,225
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.79s 189 0
GLM 4.7 Flash 10.0 10.0 100.0% 0 15.95s 224 1,014

Comparação rápida

Trocar par de comparação