Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Z.ai: GLM 5

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-29

Métrica Claude Opus 4.7 Claude Opus 4.7 medium Lançamento: 2026-04-16 GLM 5 GLM 5 medium Lançamento: 2026-02-12
Pontuação 8.9 8.2
Posição #7 #20
Confiabilidade 10.0 10.0
Consistência 10.0 8.4
Testes corretos
Taxa de acerto por tentativa 85.0% 81.7%
Testes instáveis 0 4
Execuções totais 60 60
Custo por resultado 3.670 1.676
Custo total $0.624 $0.235
Preço de entrada $5.000 / 1M $0.600 / 1M
Preço de saída $25.000 / 1M $1.920 / 1M
Tokens de saída 10,439 21,558
Tokens de raciocínio 2,198 95,772
Tempo de resposta (médio) 4.48s 32.67s
Tempo de resposta (máx.) 23.18s 99.85s
Tempo de resposta (total) 85.21s 392.01s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 8.3 10.0 75.0% 0 1.85s 348 0
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 14.79s 6,210 1,114
GLM 5 10.0 10.0 100.0% 0 89.47s 2,985 45,706
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 21.45s 2,369 1,084
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.37s 324 0
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 7.7 10.0 66.7% 0 1.17s 51 0
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.87s 256 0
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 1.57s 114 0
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 2.43s 370 0
GLM 5 10.0 10.0 100.0% 0 11.33s 33 4,076
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 10.0 10.0 100.0% 0 4.17s 373 0
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.7 3.0 10.0 0.0% 0 2.25s 24 0
GLM 5 3.0 10.0 0.0% 0 67.37s 401 12,450

Comparação rápida

Trocar par de comparação