Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

Modelos comparados

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-26

Métrica GLM 5 GLM 5 medium Lançamento: 2026-02-12 GLM 5.1 GLM 5.1 medium Lançamento: 2026-04-07 GLM 5 GLM 5 none Lançamento: 2026-02-12 GLM 5.1 GLM 5.1 none Lançamento: 2026-04-07
Pontuação 8.2 7.4 6.3 5.8
Posição #18 #54 #91 #102
Confiabilidade 10.0 3.3 10.0 10.0
Consistência 8.4 8.3 9.7 8.4
Testes corretos
Taxa de acerto por tentativa 81.7% 71.7% 46.7% 43.3%
Testes instáveis 4 4 1 4
Execuções totais 98 98 98 136
Custo por resultado 1.818 2.890 0.295 0.936
Custo total $0.255 $0.347 $0.027 $0.066
Preço de entrada $0.600 / 1M $0.980 / 1M $0.600 / 1M $0.980 / 1M
Preço de saída $1.920 / 1M $3.080 / 1M $1.920 / 1M $3.080 / 1M
Tokens de saída 21,596 13,107 3,581 4,698
Tokens de raciocínio 105,424 88,661 0 0
Tempo de resposta (médio) 32.67s 33.45s 3.95s 4.20s
Tempo de resposta (máx.) 99.85s 172.60s 11.07s 32.57s
Tempo de resposta (total) 392.01s 635.63s 51.38s 83.95s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
GLM 5.1 10.0 10.0 100.0% 0 8.31s 401 5,122
GLM 5 4.8 10.0 25.0% 0 2.37s 275 0
GLM 5.1 4.0 6.3 25.0% 2 2.11s 305 0
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 10.0 10.0 100.0% 0 89.47s 2,985 45,706
GLM 5.1 4.7 1.6 66.7% 2 145.56s 4,727 34,384
GLM 5 4.6 6.8 16.7% 1 5.18s 424 0
GLM 5.1 4.3 9.5 0.0% 0 6.33s 519 0
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
GLM 5.1 9.5 10.0 100.0% 0 43.11s 327 4,206
GLM 5 3.0 10.0 0.0% 0 4.98s 406 0
GLM 5.1 2.8 2.1 33.3% 1 32.57s 2,129 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
GLM 5.1 10.0 10.0 100.0% 0 9.33s 991 4,552
GLM 5 10.0 10.0 100.0% 0 5.78s 203 0
GLM 5.1 10.0 10.0 100.0% 0 1.08s 204 0
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
GLM 5.1 5.3 10.0 33.3% 0 29.77s 969 11,314
GLM 5 3.0 10.0 0.0% 0 2.24s 19 0
GLM 5.1 2.9 7.2 11.1% 1 1.99s 24 0
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
GLM 5.1 10.0 10.0 100.0% 0 20.95s 2,875 2,875
GLM 5 10.0 10.0 100.0% 0 3.27s 103 0
GLM 5.1 5.0 10.0 0.0% 0 790ms 39 0
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
GLM 5.1 6.4 5.8 66.7% 1 7.47s 204 1,617
GLM 5 10.0 10.0 100.0% 0 1.48s 61 0
GLM 5.1 9.8 10.0 100.0% 0 1.98s 750 0
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 10.0 10.0 100.0% 0 11.33s 71 13,728
GLM 5.1 8.2 7.2 88.9% 1 31.64s 2,531 22,412
GLM 5 7.7 10.0 66.7% 0 1.91s 1,857 0
GLM 5.1 7.7 10.0 66.7% 0 1.45s 417 0
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994
GLM 5.1 3.0 10.0 0.0% 0 0ms 0 0
GLM 5 10.0 10.0 100.0% 0 11.07s 220 0
GLM 5.1 10.0 10.0 100.0% 0 10.68s 300 0
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GLM 5 3.0 10.0 0.0% 0 67.37s 401 12,450
GLM 5.1 3.0 10.0 0.0% 0 29.40s 82 2,179
GLM 5 3.0 10.0 0.0% 0 3.62s 13 0
GLM 5.1 3.0 10.0 0.0% 0 2.34s 11 0

Comparação rápida

Trocar par de comparação