Navegação
AI BENCHY
Your ad here

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Grok 4.20 Multi Agent Beta

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-26

Métrica Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Lançamento: 2026-02-19 Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lançamento: 2026-03-12
Pontuação 9.6 6.4
Posição #2 #67
Confiabilidade N/D N/D
Consistência 10.0 7.4
Testes corretos
Taxa de acerto por tentativa 94.4% 57.4%
Testes instáveis 0 6
Execuções totais 54 52
Custo por resultado 3.400 72.473
Custo total $0.578 $5.074
Preço de entrada $2.000 / 1M $0.000 / 1M
Preço de saída $12.000 / 1M $0.000 / 1M
Tokens de saída 1,932 299,034
Tokens de raciocínio 40,542 309,670
Tempo de resposta (médio) 15.96s 9.80s
Tempo de resposta (máx.) 40.61s 35.28s
Tempo de resposta (total) 175.52s 156.75s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.90s 112 3,218
Grok 4.20 Multi Agent Beta 6.9 5.8 75.0% 2 3.46s 33,706 33,077
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 19.88s 405 4,201
Grok 4.20 Multi Agent Beta 10.0 10.0 100.0% 0 27.11s 86 13,141
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 9.5 10.0 100.0% 0 40.61s 432 9,281
Grok 4.20 Multi Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.72s 279 3,904
Grok 4.20 Multi Agent Beta 10.0 10.0 100.0% 0 5.54s 25,306 25,051
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 7.7 10.0 66.7% 0 32.73s 18 12,424
Grok 4.20 Multi Agent Beta 2.9 7.2 11.1% 1 24.67s 164,609 163,647
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 108 1,179
Grok 4.20 Multi Agent Beta 5.8 2.8 66.7% 1 6.40s 15,848 15,746
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 72 2,236
Grok 4.20 Multi Agent Beta 8.3 10.0 50.0% 0 4.63s 25,457 25,322
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.15s 232 3,117
Grok 4.20 Multi Agent Beta 7.2 5.1 77.8% 2 5.01s 34,022 33,686
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 274 982
Grok 4.20 Multi Agent Beta 3.0 10.0 0.0% 0 0ms 0 0

Comparação rápida

Trocar par de comparação