Navegação
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs xAI: Grok 4.3

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-08

Métrica Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Lançamento: 2026-05-08 Grok 4.3 Grok 4.3 medium Lançamento: 2026-05-01
Pontuação 7.9 8.0
Posição #27 #24
Confiabilidade 10.0 10.0
Consistência 9.1 8.7
Testes corretos
Taxa de acerto por tentativa 71.9% 77.2%
Testes instáveis 2 3
Execuções totais 57 57
Custo por resultado 0.452 4.229
Custo total $0.059 $0.550
Preço de entrada $0.250 / 1M $1.250 / 1M
Preço de saída $1.500 / 1M $2.500 / 1M
Tokens de saída 2,224 1,237
Tokens de raciocínio 32,034 200,033
Tempo de resposta (médio) 3.14s 48.41s
Tempo de resposta (máx.) 10.87s 216.69s
Tempo de resposta (total) 59.62s 919.73s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 9.1 10.0 75.0% 0 2.39s 604 4,201
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 3.26s 429 2,712
Grok 4.3 10.0 10.0 100.0% 0 45.72s 284 9,659
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 10.87s 327 7,401
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 2.60s 279 2,845
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 2.9 7.2 11.1% 1 3.16s 15 5,165
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 2.60s 84 1,142
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 9.9 10.0 100.0% 0 2.59s 75 3,320
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 7.6 7.2 77.8% 1 1.95s 165 2,450
Grok 4.3 5.9 7.2 55.6% 1 22.53s 128 14,686
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 10.0 10.0 100.0% 0 4.55s 234 921
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Gemini 3.1 Flash Lite 3.0 10.0 0.0% 0 3.08s 12 1,877
Grok 4.3 3.0 10.0 0.0% 0 44.47s 14 12,986

Comparação rápida

Trocar par de comparação