Navegação
AI BENCHY
Your ad here

AI BENCHY Compare

OpenAI: GPT-5.4 Nano vs xAI: Grok 4.20 Multi-Agent Beta

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-17

Métrica GPT-5.4 Nano GPT-5.4 Nano none Lançamento: 2026-03-17 Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Lançamento: 2026-03-12
Posição #73 #44
Pontuação 4.3 6.2
Consistência 7.3 7.2
Custo por resultado 0.404 82.962
Custo total $0.009 $4.978
Testes corretos
Taxa de acerto por tentativa 29.4% 54.9%
Testes instáveis 6 6
Execuções totais 51 51
Tokens de saída 2,185 298,948
Tokens de raciocínio 0 296,529
Tempo de resposta (médio) 1.39s 8.64s
Tempo de resposta (máx.) 3.84s 35.28s
Tempo de resposta (total) 23.70s 129.64s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GPT-5.4 Nano 3.5 8.0 16.7% 1 1.18s 800 0
Grok 4.20 Multi-Agent Beta 6.9 5.8 75.0% 2 3.46s 33,706 33,077
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GPT-5.4 Nano 3.0 10.0 0.0% 0 3.84s 280 0
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GPT-5.4 Nano 6.5 10.0 50.0% 0 1.11s 219 0
Grok 4.20 Multi-Agent Beta 10.0 10.0 100.0% 0 5.54s 25,306 25,051
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GPT-5.4 Nano 2.9 4.4 22.2% 2 926ms 52 0
Grok 4.20 Multi-Agent Beta 2.9 7.2 11.1% 1 24.67s 164,609 163,647
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GPT-5.4 Nano 3.8 2.5 33.3% 1 1.31s 180 0
Grok 4.20 Multi-Agent Beta 5.8 2.8 66.7% 1 6.40s 15,848 15,746
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GPT-5.4 Nano 5.0 6.8 33.3% 1 787ms 84 0
Grok 4.20 Multi-Agent Beta 8.3 10.0 50.0% 0 4.63s 25,457 25,322
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GPT-5.4 Nano 3.7 7.3 22.2% 1 1.29s 348 0
Grok 4.20 Multi-Agent Beta 7.2 5.1 77.8% 2 5.01s 34,022 33,686
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
GPT-5.4 Nano 10.0 10.0 100.0% 0 3.40s 222 0
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0

Comparação rápida

Trocar par de comparação