AI BENCHY
Comparar Gráficos
❤️ Made by XCS
Your ad here

#7

GPT-5.4

OpenAI · Lançamento: 2026-03-05 · openai/gpt-5.4::medium

Pontuação média

8.2

Custo por resultado

6.533

Consistência

8.9

Custo total

$0.784

Testes corretos

12

Um teste é totalmente aprovado apenas quando todas as execuções passam.

Testes errados

3

Taxa de acerto por tentativa: 86.7%

Testes instáveis

2

Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).

Tempo de resposta (médio)

21.06s

Tempo de resposta (máx.): 100.41s

Tempo de resposta (total): 315.95s

Resposta incorreta: 2 Não seguiu as instruções: 1

Melhores modelos por pontuação

Escolha o primeiro modelo e depois clique em um segundo modelo para abrir uma página lado a lado.

Comparação rápida

Detalhamento por categoria

Categoria Pontuação média Consistência Testes corretos
Anti-AI Tricks 10.0 10.0 3/3
Combined 10.0 10.0 1/1
Data parsing and extraction 9.9 10.0 2/2
Domain specific 4.0 7.2 1/3
Instructions following 10.0 10.0 2/2
Puzzle Solving 7.0 7.2 2/3
Tool Calling 10.0 10.0 1/1