#7

GPT-5.4

OpenAI · Lançamento: 2026-03-05 · openai/gpt-5.4::medium

Pontuação média

8.2

Custo por resultado

6.533

Consistência

8.9

Custo total

$0.784

Testes corretos

12

Um teste é totalmente aprovado apenas quando todas as execuções passam.

Testes errados

3

Taxa de acerto por tentativa: 86.7%

Testes instáveis

2

Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).

Tempo de resposta (médio)

21.06s

Tempo de resposta (máx.): 100.41s

Tempo de resposta (total): 315.95s

Resposta incorreta: 2 Não seguiu as instruções: 1

Melhores modelos por pontuação

Escolha o primeiro modelo e depois clique em um segundo modelo para abrir uma página lado a lado.

#1 Gemini 3 Flash Preview 10.0

#2 Gemini 3.1 Pro Preview 9.3

#3 Qwen3.5 Plus 2026-02-15 8.8

#4 GPT-5.3-Codex 8.7

#5 Qwen3.5-27B 8.5

#6 Qwen3.5-122B-A10B 8.2

#7 GPT-5.4 8.2

#8 Gemini 3 Flash Preview 8.1

#9 Gemini 3 Pro Preview 8.1

#10 Gemini 3.1 Flash Lite Preview 8.1

#11 GPT-5.2 Chat 7.7

#12 Gemini 3.1 Flash Lite Preview 7.6

#13 DeepSeek V3.2 7.6

Categoria	Pontuação média	Consistência	Testes corretos
Anti-AI Tricks	10.0	10.0	3/3
Combined	10.0	10.0	1/1
Data parsing and extraction	9.9	10.0	2/2
Domain specific	4.0	7.2	1/3
Instructions following	10.0	10.0	2/2
Puzzle Solving	7.0	7.2	2/3
Tool Calling	10.0	10.0	1/1