#7

GPT-5.4

OpenAI · Lanzamiento: 2026-03-05 · openai/gpt-5.4::medium

Puntaje prom.

8.2

Costo por resultado

6.533

Consistencia

8.9

Costo total

$0.784

Pruebas correctas

12

Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.

Pruebas incorrectas

3

Tasa de aciertos por intento: 86.7%

Pruebas inestables

2

Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).

Tiempo de respuesta (promedio)

21.06s

Tiempo de respuesta (máximo): 100.41s

Tiempo de respuesta (total): 315.95s

Respuesta incorrecta: 2 No siguió las instrucciones: 1

Mejores modelos por puntuación

Elige el primer modelo y luego haz clic en un segundo modelo para abrir una página lado a lado.

#1 Gemini 3 Flash Preview 10.0

#2 Gemini 3.1 Pro Preview 9.3

#3 Qwen3.5 Plus 2026-02-15 8.8

#4 GPT-5.3-Codex 8.7

#5 Qwen3.5-27B 8.5

#6 Qwen3.5-122B-A10B 8.2

#7 GPT-5.4 8.2

#8 Gemini 3 Flash Preview 8.1

#9 Gemini 3 Pro Preview 8.1

#10 Gemini 3.1 Flash Lite Preview 8.1

#11 GPT-5.2 Chat 7.7

#12 Gemini 3.1 Flash Lite Preview 7.6

#13 DeepSeek V3.2 7.6

Categoría	Puntaje prom.	Consistencia	Pruebas correctas
Anti-AI Tricks	10.0	10.0	3/3
Combined	10.0	10.0	1/1
Data parsing and extraction	9.9	10.0	2/2
Domain specific	4.0	7.2	1/3
Instructions following	10.0	10.0	2/2
Puzzle Solving	7.0	7.2	2/3
Tool Calling	10.0	10.0	1/1