AI BENCHY
Comparar Gráficos
❤️ Made by XCS
Your ad here

#7

GPT-5.4

OpenAI · Lanzamiento: 2026-03-05 · openai/gpt-5.4::medium

Puntaje prom.

8.2

Costo por resultado

6.533

Consistencia

8.9

Costo total

$0.784

Pruebas correctas

12

Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.

Pruebas incorrectas

3

Tasa de aciertos por intento: 86.7%

Pruebas inestables

2

Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).

Tiempo de respuesta (promedio)

21.06s

Tiempo de respuesta (máximo): 100.41s

Tiempo de respuesta (total): 315.95s

Respuesta incorrecta: 2 No siguió las instrucciones: 1

Mejores modelos por puntuación

Elige el primer modelo y luego haz clic en un segundo modelo para abrir una página lado a lado.

Comparación rápida

Desglose por categoría

Categoría Puntaje prom. Consistencia Pruebas correctas
Anti-AI Tricks 10.0 10.0 3/3
Combined 10.0 10.0 1/1
Data parsing and extraction 9.9 10.0 2/2
Domain specific 4.0 7.2 1/3
Instructions following 10.0 10.0 2/2
Puzzle Solving 7.0 7.2 2/3
Tool Calling 10.0 10.0 1/1