AI BENCHY Compare

OpenAI: GPT-5.4 vs Hunter Alpha

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	GPT-5.4 GPT-5.4 none Lanzamiento: 2026-03-05	Hunter Alpha Hunter Alpha none Lanzamiento: Fecha de lanzamiento desconocida

Métrica	GPT-5.4 GPT-5.4 none Lanzamiento: 2026-03-05	Hunter Alpha Hunter Alpha none Lanzamiento: Fecha de lanzamiento desconocida
Rango	#51	#50
Puntaje prom.	4.5	4.6
Consistencia	8.9	8.0
Costo por resultado	1.562	0.000
Costo total	$0.094	$0.000
Pruebas correctas
Tasa de aciertos por intento	41.7%	52.1%
Pruebas inestables	2	4
Ejecuciones totales	48	48
Tokens de salida	1,819	2,272
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	1.48s	4.64s
Tiempo de respuesta (máximo)	2.89s	15.17s
Tiempo de respuesta (total)	23.64s	74.24s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Hunter Alpha	1.3	7.4	22.2%	1		3.85s	773	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Hunter Alpha	10.0	10.0	0.0%	0		15.17s	379	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Hunter Alpha	9.9	10.0	100.0%	0		8.49s	249	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Hunter Alpha	4.0	10.0	33.3%	0		2.33s	27	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	3.0	9.9	0.0%	0		1.78s	184	0
Hunter Alpha	5.0	3.1	66.7%	1		2.71s	91	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Hunter Alpha	5.0	10.0	50.0%	0		2.82s	69	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Hunter Alpha	4.0	4.4	66.7%	2		3.06s	349	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Hunter Alpha	10.0	10.0	100.0%	0		6.02s	335	0

Comparación rápida

Cambiar par de comparación

MiniMax M2.5mediumvsHunter Alphanone MiniMax M2.5mediumvsGPT-5.4none Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium GPT-5.4nonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumDisponible gratisvsHunter Alphanone Mercury 2mediumvsHunter Alphanone Mercury 2mediumvsGPT-5.4none Hunter AlphanonevsQwen3.5-35B-A3Bmedium GPT-5 NanomediumvsHunter Alphanone GPT-5.4nonevsQwen3 Coder Nextmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium Hunter AlphanonevsQwen3 Coder Nextmedium