AI BENCHY Compare

Modelos comparados

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	GPT-5.2 GPT-5.2 medium Lanzamiento: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none Lanzamiento: 2026-03-03	GPT-5.4 GPT-5.4 none Lanzamiento: 2026-03-05

Métrica	GPT-5.2 GPT-5.2 medium Lanzamiento: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none Lanzamiento: 2026-03-03	GPT-5.4 GPT-5.4 none Lanzamiento: 2026-03-05
Rango	#29	#20	#51
Puntaje prom.	6.5	7.3	4.5
Consistencia	7.9	8.5	8.9
Costo por resultado	3.125	3.163	1.562
Costo total	$0.313	$0.317	$0.094
Pruebas correctas
Tasa de aciertos por intento	75.0%	70.8%	41.7%
Pruebas inestables	4	3	2
Ejecuciones totales	48	48	48
Tokens de salida	2,220	19,272	1,819
Tokens de razonamiento	16,811	0	0
Tiempo de respuesta (promedio)	15.33s	5.96s	1.48s
Tiempo de respuesta (máximo)	77.80s	18.33s	2.89s
Tiempo de respuesta (total)	138.01s	95.30s	23.64s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.2	7.0	7.3	77.8%	1		14.34s	549	2,002
GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.2	9.9	10.0	100.0%	0		3.15s	234	420
GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.2	4.0	7.2	55.6%	1		77.80s	42	10,342
GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.2	10.0	9.7	0.0%	0		4.32s	162	269
GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
GPT-5.4	3.0	9.9	0.0%	0		1.78s	184	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.2	9.5	10.0	100.0%	0		3.12s	94	614
GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.2	7.0	7.3	77.8%	1		5.47s	609	938
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.2	10.0	1.6	66.7%	1		10.30s	239	469
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Comparación rápida

Cambiar par de comparación

DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis MiniMax M2.5mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGPT-5.2medium GPT-5.2mediumvsQwen3.5 Plus 2026-02-15none GPT-5.3 ChatnonevsGrok 4.20 Betamedium Seed-2.0-MinimediumvsGPT-5.3 Chatnone