AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.4

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-15

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	GPT-5.4 GPT-5.4 medium Lanzamiento: 2026-03-05

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	GPT-5.4 GPT-5.4 medium Lanzamiento: 2026-03-05
Rango	#12	#9
Puntuación	8.3	8.5
Consistencia	9.5	8.5
Costo por resultado	8.525	6.601
Costo total	$1.023	$0.793
Pruebas correctas
Tasa de aciertos por intento	77.1%	83.3%
Pruebas inestables	1	3
Ejecuciones totales	48	48
Tokens de salida	35,159	1,756
Tokens de razonamiento	24,687	46,642
Tiempo de respuesta (promedio)	11.23s	20.05s
Tiempo de respuesta (máximo)	46.35s	100.41s
Tiempo de respuesta (total)	89.84s	320.87s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	7.7	10.0	66.7%	0		4.95s	1,031	1,093
GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewlowvsGPT-5.4medium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewnonevsGPT-5.4medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Claude Sonnet 4.6nonevsGPT-5.4medium Claude Sonnet 4.6mediumvsQwen3.5 Plus 2026-02-15none