AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Anthropic: Claude Sonnet 4.6

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-05-01

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 none Lanzamiento: 2026-02-17

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 none Lanzamiento: 2026-02-17
Puntuación	7.6	7.4
Rango	#50	#56
Fiabilidad	N/D	N/D
Consistencia	9.1	9.6
Pruebas correctas
Tasa de aciertos por intento	70.4%	64.8%
Pruebas inestables	2	1
Ejecuciones totales	54	54
Costo por resultado	12.047	2.376
Costo total	$1.446	$0.262
Precio de entrada	$5.000 / 1M	$3.000 / 1M
Precio de salida	$25.000 / 1M	$15.000 / 1M
Tokens de salida	29,829	7,433
Tokens de razonamiento	18,938	0
Tiempo de respuesta (promedio)	21.08s	4.98s
Tiempo de respuesta (máximo)	83.40s	23.84s
Tiempo de respuesta (total)	231.84s	54.83s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	1,214	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.67s	523	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	3,766	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	252	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	413	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	192	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	90	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.92s	536	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	447	0

Comparación rápida

Cambiar par de comparación

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6nonevsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsGPT-5.2medium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6nonevsGPT-5.4 Minimedium Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6nonevsMiMo-V2-Omnimedium Claude Opus 4.6mediumvsGPT-5.2 Chatnone