AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Gemini 3 PRO Preview

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-05-29

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 none Lanzamiento: 2026-02-17	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Lanzamiento: 2025-11-18

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 none Lanzamiento: 2026-02-17	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Lanzamiento: 2025-11-18
Puntuación	7.0	8.1
Rango	#78	#22
Fiabilidad	10.0	N/D
Consistencia	9.7	10.0
Pruebas correctas
Tasa de aciertos por intento	58.3%	73.7%
Pruebas inestables	1	0
Ejecuciones totales	60	60
Costo por resultado	2.782	1.406
Costo total	$0.306	$0.197
Precio de entrada	$3.000 / 1M	$0.000 / 1M
Precio de salida	$15.000 / 1M	$0.000 / 1M
Tokens de salida	9,450	1,490
Tokens de razonamiento	0	10,102
Tiempo de respuesta (promedio)	5.27s	9.05s
Tiempo de respuesta (máximo)	23.84s	26.24s
Tiempo de respuesta (total)	68.50s	90.53s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	1,214	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		14.99s	149	1,485

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	6.8	10.0	50.0%	0		6.73s	2,112	0
Gemini 3 PRO Preview	3.0	10.0	0.0%	0		0ms	0	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	3,766	0
Gemini 3 PRO Preview	3.0	10.0	0.0%	0		10.37s	351	952

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	252	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		10.84s	279	3,156

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	413	0
Gemini 3 PRO Preview	5.3	10.0	33.3%	0		7.01s	15	1,195

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	192	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		9.34s	78	374

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	90	0
Gemini 3 PRO Preview	9.8	10.0	100.0%	0		3.26s	69	754

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.53s	533	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		3.88s	225	1,215

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	447	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		11.96s	324	971

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	3.0	10.0	0.0%	0		4.67s	431	0
Gemini 3 PRO Preview	0.0	0.0	0.0%	0		0ms	0	0

Comparación rápida

Cambiar par de comparación

Claude Sonnet 4.6nonevsDeepSeek V4 Prohigh Claude Sonnet 4.6nonevsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsGrok 4.20medium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Claude Sonnet 4.6nonevsMiMo-V2-Omnimedium Claude Sonnet 4.6nonevsStep 3.7 Flashhigh Claude Sonnet 4.6nonevsGPT-5 Minimedium Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6nonevsRing-2.6-1Tmedium Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6nonevsDeepSeek V3.2medium Gemini 3 PRO PreviewmediumvsQwen3.7 Maxnone