AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemma 4 31B

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-16

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	Gemma 4 31B Gemma 4 31B none Lanzamiento: 2026-04-02 Disponible gratis

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	Gemma 4 31B Gemma 4 31B none Lanzamiento: 2026-04-02 Disponible gratis
Puntuación	8.0	6.9
Rango	#26	#47
Consistencia	9.5	10.0
Pruebas correctas
Tasa de aciertos por intento	74.1%	55.6%
Pruebas inestables	1	0
Ejecuciones totales	54	54
Costo por resultado	8.930	0.024
Costo total	$1.161	$0.003
Precio de entrada	$3.000 / 1M	$0.130 / 1M
Precio de salida	$15.000 / 1M	$0.380 / 1M
Tokens de salida	42,068	1,359
Tokens de razonamiento	26,784	0
Tiempo de respuesta (promedio)	12.66s	4.02s
Tiempo de respuesta (máximo)	46.35s	26.13s
Tiempo de respuesta (total)	126.62s	64.33s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
Gemma 4 31B	6.5	10.0	50.0%	0		1.85s	45	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
Gemma 4 31B	10.0	10.0	100.0%	0		26.13s	699	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
Gemma 4 31B	10.0	10.0	100.0%	0		2.25s	285	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
Gemma 4 31B	7.7	10.0	66.7%	0		3.22s	27	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
Gemma 4 31B	10.0	10.0	100.0%	0		2.09s	117	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
Gemma 4 31B	6.5	10.0	50.0%	0		2.84s	78	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
Gemma 4 31B	5.5	10.0	33.3%	0		2.95s	108	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Comparación rápida

Cambiar par de comparación

Gemma 4 31BnoneDisponible gratisvsGrok 4.20medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Gemma 4 31BnoneDisponible gratisvsKimi K2.5medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemma 4 31BnoneDisponible gratisvsGPT-5 Minimedium Gemma 4 31BnoneDisponible gratisvsNemotron 3 SupermediumDisponible gratis Gemma 4 31BnoneDisponible gratisvsGrok 4.1 Fastmedium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemma 4 31BnoneDisponible gratisvsGPT-5.4 Minimedium Gemma 4 31BnoneDisponible gratisvsMercury 2medium