AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemma 4 31B

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-04

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Gemma 4 31B Gemma 4 31B none Lanzamiento: 2026-04-02

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Gemma 4 31B Gemma 4 31B none Lanzamiento: 2026-04-02
Puntuación	7.5	6.7
Rango	#34	#48
Consistencia	9.0	10.0
Pruebas correctas
Tasa de aciertos por intento	68.6%	52.9%
Pruebas inestables	2	0
Ejecuciones totales	51	51
Costo por resultado	11.973	0.023
Costo total	$1.317	$0.002
Precio de entrada	$5.000 / 1M	$0.140 / 1M
Precio de salida	$25.000 / 1M	$0.400 / 1M
Tokens de salida	26,343	660
Tokens de razonamiento	17,434	0
Tiempo de respuesta (promedio)	20.87s	2.55s
Tiempo de respuesta (máximo)	83.40s	4.68s
Tiempo de respuesta (total)	208.73s	38.20s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
Gemma 4 31B	6.5	10.0	50.0%	0		1.85s	45	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
Gemma 4 31B	10.0	10.0	100.0%	0		2.25s	285	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
Gemma 4 31B	7.7	10.0	66.7%	0		3.22s	27	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Gemma 4 31B	10.0	10.0	100.0%	0		2.09s	117	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Gemma 4 31B	6.5	10.0	50.0%	0		2.84s	78	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
Gemma 4 31B	5.5	10.0	33.3%	0		2.95s	108	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Comparación rápida

Cambiar par de comparación

Claude Opus 4.6mediumvsGPT-5.3 Chatnone Gemma 4 31BnonevsGPT-5 Minimedium Gemma 4 31BnonevsNemotron 3 SupermediumDisponible gratis Gemma 4 31BnonevsGrok 4.1 Fastmedium Gemma 4 31BnonevsHunter Alphamedium Claude Opus 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemma 4 31BnonevsGPT-5.4 Minimedium Gemma 4 31BnonevsGrok 4.20medium Gemma 4 31BnonevsMercury 2medium Gemma 4 31BnonevsGPT-5 Nanomedium Gemma 4 31BnonevsKimi K2.5medium