AI BENCHY Compare

Google: Gemma 4 31B vs OpenAI: GPT-5.5

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-24

Métrica	Gemma 4 31B Gemma 4 31B medium Lanzamiento: 2026-04-02 Disponible gratis	GPT-5.5 GPT-5.5 medium Lanzamiento: 2026-04-24

Métrica	Gemma 4 31B Gemma 4 31B medium Lanzamiento: 2026-04-02 Disponible gratis	GPT-5.5 GPT-5.5 medium Lanzamiento: 2026-04-24
Puntuación	8.3	9.0
Rango	#16	#5
Fiabilidad	N/D	N/D
Consistencia	9.2	9.2
Pruebas correctas
Tasa de aciertos por intento	79.6%	87.0%
Pruebas inestables	2	2
Ejecuciones totales	54	54
Costo por resultado	0.136	19.226
Costo total	$0.018	$2.884
Precio de entrada	$0.130 / 1M	$5.000 / 1M
Precio de salida	$0.380 / 1M	$30.000 / 1M
Tokens de salida	12,734	1,920
Tokens de razonamiento	27,950	89,632
Tiempo de respuesta (promedio)	24.88s	32.75s
Tiempo de respuesta (máximo)	70.97s	332.10s
Tiempo de respuesta (total)	398.13s	589.59s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046
GPT-5.5	10.0	10.0	100.0%	0		4.66s	250	1,335

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	4.7	1.6	66.7%	1		70.97s	3,166	5,449
GPT-5.5	10.0	10.0	100.0%	0		9.09s	318	1,391

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5.5	10.0	10.0	100.0%	0		19.29s	312	2,841

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951
GPT-5.5	10.0	10.0	100.0%	0		4.18s	234	593

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985
GPT-5.5	5.3	7.2	44.4%	1		164.14s	67	79,625

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888
GPT-5.5	10.0	10.0	100.0%	0		4.16s	138	223

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035
GPT-5.5	10.0	10.0	100.0%	0		3.36s	93	538

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	8.8	7.9	88.9%	1		27.63s	1,797	5,596
GPT-5.5	8.6	7.9	77.8%	1		6.78s	250	2,254

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5.5	10.0	10.0	100.0%	0		10.57s	258	832

Comparación rápida

Cambiar par de comparación

Gemma 4 31BmediumDisponible gratisvsHY3 PreviewhighDisponible gratis Gemini 3 Flash PreviewlowvsGPT-5.5medium DeepSeek V4 ProhighvsGemma 4 31BmediumDisponible gratis Claude Opus 4.7nonevsGPT-5.5medium Gemma 4 31BmediumDisponible gratisvsHY3 PreviewlowDisponible gratis Gemma 4 31BmediumDisponible gratisvsGPT-5.2 Chatnone GPT-5.5mediumvsHY3 PreviewhighDisponible gratis DeepSeek V4 FlashhighvsGemma 4 31BmediumDisponible gratis Gemma 4 31BmediumDisponible gratisvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsGPT-5.5medium Claude Opus 4.7nonevsGemma 4 31BmediumDisponible gratis GPT-5.5mediumvsHY3 PreviewlowDisponible gratis