AI BENCHY Compare

Google: Gemma 4 31B vs OpenAI: GPT-5.5

Resumen

Comparación benchmark de Gemma 4 31B vs GPT-5.5: La puntuación media está prácticamente empatada en 6.3 vs 6.3. Gemma 4 31B tiene menor coste de benchmark con $0.033 vs $0.231. GPT-5.5 es más rápido con 1.89s vs 56.55s, con tasas de acierto de 69.8% vs 54.0%.

Modelo recomendado: Gemma 4 31B - Tiene la mejor puntuación aquí (6.3) y cuesta aproximadamente 7.1x menos que GPT-5.5.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-02

Métrica	Gemma 4 31B Gemma 4 31B medium Lanzamiento: 2026-04-02 Disponible gratis	GPT-5.5 GPT-5.5 none Lanzamiento: 2026-04-24

Métrica	Gemma 4 31B Gemma 4 31B medium Lanzamiento: 2026-04-02 Disponible gratis	GPT-5.5 GPT-5.5 none Lanzamiento: 2026-04-24
Puntuación	6.3	6.3
Rango	#91	#93
Fiabilidad	10.0	10.0
Consistencia	9.4	8.8
Pruebas correctas
Tasa de aciertos por intento	69.8%	54.0%
Pruebas inestables	1	3
Ejecuciones totales	63	63
Costo por resultado	0.257	2.302
Costo total	$0.033	$0.231
Precio de entrada	$0.120 / 1M	$5.000 / 1M
Precio de salida	$0.350 / 1M	$30.000 / 1M
Total de tokens de entrada	17,957	34,212
Tokens de salida	22,356	1,971
Tokens de razonamiento	65,726	0
Tiempo de respuesta (promedio)	56.55s	1.89s
Tiempo de respuesta (máximo)	437.40s	5.56s
Tiempo de respuesta (total)	1074.41s	39.64s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#91 Gemma 4 31B

medium

Coste: $0.002
Tiempo: 45.7s
Tokens: 2,696 tok

#93 GPT-5.5

none

Coste: $0.090
Tiempo: 54.3s
Tokens: 3,063 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	816	962	2,046
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	4.3	5.8	22.2%	1		219.76s	5,568	11,098	33,212
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0	0
GPT-5.5	3.0	10.0	0.0%	0		5.56s	11,019	300	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	8,334	1,822	2,951
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	876	4,349	8,985
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	567	105	888
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	777	533	2,035
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	9.9	10.0	100.0%	0		26.91s	801	1,795	5,595
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0	0
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		90.14s	218	1,692	10,014
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0

Comparación rápida

Cambiar par de comparación

GPT-5.5nonevsQwen3.5-35B-A3Bmedium Nemotron 3 SupermediumDisponible gratisvsGPT-5.5none Seed-2.0-LitenonevsGemma 4 31BmediumDisponible gratis Gemini 3.1 Flash LiteminimalvsGPT-5.5none Gemini 3.1 Flash LitelowvsGPT-5.5none Gemma 4 31BmediumDisponible gratisvsQwen3.5-Flashnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.5none Gemma 4 31BmediumDisponible gratisvsNemotron 3 Ultra 550b A55bnoneDisponible gratis GPT-5.5nonevsQwen3.6 27Bmedium Gemma 4 31BmediumDisponible gratisvsQwen3.6 Max Previewnone GPT-5.5nonevsStep 3.5 Flashmedium Gemma 4 31BmediumDisponible gratisvsGLM 5none