AI BENCHY Compare

Google: Gemma 4 31B vs Qwen: Qwen3.5-Flash

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-02

Métrica	Gemma 4 31B Gemma 4 31B medium Lanzamiento: 2026-04-02	Qwen3.5-Flash Qwen3.5-Flash none Lanzamiento: 2026-02-24

Métrica	Gemma 4 31B Gemma 4 31B medium Lanzamiento: 2026-04-02	Qwen3.5-Flash Qwen3.5-Flash none Lanzamiento: 2026-02-24
Puntuación	8.6	6.0
Rango	#5	#54
Consistencia	9.6	9.6
Pruebas correctas
Tasa de aciertos por intento	80.4%	43.1%
Pruebas inestables	1	1
Ejecuciones totales	51	51
Costo por resultado	0.109	0.077
Costo total	$0.015	$0.006
Precio de entrada	$0.140 / 1M	$0.065 / 1M
Precio de salida	$0.400 / 1M	$0.260 / 1M
Tokens de salida	9,568	3,777
Tokens de razonamiento	22,501	0
Tiempo de respuesta (promedio)	21.81s	3.36s
Tiempo de respuesta (máximo)	68.92s	13.73s
Tiempo de respuesta (total)	327.16s	57.15s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046
Qwen3.5-Flash	3.5	8.3	8.3%	1		1.32s	690	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Qwen3.5-Flash	3.0	10.0	0.0%	0		6.22s	1,794	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951
Qwen3.5-Flash	10.0	10.0	100.0%	0		1.57s	243	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985
Qwen3.5-Flash	7.7	10.0	66.7%	0		905ms	15	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888
Qwen3.5-Flash	10.0	10.0	100.0%	0		803ms	100	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035
Qwen3.5-Flash	6.3	10.0	50.0%	0		8.81s	63	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	8.8	7.9	88.9%	1		27.63s	1,797	5,596
Qwen3.5-Flash	3.3	10.0	0.0%	0		5.90s	608	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0

Comparación rápida

Cambiar par de comparación

gpt-oss-120bmediumDisponible gratisvsQwen3.5-Flashnone MiniMax M2.5mediumDisponible gratisvsQwen3.5-Flashnone Qwen3.5-FlashnonevsGrok 4.20 Multi Agent Betamedium GPT-5 NanomediumvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-Flashnone Mistral Small 4mediumvsQwen3.5-Flashnone Gemma 4 31BmediumvsGPT-5.2 Chatnone GPT-5 MinimediumvsQwen3.5-Flashnone Nemotron 3 SupermediumDisponible gratisvsQwen3.5-Flashnone Qwen3.5-FlashnonevsGrok 4.1 Fastmedium Hunter AlphamediumvsQwen3.5-Flashnone Gemma 4 31BmediumvsGPT-5.3 Chatnone