AI BENCHY Compare

Qwen: Qwen3.5-9B vs xAI: Grok 4.1 Fast

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-04

Métrica	Qwen3.5-9B Qwen3.5-9B none Lanzamiento: 2026-03-02	Grok 4.1 Fast Grok 4.1 Fast none Lanzamiento: 2025-11-19

Métrica	Qwen3.5-9B Qwen3.5-9B none Lanzamiento: 2026-03-02	Grok 4.1 Fast Grok 4.1 Fast none Lanzamiento: 2025-11-19
Puntuación	4.8	4.4
Rango	#82	#86
Consistencia	10.0	9.0
Pruebas correctas
Tasa de aciertos por intento	23.5%	23.5%
Pruebas inestables	0	2
Ejecuciones totales	51	51
Costo por resultado	0.111	0.251
Costo total	$0.005	$0.008
Precio de entrada	$0.050 / 1M	$0.200 / 1M
Precio de salida	$0.150 / 1M	$0.500 / 1M
Tokens de salida	2,945	1,154
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	1.22s	1.76s
Tiempo de respuesta (máximo)	5.91s	5.51s
Tiempo de respuesta (total)	20.74s	17.56s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	582	0
Grok 4.1 Fast	3.2	10.0	0.0%	0		1.07s	235	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	1,255	0
Grok 4.1 Fast	3.0	10.0	0.0%	0		3.33s	105	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	249	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		943ms	180	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	24	0
Grok 4.1 Fast	5.9	7.2	55.6%	1		1.06s	15	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	99	0
Grok 4.1 Fast	4.4	9.9	0.0%	0		1.08s	112	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	75	0
Grok 4.1 Fast	3.0	10.0	0.0%	0		923ms	56	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	3.2	9.9	0.0%	0		683ms	388	0
Grok 4.1 Fast	3.2	10.0	0.0%	0		1.28s	243	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0
Grok 4.1 Fast	2.8	1.6	33.3%	1		5.51s	208	0

Comparación rápida

Cambiar par de comparación

Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BnonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsQwen3.5-9Bnone Grok 4.1 FastnonevsGLM 4.7 Flashmedium Qwen3 Coder NextmediumvsGrok 4.1 Fastnone MiniMax M2.7mediumvsGrok 4.1 Fastnone Mistral Small 4mediumvsQwen3.5-9Bnone MiniMax M2.5mediumDisponible gratisvsQwen3.5-9Bnone Mistral Small 4mediumvsGrok 4.1 Fastnone gpt-oss-120bmediumDisponible gratisvsQwen3.5-9Bnone MiniMax M2.5mediumDisponible gratisvsGrok 4.1 Fastnone Qwen3.5-9BnonevsGrok 4.20 Multi Agent Betamedium