AI BENCHY Compare

Qwen: Qwen3.5-35B-A3B vs xAI: Grok 4.20 Beta

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Lanzamiento: 2026-02-24	Grok 4.20 Beta Grok 4.20 Beta none Lanzamiento: 2026-03-12

Métrica	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Lanzamiento: 2026-02-24	Grok 4.20 Beta Grok 4.20 Beta none Lanzamiento: 2026-03-12
Rango	#48	#52
Puntaje prom.	4.7	4.4
Consistencia	8.6	9.1
Costo por resultado	0.237	2.214
Costo total	$0.015	$0.089
Pruebas correctas
Tasa de aciertos por intento	50.0%	33.3%
Pruebas inestables	3	2
Ejecuciones totales	48	48
Tokens de salida	3,756	1,511
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	4.10s	1.22s
Tiempo de respuesta (máximo)	47.43s	6.48s
Tiempo de respuesta (total)	65.62s	19.53s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	7.2	22.2%	1		1.76s	569	0
Grok 4.20 Beta	3.3	7.9	22.2%	1		562ms	245	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	10.0	0.0%	0		47.43s	1,833	0
Grok 4.20 Beta	10.0	10.0	0.0%	0		6.48s	282	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	9.9	10.0	100.0%	0		1.16s	243	0
Grok 4.20 Beta	9.9	10.0	100.0%	0		601ms	197	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	7.0	10.0	66.7%	0		485ms	15	0
Grok 4.20 Beta	10.0	10.0	0.0%	0		611ms	160	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	6.0	3.4	66.7%	1		1.19s	114	0
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	5.0	10.0	50.0%	0		809ms	63	0
Grok 4.20 Beta	4.5	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	1.7	7.4	22.2%	1		1.34s	655	0
Grok 4.20 Beta	4.0	7.2	55.6%	1		541ms	291	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Comparación rápida

Cambiar par de comparación

MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsGrok 4.20 Betanone gpt-oss-120bmediumDisponible gratisvsQwen3.5-35B-A3Bnone Mercury 2mediumvsQwen3.5-35B-A3Bnone gpt-oss-120bmediumDisponible gratisvsGrok 4.20 Betanone GPT-5 NanomediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20 Betanone Nemotron 3 Super 120b A12bmediumDisponible gratisvsQwen3.5-35B-A3Bnone Qwen3.5-35B-A3BmediumvsGrok 4.20 Betanone GPT-5 NanomediumvsGrok 4.20 Betanone