AI BENCHY Compare

Qwen: Qwen3.5-35B-A3B vs xAI: Grok 4.20 Beta

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lanzamiento: 2026-02-24	Grok 4.20 Beta Grok 4.20 Beta none Lanzamiento: 2026-03-12

Métrica	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lanzamiento: 2026-02-24	Grok 4.20 Beta Grok 4.20 Beta none Lanzamiento: 2026-03-12
Rango	#39	#52
Puntaje prom.	5.5	4.4
Consistencia	6.3	9.1
Costo por resultado	4.251	2.214
Costo total	$0.341	$0.089
Pruebas correctas
Tasa de aciertos por intento	77.1%	33.3%
Pruebas inestables	7	2
Ejecuciones totales	48	48
Tokens de salida	5,495	1,511
Tokens de razonamiento	169,266	0
Tiempo de respuesta (promedio)	43.93s	1.22s
Tiempo de respuesta (máximo)	106.00s	6.48s
Tiempo de respuesta (total)	702.85s	19.53s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.75s	429	36,235
Grok 4.20 Beta	3.3	7.9	22.2%	1		562ms	245	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	1.6	66.7%	1		75.34s	775	12,485
Grok 4.20 Beta	10.0	10.0	0.0%	0		6.48s	282	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	5.5	5.9	83.3%	1		59.33s	235	19,493
Grok 4.20 Beta	9.9	10.0	100.0%	0		601ms	197	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	4.4	44.5%	2		88.34s	41	46,368
Grok 4.20 Beta	10.0	10.0	0.0%	0		611ms	160	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	1.6	33.3%	1		30.30s	20	3,753
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361
Grok 4.20 Beta	4.5	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	4.0	4.4	77.8%	2		31.58s	3,589	32,206
Grok 4.20 Beta	4.0	7.2	55.6%	1		541ms	291	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Comparación rápida

Cambiar par de comparación

DeepSeek V3.2nonevsQwen3.5-35B-A3Bmedium Gemini 2.5 FlashnonevsQwen3.5-35B-A3Bmedium MiniMax M2.5mediumvsGrok 4.20 Betanone Qwen3.5-35B-A3BmediumvsGLM 5none Seed-2.0-LitenonevsQwen3.5-35B-A3Bmedium gpt-oss-120bmediumDisponible gratisvsGrok 4.20 Betanone Mercury 2mediumvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20 Betanone Hunter AlphanonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5 NanomediumvsGrok 4.20 Betanone Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium