AI BENCHY Compare

Qwen: Qwen3.5-9B vs StepFun: Step 3.5 Flash

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Qwen3.5-9B Qwen3.5-9B none Lanzamiento: 2026-03-02	Step 3.5 Flash Step 3.5 Flash medium Lanzamiento: 2026-02-01 Disponible gratis

Métrica	Qwen3.5-9B Qwen3.5-9B none Lanzamiento: 2026-03-02	Step 3.5 Flash Step 3.5 Flash medium Lanzamiento: 2026-02-01 Disponible gratis
Rango	#60	#14
Puntaje prom.	3.4	7.4
Consistencia	10.0	9.1
Costo por resultado	0.111	0.000
Costo total	$0.005	$0.000
Pruebas correctas
Tasa de aciertos por intento	25.0%	68.8%
Pruebas inestables	0	2
Ejecuciones totales	48	48
Tokens de salida	2,939	71,452
Tokens de razonamiento	0	155,147
Tiempo de respuesta (promedio)	1.06s	29.10s
Tiempo de respuesta (máximo)	5.91s	170.45s
Tiempo de respuesta (total)	16.95s	290.96s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	9.9	0.0%	0		1.02s	576	0
Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	0.0%	0		5.91s	1,255	0
Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	9.9	10.0	100.0%	0		847ms	249	0
Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	0.0%	0		464ms	24	0
Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	3.0	9.9	0.0%	0		552ms	99	0
Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	5.5	10.0	50.0%	0		514ms	75	0
Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	9.9	0.0%	0		683ms	388	0
Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0
Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparación rápida

Cambiar par de comparación

GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponible gratis GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponible gratis Qwen3.5-9BnonevsGLM 4.7 Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Sonnet 4.6nonevsStep 3.5 FlashmediumDisponible gratis Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumDisponible gratis Qwen3.5 Plus 2026-02-15nonevsStep 3.5 FlashmediumDisponible gratis MiniMax M2.5mediumvsQwen3.5-9Bnone Step 3.5 FlashmediumDisponible gratisvsGLM 5none Qwen3.5-9BnonevsGrok 4.20 Multi-Agent Betamedium