AI BENCHY Compare

Qwen: Qwen3.5 Plus 2026-02-15 vs StepFun: Step 3.7 Flash

Resumen

Comparación benchmark de Qwen3.5 Plus 2026-02-15 vs Step 3.7 Flash: Step 3.7 Flash lidera en puntuación media con 7.1 vs 5.8. Qwen3.5 Plus 2026-02-15 tiene menor coste de benchmark con $0.016 vs $1.148. Qwen3.5 Plus 2026-02-15 es más rápido con 2.31s vs 64.46s, con tasas de acierto de 46.0% vs 63.5%.

Modelo recomendado: Qwen3.5 Plus 2026-02-15 - Ofrece el mejor equilibrio general: puntuación competitiva (5.8), menor coste que Step 3.7 Flash y tiempo de respuesta equilibrado.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-18

Métrica	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Lanzamiento: 2026-02-15	Step 3.7 Flash Step 3.7 Flash high Lanzamiento: 2026-05-29

Métrica	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Lanzamiento: 2026-02-15	Step 3.7 Flash Step 3.7 Flash high Lanzamiento: 2026-05-29
Puntuación	5.8	7.1
Rango	#106	#63
Fiabilidad	10.0	10.0
Consistencia	9.4	8.2
Pruebas correctas
Tasa de aciertos por intento	46.0%	63.5%
Pruebas inestables	2	4
Ejecuciones totales	63	63
Costo por resultado	0.204	10.434
Costo total	$0.016	$1.148
Precio de entrada	$0.260 / 1M	$0.200 / 1M
Precio de salida	$1.560 / 1M	$1.150 / 1M
Total de tokens de entrada	45,864	38,391
Tokens de salida	2,480	991,355
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	2.31s	64.46s
Tiempo de respuesta (máximo)	6.65s	364.99s
Tiempo de respuesta (total)	34.63s	1353.57s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#106 Qwen3.5 Plus 2026-02-15

none

Coste: $0.012
Tiempo: 153.2s
Tokens: 7,787 tok

#63 Step 3.7 Flash

high

Coste: $0.007
Tiempo: 63.6s
Tokens: 6,030 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	4.8	10.0	25.0%	0		1.91s	696	517	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	4.3	7.9	11.1%	1		2.05s	7,913	473	0
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		6.65s	18,304	314	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.89s	7,794	243	0
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		1.17s	789	17	0
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	4.4	3.0	33.3%	1		2.26s	522	117	0
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	711	72	0
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	7.7	10.0	66.7%	0		2.71s	714	494	0
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	8,211	222	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		1.11s	210	11	0
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Comparación rápida

Cambiar par de comparación