AI BENCHY Compare

Qwen: Qwen3.5-27B vs StepFun: Step 3.7 Flash

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-05-29

Métrica	Qwen3.5-27B Qwen3.5-27B medium Lanzamiento: 2026-02-24	Step 3.7 Flash Step 3.7 Flash medium Lanzamiento: 2026-05-29

Métrica	Qwen3.5-27B Qwen3.5-27B medium Lanzamiento: 2026-02-24	Step 3.7 Flash Step 3.7 Flash medium Lanzamiento: 2026-05-29
Puntuación	7.9	7.9
Rango	#28	#32
Fiabilidad	10.0	9.9
Consistencia	8.9	9.2
Pruebas correctas
Tasa de aciertos por intento	73.3%	71.7%
Pruebas inestables	3	2
Ejecuciones totales	60	58
Costo por resultado	4.532	2.663
Costo total	$0.590	$0.347
Precio de entrada	$0.195 / 1M	$0.200 / 1M
Precio de salida	$1.560 / 1M	$1.150 / 1M
Tokens de salida	2,569	294,481
Tokens de razonamiento	304,894	0
Tiempo de respuesta (promedio)	60.09s	18.32s
Tiempo de respuesta (máximo)	177.36s	113.98s
Tiempo de respuesta (total)	1201.89s	366.45s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	569	31,505
Step 3.7 Flash	8.7	7.9	91.7%	1		9.65s	32,185	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	7.0	9.8	50.0%	0		123.86s	416	64,993
Step 3.7 Flash	8.2	6.7	83.3%	1		10.64s	19,320	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	483	9,991
Step 3.7 Flash	10.0	10.0	100.0%	0		9.06s	7,106	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	270	16,150
Step 3.7 Flash	10.0	10.0	100.0%	0		2.75s	3,020	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	43	52,368
Step 3.7 Flash	7.7	10.0	66.7%	0		48.27s	70,347	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	70	23,147
Step 3.7 Flash	4.0	10.0	0.0%	0		6.85s	3,987	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	97	11,638
Step 3.7 Flash	9.8	10.0	100.0%	0		1.83s	2,166	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	242	70,096
Step 3.7 Flash	5.7	9.9	33.3%	0		6.19s	15,071	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	348	1,323
Step 3.7 Flash	10.0	10.0	100.0%	0		4.16s	2,115	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	31	23,683
Step 3.7 Flash	3.0	10.0	0.0%	0		113.98s	139,164	0

Comparación rápida

Cambiar par de comparación

Qwen3.7 MaxnonevsStep 3.7 Flashmedium Gemini 3.5 FlashminimalvsQwen3.5-27Bmedium GPT-5.2 ChatnonevsStep 3.7 Flashmedium Gemini 3.5 FlashminimalvsStep 3.7 Flashmedium GPT-5.2 ChatnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewnonevsStep 3.7 Flashmedium Gemini 3 Flash PreviewnonevsQwen3.5-27Bmedium DeepSeek V4 FlashhighDisponible gratisvsStep 3.7 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsStep 3.7 Flashmedium DeepSeek V4 FlashhighDisponible gratisvsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.7 Flashmedium