Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Qwen: Qwen3.5 Plus 2026-02-15 vs StepFun: Step 3.5 Flash

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	Qwen: Qwen3.5 Plus 2026-02-15 none Lanzamiento: 2026-02-15	StepFun: Step 3.5 Flash medium Lanzamiento: 2026-02-01 Disponible gratis
Rango	#29	#13
Puntaje prom.	6.2	7.4
Consistencia	9.6	9.1
Costo por resultado	0.172	0.000
Costo total	$0.016	$0.000
Pruebas correctas
Tasa de aciertos por intento	58.3%	68.8%
Pruebas inestables	1	2
Ejecuciones totales	48	48
Tokens de salida	2,015	71,452
Tokens de razonamiento	0	155,147
Tiempo de respuesta (promedio)	2.65s	29.10s
Tiempo de respuesta (máximo)	6.65s	170.45s
Tiempo de respuesta (total)	26.52s	290.96s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen: Qwen3.5 Plus 2026-02-15	4.0	10.0	33.3%	0		2.74s	514	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	0.0%	0		6.65s	314	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen: Qwen3.5 Plus 2026-02-15	9.9	10.0	100.0%	0		1.89s	243	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen: Qwen3.5 Plus 2026-02-15	4.0	10.0	33.3%	0		1.17s	17	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen: Qwen3.5 Plus 2026-02-15	4.0	3.0	33.3%	1		2.26s	117	0
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	72	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen: Qwen3.5 Plus 2026-02-15	7.0	10.0	66.7%	0		2.82s	516	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	222	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparación rápida

Cambiar par de comparación

Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponible gratis GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponible gratis GPT-5.2mediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsStep 3.5 FlashmediumDisponible gratis GPT-5 NanomediumvsQwen3.5 Plus 2026-02-15none