Navegación
AI BENCHY
Advertise here

AI BENCHY Compare

Qwen: Qwen3.7 Plus vs StepFun: Step 3.7 Flash

Resumen

Comparación benchmark de Qwen3.7 Plus vs Step 3.7 Flash: Qwen3.7 Plus lidera en puntuación media con 8.2 vs 7.1. Qwen3.7 Plus tiene menor coste de benchmark con $0.177 vs $1.148. Qwen3.7 Plus es más rápido con 38.95s vs 64.46s, con tasas de acierto de 77.8% vs 63.5%.

Modelo recomendado: Qwen3.7 Plus - Tiene la mejor puntuación aquí (8.2) y cuesta aproximadamente 6.5x menos que Step 3.7 Flash.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-18

Métrica Qwen3.7 Plus Qwen3.7 Plus medium Lanzamiento: 2026-06-03 Step 3.7 Flash Step 3.7 Flash high Lanzamiento: 2026-05-29
Puntuación 8.2 7.1
Rango #25 #63
Fiabilidad 10.0 10.0
Consistencia 9.1 8.2
Pruebas correctas
Tasa de aciertos por intento 77.8% 63.5%
Pruebas inestables 2 4
Ejecuciones totales 63 63
Costo por resultado 1.474 10.434
Costo total $0.177 $1.148
Precio de entrada $0.320 / 1M $0.200 / 1M
Precio de salida $1.280 / 1M $1.150 / 1M
Total de tokens de entrada 40,939 38,391
Tokens de salida 2,125 991,355
Tokens de razonamiento 125,754 0
Tiempo de respuesta (promedio) 38.95s 64.46s
Tiempo de respuesta (máximo) 178.04s 364.99s
Tiempo de respuesta (total) 817.85s 1353.57s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#25 Qwen3.7 Plus

medium
Coste
$0.018
Tiempo
193.2s
Tokens
10,821 tok

#63 Step 3.7 Flash

high
Coste
$0.007
Tiempo
63.6s
Tokens
6,030 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 10.0 10.0 100.0% 0 8.58s 672 195 5,065
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 696 42,656 0
Programación Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 6.1 6.6 55.6% 1 108.60s 6,472 414 43,576
Step 3.7 Flash 4.0 6.0 22.2% 1 206.21s 6,057 327,340 0
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 10.0 10.0 100.0% 0 65.24s 14,934 366 10,132
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 13,638 8,802 0
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 10.0 10.0 100.0% 0 21.75s 7,782 270 6,713
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 7,368 23,113 0
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 3.6 7.2 22.2% 1 45.35s 771 57 27,073
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 783 410,502 0
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 10.0 10.0 100.0% 0 25.48s 516 123 3,998
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 510 2,862 0
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 10.0 10.0 100.0% 0 16.13s 699 102 5,013
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 705 2,010 0
Resolución de acertijos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 10.0 10.0 100.0% 0 16.38s 696 280 7,312
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 711 25,422 0
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 10.0 10.0 100.0% 0 15.02s 8,193 292 1,831
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 7,701 1,172 0
Cultura general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Qwen3.7 Plus 3.0 10.0 0.0% 0 91.07s 204 26 15,041
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 222 147,476 0

Comparación rápida

Cambiar par de comparación