Navegación
AI BENCHY
Advertise here

AI BENCHY Compare

StepFun: Step 3.7 Flash vs xAI: Grok Build 0.1

Resumen

Comparación benchmark de Step 3.7 Flash vs Grok Build 0.1: Step 3.7 Flash lidera en puntuación media con 7.7 vs 7.6. Step 3.7 Flash tiene menor coste de benchmark con $0.341 vs $0.927. Step 3.7 Flash es más rápido con 15.74s vs 49.90s, con tasas de acierto de 68.3% vs 61.9%.

Modelo recomendado: Step 3.7 Flash - Tiene la mejor puntuación aquí (7.7) y cuesta aproximadamente 2.7x menos que Grok Build 0.1.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-12

Métrica Step 3.7 Flash Step 3.7 Flash low Lanzamiento: 2026-05-29 Grok Build 0.1 Grok Build 0.1 medium Lanzamiento: 2026-05-21
Puntuación 7.7 7.6
Rango #42 #44
Fiabilidad 10.0 10.0
Consistencia 8.4 9.9
Pruebas correctas
Tasa de aciertos por intento 68.3% 61.9%
Pruebas inestables 4 0
Ejecuciones totales 63 63
Costo por resultado 2.840 7.124
Costo total $0.341 $0.927
Precio de entrada $0.200 / 1M $1.000 / 1M
Precio de salida $1.150 / 1M $2.000 / 1M
Total de tokens de entrada 40,101 44,418
Tokens de salida 289,325 2,782
Tokens de razonamiento 0 438,018
Tiempo de respuesta (promedio) 15.74s 49.90s
Tiempo de respuesta (máximo) 124.75s 252.69s
Tiempo de respuesta (total) 330.63s 1047.92s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#42 Step 3.7 Flash

low
Invalid SVG
Cost
$0.004
Time
25.3s
Tokens
3,072 tok

#44 xAI: Grok Build 0.1

medium
Cost
$0.028
Time
81.3s
Tokens
14,009 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 8.7 7.9 91.7% 1 4.02s 756 10,896 0
Grok Build 0.1 8.3 10.0 75.0% 0 7.43s 2,010 220 12,162
Programación Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 8.2 7.2 88.9% 1 9.46s 7,437 18,685 0
Grok Build 0.1 5.7 9.7 33.3% 0 108.46s 8,304 1,138 161,452
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 10.0 10.0 100.0% 0 7.98s 13,683 6,426 0
Grok Build 0.1 10.0 10.0 100.0% 0 32.81s 12,909 231 16,917
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 7.3 5.8 83.3% 1 2.29s 7,398 2,667 0
Grok Build 0.1 10.0 10.0 100.0% 0 10.72s 7,761 180 8,876
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 5.3 7.2 44.4% 1 43.31s 828 104,487 0
Grok Build 0.1 5.3 10.0 33.3% 0 158.00s 1,764 492 175,294
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 3.4 9.3 0.0% 0 7.00s 525 4,604 0
Grok Build 0.1 4.4 9.9 0.0% 0 18.41s 825 76 6,345
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 9.8 10.0 100.0% 0 1.58s 735 1,857 0
Grok Build 0.1 9.8 10.0 100.0% 0 12.36s 1,362 57 9,599
Resolución de acertijos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 5.5 9.9 33.3% 0 1.84s 756 3,564 0
Grok Build 0.1 7.7 10.0 66.7% 0 18.26s 1,689 195 20,841
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 10.0 10.0 100.0% 0 3.25s 7,746 1,360 0
Grok Build 0.1 10.0 10.0 100.0% 0 13.12s 7,263 180 4,969
Cultura general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Step 3.7 Flash 3.0 10.0 0.0% 0 124.75s 237 134,779 0
Grok Build 0.1 3.0 10.0 0.0% 0 53.51s 531 13 21,563

Comparación rápida

Cambiar par de comparación