AI BENCHY
Comparar
❤️ Made by XCS

Nombre del modelo

StepFun: Step 3.5 Flash

Benchmarks generados a partir de los suites de prueba de Aibenchy en : 19 feb 2026

Métrica StepFun: Step 3.5 Flash
Rango#18
EmpresaStepfun
Score 4.92
Consistencia 7.34
Costo por resultado 0.0000
Costo total $0.00000
Pruebas correctas 5/12
Tasa de aciertos por intento 58.3%
Pruebas inestables 4
Tokens de salida 46,871
Tokens de razonamiento 95,440

Desglose por categoría

Categoría Pruebas totalmente superadas Score Consistencia Tasa de aciertos por intento Pruebas inestables Puntuación de razonamiento Costo
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

Modelos comparados

Comparar StepFun: Step 3.5 Flash contra...

#17 · MiniMax

MiniMax: MiniMax M2.5

Razonamiento (medium)

Score: 5.08

Consistencia: 6.00

Tasa de aciertos por intento: 61.1%

Pruebas inestables: 6

Costo por resultado: 4.0276

Pruebas correctas: 5/12

Costo total: $0.20138

Comparar

#19 · OpenAI

OpenAI: GPT-4o-mini

Sin razonamiento

Score: 4.00

Consistencia: 9.98

Tasa de aciertos por intento: 25.0%

Pruebas inestables: 0

Costo por resultado: 0.0576

Pruebas correctas: 3/12

Costo total: $0.00173

Comparar

#16 · Anthropic

Anthropic: Claude Opus 4.6

Razonamiento (medium)

Score: 5.42

Consistencia: 8.60

Tasa de aciertos por intento: 55.5%

Pruebas inestables: 2

Costo por resultado: 12.8695

Pruebas correctas: 6/12

Costo total: $0.77217

Comparar

Comparación rápida

Comparar StepFun: Step 3.5 Flash contra...