StepFun: Step 3.5 Flash

Benchmarks generados a partir de los suites de prueba de Aibenchy en : 19 feb 2026

Desglose por categoría

Categoría	Pruebas totalmente superadas	Score	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Puntuación de razonamiento	Costo
Anti-AI Tricks	1/2	5.50	5.81	83.3%	1	10.00	$0.00000
Data parsing and extraction	1/2	5.00	10.00	50.0%	0	9.75	$0.00000
Domain specific	1/3	4.00	7.21	44.4%	1	8.44	$0.00000
Instructions following	2/2	10.00	10.00	100.0%	0	9.67	$0.00000
Puzzle Solving	0/3	2.00	4.96	33.3%	2	9.22	$0.00000

Comparar StepFun: Step 3.5 Flash contra...

#17 · MiniMax

Razonamiento (medium)

Score: 5.08

Consistencia: 6.00

Tasa de aciertos por intento: 61.1%

Pruebas inestables: 6

Costo por resultado: 4.0276

Pruebas correctas: 5/12

Costo total: $0.20138

#19 · OpenAI

Sin razonamiento

Score: 4.00

Consistencia: 9.98

Tasa de aciertos por intento: 25.0%

Pruebas inestables: 0

Costo por resultado: 0.0576

Pruebas correctas: 3/12

Costo total: $0.00173

#16 · Anthropic

Razonamiento (medium)

Score: 5.42

Consistencia: 8.60

Tasa de aciertos por intento: 55.5%

Pruebas inestables: 2

Costo por resultado: 12.8695

Pruebas correctas: 6/12

Costo total: $0.77217

Comparar StepFun: Step 3.5 Flash contra...