AI BENCHY Compare

StepFun: Step 3.7 Flash vs Xiaomi: MiMo-V2.5

Resumen

Comparación benchmark de Step 3.7 Flash vs MiMo-V2.5: MiMo-V2.5 lidera en puntuación media con 7.3 vs 7.0. MiMo-V2.5 tiene menor coste de benchmark con $0.063 vs $1.148. MiMo-V2.5 es más rápido con 27.11s vs 64.46s, con tasas de acierto de 63.5% vs 69.8%.

Modelo recomendado: MiMo-V2.5 - Tiene la mejor puntuación aquí (7.3) y cuesta aproximadamente 18.4x menos que Step 3.7 Flash.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-04

Métrica	Step 3.7 Flash Step 3.7 Flash high Lanzamiento: 2026-05-29	MiMo-V2.5 MiMo-V2.5 medium Lanzamiento: 2026-04-22

Métrica	Step 3.7 Flash Step 3.7 Flash high Lanzamiento: 2026-05-29	MiMo-V2.5 MiMo-V2.5 medium Lanzamiento: 2026-04-22
Puntuación	7.0	7.3
Rango	#71	#56
Fiabilidad	10.0	10.0
Consistencia	8.2	8.1
Pruebas correctas
Tasa de aciertos por intento	63.5%	69.8%
Pruebas inestables	4	5
Ejecuciones totales	63	63
Costo por resultado	10.434	2.966
Costo total	$1.148	$0.063
Precio de entrada	$0.200 / 1M	$0.140 / 1M
Precio de salida	$1.150 / 1M	$0.280 / 1M
Total de tokens de entrada	38,391	41,838
Tokens de salida	991,355	2,827
Tokens de razonamiento	0	198,898
Tiempo de respuesta (promedio)	64.46s	27.11s
Tiempo de respuesta (máximo)	364.99s	162.44s
Tiempo de respuesta (total)	1353.57s	569.38s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#71 Step 3.7 Flash

high

Cost: $0.007
Time: 63.6s
Tokens: 6,030 tok

#56 MiMo-V2.5

medium

Cost: $0.002
Time: 54.8s
Tokens: 5,247 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0
MiMo-V2.5	10.0	10.0	100.0%	0		4.14s	621	281	1,739

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0
MiMo-V2.5	6.2	4.7	66.7%	2		97.14s	7,422	557	81,977

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0
MiMo-V2.5	10.0	10.0	100.0%	0		16.86s	15,060	363	7,609

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0
MiMo-V2.5	2.7	5.7	16.7%	1		6.33s	7,746	306	5,714

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0
MiMo-V2.5	5.3	10.0	33.3%	0		34.53s	735	507	49,478

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0
MiMo-V2.5	5.4	2.5	66.7%	1		5.37s	492	121	418

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0
MiMo-V2.5	9.9	10.0	100.0%	0		1.80s	672	88	801

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0
MiMo-V2.5	8.2	7.2	88.9%	1		20.25s	660	279	33,254

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0
MiMo-V2.5	10.0	10.0	100.0%	0		7.29s	8,220	303	2,424

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0
MiMo-V2.5	3.0	10.0	0.0%	0		51.29s	210	22	15,484

Comparación rápida

Cambiar par de comparación

GPT-5.4 NanomediumvsStep 3.7 Flashhigh Claude Opus 4.6mediumvsStep 3.7 Flashhigh Claude Opus 4.8nonevsStep 3.7 Flashhigh Step 3.7 FlashlowvsMiMo-V2.5medium MiniMax M3mediumvsStep 3.7 Flashhigh Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Gemini 3.1 Flash LitelowvsMiMo-V2.5medium DeepSeek V3.2mediumvsStep 3.7 Flashhigh GPT-5.3 ChatnonevsMiMo-V2.5medium Qwen3.5-35B-A3BmediumvsStep 3.7 Flashhigh Step 3.7 FlashhighvsGrok 4.20medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium