AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Xiaomi: MiMo-V2.5

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-05-19

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	MiMo-V2.5 MiMo-V2.5 medium Lanzamiento: 2026-04-22

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lanzamiento: 2026-02-17	MiMo-V2.5 MiMo-V2.5 medium Lanzamiento: 2026-04-22
Puntuación	7.8	7.8
Rango	#40	#37
Fiabilidad	10.0	10.0
Consistencia	9.6	8.6
Pruebas correctas
Tasa de aciertos por intento	70.2%	75.9%
Pruebas inestables	1	3
Ejecuciones totales	57	54
Costo por resultado	9.515	2.101
Costo total	$1.237	$0.253
Precio de entrada	$3.000 / 1M	$0.400 / 1M
Precio de salida	$15.000 / 1M	$2.000 / 1M
Tokens de salida	45,505	2,821
Tokens de razonamiento	28,370	116,207
Tiempo de respuesta (promedio)	14.25s	14.40s
Tiempo de respuesta (máximo)	46.35s	86.93s
Tiempo de respuesta (total)	156.71s	259.20s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
MiMo-V2.5	10.0	10.0	100.0%	0		4.14s	281	1,739

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
MiMo-V2.5	10.0	10.0	100.0%	0		31.48s	488	14,813

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
MiMo-V2.5	10.0	10.0	100.0%	0		16.86s	363	7,609

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
MiMo-V2.5	2.7	5.7	16.7%	1		6.33s	306	5,714

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
MiMo-V2.5	5.3	10.0	33.3%	0		34.53s	507	49,478

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
MiMo-V2.5	5.4	2.5	66.7%	1		5.37s	121	418

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
MiMo-V2.5	9.9	10.0	100.0%	0		1.80s	88	801

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
MiMo-V2.5	8.2	7.2	88.9%	1		20.60s	364	33,211

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
MiMo-V2.5	10.0	10.0	100.0%	0		7.29s	303	2,424

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
MiMo-V2.5	-	-	-	-	-	-	-	-

Comparación rápida

Cambiar par de comparación

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium Gemini 3 Flash PreviewnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Litelow GPT-5.2 ChatnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash LitelowvsMiMo-V2.5medium Claude Sonnet 4.6mediumvsDeepSeek V4 FlashhighDisponible gratis