AI BENCHY Compare

MiniMax: MiniMax M3 vs MoonshotAI: Kimi K2.5

Resumen

Comparación benchmark de MiniMax M3 vs Kimi K2.5: MiniMax M3 lidera en puntuación media con 7.6 vs 7.5. MiniMax M3 tiene menor coste de benchmark con $0.131 vs $0.348. MiniMax M3 es más rápido con 68.17s vs 98.43s, con tasas de acierto de 65.1% vs 68.3%.

Modelo recomendado: MiniMax M3 - Tiene la mejor puntuación aquí (7.6) y cuesta aproximadamente 2.7x menos que Kimi K2.5.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-02

Métrica	MiniMax M3 MiniMax M3 medium Lanzamiento: 2026-06-01	Kimi K2.5 Kimi K2.5 medium Lanzamiento: 2026-01-27

Métrica	MiniMax M3 MiniMax M3 medium Lanzamiento: 2026-06-01	Kimi K2.5 Kimi K2.5 medium Lanzamiento: 2026-01-27
Puntuación	7.6	7.5
Rango	#42	#45
Fiabilidad	9.6	10.0
Consistencia	7.9	6.9
Pruebas correctas
Tasa de aciertos por intento	65.1%	68.3%
Pruebas inestables	5	8
Ejecuciones totales	63	63
Costo por resultado	1.187	3.704
Costo total	$0.131	$0.348
Precio de entrada	$0.300 / 1M	$0.375 / 1M
Precio de salida	$1.200 / 1M	$2.025 / 1M
Total de tokens de entrada	46,546	34,312
Tokens de salida	49,036	48,379
Tokens de razonamiento	92,543	157,747
Tiempo de respuesta (promedio)	68.17s	98.43s
Tiempo de respuesta (máximo)	431.03s	281.00s
Tiempo de respuesta (total)	1363.38s	1378.03s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#42 MiniMax M3

medium

Coste: $0.012
Tiempo: 154.4s
Tokens: 10,018 tok

#45 MoonshotAI: Kimi K2.5

medium

Coste: $0.030
Tiempo: 58.6s
Tokens: 8,683 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	5.5	3.7	66.7%	3		14.95s	2,526	874	3,414
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	6.1	6.5	55.6%	1		144.74s	5,804	6,223	32,667
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	10.0	10.0	100.0%	0		65.30s	14,760	1,306	6,253
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	10.0	10.0	100.0%	0		14.92s	8,088	514	3,164
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	5.5	9.3	33.3%	0		233.13s	869	16,254	19,070
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	5.1	3.4	33.3%	1		33.25s	954	2,487	2,523
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	9.8	10.0	100.0%	0		6.14s	1,623	103	920
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	7.9	9.9	66.7%	0		49.91s	2,079	11,946	13,761
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	10.0	10.0	100.0%	0		11.91s	9,168	281	555
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
MiniMax M3	3.0	10.0	0.0%	0		100.80s	675	9,048	10,216
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644

Comparación rápida

Cambiar par de comparación

DeepSeek V4 ProhighvsMiniMax M3medium Kimi K2.5mediumvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsKimi K2.5medium MiniMax M3mediumvsStep 3.7 Flashlow MiniMax M3mediumvsGPT-5.3 Chatnone Claude Opus 4.8lowvsMiniMax M3medium Kimi K2.5mediumvsStep 3.7 Flashlow Gemini 3 Flash PreviewlowvsKimi K2.5medium Claude Opus 4.8lowvsKimi K2.5medium Gemini 3 Flash PreviewlowvsMiniMax M3medium Claude Sonnet 4.6nonevsKimi K2.5medium Claude Sonnet 4.6nonevsMiniMax M3medium