AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Elephant

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-14

Métrica	Kimi K2.5 Kimi K2.5 none Lanzamiento: 2026-01-27	Elephant Elephant none Lanzamiento: 2026-04-14

Métrica	Kimi K2.5 Kimi K2.5 none Lanzamiento: 2026-01-27	Elephant Elephant none Lanzamiento: 2026-04-14
Puntuación	5.5	5.2
Rango	#72	#81
Consistencia	8.7	9.6
Pruebas correctas
Tasa de aciertos por intento	40.7%	31.5%
Pruebas inestables	3	1
Ejecuciones totales	54	54
Costo por resultado	0.271	0.000
Costo total	$0.017	$0.000
Precio de entrada	$0.383 / 1M	$0.000 / 1M
Precio de salida	$1.720 / 1M	$0.000 / 1M
Tokens de salida	2,659	2,573
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	13.37s	1.23s
Tiempo de respuesta (máximo)	42.13s	3.81s
Tiempo de respuesta (total)	147.05s	22.16s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	3.6	8.4	8.3%	1		6.24s	373	0
Elephant	6.6	10.0	50.0%	0		963ms	610	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	10.0	10.0	100.0%	0		38.78s	649	0
Elephant	6.4	3.3	66.7%	1		1.39s	375	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	2.8	2.1	33.3%	1		19.16s	748	0
Elephant	3.0	10.0	0.0%	0		3.81s	731	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	7.3	5.8	83.3%	1		42.13s	187	0
Elephant	6.5	10.0	50.0%	0		1.04s	246	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	5.3	10.0	33.3%	0		4.38s	29	0
Elephant	3.0	10.0	0.0%	0		927ms	24	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	10.0	10.0	100.0%	0		4.00s	76	0
Elephant	4.0	10.0	0.0%	0		854ms	106	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	6.5	10.0	50.0%	0		2.67s	60	0
Elephant	9.8	10.0	100.0%	0		1.03s	81	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	3.1	10.0	0.0%	0		4.73s	317	0
Elephant	3.3	10.0	0.0%	0		849ms	170	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	10.0	10.0	100.0%	0		13.99s	220	0
Elephant	3.0	10.0	0.0%	0		2.79s	230	0

Comparación rápida

Cambiar par de comparación

MiniMax M2.7mediumvsElephantnone Mistral Small 4mediumvsKimi K2.5none MiniMax M2.5mediumDisponible gratisvsKimi K2.5none MiniMax M2.7mediumvsKimi K2.5none Kimi K2.5nonevsgpt-oss-120bmediumDisponible gratis Kimi K2.5nonevsElephantmedium Mistral Small 4mediumvsElephantnone ElephantnonevsQwen3 Coder Nextmedium MiniMax M2.5mediumDisponible gratisvsElephantnone ElephantnonevsGLM 4.7 Flashmedium gpt-oss-120bmediumDisponible gratisvsElephantnone Kimi K2.5nonevsGPT-5 Nanomedium