Navegación
AI BENCHY
Comparar Gráficos
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-05

Métrica Inception: Mercury 2 none Lanzamiento: 2026-02-24 MoonshotAI: Kimi K2.5 medium Lanzamiento: 2026-01-27
Rango #50 #29
Puntaje prom. 34 64
Consistencia 89 78
Costo por resultado 0.147 2.082
Costo total $0.006 $0.188
Tiempo de respuesta (promedio) 594ms 69.84s
Tiempo de respuesta (máximo) 1.27s 137.29s
Tiempo de respuesta (total) 8.91s 558.72s
Pruebas correctas
Tasa de aciertos por intento 33.3% 73.3%
Pruebas inestables 2 4
Tokens de salida 1,144 34,638
Tokens de razonamiento 0 68,234

Mejores modelos por puntuación

Tiempo de respuesta (promedio)

Puntuación vs costo total

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Inception: Mercury 2 100 100 0.0% 0 466ms 274 0
MoonshotAI: Kimi K2.5 70 72 88.9% 1 85.28s 335 6,255
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Inception: Mercury 2 100 100 0.0% 0 606ms 131 0
MoonshotAI: Kimi K2.5 100 100 100.0% 0 71.37s 703 3,713
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Inception: Mercury 2 55 59 83.3% 1 667ms 180 0
MoonshotAI: Kimi K2.5 99 100 100.0% 0 49.78s 563 7,940
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Inception: Mercury 2 40 72 44.4% 1 534ms 46 0
MoonshotAI: Kimi K2.5 100 44 33.3% 2 137.29s 20,753 30,564
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Inception: Mercury 2 55 100 50.0% 0 551ms 82 0
MoonshotAI: Kimi K2.5 100 100 100.0% 0 92.47s 5,371 6,547
Puzzle Solving Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Inception: Mercury 2 100 100 0.0% 0 533ms 234 0
MoonshotAI: Kimi K2.5 40 73 44.4% 1 45.40s 6,671 12,403
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Inception: Mercury 2 100 100 100.0% 0 1.27s 197 0
MoonshotAI: Kimi K2.5 100 100 100.0% 0 31.74s 242 812

Comparación rápida

Cambiar par de comparación