AI BENCHY Compare
Inception: Mercury 2 vs xAI: Grok 4.20
Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-02
| Métrica | Mercury 2 Mercury 2 medium | Grok 4.20 Grok 4.20 none |
|---|---|---|
| Puntuación | 6.3 | 5.4 |
| Rango | #51 | #69 |
| Consistencia | 8.5 | 9.5 |
| Pruebas correctas | ||
| Tasa de aciertos por intento | 51.0% | 31.4% |
| Pruebas inestables | 3 | 1 |
| Ejecuciones totales | 51 | 51 |
| Costo por resultado | 0.634 | 1.809 |
| Costo total | $0.045 | $0.091 |
| Precio de entrada | $0.250 / 1M | $2.000 / 1M |
| Precio de salida | $0.750 / 1M | $6.000 / 1M |
| Tokens de salida | 3,723 | 1,655 |
| Tokens de razonamiento | 46,120 | 0 |
| Tiempo de respuesta (promedio) | 2.25s | 1.11s |
| Tiempo de respuesta (máximo) | 14.63s | 6.04s |
| Tiempo de respuesta (total) | 35.99s | 18.80s |
Puntuación vs costo total
Tiempo de respuesta (promedio)
Puntuación vs Tiempo de respuesta (promedio)
Total de tokens de salida
Puntuación vs Total de tokens de salida
Desglose por categoría
Comparación rápida
Cambiar par de comparación
DeepSeek V3.2nonevsMercury 2mediumMercury 2mediumvsMiMo-V2-OmninoneMistral Small 4mediumvsGrok 4.20noneMercury 2mediumvsQwen3.5-FlashnoneMercury 2mediumvsGLM 5V TurbononeSeed-2.0-LitenonevsMercury 2mediumMiniMax M2.7mediumvsGrok 4.20noneGemini 2.5 FlashnonevsMercury 2mediumMercury 2mediumvsQwen3.5-35B-A3BnoneMercury 2mediumvsGLM 5noneGemma 4 31BnonevsMercury 2mediumMercury 2mediumvsHunter Alphanone