AI BENCHY Compare
OpenAI: GPT-5.4 vs xAI: Grok 4.20
Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-02
| Métrica | GPT-5.4 GPT-5.4 none | Grok 4.20 Grok 4.20 none |
|---|---|---|
| Puntuación | 5.6 | 5.4 |
| Rango | #64 | #69 |
| Consistencia | 9.0 | 9.5 |
| Pruebas correctas | ||
| Tasa de aciertos por intento | 39.2% | 31.4% |
| Pruebas inestables | 2 | 1 |
| Ejecuciones totales | 51 | 51 |
| Costo por resultado | 1.573 | 1.809 |
| Costo total | $0.095 | $0.091 |
| Precio de entrada | $2.500 / 1M | $2.000 / 1M |
| Precio de salida | $15.000 / 1M | $6.000 / 1M |
| Tokens de salida | 1,837 | 1,655 |
| Tokens de razonamiento | 0 | 0 |
| Tiempo de respuesta (promedio) | 1.43s | 1.11s |
| Tiempo de respuesta (máximo) | 2.89s | 6.04s |
| Tiempo de respuesta (total) | 24.27s | 18.80s |
Puntuación vs costo total
Tiempo de respuesta (promedio)
Puntuación vs Tiempo de respuesta (promedio)
Total de tokens de salida
Puntuación vs Total de tokens de salida
Desglose por categoría
Comparación rápida
Cambiar par de comparación
Mistral Small 4mediumvsGPT-5.4noneMistral Small 4mediumvsGrok 4.20noneMiniMax M2.5mediumDisponible gratisvsGPT-5.4noneMiniMax M2.7mediumvsGrok 4.20noneMiniMax M2.5mediumDisponible gratisvsGrok 4.20noneQwen3 Coder NextmediumvsGrok 4.20noneGPT-5.4nonevsGrok 4.20 Multi Agent Betamediumgpt-oss-120bmediumDisponible gratisvsGrok 4.20noneMiniMax M2.7mediumvsGPT-5.4noneMercury 2mediumvsGPT-5.4noneGrok 4.20nonevsGLM 4.7 FlashmediumGPT-5.4nonevsQwen3 Coder Nextmedium