Navegación
AI BENCHY
Your ad here

AI BENCHY Compare

Google: Gemini 3 Flash Preview vs Grok 4.20 Multi Agent Beta

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-26

Métrica Gemini 3 Flash Preview Gemini 3 Flash Preview medium Lanzamiento: 2025-12-17 Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lanzamiento: 2026-03-12
Puntuación 10.0 6.4
Rango #1 #67
Fiabilidad N/D N/D
Consistencia 10.0 7.4
Pruebas correctas
Tasa de aciertos por intento 100.0% 57.4%
Pruebas inestables 0 6
Ejecuciones totales 18 52
Costo por resultado 0.600 72.473
Costo total $0.108 $5.074
Precio de entrada $0.500 / 1M $0.000 / 1M
Precio de salida $3.000 / 1M $0.000 / 1M
Tokens de salida 655 299,034
Tokens de razonamiento 33,749 309,670
Tiempo de respuesta (promedio) 12.11s 9.80s
Tiempo de respuesta (máximo) 82.37s 35.28s
Tiempo de respuesta (total) 217.93s 156.75s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 3.26s 110 1,076
Grok 4.20 Multi Agent Beta 6.9 5.8 75.0% 2 3.46s 33,706 33,077
Programación Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 82.37s 144 16,257
Grok 4.20 Multi Agent Beta 10.0 10.0 100.0% 0 27.11s 86 13,141
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 23.58s 117 3,495
Grok 4.20 Multi Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 7.62s 93 2,197
Grok 4.20 Multi Agent Beta 10.0 10.0 100.0% 0 5.54s 25,306 25,051
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 14.81s 4 7,228
Grok 4.20 Multi Agent Beta 2.9 7.2 11.1% 1 24.67s 164,609 163,647
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 6.34s 24 635
Grok 4.20 Multi Agent Beta 5.8 2.8 66.7% 1 6.40s 15,848 15,746
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 4.30s 24 903
Grok 4.20 Multi Agent Beta 8.3 10.0 50.0% 0 4.63s 25,457 25,322
Resolución de acertijos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 4.86s 61 1,455
Grok 4.20 Multi Agent Beta 7.2 5.1 77.8% 2 5.01s 34,022 33,686
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 9.78s 78 503
Grok 4.20 Multi Agent Beta 3.0 10.0 0.0% 0 0ms 0 0

Comparación rápida

Cambiar par de comparación