Navegación
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 3 Flash Preview vs OpenAI: GPT-5.4

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-03

Métrica Gemini 3 Flash Preview Gemini 3 Flash Preview medium Lanzamiento: 2025-12-17 GPT-5.4 GPT-5.4 medium Lanzamiento: 2026-03-05
Puntuación 9.8 7.9
Rango #1 #27
Fiabilidad 10.0 10.0
Consistencia 9.6 8.5
Pruebas correctas
Tasa de aciertos por intento 98.3% 75.0%
Pruebas inestables 1 4
Ejecuciones totales 60 60
Costo por resultado 2.980 8.765
Costo total $0.567 $1.140
Precio de entrada $0.500 / 1M $2.500 / 1M
Precio de salida $3.000 / 1M $15.000 / 1M
Total de tokens de entrada 34,014 31,489
Tokens de salida 2,000 2,221
Tokens de razonamiento 181,033 68,486
Tiempo de respuesta (promedio) 16.50s 22.31s
Tiempo de respuesta (máximo) 117.26s 100.41s
Tiempo de respuesta (total) 330.06s 446.17s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 3.88s 494 330 3,216
GPT-5.4 8.3 10.0 75.0% 0 4.11s 606 240 1,511
Programación Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 7.9 6.4 83.3% 1 95.96s 5,119 456 127,964
GPT-5.4 8.2 6.7 83.3% 1 54.98s 4,686 412 19,995
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 22.42s 12,873 351 10,485
GPT-5.4 10.0 10.0 100.0% 0 20.57s 11,019 301 3,543
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 5.43s 7,548 279 4,893
GPT-5.4 10.0 10.0 100.0% 0 5.32s 7,140 234 804
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 15.27s 633 12 21,684
GPT-5.4 5.3 7.2 44.4% 1 74.27s 619 61 34,748
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 5.19s 486 72 1,905
GPT-5.4 4.7 3.1 33.3% 1 4.92s 477 145 321
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 4.04s 615 72 2,709
GPT-5.4 10.0 10.0 100.0% 0 3.11s 660 93 897
Resolución de acertijos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 4.05s 558 183 4,365
GPT-5.4 8.2 7.2 88.9% 1 9.14s 642 441 3,815
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 12.60s 5,532 234 1,487
GPT-5.4 10.0 10.0 100.0% 0 13.28s 5,445 264 1,031
Cultura general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
Gemini 3 Flash Preview 10.0 10.0 100.0% 0 5.50s 156 11 2,325
GPT-5.4 3.0 10.0 0.0% 0 13.95s 195 30 1,821

Comparación rápida

Cambiar par de comparación