Step 3.5 FlashStep 3.5 FlashnoneModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.Lanzamiento: 2026-02-01
Puntuación
9.6Puntaje promedio en todas las pruebas de benchmark.…
7.8Puntaje promedio en todas las pruebas de benchmark.…
Rango
#2
#32
Fiabilidad
10.0Puntuación de éxito en el primer intento: 10.0 significa que no hubo fallos reintentables de la API objetivo ni de límite de tasa antes de llamadas exitosas; los fallos registrados bajan la puntuación.…
10.0Puntuación de éxito en el primer intento: 10.0 significa que no hubo fallos reintentables de la API objetivo ni de límite de tasa antes de llamadas exitosas; los fallos registrados bajan la puntuación.…
Consistencia
9.6La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
Pruebas correctas
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.30sTiempo de respuesta (máximo)34.82sTiempo de respuesta (total)165.92sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.03sTiempo de respuesta (máximo)114.12sTiempo de respuesta (total)312.26sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
Tasa de aciertos por intento
96.7%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
66.7%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
Pruebas inestables
1Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Ejecuciones totales
60Ejecuciones totales…
36Ejecuciones totales…
Costo por resultado
5.231Muestra el costo promedio por respuesta correcta del benchmark en centavos (menor es mejor).…
0.328Muestra el costo promedio por respuesta correcta del benchmark en centavos (menor es mejor).…
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.57sTiempo de respuesta (máximo)3.60sTiempo de respuesta (total)10.27sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
2.57sTiempo de respuesta (promedio)…
174Tokens de salida…
4,997Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.99sTiempo de respuesta (máximo)109.60sTiempo de respuesta (total)139.95sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.62sTiempo de respuesta (máximo)34.82sTiempo de respuesta (total)49.24sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
24.62sTiempo de respuesta (promedio)…
450Tokens de salida…
34,170Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
3.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
0.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0msUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)22.37sTiempo de respuesta (máximo)22.37sTiempo de respuesta (total)22.37sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
22.37sTiempo de respuesta (promedio)…
351Tokens de salida…
16,323Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
0.0Puntaje promedio en todas las pruebas de benchmark.…
0.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
0.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0msUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.43sTiempo de respuesta (máximo)8.51sTiempo de respuesta (total)12.87sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
6.43sTiempo de respuesta (promedio)…
279Tokens de salida…
8,466Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
0.0Puntaje promedio en todas las pruebas de benchmark.…
0.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
0.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0msUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
7.6Puntaje promedio en todas las pruebas de benchmark.…
7.2La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
77.8%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
1Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)14.09sTiempo de respuesta (máximo)22.00sTiempo de respuesta (total)42.27sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
14.09sTiempo de respuesta (promedio)…
12Tokens de salida…
24,721Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.54sTiempo de respuesta (máximo)34.54sTiempo de respuesta (total)34.54sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.63sTiempo de respuesta (máximo)3.63sTiempo de respuesta (total)3.63sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
3.63sTiempo de respuesta (promedio)…
115Tokens de salida…
1,650Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
4.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
0.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)14.37sTiempo de respuesta (máximo)14.37sTiempo de respuesta (total)14.37sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.35sTiempo de respuesta (máximo)3.42sTiempo de respuesta (total)6.69sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
3.35sTiempo de respuesta (promedio)…
70Tokens de salida…
3,799Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.30sTiempo de respuesta (máximo)9.30sTiempo de respuesta (total)9.30sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.23sTiempo de respuesta (máximo)3.68sTiempo de respuesta (total)9.69sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
3.23sTiempo de respuesta (promedio)…
241Tokens de salida…
4,940Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
9.8Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.96sTiempo de respuesta (máximo)4.96sTiempo de respuesta (total)4.96sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
4.96sTiempo de respuesta (promedio)…
265Tokens de salida…
1,608Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
0.0Puntaje promedio en todas las pruebas de benchmark.…
0.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
0.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0msUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
10.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
100.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.94sTiempo de respuesta (máximo)3.94sTiempo de respuesta (total)3.94sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…
3.94sTiempo de respuesta (promedio)…
12Tokens de salida…
2,005Tokens de razonamiento…
Step 3.5 FlashModelo archivado: este modelo ya no se actualiza ni se prueba en pruebas nuevas.
3.0Puntaje promedio en todas las pruebas de benchmark.…
10.0La consistencia refleja la estabilidad entre ejecuciones (10 = muy consistente, incluso si es consistentemente incorrecto).…
0.0%Tasa de aciertos por intento = intentos correctos / intentos totales en todas las ejecuciones.…
0Pruebas inestables tuvieron resultados mixtos entre ejecuciones (al menos un acierto y un fallo).…
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)114.12sTiempo de respuesta (máximo)114.12sTiempo de respuesta (total)114.12sUna prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.…