Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.60sTiempo de respuesta (máximo)79.71sTiempo de respuesta (total)193.57s…
Pruebas totales: 18Pruebas incorrectas: 0Tasa de aciertos por intento: 100.0%Pruebas inestables: 0…Tokens de salida: 2,072Tokens de razonamiento: 97,041Tiempo de respuesta: promedio 17.60s · total 193.57s · máximo 79.71s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.13sTiempo de respuesta (máximo)5.61sTiempo de respuesta (total)8.26s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)79.71sTiempo de respuesta (máximo)79.71sTiempo de respuesta (total)79.71s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)50.16sTiempo de respuesta (máximo)50.16sTiempo de respuesta (total)50.16s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.72sTiempo de respuesta (máximo)4.72sTiempo de respuesta (total)4.72s
Específico del dominio
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.12sTiempo de respuesta (máximo)21.12sTiempo de respuesta (total)21.12s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.09sTiempo de respuesta (máximo)4.09sTiempo de respuesta (total)4.09s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.10sTiempo de respuesta (máximo)6.10sTiempo de respuesta (total)6.10s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.43sTiempo de respuesta (máximo)4.68sTiempo de respuesta (total)8.85s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.55sTiempo de respuesta (máximo)10.55sTiempo de respuesta (total)10.55s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.96sTiempo de respuesta (máximo)40.61sTiempo de respuesta (total)175.52s…
Pruebas totales: 18Pruebas incorrectas: 1Tasa de aciertos por intento: 94.4%Pruebas inestables: 0…Tokens de salida: 1,932Tokens de razonamiento: 40,542Tiempo de respuesta: promedio 15.96s · total 175.52s · máximo 40.61s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.90sTiempo de respuesta (máximo)9.52sTiempo de respuesta (total)15.80s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)19.88sTiempo de respuesta (máximo)19.88sTiempo de respuesta (total)19.88s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)40.61sTiempo de respuesta (máximo)40.61sTiempo de respuesta (total)40.61s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.72sTiempo de respuesta (máximo)7.72sTiempo de respuesta (total)7.72s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)32.73sTiempo de respuesta (máximo)32.73sTiempo de respuesta (total)32.73s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.77sTiempo de respuesta (máximo)11.77sTiempo de respuesta (total)11.77s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.56sTiempo de respuesta (máximo)9.56sTiempo de respuesta (total)9.56s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.15sTiempo de respuesta (máximo)8.49sTiempo de respuesta (total)14.30s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.15sTiempo de respuesta (máximo)23.15sTiempo de respuesta (total)23.15s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.53sTiempo de respuesta (máximo)21.45sTiempo de respuesta (total)60.03s…
Pruebas totales: 18Pruebas incorrectas: 2Tasa de aciertos por intento: 88.9%Pruebas inestables: 0…Tokens de salida: 5,375Tokens de razonamiento: 1,341Tiempo de respuesta: promedio 3.53s · total 60.03s · máximo 21.45s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.85sTiempo de respuesta (máximo)2.71sTiempo de respuesta (total)7.38s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.41sTiempo de respuesta (máximo)6.41sTiempo de respuesta (total)6.41s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.45sTiempo de respuesta (máximo)21.45sTiempo de respuesta (total)21.45s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.37sTiempo de respuesta (máximo)3.30sTiempo de respuesta (total)4.74s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)2.35s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.87sTiempo de respuesta (máximo)2.87sTiempo de respuesta (total)2.87s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.57sTiempo de respuesta (máximo)1.66sTiempo de respuesta (total)3.14s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.89sTiempo de respuesta (total)7.54s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)4.17sTiempo de respuesta (total)4.17s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.13sTiempo de respuesta (máximo)18.27sTiempo de respuesta (total)56.33s…
Pruebas totales: 18Pruebas incorrectas: 2Tasa de aciertos por intento: 88.9%Pruebas inestables: 0…Tokens de salida: 6,326Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.13s · total 56.33s · máximo 18.27s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.12sTiempo de respuesta (máximo)3.75sTiempo de respuesta (total)8.50s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.84sTiempo de respuesta (máximo)2.84sTiempo de respuesta (total)2.84s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.27sTiempo de respuesta (máximo)18.27sTiempo de respuesta (total)18.27s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.15sTiempo de respuesta (máximo)2.33sTiempo de respuesta (total)4.29s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)3.58s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.47sTiempo de respuesta (máximo)3.47sTiempo de respuesta (total)3.47s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.46sTiempo de respuesta (máximo)1.68sTiempo de respuesta (total)2.91s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.58sTiempo de respuesta (máximo)4.07sTiempo de respuesta (total)7.73s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.74sTiempo de respuesta (máximo)4.74sTiempo de respuesta (total)4.74s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.01sTiempo de respuesta (máximo)14.72sTiempo de respuesta (total)108.12s…
Pruebas totales: 18Pruebas incorrectas: 3Tasa de aciertos por intento: 85.2%Pruebas inestables: 1…Tokens de salida: 2,018Tokens de razonamiento: 23,273Tiempo de respuesta: promedio 6.01s · total 108.12s · máximo 14.72s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.48sTiempo de respuesta (máximo)4.31sTiempo de respuesta (total)13.94s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.94sTiempo de respuesta (máximo)6.94sTiempo de respuesta (total)6.94s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.27sTiempo de respuesta (máximo)3.27sTiempo de respuesta (total)3.27s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.40sTiempo de respuesta (máximo)14.72sTiempo de respuesta (total)18.80s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)8.05sTiempo de respuesta (máximo)14.40sTiempo de respuesta (total)24.15s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.68sTiempo de respuesta (máximo)3.68sTiempo de respuesta (total)3.68s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.02sTiempo de respuesta (máximo)7.35sTiempo de respuesta (total)14.03s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.11sTiempo de respuesta (máximo)10.27sTiempo de respuesta (total)18.32s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.99sTiempo de respuesta (máximo)4.99sTiempo de respuesta (total)4.99s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 2Tiempo de respuesta (promedio)46.56sTiempo de respuesta (máximo)120.91sTiempo de respuesta (total)512.20s…
Pruebas totales: 18Pruebas incorrectas: 4Tasa de aciertos por intento: 83.3%Pruebas inestables: 2…Tokens de salida: 2,121Tokens de razonamiento: 111,889Tiempo de respuesta: promedio 46.56s · total 512.20s · máximo 120.91s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)45.78sTiempo de respuesta (máximo)81.20sTiempo de respuesta (total)91.57s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)120.91sTiempo de respuesta (máximo)120.91sTiempo de respuesta (total)120.91s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.85sTiempo de respuesta (máximo)46.85sTiempo de respuesta (total)46.85s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.91sTiempo de respuesta (máximo)46.91sTiempo de respuesta (total)46.91s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.50sTiempo de respuesta (máximo)17.50sTiempo de respuesta (total)17.50s
Inteligencia general
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)79.86sTiempo de respuesta (máximo)79.86sTiempo de respuesta (total)79.86s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.93sTiempo de respuesta (máximo)31.93sTiempo de respuesta (total)31.93s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.57sTiempo de respuesta (máximo)49.12sTiempo de respuesta (total)69.13s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.54sTiempo de respuesta (máximo)7.54sTiempo de respuesta (total)7.54s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Error de API: 1Tiempo de respuesta (promedio)9.06sTiempo de respuesta (máximo)26.24sTiempo de respuesta (total)90.58s…
Pruebas totales: 18Pruebas incorrectas: 4Tasa de aciertos por intento: 77.8%Pruebas inestables: 0…Tokens de salida: 1,508Tokens de razonamiento: 10,084Tiempo de respuesta: promedio 9.06s · total 90.58s · máximo 26.24s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.99sTiempo de respuesta (máximo)26.24sTiempo de respuesta (total)29.99s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.37sTiempo de respuesta (máximo)10.37sTiempo de respuesta (total)10.37s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.84sTiempo de respuesta (máximo)10.84sTiempo de respuesta (total)10.84s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.01sTiempo de respuesta (máximo)7.01sTiempo de respuesta (total)7.01s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.34sTiempo de respuesta (máximo)9.34sTiempo de respuesta (total)9.34s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.26sTiempo de respuesta (máximo)3.26sTiempo de respuesta (total)3.26s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.91sTiempo de respuesta (máximo)4.23sTiempo de respuesta (total)7.81s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.96sTiempo de respuesta (máximo)11.96sTiempo de respuesta (total)11.96s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.94sTiempo de respuesta (máximo)43.55sTiempo de respuesta (total)237.01s…
Pruebas totales: 17Pruebas incorrectas: 4Tasa de aciertos por intento: 76.5%Pruebas inestables: 0…Tokens de salida: 1,756Tokens de razonamiento: 77,213Tiempo de respuesta: promedio 13.94s · total 237.01s · máximo 43.55s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.90sTiempo de respuesta (máximo)19.37sTiempo de respuesta (total)39.60s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.95sTiempo de respuesta (máximo)34.95sTiempo de respuesta (total)34.95s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.95sTiempo de respuesta (máximo)15.40sTiempo de respuesta (total)29.90s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)22.08sTiempo de respuesta (máximo)43.55sTiempo de respuesta (total)66.23s
Inteligencia general
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)27.05sTiempo de respuesta (máximo)27.05sTiempo de respuesta (total)27.05s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.54sTiempo de respuesta (máximo)11.67sTiempo de respuesta (total)15.07s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.11sTiempo de respuesta (máximo)7.52sTiempo de respuesta (total)18.34s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.87sTiempo de respuesta (máximo)5.87sTiempo de respuesta (total)5.87s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 1Tiempo de respuesta (promedio)68.83sTiempo de respuesta (máximo)280.52sTiempo de respuesta (total)1101.32s…
Pruebas totales: 16Pruebas incorrectas: 4Tasa de aciertos por intento: 77.1%Pruebas inestables: 1…Tokens de salida: 1,283Tokens de razonamiento: 1,533,310Tiempo de respuesta: promedio 68.83s · total 1101.32s · máximo 280.52s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)43.87sTiempo de respuesta (máximo)121.88sTiempo de respuesta (total)131.62s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)280.52sTiempo de respuesta (máximo)280.52sTiempo de respuesta (total)280.52s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.16sTiempo de respuesta (máximo)8.54sTiempo de respuesta (total)14.31s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)127.58sTiempo de respuesta (máximo)133.93sTiempo de respuesta (total)382.74s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.25sTiempo de respuesta (máximo)5.25sTiempo de respuesta (total)5.25s
Seguimiento de instrucciones
: 7.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)70.07sTiempo de respuesta (máximo)136.53sTiempo de respuesta (total)140.14s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)46.33sTiempo de respuesta (máximo)134.22sTiempo de respuesta (total)139.00s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.73sTiempo de respuesta (máximo)7.73sTiempo de respuesta (total)7.73s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 2Tiempo de respuesta (promedio)30.37sTiempo de respuesta (máximo)168.71sTiempo de respuesta (total)546.72s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 83.3%Pruebas inestables: 3…Tokens de salida: 3,257Tokens de razonamiento: 52,042Tiempo de respuesta: promedio 30.37s · total 546.72s · máximo 168.71s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.99sTiempo de respuesta (máximo)48.33sTiempo de respuesta (total)71.98s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)74.49sTiempo de respuesta (máximo)74.49sTiempo de respuesta (total)74.49s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)37.67sTiempo de respuesta (máximo)37.67sTiempo de respuesta (total)37.67s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.07sTiempo de respuesta (máximo)12.19sTiempo de respuesta (total)18.14s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)88.74sTiempo de respuesta (máximo)168.71sTiempo de respuesta (total)266.21s
Inteligencia general
: 6.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)18.25sTiempo de respuesta (máximo)18.25sTiempo de respuesta (total)18.25s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.26sTiempo de respuesta (máximo)9.02sTiempo de respuesta (total)14.52s
Resolución de acertijos
: 9.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)11.03sTiempo de respuesta (máximo)13.85sTiempo de respuesta (total)33.09s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.38sTiempo de respuesta (máximo)12.38sTiempo de respuesta (total)12.38s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 2Tiempo de respuesta (promedio)15.38sTiempo de respuesta (máximo)100.93sTiempo de respuesta (total)276.91s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 83.3%Pruebas inestables: 3…Tokens de salida: 2,279Tokens de razonamiento: 35,179Tiempo de respuesta: promedio 15.38s · total 276.91s · máximo 100.93s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.16sTiempo de respuesta (máximo)6.68sTiempo de respuesta (total)16.63s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.95sTiempo de respuesta (máximo)8.95sTiempo de respuesta (total)8.95s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)19.56sTiempo de respuesta (máximo)19.56sTiempo de respuesta (total)19.56s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.07sTiempo de respuesta (máximo)3.59sTiempo de respuesta (total)6.15s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)64.31sTiempo de respuesta (máximo)100.93sTiempo de respuesta (total)192.94s
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.87sTiempo de respuesta (máximo)4.87sTiempo de respuesta (total)4.87s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.04sTiempo de respuesta (máximo)3.44sTiempo de respuesta (total)6.07s
Resolución de acertijos
: 9.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.12sTiempo de respuesta (máximo)8.73sTiempo de respuesta (total)15.37s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.37sTiempo de respuesta (máximo)6.37sTiempo de respuesta (total)6.37s
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 81.5%Pruebas inestables: 3…Tokens de salida: 2,500Tokens de razonamiento: 242,500Tiempo de respuesta: promedio 53.03s · total 954.46s · máximo 163.96s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)19.75sTiempo de respuesta (máximo)49.95sTiempo de respuesta (total)79.01s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)70.35sTiempo de respuesta (máximo)70.35sTiempo de respuesta (total)70.35s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)163.96sTiempo de respuesta (máximo)163.96sTiempo de respuesta (total)163.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)30.26sTiempo de respuesta (máximo)32.03sTiempo de respuesta (total)60.52s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)79.53sTiempo de respuesta (máximo)95.52sTiempo de respuesta (total)238.59s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)101.41sTiempo de respuesta (máximo)101.41sTiempo de respuesta (total)101.41s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)19.66sTiempo de respuesta (máximo)32.25sTiempo de respuesta (total)39.32s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)64.61sTiempo de respuesta (máximo)123.57sTiempo de respuesta (total)193.84s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.45sTiempo de respuesta (máximo)7.45sTiempo de respuesta (total)7.45s
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 85.2%Pruebas inestables: 4…Tokens de salida: 20,163Tokens de razonamiento: 58,337Tiempo de respuesta: promedio 23.34s · total 233.40s · máximo 79.09s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.66sTiempo de respuesta (máximo)25.06sTiempo de respuesta (total)47.32s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)79.09sTiempo de respuesta (máximo)79.09sTiempo de respuesta (total)79.09s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)28.96sTiempo de respuesta (máximo)28.96sTiempo de respuesta (total)28.96s
Análisis y extracción de datos
: 7.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)8.90sTiempo de respuesta (máximo)8.90sTiempo de respuesta (total)8.90s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)14.69sTiempo de respuesta (máximo)14.69sTiempo de respuesta (total)14.69s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.25sTiempo de respuesta (máximo)7.25sTiempo de respuesta (total)7.25s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.64sTiempo de respuesta (máximo)16.34sTiempo de respuesta (total)31.27s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.93sTiempo de respuesta (máximo)15.93sTiempo de respuesta (total)15.93s
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 79.6%Pruebas inestables: 2…Tokens de salida: 12,734Tokens de razonamiento: 27,950Tiempo de respuesta: promedio 24.88s · total 398.13s · máximo 70.97s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.89sTiempo de respuesta (máximo)26.66sTiempo de respuesta (total)51.55s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)70.97sTiempo de respuesta (máximo)70.97sTiempo de respuesta (total)70.97s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.11sTiempo de respuesta (máximo)21.94sTiempo de respuesta (total)42.21s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)38.48sTiempo de respuesta (máximo)68.92sTiempo de respuesta (total)115.43s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.57sTiempo de respuesta (máximo)9.57sTiempo de respuesta (total)9.57s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.76sTiempo de respuesta (máximo)17.53sTiempo de respuesta (total)25.52s
Resolución de acertijos
: 8.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)27.63sTiempo de respuesta (máximo)61.08sTiempo de respuesta (total)82.89s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 1Tiempo de respuesta (promedio)12.12sTiempo de respuesta (máximo)95.48sTiempo de respuesta (total)218.12s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 75.9%Pruebas inestables: 1…Tokens de salida: 1,898Tokens de razonamiento: 122,273Tiempo de respuesta: promedio 12.12s · total 218.12s · máximo 95.48s
Trucos anti-IA
: 8.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.30sTiempo de respuesta (máximo)15.56sTiempo de respuesta (total)25.21s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.23sTiempo de respuesta (máximo)16.23sTiempo de respuesta (total)16.23s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)28.44sTiempo de respuesta (máximo)28.44sTiempo de respuesta (total)28.44s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.06sTiempo de respuesta (máximo)5.06sTiempo de respuesta (total)8.11s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)37.34sTiempo de respuesta (máximo)95.48sTiempo de respuesta (total)112.01s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.86sTiempo de respuesta (máximo)4.86sTiempo de respuesta (total)4.86s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.62sTiempo de respuesta (máximo)2.78sTiempo de respuesta (total)5.24s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.94sTiempo de respuesta (máximo)6.33sTiempo de respuesta (total)11.83s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.20sTiempo de respuesta (máximo)6.20sTiempo de respuesta (total)6.20s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 2Tiempo de respuesta (promedio)18.63sTiempo de respuesta (máximo)100.41sTiempo de respuesta (total)335.26s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 79.6%Pruebas inestables: 3…Tokens de salida: 2,169Tokens de razonamiento: 48,732Tiempo de respuesta: promedio 18.63s · total 335.26s · máximo 100.41s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.11sTiempo de respuesta (máximo)6.42sTiempo de respuesta (total)16.42s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.03sTiempo de respuesta (máximo)13.03sTiempo de respuesta (total)13.03s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)20.57sTiempo de respuesta (máximo)20.57sTiempo de respuesta (total)20.57s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.32sTiempo de respuesta (máximo)5.40sTiempo de respuesta (total)10.64s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)74.27sTiempo de respuesta (máximo)100.41sTiempo de respuesta (total)222.80s
Inteligencia general
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.92sTiempo de respuesta (máximo)4.92sTiempo de respuesta (total)4.92s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.11sTiempo de respuesta (máximo)3.68sTiempo de respuesta (total)6.22s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)9.13sTiempo de respuesta (máximo)18.14sTiempo de respuesta (total)27.39s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.28sTiempo de respuesta (máximo)13.28sTiempo de respuesta (total)13.28s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.74sTiempo de respuesta (máximo)14.93sTiempo de respuesta (total)67.31s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 72.2%Pruebas inestables: 0…Tokens de salida: 2,168Tokens de razonamiento: 29,030Tiempo de respuesta: promedio 3.74s · total 67.31s · máximo 14.93s
Trucos anti-IA
: 9.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.33sTiempo de respuesta (máximo)3.89sTiempo de respuesta (total)9.30s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.34sTiempo de respuesta (máximo)4.34sTiempo de respuesta (total)4.34s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.93sTiempo de respuesta (máximo)14.93sTiempo de respuesta (total)14.93s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.29sTiempo de respuesta (máximo)2.31sTiempo de respuesta (total)4.59s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)4.21sTiempo de respuesta (máximo)5.86sTiempo de respuesta (total)12.62s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.16sTiempo de respuesta (máximo)3.16sTiempo de respuesta (total)3.16s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.93sTiempo de respuesta (total)3.82s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.58sTiempo de respuesta (máximo)4.41sTiempo de respuesta (total)10.75s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.80sTiempo de respuesta (máximo)3.80sTiempo de respuesta (total)3.80s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo agotado: 2Tiempo de respuesta (promedio)31.38sTiempo de respuesta (máximo)119.29sTiempo de respuesta (total)564.84s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 79.6%Pruebas inestables: 3…Tokens de salida: 17,635Tokens de razonamiento: 162,668Tiempo de respuesta: promedio 31.38s · total 564.84s · máximo 119.29s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.75sTiempo de respuesta (máximo)18.03sTiempo de respuesta (total)39.01s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)70.98sTiempo de respuesta (máximo)70.98sTiempo de respuesta (total)70.98s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)107.79sTiempo de respuesta (máximo)107.79sTiempo de respuesta (total)107.79s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.41sTiempo de respuesta (máximo)29.79sTiempo de respuesta (total)46.83s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)63.40sTiempo de respuesta (máximo)119.29sTiempo de respuesta (total)190.20s
Inteligencia general
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)34.11sTiempo de respuesta (máximo)34.11sTiempo de respuesta (total)34.11s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.88sTiempo de respuesta (máximo)15.44sTiempo de respuesta (total)19.76s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.18sTiempo de respuesta (máximo)31.99sTiempo de respuesta (total)51.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.60sTiempo de respuesta (máximo)4.60sTiempo de respuesta (total)4.60s
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 74.1%Pruebas inestables: 1…Tokens de salida: 1,763Tokens de razonamiento: 83,782Tiempo de respuesta: promedio 15.27s · total 259.55s · máximo 43.55s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.90sTiempo de respuesta (máximo)19.37sTiempo de respuesta (total)39.60s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.95sTiempo de respuesta (máximo)34.95sTiempo de respuesta (total)34.95s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.95sTiempo de respuesta (máximo)15.40sTiempo de respuesta (total)29.90s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)29.59sTiempo de respuesta (máximo)43.55sTiempo de respuesta (total)88.77s
Inteligencia general
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)27.05sTiempo de respuesta (máximo)27.05sTiempo de respuesta (total)27.05s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.54sTiempo de respuesta (máximo)11.67sTiempo de respuesta (total)15.07s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.11sTiempo de respuesta (máximo)7.52sTiempo de respuesta (total)18.34s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.87sTiempo de respuesta (máximo)5.87sTiempo de respuesta (total)5.87s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5Tiempo de respuesta (promedio)1.65sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)18.20s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 77.8%Pruebas inestables: 2…Tokens de salida: 1,840Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.65s · total 18.20s · máximo 3.56s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.25sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)2.49s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.59sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)1.59s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.56sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)3.56s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)1.41sTiempo de respuesta (total)1.41s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)963msTiempo de respuesta (máximo)963msTiempo de respuesta (total)963ms
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)1.13s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.58sTiempo de respuesta (máximo)1.58sTiempo de respuesta (total)1.58s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.12s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.35sTiempo de respuesta (máximo)3.35sTiempo de respuesta (total)3.35s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.22sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)58.00s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 72.2%Pruebas inestables: 0…Tokens de salida: 2,247Tokens de razonamiento: 8,058Tiempo de respuesta: promedio 3.22s · total 58.00s · máximo 11.91s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.12sTiempo de respuesta (máximo)3.18sTiempo de respuesta (total)8.50s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.20sTiempo de respuesta (máximo)2.20sTiempo de respuesta (total)2.20s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.00sTiempo de respuesta (máximo)3.74sTiempo de respuesta (total)5.99s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.36sTiempo de respuesta (máximo)3.51sTiempo de respuesta (total)7.07s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.54sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)1.54s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.49sTiempo de respuesta (máximo)1.66sTiempo de respuesta (total)2.99s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.76sTiempo de respuesta (máximo)5.08sTiempo de respuesta (total)8.27s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.54sTiempo de respuesta (máximo)9.54sTiempo de respuesta (total)9.54s
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 75.9%Pruebas inestables: 2…Tokens de salida: 15,928Tokens de razonamiento: 44,631Tiempo de respuesta: promedio 25.03s · total 425.48s · máximo 147.47s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.20sTiempo de respuesta (máximo)9.64sTiempo de respuesta (total)24.78s
Programación
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)147.47sTiempo de respuesta (máximo)147.47sTiempo de respuesta (total)147.47s
Combinado
: 9.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)73.55sTiempo de respuesta (máximo)73.55sTiempo de respuesta (total)73.55s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.51sTiempo de respuesta (máximo)20.57sTiempo de respuesta (total)33.02s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)23.62sTiempo de respuesta (máximo)27.00sTiempo de respuesta (total)47.23s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.76sTiempo de respuesta (máximo)29.76sTiempo de respuesta (total)29.76s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.54sTiempo de respuesta (máximo)21.25sTiempo de respuesta (total)35.08s
Resolución de acertijos
: 7.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)8.52sTiempo de respuesta (máximo)12.73sTiempo de respuesta (total)25.56s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.01sTiempo de respuesta (máximo)9.01sTiempo de respuesta (total)9.01s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)12.66sTiempo de respuesta (máximo)46.35sTiempo de respuesta (total)126.62s…
Pruebas totales: 18Pruebas incorrectas: 5Tasa de aciertos por intento: 74.1%Pruebas inestables: 1…Tokens de salida: 42,068Tokens de razonamiento: 26,784Tiempo de respuesta: promedio 12.66s · total 126.62s · máximo 46.35s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.98sTiempo de respuesta (máximo)4.95sTiempo de respuesta (total)5.97s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)35.76sTiempo de respuesta (máximo)35.76sTiempo de respuesta (total)35.76s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.35sTiempo de respuesta (máximo)46.35sTiempo de respuesta (total)46.35s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.90sTiempo de respuesta (máximo)13.90sTiempo de respuesta (total)13.90s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.94sTiempo de respuesta (máximo)4.94sTiempo de respuesta (total)4.94s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.61sTiempo de respuesta (máximo)2.61sTiempo de respuesta (total)2.61s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.80sTiempo de respuesta (máximo)5.22sTiempo de respuesta (total)9.60s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.48sTiempo de respuesta (máximo)7.48sTiempo de respuesta (total)7.48s
Pruebas totales: 18Pruebas incorrectas: 6Tasa de aciertos por intento: 77.8%Pruebas inestables: 5…Tokens de salida: 12,197Tokens de razonamiento: 38,933Tiempo de respuesta: promedio 17.67s · total 317.98s · máximo 194.23s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.82sTiempo de respuesta (máximo)7.69sTiempo de respuesta (total)19.26s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.26sTiempo de respuesta (máximo)12.26sTiempo de respuesta (total)12.26s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.88sTiempo de respuesta (máximo)13.88sTiempo de respuesta (total)13.88s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.19sTiempo de respuesta (máximo)6.42sTiempo de respuesta (total)12.38s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)71.07sTiempo de respuesta (máximo)194.23sTiempo de respuesta (total)213.22s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.05sTiempo de respuesta (máximo)10.05sTiempo de respuesta (total)10.05s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.38sTiempo de respuesta (máximo)5.70sTiempo de respuesta (total)10.77s
Resolución de acertijos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo de respuesta (promedio)5.44sTiempo de respuesta (máximo)7.26sTiempo de respuesta (total)16.32s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.84sTiempo de respuesta (máximo)9.84sTiempo de respuesta (total)9.84s
Pruebas totales: 18Pruebas incorrectas: 6Tasa de aciertos por intento: 77.8%Pruebas inestables: 3…Tokens de salida: 2,360Tokens de razonamiento: 38,320Tiempo de respuesta: promedio 12.27s · total 208.56s · máximo 64.71s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.06sTiempo de respuesta (máximo)4.70sTiempo de respuesta (total)12.23s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)52.12sTiempo de respuesta (máximo)52.12sTiempo de respuesta (total)52.12s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)64.71sTiempo de respuesta (máximo)64.71sTiempo de respuesta (total)64.71s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.20sTiempo de respuesta (máximo)17.44sTiempo de respuesta (total)34.40s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.00sTiempo de respuesta (máximo)6.14sTiempo de respuesta (total)12.01s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.06sTiempo de respuesta (máximo)4.06sTiempo de respuesta (total)4.06s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.36sTiempo de respuesta (máximo)4.35sTiempo de respuesta (total)6.72s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.19sTiempo de respuesta (máximo)8.19sTiempo de respuesta (total)8.19s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 3Respuesta incorrecta: 3Tiempo de respuesta (promedio)9.81sTiempo de respuesta (máximo)31.36sTiempo de respuesta (total)176.62s…
Pruebas totales: 18Pruebas incorrectas: 6Tasa de aciertos por intento: 74.1%Pruebas inestables: 2…Tokens de salida: 1,568Tokens de razonamiento: 91,909Tiempo de respuesta: promedio 9.81s · total 176.62s · máximo 31.36s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.16sTiempo de respuesta (máximo)3.44sTiempo de respuesta (total)12.65s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.36sTiempo de respuesta (máximo)31.36sTiempo de respuesta (total)31.36s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)20.93sTiempo de respuesta (máximo)20.93sTiempo de respuesta (total)20.93s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.01sTiempo de respuesta (máximo)4.27sTiempo de respuesta (total)8.02s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)21.33sTiempo de respuesta (máximo)24.21sTiempo de respuesta (total)64.00s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.78sTiempo de respuesta (máximo)5.78sTiempo de respuesta (total)5.78s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.97sTiempo de respuesta (máximo)6.05sTiempo de respuesta (total)9.94s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.85sTiempo de respuesta (máximo)4.53sTiempo de respuesta (total)11.55s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)12.39sTiempo de respuesta (máximo)12.39sTiempo de respuesta (total)12.39s
Pruebas totales: 18Pruebas incorrectas: 6Tasa de aciertos por intento: 79.6%Pruebas inestables: 4…Tokens de salida: 10,620Tokens de razonamiento: 48,511Tiempo de respuesta: promedio 46.41s · total 835.33s · máximo 180.92s
Trucos anti-IA
: 8.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)30.72sTiempo de respuesta (máximo)44.23sTiempo de respuesta (total)122.88s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)180.92sTiempo de respuesta (máximo)180.92sTiempo de respuesta (total)180.92s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)93.11sTiempo de respuesta (máximo)93.11sTiempo de respuesta (total)93.11s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)36.09sTiempo de respuesta (máximo)39.12sTiempo de respuesta (total)72.18s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.32sTiempo de respuesta (máximo)79.03sTiempo de respuesta (total)117.95s
Inteligencia general
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)31.30sTiempo de respuesta (máximo)31.30sTiempo de respuesta (total)31.30s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)35.78sTiempo de respuesta (máximo)47.30sTiempo de respuesta (total)71.56s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)36.87sTiempo de respuesta (máximo)59.22sTiempo de respuesta (total)110.62s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.81sTiempo de respuesta (máximo)34.81sTiempo de respuesta (total)34.81s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.84sTiempo de respuesta (máximo)38.52sTiempo de respuesta (total)123.17s…
Pruebas totales: 18Pruebas incorrectas: 6Tasa de aciertos por intento: 75.9%Pruebas inestables: 3…Tokens de salida: 17,346Tokens de razonamiento: 0Tiempo de respuesta: promedio 6.84s · total 123.17s · máximo 38.52s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.40sTiempo de respuesta (máximo)4.78sTiempo de respuesta (total)13.59s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.97sTiempo de respuesta (máximo)8.97sTiempo de respuesta (total)8.97s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.12sTiempo de respuesta (máximo)9.12sTiempo de respuesta (total)9.12s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.05sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)6.10s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)17.78sTiempo de respuesta (máximo)38.52sTiempo de respuesta (total)53.33s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.20sTiempo de respuesta (máximo)3.20sTiempo de respuesta (total)3.20s
Seguimiento de instrucciones
: 7.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.46sTiempo de respuesta (máximo)6.45sTiempo de respuesta (total)10.92s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.42sTiempo de respuesta (máximo)5.04sTiempo de respuesta (total)13.27s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.68sTiempo de respuesta (máximo)4.68sTiempo de respuesta (total)4.68s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)23.42s…
Pruebas totales: 18Pruebas incorrectas: 6Tasa de aciertos por intento: 70.4%Pruebas inestables: 1…Tokens de salida: 5,361Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.30s · total 23.42s · máximo 3.39s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.47sTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)1.47s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.20sTiempo de respuesta (máximo)3.20sTiempo de respuesta (total)3.20s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)2.44s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)942msTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)2.83s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)741msTiempo de respuesta (máximo)741msTiempo de respuesta (total)741ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)2.27s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)972msTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)2.92s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.39sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)3.39s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo agotado: 2Error de API: 1Tiempo de respuesta (promedio)24.13sTiempo de respuesta (máximo)118.52sTiempo de respuesta (total)410.25s…
Pruebas totales: 18Pruebas incorrectas: 6Tasa de aciertos por intento: 75.9%Pruebas inestables: 3…Tokens de salida: 8,005Tokens de razonamiento: 49,090Tiempo de respuesta: promedio 24.13s · total 410.25s · máximo 118.52s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.31sTiempo de respuesta (máximo)14.20sTiempo de respuesta (total)33.24s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)118.52sTiempo de respuesta (máximo)118.52sTiempo de respuesta (total)118.52s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)43.11sTiempo de respuesta (máximo)43.11sTiempo de respuesta (total)43.11s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.33sTiempo de respuesta (máximo)9.40sTiempo de respuesta (total)18.66s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)29.77sTiempo de respuesta (máximo)32.22sTiempo de respuesta (total)89.30s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)20.95sTiempo de respuesta (máximo)20.95sTiempo de respuesta (total)20.95s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.47sTiempo de respuesta (máximo)10.16sTiempo de respuesta (total)14.94s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)23.85sTiempo de respuesta (máximo)33.09sTiempo de respuesta (total)71.54s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 4Respuesta incorrecta: 2Tiempo de respuesta (promedio)21.08sTiempo de respuesta (máximo)83.40sTiempo de respuesta (total)231.84s…
Pruebas totales: 18Pruebas incorrectas: 6Tasa de aciertos por intento: 70.4%Pruebas inestables: 2…Tokens de salida: 29,829Tokens de razonamiento: 18,938Tiempo de respuesta: promedio 21.08s · total 231.84s · máximo 83.40s
Trucos anti-IA
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Tiempo de respuesta (promedio)7.45sTiempo de respuesta (máximo)11.88sTiempo de respuesta (total)14.90s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.11sTiempo de respuesta (máximo)23.11sTiempo de respuesta (total)23.11s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)76.66sTiempo de respuesta (máximo)76.66sTiempo de respuesta (total)76.66s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.37sTiempo de respuesta (máximo)7.37sTiempo de respuesta (total)7.37s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.40sTiempo de respuesta (máximo)83.40sTiempo de respuesta (total)83.40s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.04sTiempo de respuesta (máximo)5.04sTiempo de respuesta (total)5.04s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)2.43sTiempo de respuesta (total)2.43s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.60sTiempo de respuesta (máximo)4.66sTiempo de respuesta (total)9.20s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.73sTiempo de respuesta (máximo)9.73sTiempo de respuesta (total)9.73s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 3Respuesta incorrecta: 3Tiempo de respuesta (promedio)26.78sTiempo de respuesta (máximo)170.45sTiempo de respuesta (total)294.58s…
Pruebas totales: 17Pruebas incorrectas: 6Tasa de aciertos por intento: 70.6%Pruebas inestables: 2…Tokens de salida: 71,904Tokens de razonamiento: 155,607Tiempo de respuesta: promedio 26.78s · total 294.58s · máximo 170.45s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.56sTiempo de respuesta (máximo)32.30sTiempo de respuesta (total)40.68s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.57sTiempo de respuesta (máximo)29.57sTiempo de respuesta (total)29.57s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.01sTiempo de respuesta (máximo)15.01sTiempo de respuesta (total)15.01s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)170.45sTiempo de respuesta (máximo)170.45sTiempo de respuesta (total)170.45s
Inteligencia general
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.54sTiempo de respuesta (máximo)6.54sTiempo de respuesta (total)6.54s
Seguimiento de instrucciones
: 8.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.98sTiempo de respuesta (máximo)4.98sTiempo de respuesta (total)4.98s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 77.8%Pruebas inestables: 6…Tokens de salida: 2,351Tokens de razonamiento: 58,941Tiempo de respuesta: promedio 14.96s · total 269.32s · máximo 67.08s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.78sTiempo de respuesta (máximo)13.78sTiempo de respuesta (total)13.78s
Combinado
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)15.06sTiempo de respuesta (máximo)15.06sTiempo de respuesta (total)15.06s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.60sTiempo de respuesta (máximo)9.92sTiempo de respuesta (total)19.19s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)38.15sTiempo de respuesta (máximo)67.08sTiempo de respuesta (total)114.45s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.09sTiempo de respuesta (máximo)11.09sTiempo de respuesta (total)11.09s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.74sTiempo de respuesta (máximo)5.23sTiempo de respuesta (total)7.47s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)10.91sTiempo de respuesta (máximo)18.97sTiempo de respuesta (total)32.74s
Llamada de herramientas
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)12.53sTiempo de respuesta (máximo)12.53sTiempo de respuesta (total)12.53s
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 81.5%Pruebas inestables: 6…Tokens de salida: 2,073Tokens de razonamiento: 191,899Tiempo de respuesta: promedio 66.72s · total 1201.03s · máximo 234.29s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)59.11sTiempo de respuesta (máximo)168.31sTiempo de respuesta (total)236.44s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)45.75sTiempo de respuesta (máximo)45.75sTiempo de respuesta (total)45.75s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.78sTiempo de respuesta (máximo)17.78sTiempo de respuesta (total)17.78s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)56.99sTiempo de respuesta (máximo)80.14sTiempo de respuesta (total)113.98s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)146.50sTiempo de respuesta (máximo)234.29sTiempo de respuesta (total)439.49s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)40.05sTiempo de respuesta (máximo)40.05sTiempo de respuesta (total)40.05s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)63.49sTiempo de respuesta (máximo)111.61sTiempo de respuesta (total)126.98s
Resolución de acertijos
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Tiempo de respuesta (promedio)56.74sTiempo de respuesta (máximo)115.01sTiempo de respuesta (total)170.23s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.33sTiempo de respuesta (máximo)10.33sTiempo de respuesta (total)10.33s
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 61.1%Pruebas inestables: 0…Tokens de salida: 928Tokens de razonamiento: 72,661Tiempo de respuesta: promedio 16.76s · total 301.61s · máximo 158.78s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.11sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)8.43s
Programación
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)68.55sTiempo de respuesta (máximo)68.55sTiempo de respuesta (total)68.55s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)19.29sTiempo de respuesta (máximo)19.29sTiempo de respuesta (total)19.29s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.29sTiempo de respuesta (máximo)2.62sTiempo de respuesta (total)4.58s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.86sTiempo de respuesta (máximo)2.86sTiempo de respuesta (total)2.86s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.92sTiempo de respuesta (máximo)7.14sTiempo de respuesta (total)9.83s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.07sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)11.07s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5No siguió las instrucciones: 2Tiempo de respuesta (promedio)5.88sTiempo de respuesta (máximo)18.33sTiempo de respuesta (total)105.90s…
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 68.5%Pruebas inestables: 3…Tokens de salida: 20,784Tokens de razonamiento: 0Tiempo de respuesta: promedio 5.88s · total 105.90s · máximo 18.33s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.32sTiempo de respuesta (máximo)9.32sTiempo de respuesta (total)9.32s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.96sTiempo de respuesta (máximo)11.96sTiempo de respuesta (total)11.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.21sTiempo de respuesta (máximo)2.52sTiempo de respuesta (total)4.42s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)13.01sTiempo de respuesta (máximo)18.33sTiempo de respuesta (total)39.04s
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.99sTiempo de respuesta (máximo)1.99sTiempo de respuesta (total)1.99s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.29sTiempo de respuesta (máximo)4.18sTiempo de respuesta (total)6.59s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.93sTiempo de respuesta (máximo)3.05sTiempo de respuesta (total)8.78s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.36sTiempo de respuesta (máximo)8.36sTiempo de respuesta (total)8.36s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 3Tiempo de respuesta (promedio)11.21sTiempo de respuesta (máximo)94.06sTiempo de respuesta (total)201.80s…
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 68.5%Pruebas inestables: 2…Tokens de salida: 2,946Tokens de razonamiento: 58,132Tiempo de respuesta: promedio 11.21s · total 201.80s · máximo 94.06s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.52sTiempo de respuesta (máximo)7.74sTiempo de respuesta (total)18.10s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.41sTiempo de respuesta (máximo)13.41sTiempo de respuesta (total)13.41s
Combinado
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.13sTiempo de respuesta (máximo)24.13sTiempo de respuesta (total)24.13s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.54sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)5.08s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)38.18sTiempo de respuesta (máximo)94.06sTiempo de respuesta (total)114.53s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.15sTiempo de respuesta (máximo)4.15sTiempo de respuesta (total)4.15s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.88sTiempo de respuesta (máximo)2.61sTiempo de respuesta (total)3.75s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.71sTiempo de respuesta (máximo)7.71sTiempo de respuesta (total)7.71s
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 66.7%Pruebas inestables: 2…Tokens de salida: 2,419Tokens de razonamiento: 79,238Tiempo de respuesta: promedio 69.70s · total 1045.47s · máximo 262.83s
Trucos anti-IA
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)74.75sTiempo de respuesta (máximo)182.10sTiempo de respuesta (total)298.98s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)197.31sTiempo de respuesta (máximo)197.31sTiempo de respuesta (total)197.31s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)262.83sTiempo de respuesta (máximo)262.83sTiempo de respuesta (total)262.83s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)27.52sTiempo de respuesta (total)48.54s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Inteligencia general
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)36.65sTiempo de respuesta (máximo)36.65sTiempo de respuesta (total)36.65s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.47sTiempo de respuesta (máximo)19.46sTiempo de respuesta (total)34.93s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)25.85sTiempo de respuesta (máximo)32.95sTiempo de respuesta (total)77.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.68sTiempo de respuesta (máximo)88.68sTiempo de respuesta (total)88.68s
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 72.2%Pruebas inestables: 4…Tokens de salida: 2,705Tokens de razonamiento: 18,977Tiempo de respuesta: promedio 14.04s · total 154.41s · máximo 77.80s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.12sTiempo de respuesta (máximo)15.12sTiempo de respuesta (total)15.12s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.06sTiempo de respuesta (máximo)14.06sTiempo de respuesta (total)14.06s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.15sTiempo de respuesta (máximo)3.15sTiempo de respuesta (total)3.15s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)77.80sTiempo de respuesta (máximo)77.80sTiempo de respuesta (total)77.80s
Inteligencia general
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.32sTiempo de respuesta (máximo)4.32sTiempo de respuesta (total)4.32s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.12sTiempo de respuesta (máximo)3.12sTiempo de respuesta (total)3.12s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.47sTiempo de respuesta (máximo)6.45sTiempo de respuesta (total)10.94s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)10.30sTiempo de respuesta (máximo)10.30sTiempo de respuesta (total)10.30s
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 70.4%Pruebas inestables: 3…Tokens de salida: 12,387Tokens de razonamiento: 115,182Tiempo de respuesta: promedio 23.36s · total 280.34s · máximo 96.01s
Trucos anti-IA
: 8.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)15.85sTiempo de respuesta (máximo)20.83sTiempo de respuesta (total)47.55s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)13.03sTiempo de respuesta (máximo)13.03sTiempo de respuesta (total)13.03s
Combinado
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)75.68sTiempo de respuesta (máximo)75.68sTiempo de respuesta (total)75.68s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)96.01sTiempo de respuesta (máximo)96.01sTiempo de respuesta (total)96.01s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.20sTiempo de respuesta (máximo)4.20sTiempo de respuesta (total)4.20s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.28sTiempo de respuesta (máximo)7.37sTiempo de respuesta (total)8.55s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.77sTiempo de respuesta (máximo)5.26sTiempo de respuesta (total)7.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.78sTiempo de respuesta (máximo)27.78sTiempo de respuesta (total)27.78s
Pruebas totales: 18Pruebas incorrectas: 7Tasa de aciertos por intento: 64.8%Pruebas inestables: 1…Tokens de salida: 7,433Tokens de razonamiento: 0Tiempo de respuesta: promedio 4.98s · total 54.83s · máximo 23.84s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.94sTiempo de respuesta (máximo)4.83sTiempo de respuesta (total)5.88s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.67sTiempo de respuesta (máximo)3.67sTiempo de respuesta (total)3.67s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.84sTiempo de respuesta (máximo)23.84sTiempo de respuesta (total)23.84s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.43sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)3.43s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.56sTiempo de respuesta (máximo)2.56sTiempo de respuesta (total)2.56s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)2.92sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)5.84s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.11sTiempo de respuesta (máximo)4.11sTiempo de respuesta (total)4.11s
Pruebas totales: 18Pruebas incorrectas: 8Tasa de aciertos por intento: 79.6%Pruebas inestables: 7…Tokens de salida: 10,137Tokens de razonamiento: 208,761Tiempo de respuesta: promedio 44.51s · total 801.21s · máximo 106.00s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.13sTiempo de respuesta (máximo)34.96sTiempo de respuesta (total)84.53s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)79.09sTiempo de respuesta (máximo)79.09sTiempo de respuesta (total)79.09s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)75.34sTiempo de respuesta (máximo)75.34sTiempo de respuesta (total)75.34s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)59.33sTiempo de respuesta (máximo)97.12sTiempo de respuesta (total)118.65s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)88.34sTiempo de respuesta (máximo)106.00sTiempo de respuesta (total)265.01s
Inteligencia general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)30.30sTiempo de respuesta (máximo)30.30sTiempo de respuesta (total)30.30s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.45sTiempo de respuesta (máximo)43.36sTiempo de respuesta (total)48.89s
Resolución de acertijos
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)31.58sTiempo de respuesta (máximo)60.18sTiempo de respuesta (total)94.75s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.65sTiempo de respuesta (máximo)4.65sTiempo de respuesta (total)4.65s
Pruebas totales: 18Pruebas incorrectas: 8Tasa de aciertos por intento: 55.6%Pruebas inestables: 0…Tokens de salida: 1,359Tokens de razonamiento: 0Tiempo de respuesta: promedio 4.02s · total 64.33s · máximo 26.13s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.85sTiempo de respuesta (máximo)4.45sTiempo de respuesta (total)7.40s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)26.13sTiempo de respuesta (máximo)26.13sTiempo de respuesta (total)26.13s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.25sTiempo de respuesta (máximo)3.02sTiempo de respuesta (total)4.51s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.22sTiempo de respuesta (máximo)4.68sTiempo de respuesta (total)9.67s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.09sTiempo de respuesta (máximo)2.09sTiempo de respuesta (total)2.09s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.84sTiempo de respuesta (máximo)4.45sTiempo de respuesta (total)5.68s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 5Respuesta incorrecta: 4Tiempo de respuesta (promedio)15.22sTiempo de respuesta (máximo)102.91sTiempo de respuesta (total)273.90s…
Pruebas totales: 18Pruebas incorrectas: 9Tasa de aciertos por intento: 70.4%Pruebas inestables: 6…Tokens de salida: 2,131Tokens de razonamiento: 59,567Tiempo de respuesta: promedio 15.22s · total 273.90s · máximo 102.91s
Trucos anti-IA
: 8.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.05sTiempo de respuesta (máximo)6.69sTiempo de respuesta (total)16.20s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.76sTiempo de respuesta (máximo)7.76sTiempo de respuesta (total)7.76s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.81sTiempo de respuesta (máximo)17.81sTiempo de respuesta (total)17.81s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)4.87s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)65.31sTiempo de respuesta (máximo)102.91sTiempo de respuesta (total)195.92s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.72sTiempo de respuesta (máximo)3.72sTiempo de respuesta (total)3.72s
Seguimiento de instrucciones
: 7.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.50sTiempo de respuesta (máximo)2.55sTiempo de respuesta (total)5.00s
Resolución de acertijos
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo de respuesta (promedio)4.33sTiempo de respuesta (máximo)7.27sTiempo de respuesta (total)13.00s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)9.62sTiempo de respuesta (máximo)9.62sTiempo de respuesta (total)9.62s
Pruebas totales: 18Pruebas incorrectas: 9Tasa de aciertos por intento: 61.1%Pruebas inestables: 3…Tokens de salida: 6,379Tokens de razonamiento: 53,482Tiempo de respuesta: promedio 23.98s · total 431.56s · máximo 88.15s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.18sTiempo de respuesta (máximo)23.18sTiempo de respuesta (total)23.18s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.15sTiempo de respuesta (máximo)88.15sTiempo de respuesta (total)88.15s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.58sTiempo de respuesta (máximo)13.87sTiempo de respuesta (total)25.16s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)44.63sTiempo de respuesta (máximo)82.55sTiempo de respuesta (total)133.89s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.50sTiempo de respuesta (máximo)13.50sTiempo de respuesta (total)13.50s
Seguimiento de instrucciones
: 8.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)15.66sTiempo de respuesta (máximo)21.80sTiempo de respuesta (total)31.32s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.64sTiempo de respuesta (máximo)18.64sTiempo de respuesta (total)18.64s
Pruebas totales: 18Pruebas incorrectas: 9Tasa de aciertos por intento: 72.2%Pruebas inestables: 7…Tokens de salida: 42,176Tokens de razonamiento: 84,870Tiempo de respuesta: promedio 72.43s · total 796.70s · máximo 150.77s
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)51.38sTiempo de respuesta (máximo)85.28sTiempo de respuesta (total)102.75s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)150.77sTiempo de respuesta (máximo)150.77sTiempo de respuesta (total)150.77s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)71.37sTiempo de respuesta (máximo)71.37sTiempo de respuesta (total)71.37s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)49.78sTiempo de respuesta (máximo)49.78sTiempo de respuesta (total)49.78s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)137.29sTiempo de respuesta (máximo)137.29sTiempo de respuesta (total)137.29s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)69.73sTiempo de respuesta (máximo)69.73sTiempo de respuesta (total)69.73s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)92.47sTiempo de respuesta (máximo)92.47sTiempo de respuesta (total)92.47s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.74sTiempo de respuesta (máximo)31.74sTiempo de respuesta (total)31.74s
Pruebas totales: 18Pruebas incorrectas: 9Tasa de aciertos por intento: 66.7%Pruebas inestables: 5…Tokens de salida: 1,744Tokens de razonamiento: 109,882Tiempo de respuesta: promedio 10.33s · total 185.87s · máximo 29.87s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.36sTiempo de respuesta (máximo)4.08sTiempo de respuesta (total)13.42s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)24.33sTiempo de respuesta (máximo)24.33sTiempo de respuesta (total)24.33s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.40sTiempo de respuesta (máximo)17.40sTiempo de respuesta (total)17.40s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)5.02sTiempo de respuesta (total)8.34s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)27.03sTiempo de respuesta (máximo)29.87sTiempo de respuesta (total)81.10s
Inteligencia general
: 5.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)7.09sTiempo de respuesta (máximo)7.09sTiempo de respuesta (total)7.09s
Seguimiento de instrucciones
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)4.42sTiempo de respuesta (máximo)4.46sTiempo de respuesta (total)8.84s
Resolución de acertijos
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.89sTiempo de respuesta (máximo)4.90sTiempo de respuesta (total)11.67s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.68sTiempo de respuesta (máximo)13.68sTiempo de respuesta (total)13.68s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9Tiempo de respuesta (promedio)2.60sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)31.23s…
Pruebas totales: 18Pruebas incorrectas: 9Tasa de aciertos por intento: 53.7%Pruebas inestables: 2…Tokens de salida: 2,461Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.60s · total 31.23s · máximo 6.65s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)2.74sTiempo de respuesta (total)3.82s
Programación
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.63sTiempo de respuesta (máximo)3.63sTiempo de respuesta (total)3.63s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.65sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)6.65s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.44sTiempo de respuesta (total)2.33s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.26sTiempo de respuesta (máximo)2.26sTiempo de respuesta (total)2.26s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.82sTiempo de respuesta (máximo)3.52sTiempo de respuesta (total)5.65s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Pruebas totales: 18Pruebas incorrectas: 9Tasa de aciertos por intento: 55.6%Pruebas inestables: 3…Tokens de salida: 11,947Tokens de razonamiento: 29,768Tiempo de respuesta: promedio 19.06s · total 305.04s · máximo 87.80s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.08sTiempo de respuesta (máximo)22.30sTiempo de respuesta (total)40.30s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)87.80sTiempo de respuesta (máximo)87.80sTiempo de respuesta (total)87.80s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.16sTiempo de respuesta (máximo)20.65sTiempo de respuesta (total)36.33s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)16.19sTiempo de respuesta (máximo)21.56sTiempo de respuesta (total)32.39s
Inteligencia general
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)27.86sTiempo de respuesta (máximo)27.86sTiempo de respuesta (total)27.86s
Seguimiento de instrucciones
: 7.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)7.72sTiempo de respuesta (máximo)11.23sTiempo de respuesta (total)15.45s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)39.75sTiempo de respuesta (máximo)39.75sTiempo de respuesta (total)39.75s
Pruebas totales: 18Pruebas incorrectas: 9Tasa de aciertos por intento: 64.8%Pruebas inestables: 6…Tokens de salida: 2,010Tokens de razonamiento: 91,298Tiempo de respuesta: promedio 23.88s · total 262.66s · máximo 121.79s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)5.65sTiempo de respuesta (total)7.62s
Programación
: 2.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)23.58sTiempo de respuesta (máximo)23.58sTiempo de respuesta (total)23.58s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)37.64sTiempo de respuesta (máximo)37.64sTiempo de respuesta (total)37.64s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.63sTiempo de respuesta (máximo)6.63sTiempo de respuesta (total)6.63s
Específico del dominio
: 5.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)121.79sTiempo de respuesta (máximo)121.79sTiempo de respuesta (total)121.79s
Inteligencia general
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)16.25sTiempo de respuesta (máximo)16.25sTiempo de respuesta (total)16.25s
Seguimiento de instrucciones
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.30sTiempo de respuesta (máximo)5.30sTiempo de respuesta (total)5.30s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)27.71sTiempo de respuesta (máximo)27.71sTiempo de respuesta (total)27.71s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9Tiempo de respuesta (promedio)4.23sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)46.51s…
Pruebas totales: 18Pruebas incorrectas: 9Tasa de aciertos por intento: 51.9%Pruebas inestables: 1…Tokens de salida: 1,959Tokens de razonamiento: 0Tiempo de respuesta: promedio 4.23s · total 46.51s · máximo 11.07s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.37sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)4.75s
Programación
: 5.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.84sTiempo de respuesta (máximo)8.84sTiempo de respuesta (total)8.84s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.98sTiempo de respuesta (máximo)4.98sTiempo de respuesta (total)4.98s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.78sTiempo de respuesta (máximo)5.78sTiempo de respuesta (total)5.78s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.24sTiempo de respuesta (máximo)2.24sTiempo de respuesta (total)2.24s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.27sTiempo de respuesta (máximo)3.27sTiempo de respuesta (total)3.27s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.48sTiempo de respuesta (máximo)1.48sTiempo de respuesta (total)1.48s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.05sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)4.10s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.07sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)11.07s
Pruebas totales: 18Pruebas incorrectas: 10Tasa de aciertos por intento: 64.8%Pruebas inestables: 6…Tokens de salida: 4,724Tokens de razonamiento: 17,921Tiempo de respuesta: promedio 10.33s · total 175.60s · máximo 30.53s
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)4.75sTiempo de respuesta (máximo)7.62sTiempo de respuesta (total)19.00s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)30.53sTiempo de respuesta (máximo)30.53sTiempo de respuesta (total)30.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.16sTiempo de respuesta (máximo)26.55sTiempo de respuesta (total)46.33s
Inteligencia general
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.44sTiempo de respuesta (máximo)6.44sTiempo de respuesta (total)6.44s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.18sTiempo de respuesta (máximo)4.46sTiempo de respuesta (total)8.36s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.33sTiempo de respuesta (máximo)17.33sTiempo de respuesta (total)17.33s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 4Tiempo de respuesta (promedio)2.21sTiempo de respuesta (máximo)14.63sTiempo de respuesta (total)37.51s…
Pruebas totales: 18Pruebas incorrectas: 10Tasa de aciertos por intento: 53.7%Pruebas inestables: 3…Tokens de salida: 3,972Tokens de razonamiento: 48,333Tiempo de respuesta: promedio 2.21s · total 37.51s · máximo 14.63s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.53sTiempo de respuesta (máximo)1.53sTiempo de respuesta (total)1.53s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.28sTiempo de respuesta (máximo)3.28sTiempo de respuesta (total)3.28s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)2.21s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.48sTiempo de respuesta (máximo)14.63sTiempo de respuesta (total)19.43s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)821msTiempo de respuesta (máximo)821msTiempo de respuesta (total)821ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.99sTiempo de respuesta (máximo)6.81sTiempo de respuesta (total)35.81s…
Pruebas totales: 18Pruebas incorrectas: 10Tasa de aciertos por intento: 44.4%Pruebas inestables: 0…Tokens de salida: 868Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.99s · total 35.81s · máximo 6.81s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.10sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)4.39s
Programación
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.72sTiempo de respuesta (máximo)1.72sTiempo de respuesta (total)1.72s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.47sTiempo de respuesta (máximo)2.47sTiempo de respuesta (total)2.47s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)2.46sTiempo de respuesta (total)3.38s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.14sTiempo de respuesta (máximo)1.63sTiempo de respuesta (total)3.41s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)1.19s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.18sTiempo de respuesta (máximo)6.81sTiempo de respuesta (total)8.36s
Resolución de acertijos
: 8.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.71sTiempo de respuesta (máximo)5.96sTiempo de respuesta (total)8.14s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.76sTiempo de respuesta (máximo)2.76sTiempo de respuesta (total)2.76s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.10sTiempo de respuesta (máximo)6.51sTiempo de respuesta (total)55.87s…
Pruebas totales: 18Pruebas incorrectas: 10Tasa de aciertos por intento: 44.4%Pruebas inestables: 0…Tokens de salida: 1,724Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.10s · total 55.87s · máximo 6.51s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)3.13sTiempo de respuesta (máximo)5.90sTiempo de respuesta (total)12.50s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.30sTiempo de respuesta (máximo)5.30sTiempo de respuesta (total)5.30s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.51sTiempo de respuesta (máximo)6.51sTiempo de respuesta (total)6.51s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)5.69sTiempo de respuesta (total)7.62s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.09sTiempo de respuesta (máximo)2.39sTiempo de respuesta (total)6.26s
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.22sTiempo de respuesta (máximo)2.22sTiempo de respuesta (total)2.22s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.97sTiempo de respuesta (máximo)2.43sTiempo de respuesta (total)3.93s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.86sTiempo de respuesta (máximo)4.86sTiempo de respuesta (total)4.86s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.25sTiempo de respuesta (máximo)13.73sTiempo de respuesta (total)58.44s…
Pruebas totales: 18Pruebas incorrectas: 10Tasa de aciertos por intento: 46.3%Pruebas inestables: 1…Tokens de salida: 4,266Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.25s · total 58.44s · máximo 13.73s
Trucos anti-IA
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)3.89sTiempo de respuesta (total)5.30s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.29sTiempo de respuesta (máximo)1.29sTiempo de respuesta (total)1.29s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.22sTiempo de respuesta (máximo)6.22sTiempo de respuesta (total)6.22s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.57sTiempo de respuesta (máximo)1.83sTiempo de respuesta (total)3.14s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)905msTiempo de respuesta (máximo)1.10sTiempo de respuesta (total)2.71s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)803msTiempo de respuesta (máximo)803msTiempo de respuesta (total)803ms
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.81sTiempo de respuesta (máximo)13.73sTiempo de respuesta (total)17.61s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.67sTiempo de respuesta (máximo)3.67sTiempo de respuesta (total)3.67s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10Tiempo de respuesta (promedio)2.53sTiempo de respuesta (máximo)6.70sTiempo de respuesta (total)45.46s…
Pruebas totales: 18Pruebas incorrectas: 10Tasa de aciertos por intento: 55.6%Pruebas inestables: 5…Tokens de salida: 3,129Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.53s · total 45.46s · máximo 6.70s
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)6.70sTiempo de respuesta (total)9.73s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.61sTiempo de respuesta (máximo)4.61sTiempo de respuesta (total)4.61s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.59sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)6.59s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.97sTiempo de respuesta (total)3.63s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)1.53sTiempo de respuesta (total)4.00s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.45sTiempo de respuesta (máximo)3.45sTiempo de respuesta (total)3.45s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.09sTiempo de respuesta (total)2.12s
Resolución de acertijos
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.46sTiempo de respuesta (máximo)4.23sTiempo de respuesta (total)7.37s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.94sTiempo de respuesta (máximo)3.94sTiempo de respuesta (total)3.94s
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 57.4%Pruebas inestables: 6…Tokens de salida: 299,034Tokens de razonamiento: 309,670Tiempo de respuesta: promedio 9.80s · total 156.75s · máximo 35.28s
Trucos anti-IA
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.46sTiempo de respuesta (máximo)4.38sTiempo de respuesta (total)13.86s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.11sTiempo de respuesta (máximo)27.11sTiempo de respuesta (total)27.11s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.54sTiempo de respuesta (máximo)7.51sTiempo de respuesta (total)11.08s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Formato extra: 1Tiempo de respuesta (promedio)24.67sTiempo de respuesta (máximo)35.28sTiempo de respuesta (total)74.02s
Inteligencia general
: 5.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.40sTiempo de respuesta (máximo)6.40sTiempo de respuesta (total)6.40s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.63sTiempo de respuesta (máximo)5.46sTiempo de respuesta (total)9.26s
Resolución de acertijos
: 7.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo de respuesta (promedio)5.01sTiempo de respuesta (máximo)5.49sTiempo de respuesta (total)15.03s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 59.3%Pruebas inestables: 8…Tokens de salida: 4,980Tokens de razonamiento: 156,288Tiempo de respuesta: promedio 44.13s · total 485.47s · máximo 204.02s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)25.50sTiempo de respuesta (máximo)37.73sTiempo de respuesta (total)51.00s
Programación
: 6.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)40.73sTiempo de respuesta (máximo)40.73sTiempo de respuesta (total)40.73s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.96sTiempo de respuesta (máximo)65.96sTiempo de respuesta (total)65.96s
Análisis y extracción de datos
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)21.42sTiempo de respuesta (máximo)21.42sTiempo de respuesta (total)21.42s
Específico del dominio
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)204.02sTiempo de respuesta (máximo)204.02sTiempo de respuesta (total)204.02s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)17.51sTiempo de respuesta (máximo)17.51sTiempo de respuesta (total)17.51s
Seguimiento de instrucciones
: 8.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)11.90sTiempo de respuesta (máximo)11.90sTiempo de respuesta (total)11.90s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)33.30sTiempo de respuesta (máximo)33.30sTiempo de respuesta (total)33.30s
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 48.2%Pruebas inestables: 3…Tokens de salida: 1,783Tokens de razonamiento: 0Tiempo de respuesta: promedio 6.59s · total 118.61s · máximo 57.10s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.28sTiempo de respuesta (máximo)2.09sTiempo de respuesta (total)5.13s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)7.07sTiempo de respuesta (máximo)7.07sTiempo de respuesta (total)7.07s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)30.53sTiempo de respuesta (máximo)30.53sTiempo de respuesta (total)30.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.70sTiempo de respuesta (máximo)2.21sTiempo de respuesta (total)3.41s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.49sTiempo de respuesta (máximo)4.23sTiempo de respuesta (total)7.48s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)57.10sTiempo de respuesta (máximo)57.10sTiempo de respuesta (total)57.10s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 1Tiempo de respuesta (promedio)903msTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)16.26s…
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 44.4%Pruebas inestables: 2…Tokens de salida: 1,726Tokens de razonamiento: 0Tiempo de respuesta: promedio 903ms · total 16.26s · máximo 4.39s
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)582msTiempo de respuesta (máximo)844msTiempo de respuesta (total)2.33s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)1.16s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)652msTiempo de respuesta (máximo)660msTiempo de respuesta (total)1.30s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)495msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.49s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)615msTiempo de respuesta (máximo)615msTiempo de respuesta (total)615ms
Seguimiento de instrucciones
: 8.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)672msTiempo de respuesta (máximo)785msTiempo de respuesta (total)1.34s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)1.91s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.82sTiempo de respuesta (máximo)47.43sTiempo de respuesta (total)68.74s…
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 50.0%Pruebas inestables: 3…Tokens de salida: 4,300Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.82s · total 68.74s · máximo 47.43s
Trucos anti-IA
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)5.71s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.67sTiempo de respuesta (máximo)2.67sTiempo de respuesta (total)2.67s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)47.43sTiempo de respuesta (máximo)47.43sTiempo de respuesta (total)47.43s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.42sTiempo de respuesta (total)2.33s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)485msTiempo de respuesta (máximo)549msTiempo de respuesta (total)1.45s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)1.19s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)809msTiempo de respuesta (máximo)983msTiempo de respuesta (total)1.62s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.30sTiempo de respuesta (máximo)2.30sTiempo de respuesta (total)2.30s
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 50.0%Pruebas inestables: 4…Tokens de salida: 8,384Tokens de razonamiento: 0Tiempo de respuesta: promedio 12.09s · total 217.56s · máximo 115.89s
Trucos anti-IA
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.63sTiempo de respuesta (máximo)12.26sTiempo de respuesta (total)30.54s
Programación
: 2.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.63sTiempo de respuesta (máximo)7.63sTiempo de respuesta (total)7.63s
Combinado
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)115.89sTiempo de respuesta (máximo)115.89sTiempo de respuesta (total)115.89s
Análisis y extracción de datos
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.42sTiempo de respuesta (máximo)16.20sTiempo de respuesta (total)18.84s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.61sTiempo de respuesta (máximo)1.77sTiempo de respuesta (total)4.83s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.86sTiempo de respuesta (máximo)2.86sTiempo de respuesta (total)2.86s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.99sTiempo de respuesta (total)3.04s
Resolución de acertijos
: 8.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.37sTiempo de respuesta (máximo)10.78sTiempo de respuesta (total)22.10s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.85sTiempo de respuesta (máximo)11.85sTiempo de respuesta (total)11.85s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 2Tiempo de respuesta (promedio)2.39sTiempo de respuesta (máximo)6.58sTiempo de respuesta (total)43.06s…
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 48.2%Pruebas inestables: 3…Tokens de salida: 2,320Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.39s · total 43.06s · máximo 6.58s
Trucos anti-IA
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.80sTiempo de respuesta (máximo)2.62sTiempo de respuesta (total)7.19s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.82sTiempo de respuesta (máximo)3.82sTiempo de respuesta (total)3.82s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.58sTiempo de respuesta (máximo)6.58sTiempo de respuesta (total)6.58s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)1.42sTiempo de respuesta (total)2.78s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.78sTiempo de respuesta (máximo)2.49sTiempo de respuesta (total)5.34s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.44sTiempo de respuesta (máximo)2.44sTiempo de respuesta (total)2.44s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.95sTiempo de respuesta (total)5.02s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.51sTiempo de respuesta (máximo)2.95sTiempo de respuesta (total)27.21s…
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 42.6%Pruebas inestables: 2…Tokens de salida: 2,317Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.51s · total 27.21s · máximo 2.95s
Trucos anti-IA
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.21sTiempo de respuesta (máximo)2.58sTiempo de respuesta (total)4.85s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.95sTiempo de respuesta (máximo)2.95sTiempo de respuesta (total)2.95s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.89sTiempo de respuesta (máximo)2.89sTiempo de respuesta (total)2.89s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.08s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)3.22s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.78sTiempo de respuesta (máximo)1.78sTiempo de respuesta (total)1.78s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.15s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)2.75sTiempo de respuesta (total)2.75s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7No siguió las instrucciones: 4Tiempo de respuesta (promedio)16.08sTiempo de respuesta (máximo)50.92sTiempo de respuesta (total)176.88s…
Pruebas totales: 18Pruebas incorrectas: 11Tasa de aciertos por intento: 51.9%Pruebas inestables: 6…Tokens de salida: 13,493Tokens de razonamiento: 36,879Tiempo de respuesta: promedio 16.08s · total 176.88s · máximo 50.92s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)26.33sTiempo de respuesta (máximo)26.33sTiempo de respuesta (total)26.33s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.18sTiempo de respuesta (máximo)31.18sTiempo de respuesta (total)31.18s
Análisis y extracción de datos
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)1.98sTiempo de respuesta (total)1.98s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)50.92sTiempo de respuesta (máximo)50.92sTiempo de respuesta (total)50.92s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)7.90sTiempo de respuesta (máximo)7.90sTiempo de respuesta (total)7.90s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.63sTiempo de respuesta (máximo)7.63sTiempo de respuesta (total)7.63s
Llamada de herramientas
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)6.91sTiempo de respuesta (total)6.91s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.74sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)31.32s…
Pruebas totales: 18Pruebas incorrectas: 12Tasa de aciertos por intento: 38.9%Pruebas inestables: 2…Tokens de salida: 3,545Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.74s · total 31.32s · máximo 9.39s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)788msTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)3.15s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.39sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)9.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.45sTiempo de respuesta (total)2.86s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)540msTiempo de respuesta (máximo)649msTiempo de respuesta (total)1.62s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Seguimiento de instrucciones
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)815msTiempo de respuesta (máximo)973msTiempo de respuesta (total)1.63s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.69sTiempo de respuesta (máximo)46.00sTiempo de respuesta (total)66.50s…
Pruebas totales: 18Pruebas incorrectas: 12Tasa de aciertos por intento: 38.9%Pruebas inestables: 2…Tokens de salida: 3,341Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.69s · total 66.50s · máximo 46.00s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.59sTiempo de respuesta (máximo)3.60sTiempo de respuesta (total)6.38s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.44sTiempo de respuesta (máximo)3.44sTiempo de respuesta (total)3.44s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)46.00sTiempo de respuesta (máximo)46.00sTiempo de respuesta (total)46.00s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.01sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.02s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)465msTiempo de respuesta (máximo)492msTiempo de respuesta (total)1.39s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.12sTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)1.12s
Seguimiento de instrucciones
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)585msTiempo de respuesta (máximo)715msTiempo de respuesta (total)1.17s
Resolución de acertijos
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)982msTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)2.95s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.04sTiempo de respuesta (máximo)2.04sTiempo de respuesta (total)2.04s
Pruebas totales: 18Pruebas incorrectas: 12Tasa de aciertos por intento: 46.3%Pruebas inestables: 4…Tokens de salida: 2,278Tokens de razonamiento: 0Tiempo de respuesta: promedio 4.58s · total 77.92s · máximo 15.17s
Trucos anti-IA
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)6.85sTiempo de respuesta (total)15.23s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.17sTiempo de respuesta (máximo)15.17sTiempo de respuesta (total)15.17s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.49sTiempo de respuesta (máximo)14.02sTiempo de respuesta (total)16.98s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.33sTiempo de respuesta (máximo)2.94sTiempo de respuesta (total)6.99s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.71sTiempo de respuesta (máximo)2.71sTiempo de respuesta (total)2.71s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.82sTiempo de respuesta (máximo)2.92sTiempo de respuesta (total)5.65s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.02sTiempo de respuesta (máximo)6.02sTiempo de respuesta (total)6.02s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12Tiempo de respuesta (promedio)13.37sTiempo de respuesta (máximo)42.13sTiempo de respuesta (total)147.05s…
Pruebas totales: 18Pruebas incorrectas: 12Tasa de aciertos por intento: 40.7%Pruebas inestables: 3…Tokens de salida: 2,659Tokens de razonamiento: 0Tiempo de respuesta: promedio 13.37s · total 147.05s · máximo 42.13s
Trucos anti-IA
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)6.24sTiempo de respuesta (máximo)11.38sTiempo de respuesta (total)12.48s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)38.78sTiempo de respuesta (máximo)38.78sTiempo de respuesta (total)38.78s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)19.16sTiempo de respuesta (máximo)19.16sTiempo de respuesta (total)19.16s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)42.13sTiempo de respuesta (máximo)42.13sTiempo de respuesta (total)42.13s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)4.38sTiempo de respuesta (máximo)4.38sTiempo de respuesta (total)4.38s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.00sTiempo de respuesta (máximo)4.00sTiempo de respuesta (total)4.00s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.67sTiempo de respuesta (máximo)2.67sTiempo de respuesta (total)2.67s
Resolución de acertijos
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)4.73sTiempo de respuesta (máximo)7.81sTiempo de respuesta (total)9.45s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.99sTiempo de respuesta (máximo)13.99sTiempo de respuesta (total)13.99s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 2Tiempo de respuesta (promedio)2.94sTiempo de respuesta (máximo)8.21sTiempo de respuesta (total)52.98s…
Pruebas totales: 18Pruebas incorrectas: 12Tasa de aciertos por intento: 37.0%Pruebas inestables: 2…Tokens de salida: 1,775Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.94s · total 52.98s · máximo 8.21s
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.84sTiempo de respuesta (máximo)4.15sTiempo de respuesta (total)11.35s
Programación
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.93sTiempo de respuesta (máximo)3.93sTiempo de respuesta (total)3.93s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.89sTiempo de respuesta (máximo)4.89sTiempo de respuesta (total)4.89s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.47sTiempo de respuesta (máximo)2.48sTiempo de respuesta (total)4.95s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.97sTiempo de respuesta (máximo)2.65sTiempo de respuesta (total)5.92s
Inteligencia general
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.18sTiempo de respuesta (máximo)2.18sTiempo de respuesta (total)2.18s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.13sTiempo de respuesta (máximo)2.53sTiempo de respuesta (total)4.27s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.21sTiempo de respuesta (máximo)8.21sTiempo de respuesta (total)8.21s
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 57.4%Pruebas inestables: 10…Tokens de salida: 107,044Tokens de razonamiento: 206,422Tiempo de respuesta: promedio 39.65s · total 396.47s · máximo 237.27s
Trucos anti-IA
: 7.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo agotado: 1Tiempo de respuesta (promedio)20.82sTiempo de respuesta (máximo)32.42sTiempo de respuesta (total)41.63s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)60.39sTiempo de respuesta (máximo)60.39sTiempo de respuesta (total)60.39s
Análisis y extracción de datos
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.48sTiempo de respuesta (máximo)7.48sTiempo de respuesta (total)7.48s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)237.27sTiempo de respuesta (máximo)237.27sTiempo de respuesta (total)237.27s
Inteligencia general
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.63sTiempo de respuesta (máximo)6.63sTiempo de respuesta (total)6.63s
Seguimiento de instrucciones
: 8.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.64sTiempo de respuesta (máximo)4.64sTiempo de respuesta (total)4.64s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.54sTiempo de respuesta (máximo)17.37sTiempo de respuesta (total)23.08s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.35sTiempo de respuesta (máximo)15.35sTiempo de respuesta (total)15.35s
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 50.0%Pruebas inestables: 7…Tokens de salida: 15,084Tokens de razonamiento: 39,408Tiempo de respuesta: promedio 5.64s · total 101.52s · máximo 30.49s
Trucos anti-IA
: 5.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.67sTiempo de respuesta (máximo)5.03sTiempo de respuesta (total)10.66s
Programación
: 6.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)30.49sTiempo de respuesta (máximo)30.49sTiempo de respuesta (total)30.49s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)25.25sTiempo de respuesta (máximo)25.25sTiempo de respuesta (total)25.25s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)1.23sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)2.46s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.11sTiempo de respuesta (máximo)13.72sTiempo de respuesta (total)18.34s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.05sTiempo de respuesta (máximo)2.05sTiempo de respuesta (total)2.05s
Seguimiento de instrucciones
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.38sTiempo de respuesta (máximo)1.61sTiempo de respuesta (total)2.75s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.50sTiempo de respuesta (máximo)3.50sTiempo de respuesta (total)3.50s
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 37.0%Pruebas inestables: 3…Tokens de salida: 2,489Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.35s · total 36.90s · máximo 7.05s
Trucos anti-IA
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)5.51sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)11.02s
Programación
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.57sTiempo de respuesta (máximo)5.57sTiempo de respuesta (total)5.57s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)3.22sTiempo de respuesta (máximo)3.22sTiempo de respuesta (total)3.22s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.82sTiempo de respuesta (máximo)4.82sTiempo de respuesta (total)4.82s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)744msTiempo de respuesta (máximo)744msTiempo de respuesta (total)744ms
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.59sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)1.59s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)888msTiempo de respuesta (máximo)888msTiempo de respuesta (total)888ms
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.05sTiempo de respuesta (máximo)7.05sTiempo de respuesta (total)7.05s
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 37.0%Pruebas inestables: 4…Tokens de salida: 3,720Tokens de razonamiento: 0Tiempo de respuesta: promedio 4.33s · total 78.02s · máximo 32.57s
Trucos anti-IA
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.11sTiempo de respuesta (máximo)3.94sTiempo de respuesta (total)8.46s
Programación
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.79sTiempo de respuesta (máximo)9.79sTiempo de respuesta (total)9.79s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)32.57sTiempo de respuesta (máximo)32.57sTiempo de respuesta (total)32.57s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.08sTiempo de respuesta (máximo)1.62sTiempo de respuesta (total)2.15s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.99sTiempo de respuesta (máximo)3.99sTiempo de respuesta (total)5.98s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)790msTiempo de respuesta (máximo)790msTiempo de respuesta (total)790ms
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.58sTiempo de respuesta (máximo)1.69sTiempo de respuesta (total)3.17s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.68sTiempo de respuesta (máximo)10.68sTiempo de respuesta (total)10.68s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)5.07sTiempo de respuesta (máximo)39.47sTiempo de respuesta (total)91.23s…
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 29.6%Pruebas inestables: 1…Tokens de salida: 1,985Tokens de razonamiento: 0Tiempo de respuesta: promedio 5.07s · total 91.23s · máximo 39.47s
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)3.02sTiempo de respuesta (máximo)8.17sTiempo de respuesta (total)12.07s
Programación
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.47sTiempo de respuesta (máximo)39.47sTiempo de respuesta (total)39.47s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.91sTiempo de respuesta (máximo)8.91sTiempo de respuesta (total)8.91s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.26sTiempo de respuesta (máximo)4.66sTiempo de respuesta (total)6.52s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)877msTiempo de respuesta (máximo)894msTiempo de respuesta (total)2.63s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.86sTiempo de respuesta (máximo)2.86sTiempo de respuesta (total)2.86s
Resolución de acertijos
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.30sTiempo de respuesta (máximo)4.81sTiempo de respuesta (total)9.91s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.67sTiempo de respuesta (máximo)6.67sTiempo de respuesta (total)6.67s
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 29.6%Pruebas inestables: 1…Tokens de salida: 2,596Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.27s · total 22.82s · máximo 3.70s
Trucos anti-IA
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)2.04sTiempo de respuesta (total)4.75s
Programación
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.30sTiempo de respuesta (total)1.30s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.70sTiempo de respuesta (máximo)3.70sTiempo de respuesta (total)3.70s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)979msTiempo de respuesta (máximo)1.02sTiempo de respuesta (total)1.96s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)925msTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)2.77s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)920msTiempo de respuesta (máximo)920msTiempo de respuesta (total)920ms
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)987msTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)1.97s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)2.83sTiempo de respuesta (máximo)2.83sTiempo de respuesta (total)2.83s
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 29.6%Pruebas inestables: 1…Tokens de salida: 1,967Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.11s · total 20.02s · máximo 6.04s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)501msTiempo de respuesta (máximo)839msTiempo de respuesta (total)2.01s
Programación
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.22sTiempo de respuesta (total)1.22s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)6.04sTiempo de respuesta (máximo)6.04sTiempo de respuesta (total)6.04s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)522msTiempo de respuesta (máximo)537msTiempo de respuesta (total)1.04s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Formato extra: 1Tiempo de respuesta (promedio)687msTiempo de respuesta (máximo)821msTiempo de respuesta (total)2.06s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)659msTiempo de respuesta (máximo)659msTiempo de respuesta (total)659ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.63sTiempo de respuesta (máximo)4.63sTiempo de respuesta (total)4.63s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)665msTiempo de respuesta (máximo)1.72sTiempo de respuesta (total)11.97s…
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 31.5%Pruebas inestables: 1…Tokens de salida: 2,207Tokens de razonamiento: 0Tiempo de respuesta: promedio 665ms · total 11.97s · máximo 1.72s
Trucos anti-IA
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)395msTiempo de respuesta (máximo)769msTiempo de respuesta (total)1.58s
Programación
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.28sTiempo de respuesta (máximo)1.28sTiempo de respuesta (total)1.28s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.72sTiempo de respuesta (máximo)1.72sTiempo de respuesta (total)1.72s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)822msTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)1.64s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)367msTiempo de respuesta (máximo)388msTiempo de respuesta (total)1.10s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)729msTiempo de respuesta (máximo)729msTiempo de respuesta (total)729ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)380msTiempo de respuesta (máximo)380msTiempo de respuesta (total)759ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.40sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)1.40s
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 31.5%Pruebas inestables: 1…Tokens de salida: 2,573Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.23s · total 22.16s · máximo 3.81s
Programación
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)1.39s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)3.81sTiempo de respuesta (total)3.81s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.05sTiempo de respuesta (total)2.08s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)927msTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.78s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)854msTiempo de respuesta (máximo)854msTiempo de respuesta (total)854ms
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.07s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)2.79sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)2.79s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)2.52sTiempo de respuesta (total)21.01s…
Pruebas totales: 18Pruebas incorrectas: 13Tasa de aciertos por intento: 35.2%Pruebas inestables: 3…Tokens de salida: 2,418Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.17s · total 21.01s · máximo 2.52s
Trucos anti-IA
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)929msTiempo de respuesta (máximo)1.55sTiempo de respuesta (total)3.72s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)1.19s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.52sTiempo de respuesta (máximo)2.52sTiempo de respuesta (total)2.52s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.58sTiempo de respuesta (total)2.61s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)937msTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)2.81s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.82sTiempo de respuesta (total)1.82s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)728msTiempo de respuesta (máximo)731msTiempo de respuesta (total)1.46s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.32sTiempo de respuesta (máximo)2.32sTiempo de respuesta (total)2.32s
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 29.6%Pruebas inestables: 2…Tokens de salida: 1,591Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.19s · total 21.37s · máximo 6.48s
Trucos anti-IA
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)597msTiempo de respuesta (máximo)866msTiempo de respuesta (total)2.39s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.14sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)1.14s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)6.48sTiempo de respuesta (máximo)6.48sTiempo de respuesta (total)6.48s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)601msTiempo de respuesta (máximo)634msTiempo de respuesta (total)1.20s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)611msTiempo de respuesta (máximo)616msTiempo de respuesta (total)1.83s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)541msTiempo de respuesta (máximo)541msTiempo de respuesta (total)541ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.79sTiempo de respuesta (máximo)4.79sTiempo de respuesta (total)4.79s
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 51.9%Pruebas inestables: 10…Tokens de salida: 4,984Tokens de razonamiento: 62,787Tiempo de respuesta: promedio 31.08s · total 528.37s · máximo 117.04s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)91.27sTiempo de respuesta (máximo)91.27sTiempo de respuesta (total)91.27s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)41.03sTiempo de respuesta (máximo)41.03sTiempo de respuesta (total)41.03s
Análisis y extracción de datos
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)21.95sTiempo de respuesta (máximo)24.88sTiempo de respuesta (total)43.89s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)19.00sTiempo de respuesta (máximo)21.63sTiempo de respuesta (total)38.01s
Inteligencia general
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)38.70sTiempo de respuesta (máximo)38.70sTiempo de respuesta (total)38.70s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)12.05sTiempo de respuesta (máximo)12.05sTiempo de respuesta (total)12.05s
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 38.9%Pruebas inestables: 5…Tokens de salida: 44,652Tokens de razonamiento: 0Tiempo de respuesta: promedio 11.96s · total 179.34s · máximo 68.97s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.57sTiempo de respuesta (máximo)9.57sTiempo de respuesta (total)9.57s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)7.12sTiempo de respuesta (máximo)7.12sTiempo de respuesta (total)7.12s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)34.98sTiempo de respuesta (máximo)68.97sTiempo de respuesta (total)104.94s
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.83sTiempo de respuesta (máximo)2.83sTiempo de respuesta (total)2.83s
Seguimiento de instrucciones
: 8.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.10sTiempo de respuesta (máximo)5.85sTiempo de respuesta (total)10.21s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 25.9%Pruebas inestables: 1…Tokens de salida: 3,617Tokens de razonamiento: 0Tiempo de respuesta: promedio 10.18s · total 122.13s · máximo 45.14s
Programación
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.14sTiempo de respuesta (máximo)3.14sTiempo de respuesta (total)3.14s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)45.14sTiempo de respuesta (máximo)45.14sTiempo de respuesta (total)45.14s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)1.32sTiempo de respuesta (total)1.32s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)962msTiempo de respuesta (máximo)962msTiempo de respuesta (total)962ms
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.34sTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)1.34s
Seguimiento de instrucciones
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.71sTiempo de respuesta (máximo)14.65sTiempo de respuesta (total)15.42s
Resolución de acertijos
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)22.86sTiempo de respuesta (máximo)42.58sTiempo de respuesta (total)45.73s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.47sTiempo de respuesta (máximo)2.47sTiempo de respuesta (total)2.47s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 4Tiempo de respuesta (promedio)8.54sTiempo de respuesta (máximo)24.97sTiempo de respuesta (total)153.69s…
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 35.2%Pruebas inestables: 4…Tokens de salida: 4,760Tokens de razonamiento: 0Tiempo de respuesta: promedio 8.54s · total 153.69s · máximo 24.97s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)7.43sTiempo de respuesta (máximo)16.69sTiempo de respuesta (total)29.72s
Programación
: 3.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.99sTiempo de respuesta (máximo)2.99sTiempo de respuesta (total)2.99s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)19.98sTiempo de respuesta (máximo)19.98sTiempo de respuesta (total)19.98s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.92sTiempo de respuesta (máximo)13.23sTiempo de respuesta (total)15.84s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.23sTiempo de respuesta (máximo)14.38sTiempo de respuesta (total)18.70s
Inteligencia general
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)24.97sTiempo de respuesta (máximo)24.97sTiempo de respuesta (total)24.97s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)16.00sTiempo de respuesta (máximo)16.00sTiempo de respuesta (total)16.00s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.00sTiempo de respuesta (máximo)7.58sTiempo de respuesta (total)21.99s…
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 22.2%Pruebas inestables: 0…Tokens de salida: 1,947Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.00s · total 21.99s · máximo 7.58s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.34sTiempo de respuesta (máximo)1.83sTiempo de respuesta (total)2.67s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.55sTiempo de respuesta (máximo)2.55sTiempo de respuesta (total)2.55s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.58sTiempo de respuesta (máximo)7.58sTiempo de respuesta (total)7.58s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)637msTiempo de respuesta (máximo)637msTiempo de respuesta (total)637ms
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)909msTiempo de respuesta (máximo)909msTiempo de respuesta (total)909ms
Resolución de acertijos
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)2.60s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 24.1%Pruebas inestables: 1…Tokens de salida: 3,951Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.47s · total 26.43s · máximo 5.91s
Trucos anti-IA
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.71sTiempo de respuesta (máximo)3.79sTiempo de respuesta (total)6.84s
Programación
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.69sTiempo de respuesta (máximo)5.69sTiempo de respuesta (total)5.69s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)5.91sTiempo de respuesta (máximo)5.91sTiempo de respuesta (total)5.91s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)847msTiempo de respuesta (máximo)1.09sTiempo de respuesta (total)1.69s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)464msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.39s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)552msTiempo de respuesta (máximo)552msTiempo de respuesta (total)552ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)514msTiempo de respuesta (máximo)582msTiempo de respuesta (total)1.03s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 1Tiempo de respuesta (promedio)613msTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)11.04s…
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 27.8%Pruebas inestables: 2…Tokens de salida: 1,625Tokens de razonamiento: 0Tiempo de respuesta: promedio 613ms · total 11.04s · máximo 1.27s
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)483msTiempo de respuesta (máximo)716msTiempo de respuesta (total)1.93s
Programación
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)969msTiempo de respuesta (máximo)969msTiempo de respuesta (total)969ms
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)606msTiempo de respuesta (máximo)606msTiempo de respuesta (total)606ms
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)667msTiempo de respuesta (máximo)819msTiempo de respuesta (total)1.33s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)534msTiempo de respuesta (máximo)733msTiempo de respuesta (total)1.60s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)628msTiempo de respuesta (máximo)628msTiempo de respuesta (total)628ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)551msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.10s
Resolución de acertijos
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)533msTiempo de respuesta (máximo)637msTiempo de respuesta (total)1.60s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Pruebas totales: 18Pruebas incorrectas: 14Tasa de aciertos por intento: 38.9%Pruebas inestables: 8…Tokens de salida: 39,688Tokens de razonamiento: 72,401Tiempo de respuesta: promedio 32.33s · total 355.65s · máximo 174.55s
Programación
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)21.26sTiempo de respuesta (máximo)21.26sTiempo de respuesta (total)21.26s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)65.57sTiempo de respuesta (máximo)65.57sTiempo de respuesta (total)65.57s
Análisis y extracción de datos
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)1.51sTiempo de respuesta (máximo)1.51sTiempo de respuesta (total)1.51s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Sin respuesta: 1Tiempo de respuesta (promedio)174.55sTiempo de respuesta (máximo)174.55sTiempo de respuesta (total)174.55s
Inteligencia general
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)18.14sTiempo de respuesta (máximo)18.14sTiempo de respuesta (total)18.14s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.97sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)2.97s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.95sTiempo de respuesta (máximo)15.95sTiempo de respuesta (total)15.95s
Pruebas totales: 18Pruebas incorrectas: 15Tasa de aciertos por intento: 27.8%Pruebas inestables: 3…Tokens de salida: 3,241Tokens de razonamiento: 0Tiempo de respuesta: promedio 10.75s · total 129.01s · máximo 81.80s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)1.69sTiempo de respuesta (total)1.69s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.28sTiempo de respuesta (máximo)4.28sTiempo de respuesta (total)4.28s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)81.80sTiempo de respuesta (máximo)81.80sTiempo de respuesta (total)81.80s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)638msTiempo de respuesta (máximo)638msTiempo de respuesta (total)638ms
Inteligencia general
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)1.39s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.64sTiempo de respuesta (máximo)2.64sTiempo de respuesta (total)2.64s
Pruebas totales: 18Pruebas incorrectas: 15Tasa de aciertos por intento: 27.8%Pruebas inestables: 5…Tokens de salida: 68,522Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.79s · total 39.08s · máximo 19.68s
Trucos anti-IA
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)4.76s
Programación
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.79sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)2.79s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.87sTiempo de respuesta (máximo)2.87sTiempo de respuesta (total)2.87s
Análisis y extracción de datos
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Formato extra: 1Tiempo de respuesta (promedio)19.68sTiempo de respuesta (máximo)19.68sTiempo de respuesta (total)19.68s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)564msTiempo de respuesta (máximo)564msTiempo de respuesta (total)564ms
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)857msTiempo de respuesta (máximo)955msTiempo de respuesta (total)1.71s
Resolución de acertijos
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.38sTiempo de respuesta (máximo)1.74sTiempo de respuesta (total)2.75s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.28sTiempo de respuesta (máximo)2.28sTiempo de respuesta (total)2.28s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.76sTiempo de respuesta (máximo)5.51sTiempo de respuesta (total)19.35s…
Pruebas totales: 18Pruebas incorrectas: 15Tasa de aciertos por intento: 24.1%Pruebas inestables: 3…Tokens de salida: 1,721Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.76s · total 19.35s · máximo 5.51s
Programación
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.79sTiempo de respuesta (máximo)1.79sTiempo de respuesta (total)1.79s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)943msTiempo de respuesta (máximo)943msTiempo de respuesta (total)943ms
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)1.06s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.08sTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)1.08s
Seguimiento de instrucciones
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)923msTiempo de respuesta (máximo)923msTiempo de respuesta (total)923ms
Resolución de acertijos
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.28sTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)2.56s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.51sTiempo de respuesta (máximo)5.51sTiempo de respuesta (total)5.51s
Pruebas totales: 18Pruebas incorrectas: 15Tasa de aciertos por intento: 33.3%Pruebas inestables: 6…Tokens de salida: 24,291Tokens de razonamiento: 172,597Tiempo de respuesta: promedio 73.64s · total 1104.60s · máximo 226.38s
Trucos anti-IA
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.44sTiempo de respuesta (máximo)57.86sTiempo de respuesta (total)103.31s
Programación
: 2.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)135.61sTiempo de respuesta (máximo)135.61sTiempo de respuesta (total)135.61s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo agotado: 1Tiempo de respuesta (promedio)87.31sTiempo de respuesta (máximo)87.31sTiempo de respuesta (total)87.31s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)137.75sTiempo de respuesta (máximo)202.61sTiempo de respuesta (total)413.24s
Inteligencia general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)226.38sTiempo de respuesta (máximo)226.38sTiempo de respuesta (total)226.38s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)17.15sTiempo de respuesta (máximo)28.54sTiempo de respuesta (total)34.29s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.31sTiempo de respuesta (máximo)4.31sTiempo de respuesta (total)4.31s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.40sTiempo de respuesta (máximo)3.84sTiempo de respuesta (total)25.14s…
Pruebas totales: 18Pruebas incorrectas: 16Tasa de aciertos por intento: 31.5%Pruebas inestables: 7…Tokens de salida: 2,762Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.40s · total 25.14s · máximo 3.84s
Trucos anti-IA
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.18sTiempo de respuesta (máximo)1.81sTiempo de respuesta (total)4.70s
Programación
: 7.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.43sTiempo de respuesta (total)1.43s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.84sTiempo de respuesta (máximo)3.84sTiempo de respuesta (total)3.84s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)2.23s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)926msTiempo de respuesta (máximo)959msTiempo de respuesta (total)2.78s
Inteligencia general
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.31sTiempo de respuesta (máximo)1.31sTiempo de respuesta (total)1.31s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.40sTiempo de respuesta (máximo)3.40sTiempo de respuesta (total)3.40s
Pruebas totales: 16Pruebas incorrectas: 15Tasa de aciertos por intento: 14.6%Pruebas inestables: 2…Tokens de salida: 1,185Tokens de razonamiento: 0Tiempo de respuesta: promedio 811ms · total 11.35s · máximo 2.88s
Trucos anti-IA
: 3.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)471msTiempo de respuesta (máximo)872msTiempo de respuesta (total)1.41s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)714msTiempo de respuesta (máximo)987msTiempo de respuesta (total)1.43s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)287msTiempo de respuesta (máximo)334msTiempo de respuesta (total)860ms
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)395msTiempo de respuesta (máximo)395msTiempo de respuesta (total)395ms
Seguimiento de instrucciones
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.09sTiempo de respuesta (máximo)1.90sTiempo de respuesta (total)2.18s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms…
Pruebas totales: 1Pruebas incorrectas: 1Tasa de aciertos por intento: 0.0%Pruebas inestables: 0…Tokens de salida: 0Tokens de razonamiento: 0Tiempo de respuesta: promedio 0ms · total 0ms · máximo 0ms
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms