Trucos anti-IA
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)16.53sTiempo de respuesta (máximo)39.91sTiempo de respuesta (total)66.11s
Programación
: 3.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Error de API: 1Tiempo de respuesta (promedio)118.23sTiempo de respuesta (máximo)184.68sTiempo de respuesta (total)236.45s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.02sTiempo de respuesta (máximo)65.02sTiempo de respuesta (total)65.02s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)23.62sTiempo de respuesta (máximo)36.44sTiempo de respuesta (total)47.24s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)25.09sTiempo de respuesta (máximo)25.09sTiempo de respuesta (total)25.09s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)41.16sTiempo de respuesta (máximo)43.56sTiempo de respuesta (total)82.32s
Resolución de acertijos
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.84sTiempo de respuesta (máximo)76.46sTiempo de respuesta (total)104.52s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.33sTiempo de respuesta (máximo)21.33sTiempo de respuesta (total)21.33s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.14sTiempo de respuesta (máximo)39.14sTiempo de respuesta (total)39.14s
Trucos anti-IA
: 7.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo agotado: 1Tiempo de respuesta (promedio)20.82sTiempo de respuesta (máximo)32.42sTiempo de respuesta (total)41.63s
Combinado
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)60.39sTiempo de respuesta (máximo)60.39sTiempo de respuesta (total)60.39s
Análisis y extracción de datos
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.48sTiempo de respuesta (máximo)7.48sTiempo de respuesta (total)7.48s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)237.27sTiempo de respuesta (máximo)237.27sTiempo de respuesta (total)237.27s
Inteligencia general
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.63sTiempo de respuesta (máximo)6.63sTiempo de respuesta (total)6.63s
Seguimiento de instrucciones
: 7.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)621msTiempo de respuesta (máximo)621msTiempo de respuesta (total)621ms
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.21sTiempo de respuesta (máximo)17.37sTiempo de respuesta (total)22.43s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.35sTiempo de respuesta (máximo)15.35sTiempo de respuesta (total)15.35s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)80.79sTiempo de respuesta (máximo)80.79sTiempo de respuesta (total)80.79s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2No siguió las instrucciones: 1Tiempo de respuesta (promedio)68.14sTiempo de respuesta (máximo)280.52sTiempo de respuesta (total)1090.28s…
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)43.87sTiempo de respuesta (máximo)121.88sTiempo de respuesta (total)131.62s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)280.52sTiempo de respuesta (máximo)280.52sTiempo de respuesta (total)280.52s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.16sTiempo de respuesta (máximo)8.54sTiempo de respuesta (total)14.31s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)127.58sTiempo de respuesta (máximo)133.93sTiempo de respuesta (total)382.74s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.25sTiempo de respuesta (máximo)5.25sTiempo de respuesta (total)5.25s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)64.03sTiempo de respuesta (máximo)124.45sTiempo de respuesta (total)128.06s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)46.68sTiempo de respuesta (máximo)134.22sTiempo de respuesta (total)140.04s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.73sTiempo de respuesta (máximo)7.73sTiempo de respuesta (total)7.73s
Programación
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo agotado: 1Tiempo de respuesta (promedio)144.74sTiempo de respuesta (máximo)218.40sTiempo de respuesta (total)434.22s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.30sTiempo de respuesta (máximo)65.30sTiempo de respuesta (total)65.30s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.92sTiempo de respuesta (máximo)16.89sTiempo de respuesta (total)29.85s
Específico del dominio
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Tiempo de respuesta (promedio)233.13sTiempo de respuesta (máximo)431.03sTiempo de respuesta (total)466.26s
Inteligencia general
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)33.25sTiempo de respuesta (máximo)33.25sTiempo de respuesta (total)33.25s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.14sTiempo de respuesta (máximo)6.80sTiempo de respuesta (total)12.27s
Resolución de acertijos
: 7.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)49.91sTiempo de respuesta (máximo)128.09sTiempo de respuesta (total)149.74s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)100.80sTiempo de respuesta (máximo)100.80sTiempo de respuesta (total)100.80s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)19.75sTiempo de respuesta (máximo)49.95sTiempo de respuesta (total)79.01s
Programación
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)160.69sTiempo de respuesta (máximo)234.36sTiempo de respuesta (total)482.07s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)163.96sTiempo de respuesta (máximo)163.96sTiempo de respuesta (total)163.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)30.26sTiempo de respuesta (máximo)32.03sTiempo de respuesta (total)60.52s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)79.53sTiempo de respuesta (máximo)95.52sTiempo de respuesta (total)238.59s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)101.41sTiempo de respuesta (máximo)101.41sTiempo de respuesta (total)101.41s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)19.66sTiempo de respuesta (máximo)32.25sTiempo de respuesta (total)39.32s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)59.60sTiempo de respuesta (máximo)123.57sTiempo de respuesta (total)178.80s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.45sTiempo de respuesta (máximo)7.45sTiempo de respuesta (total)7.45s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)85.11sTiempo de respuesta (máximo)85.11sTiempo de respuesta (total)85.11s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)24.23sTiempo de respuesta (máximo)29.86sTiempo de respuesta (total)96.93s
Programación
: 6.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)248.68sTiempo de respuesta (máximo)376.10sTiempo de respuesta (total)746.04s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)93.11sTiempo de respuesta (máximo)93.11sTiempo de respuesta (total)93.11s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)36.09sTiempo de respuesta (máximo)39.12sTiempo de respuesta (total)72.18s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)33.91sTiempo de respuesta (total)72.82s
Inteligencia general
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)58.29sTiempo de respuesta (máximo)58.29sTiempo de respuesta (total)58.29s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)35.78sTiempo de respuesta (máximo)47.30sTiempo de respuesta (total)71.56s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.81sTiempo de respuesta (máximo)34.81sTiempo de respuesta (total)34.81s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.99sTiempo de respuesta (máximo)83.99sTiempo de respuesta (total)83.99s
Programación
: 5.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)214.42sTiempo de respuesta (máximo)406.78sTiempo de respuesta (total)643.25s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)40.96sTiempo de respuesta (máximo)40.96sTiempo de respuesta (total)40.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)20.38sTiempo de respuesta (máximo)22.88sTiempo de respuesta (total)40.76s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Tiempo de respuesta (promedio)202.38sTiempo de respuesta (máximo)215.85sTiempo de respuesta (total)404.76s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.83sTiempo de respuesta (máximo)17.83sTiempo de respuesta (total)17.83s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.53sTiempo de respuesta (máximo)19.15sTiempo de respuesta (total)25.06s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.92sTiempo de respuesta (máximo)8.92sTiempo de respuesta (total)8.92s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)130.27sTiempo de respuesta (máximo)130.27sTiempo de respuesta (total)130.27s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)40.57sTiempo de respuesta (máximo)110.43sTiempo de respuesta (total)121.72s
Programación
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)258.38sTiempo de respuesta (máximo)453.94sTiempo de respuesta (total)516.77s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.57sTiempo de respuesta (máximo)29.57sTiempo de respuesta (total)29.57s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.01sTiempo de respuesta (máximo)15.01sTiempo de respuesta (total)15.01s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)170.45sTiempo de respuesta (máximo)170.45sTiempo de respuesta (total)170.45s
Inteligencia general
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)22.39sTiempo de respuesta (máximo)22.39sTiempo de respuesta (total)22.39s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.78sTiempo de respuesta (máximo)4.78sTiempo de respuesta (total)4.78s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)108.45sTiempo de respuesta (máximo)108.45sTiempo de respuesta (total)108.45s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.13sTiempo de respuesta (máximo)34.96sTiempo de respuesta (total)84.53s
Programación
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)206.65sTiempo de respuesta (máximo)409.98sTiempo de respuesta (total)619.94s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)75.34sTiempo de respuesta (máximo)75.34sTiempo de respuesta (total)75.34s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)59.33sTiempo de respuesta (máximo)97.12sTiempo de respuesta (total)118.65s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)88.34sTiempo de respuesta (máximo)106.00sTiempo de respuesta (total)265.01s
Inteligencia general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)30.30sTiempo de respuesta (máximo)30.30sTiempo de respuesta (total)30.30s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.45sTiempo de respuesta (máximo)43.36sTiempo de respuesta (total)48.89s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)33.13sTiempo de respuesta (máximo)64.81sTiempo de respuesta (total)99.38s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.65sTiempo de respuesta (máximo)4.65sTiempo de respuesta (total)4.65s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)177.35sTiempo de respuesta (máximo)177.35sTiempo de respuesta (total)177.35s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo agotado: 2Error de API: 1Tiempo de respuesta (promedio)73.79sTiempo de respuesta (máximo)266.69sTiempo de respuesta (total)1033.07s…
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)45.78sTiempo de respuesta (máximo)81.20sTiempo de respuesta (total)91.57s
Programación
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)180.70sTiempo de respuesta (máximo)266.69sTiempo de respuesta (total)542.10s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.85sTiempo de respuesta (máximo)46.85sTiempo de respuesta (total)46.85s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.91sTiempo de respuesta (máximo)46.91sTiempo de respuesta (total)46.91s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.50sTiempo de respuesta (máximo)17.50sTiempo de respuesta (total)17.50s
Inteligencia general
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)79.86sTiempo de respuesta (máximo)79.86sTiempo de respuesta (total)79.86s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.93sTiempo de respuesta (máximo)31.93sTiempo de respuesta (total)31.93s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)32.50sTiempo de respuesta (máximo)49.12sTiempo de respuesta (total)65.01s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.54sTiempo de respuesta (máximo)7.54sTiempo de respuesta (total)7.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)103.81sTiempo de respuesta (máximo)103.81sTiempo de respuesta (total)103.81s
Trucos anti-IA
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)74.75sTiempo de respuesta (máximo)182.10sTiempo de respuesta (total)298.98s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)220.48sTiempo de respuesta (máximo)243.66sTiempo de respuesta (total)440.97s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)262.83sTiempo de respuesta (máximo)262.83sTiempo de respuesta (total)262.83s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)27.52sTiempo de respuesta (total)48.54s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Inteligencia general
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)36.65sTiempo de respuesta (máximo)36.65sTiempo de respuesta (total)36.65s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.47sTiempo de respuesta (máximo)19.46sTiempo de respuesta (total)34.93s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)31.79sTiempo de respuesta (máximo)50.78sTiempo de respuesta (total)95.38s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.68sTiempo de respuesta (máximo)88.68sTiempo de respuesta (total)88.68s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)56.76sTiempo de respuesta (máximo)56.76sTiempo de respuesta (total)56.76s
Trucos anti-IA
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.44sTiempo de respuesta (máximo)57.86sTiempo de respuesta (total)103.31s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo agotado: 1Tiempo de respuesta (promedio)87.31sTiempo de respuesta (máximo)87.31sTiempo de respuesta (total)87.31s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)137.75sTiempo de respuesta (máximo)202.61sTiempo de respuesta (total)413.24s
Inteligencia general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)226.38sTiempo de respuesta (máximo)226.38sTiempo de respuesta (total)226.38s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)5.75sTiempo de respuesta (máximo)5.75sTiempo de respuesta (total)5.75s
Resolución de acertijos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)32.27sTiempo de respuesta (máximo)47.31sTiempo de respuesta (total)96.80s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.31sTiempo de respuesta (máximo)4.31sTiempo de respuesta (total)4.31s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)177.02sTiempo de respuesta (máximo)177.02sTiempo de respuesta (total)177.02s
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)51.38sTiempo de respuesta (máximo)85.28sTiempo de respuesta (total)102.75s
Programación
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)217.49sTiempo de respuesta (máximo)281.00sTiempo de respuesta (total)652.48s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)71.37sTiempo de respuesta (máximo)71.37sTiempo de respuesta (total)71.37s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)49.78sTiempo de respuesta (máximo)49.78sTiempo de respuesta (total)49.78s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)137.29sTiempo de respuesta (máximo)137.29sTiempo de respuesta (total)137.29s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)69.73sTiempo de respuesta (máximo)69.73sTiempo de respuesta (total)69.73s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)92.47sTiempo de respuesta (máximo)92.47sTiempo de respuesta (total)92.47s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.74sTiempo de respuesta (máximo)31.74sTiempo de respuesta (total)31.74s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.95sTiempo de respuesta (máximo)83.95sTiempo de respuesta (total)83.95s