Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)12.62sTiempo de respuesta (máximo)18.61sTiempo de respuesta (total)50.50s
Programación
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)142.99sTiempo de respuesta (máximo)168.22sTiempo de respuesta (total)428.96s
Combinado
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)83.07sTiempo de respuesta (máximo)83.07sTiempo de respuesta (total)83.07s
Análisis y extracción de datos
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 2Tiempo de respuesta (promedio)37.30sTiempo de respuesta (máximo)54.01sTiempo de respuesta (total)74.60s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)73.38sTiempo de respuesta (máximo)101.55sTiempo de respuesta (total)220.15s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)39.53sTiempo de respuesta (máximo)39.53sTiempo de respuesta (total)39.53s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)37.96sTiempo de respuesta (máximo)47.48sTiempo de respuesta (total)75.92s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)61.14sTiempo de respuesta (máximo)97.76sTiempo de respuesta (total)183.42s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.88sTiempo de respuesta (máximo)16.88sTiempo de respuesta (total)16.88s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)80.99sTiempo de respuesta (máximo)80.99sTiempo de respuesta (total)80.99s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)40.57sTiempo de respuesta (máximo)110.43sTiempo de respuesta (total)121.72s
Programación
: 2.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)258.38sTiempo de respuesta (máximo)453.94sTiempo de respuesta (total)516.77s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.57sTiempo de respuesta (máximo)29.57sTiempo de respuesta (total)29.57s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.01sTiempo de respuesta (máximo)15.01sTiempo de respuesta (total)15.01s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)170.45sTiempo de respuesta (máximo)170.45sTiempo de respuesta (total)170.45s
Inteligencia general
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)22.39sTiempo de respuesta (máximo)22.39sTiempo de respuesta (total)22.39s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.78sTiempo de respuesta (máximo)4.78sTiempo de respuesta (total)4.78s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)108.45sTiempo de respuesta (máximo)108.45sTiempo de respuesta (total)108.45s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)25.50sTiempo de respuesta (máximo)37.73sTiempo de respuesta (total)51.00s
Programación
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)41.62sTiempo de respuesta (máximo)54.86sTiempo de respuesta (total)124.86s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.96sTiempo de respuesta (máximo)65.96sTiempo de respuesta (total)65.96s
Análisis y extracción de datos
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)21.42sTiempo de respuesta (máximo)21.42sTiempo de respuesta (total)21.42s
Específico del dominio
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)204.02sTiempo de respuesta (máximo)204.02sTiempo de respuesta (total)204.02s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)17.51sTiempo de respuesta (máximo)17.51sTiempo de respuesta (total)17.51s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.64sTiempo de respuesta (máximo)15.64sTiempo de respuesta (total)15.64s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)33.30sTiempo de respuesta (máximo)33.30sTiempo de respuesta (total)33.30s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)20.13sTiempo de respuesta (máximo)20.13sTiempo de respuesta (total)20.13s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 3Tiempo de respuesta (promedio)22.28sTiempo de respuesta (máximo)68.16sTiempo de respuesta (total)311.96s…
Programación
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)38.37sTiempo de respuesta (máximo)68.16sTiempo de respuesta (total)115.10s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.18sTiempo de respuesta (máximo)31.18sTiempo de respuesta (total)31.18s
Análisis y extracción de datos
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)1.98sTiempo de respuesta (total)1.98s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)50.92sTiempo de respuesta (máximo)50.92sTiempo de respuesta (total)50.92s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)7.90sTiempo de respuesta (máximo)7.90sTiempo de respuesta (total)7.90s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.63sTiempo de respuesta (máximo)7.63sTiempo de respuesta (total)7.63s
Llamada de herramientas
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)6.91sTiempo de respuesta (total)6.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)26.51sTiempo de respuesta (máximo)26.51sTiempo de respuesta (total)26.51s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.86sTiempo de respuesta (máximo)3.92sTiempo de respuesta (total)11.45s
Programación
: 6.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)94.21sTiempo de respuesta (máximo)136.29sTiempo de respuesta (total)188.41s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)64.71sTiempo de respuesta (máximo)64.71sTiempo de respuesta (total)64.71s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.20sTiempo de respuesta (máximo)17.44sTiempo de respuesta (total)34.40s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.82sTiempo de respuesta (máximo)14.48sTiempo de respuesta (total)26.47s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.92sTiempo de respuesta (máximo)4.92sTiempo de respuesta (total)4.92s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.36sTiempo de respuesta (máximo)4.35sTiempo de respuesta (total)6.72s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.19sTiempo de respuesta (máximo)8.19sTiempo de respuesta (total)8.19s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)82.71sTiempo de respuesta (máximo)82.71sTiempo de respuesta (total)82.71s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.14sTiempo de respuesta (máximo)12.41sTiempo de respuesta (total)16.57s
Programación
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)97.14sTiempo de respuesta (máximo)162.44sTiempo de respuesta (total)291.41s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.86sTiempo de respuesta (máximo)16.86sTiempo de respuesta (total)16.86s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.53sTiempo de respuesta (máximo)86.93sTiempo de respuesta (total)103.59s
Inteligencia general
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.37sTiempo de respuesta (máximo)5.37sTiempo de respuesta (total)5.37s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.80sTiempo de respuesta (máximo)1.81sTiempo de respuesta (total)3.60s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)20.25sTiempo de respuesta (máximo)57.93sTiempo de respuesta (total)60.76s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.29sTiempo de respuesta (máximo)7.29sTiempo de respuesta (total)7.29s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)51.29sTiempo de respuesta (máximo)51.29sTiempo de respuesta (total)51.29s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.02sTiempo de respuesta (máximo)8.79sTiempo de respuesta (total)24.07s
Programación
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)50.55sTiempo de respuesta (máximo)86.11sTiempo de respuesta (total)151.65s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.99sTiempo de respuesta (máximo)13.75sTiempo de respuesta (total)25.99s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)22.50sTiempo de respuesta (máximo)45.02sTiempo de respuesta (total)67.51s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)8.66sTiempo de respuesta (máximo)8.66sTiempo de respuesta (total)8.66s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.50sTiempo de respuesta (máximo)10.22sTiempo de respuesta (total)15.00s
Resolución de acertijos
: 8.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.95sTiempo de respuesta (máximo)8.42sTiempo de respuesta (total)17.84s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)32.90sTiempo de respuesta (máximo)32.90sTiempo de respuesta (total)32.90s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 7Respuesta incorrecta: 3Tiempo de respuesta (promedio)56.57sTiempo de respuesta (máximo)149.94sTiempo de respuesta (total)848.59s…
Trucos anti-IA
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)15.12sTiempo de respuesta (máximo)19.99sTiempo de respuesta (total)45.37s
Programación
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)99.76sTiempo de respuesta (máximo)99.76sTiempo de respuesta (total)99.76s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)113.09sTiempo de respuesta (máximo)113.09sTiempo de respuesta (total)113.09s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)12.11sTiempo de respuesta (máximo)12.11sTiempo de respuesta (total)12.11s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)109.04sTiempo de respuesta (máximo)149.94sTiempo de respuesta (total)327.11s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.36sTiempo de respuesta (máximo)41.83sTiempo de respuesta (total)68.73s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)27.94sTiempo de respuesta (máximo)45.06sTiempo de respuesta (total)55.89s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)78.83sTiempo de respuesta (máximo)78.83sTiempo de respuesta (total)78.83s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)47.71sTiempo de respuesta (máximo)47.71sTiempo de respuesta (total)47.71s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)4.59sTiempo de respuesta (total)10.98s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)25.87sTiempo de respuesta (máximo)25.87sTiempo de respuesta (total)25.87s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.04sTiempo de respuesta (máximo)4.12sTiempo de respuesta (total)6.07s
Inteligencia general
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.61sTiempo de respuesta (máximo)3.61sTiempo de respuesta (total)3.61s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.99sTiempo de respuesta (máximo)7.14sTiempo de respuesta (total)9.99s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.98sTiempo de respuesta (máximo)13.98sTiempo de respuesta (total)13.98s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)234.19sTiempo de respuesta (máximo)234.19sTiempo de respuesta (total)234.19s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)42.21sTiempo de respuesta (máximo)89.34sTiempo de respuesta (total)168.84s
Programación
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)59.65sTiempo de respuesta (máximo)59.65sTiempo de respuesta (total)59.65s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)304.19sTiempo de respuesta (máximo)304.19sTiempo de respuesta (total)304.19s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)37.36sTiempo de respuesta (máximo)54.24sTiempo de respuesta (total)74.71s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)64.92sTiempo de respuesta (máximo)150.55sTiempo de respuesta (total)194.76s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)58.26sTiempo de respuesta (máximo)58.26sTiempo de respuesta (total)58.26s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.78sTiempo de respuesta (máximo)17.75sTiempo de respuesta (total)23.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)104.44sTiempo de respuesta (máximo)104.44sTiempo de respuesta (total)104.44s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)113.91sTiempo de respuesta (máximo)113.91sTiempo de respuesta (total)113.91s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)892msTiempo de respuesta (máximo)1.38sTiempo de respuesta (total)3.57s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)3.56sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)3.56s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.66sTiempo de respuesta (máximo)2.11sTiempo de respuesta (total)3.32s
Específico del dominio
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)899msTiempo de respuesta (máximo)1.04sTiempo de respuesta (total)2.70s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)922msTiempo de respuesta (máximo)922msTiempo de respuesta (total)922ms
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)893msTiempo de respuesta (máximo)964msTiempo de respuesta (total)1.79s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.45sTiempo de respuesta (máximo)2.30sTiempo de respuesta (total)4.36s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.79sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)2.79s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.76sTiempo de respuesta (máximo)1.76sTiempo de respuesta (total)1.76s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)59.11sTiempo de respuesta (máximo)168.31sTiempo de respuesta (total)236.44s
Programación
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)58.87sTiempo de respuesta (máximo)68.14sTiempo de respuesta (total)176.60s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.78sTiempo de respuesta (máximo)17.78sTiempo de respuesta (total)17.78s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)56.99sTiempo de respuesta (máximo)80.14sTiempo de respuesta (total)113.98s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)146.50sTiempo de respuesta (máximo)234.29sTiempo de respuesta (total)439.49s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)40.05sTiempo de respuesta (máximo)40.05sTiempo de respuesta (total)40.05s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)63.49sTiempo de respuesta (máximo)111.61sTiempo de respuesta (total)126.98s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)27.61sTiempo de respuesta (máximo)31.84sTiempo de respuesta (total)55.21s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.33sTiempo de respuesta (máximo)10.33sTiempo de respuesta (total)10.33s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)48.98sTiempo de respuesta (máximo)48.98sTiempo de respuesta (total)48.98s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 1Tiempo de respuesta (promedio)9.75sTiempo de respuesta (máximo)31.36sTiempo de respuesta (total)175.48s…
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.16sTiempo de respuesta (máximo)3.44sTiempo de respuesta (total)12.65s
Programación
: 3.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.36sTiempo de respuesta (máximo)31.36sTiempo de respuesta (total)31.36s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)20.93sTiempo de respuesta (máximo)20.93sTiempo de respuesta (total)20.93s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.01sTiempo de respuesta (máximo)4.27sTiempo de respuesta (total)8.02s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)21.33sTiempo de respuesta (máximo)24.21sTiempo de respuesta (total)64.00s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.78sTiempo de respuesta (máximo)5.78sTiempo de respuesta (total)5.78s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.89sTiempo de respuesta (máximo)5.89sTiempo de respuesta (total)9.78s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.52sTiempo de respuesta (máximo)4.53sTiempo de respuesta (total)10.57s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)12.39sTiempo de respuesta (máximo)12.39sTiempo de respuesta (total)12.39s
Cultura general
: 0.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)3.92sTiempo de respuesta (total)27.21s…
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.08sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)4.30s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.35sTiempo de respuesta (máximo)1.63sTiempo de respuesta (total)4.04s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.17sTiempo de respuesta (máximo)2.17sTiempo de respuesta (total)2.17s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.35sTiempo de respuesta (máximo)1.43sTiempo de respuesta (total)2.69s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)975msTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)2.92s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.04sTiempo de respuesta (total)1.04s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)943msTiempo de respuesta (máximo)974msTiempo de respuesta (total)1.89s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.29sTiempo de respuesta (total)3.40s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.92sTiempo de respuesta (máximo)3.92sTiempo de respuesta (total)3.92s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)856msTiempo de respuesta (máximo)856msTiempo de respuesta (total)856ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8Tiempo de respuesta (promedio)1.65sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)23.07s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.25sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)2.49s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.80sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)5.40s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.56sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)3.56s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)1.41sTiempo de respuesta (total)1.41s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)963msTiempo de respuesta (máximo)963msTiempo de respuesta (total)963ms
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)1.13s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.58sTiempo de respuesta (máximo)1.58sTiempo de respuesta (total)1.58s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.05sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.11s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.35sTiempo de respuesta (máximo)3.35sTiempo de respuesta (total)3.35s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 3Respuesta incorrecta: 3Tiempo de respuesta (promedio)9.93sTiempo de respuesta (máximo)64.36sTiempo de respuesta (total)178.68s…
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.53sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)10.12s
Programación
: 8.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.69sTiempo de respuesta (máximo)64.36sTiempo de respuesta (total)104.06s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)8.10sTiempo de respuesta (máximo)8.10sTiempo de respuesta (total)8.10s
Específico del dominio
: 7.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.64sTiempo de respuesta (máximo)14.00sTiempo de respuesta (total)31.92s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.46sTiempo de respuesta (máximo)3.46sTiempo de respuesta (total)3.46s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.38sTiempo de respuesta (máximo)3.40sTiempo de respuesta (total)6.76s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.13sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)9.39s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.87sTiempo de respuesta (máximo)4.87sTiempo de respuesta (total)4.87s
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)11.56sTiempo de respuesta (máximo)16.30sTiempo de respuesta (total)46.24s
Programación
: 7.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)146.73sTiempo de respuesta (máximo)365.80sTiempo de respuesta (total)440.18s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.83sTiempo de respuesta (máximo)34.83sTiempo de respuesta (total)34.83s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.27sTiempo de respuesta (máximo)18.56sTiempo de respuesta (total)24.54s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Tiempo de respuesta (promedio)213.29sTiempo de respuesta (máximo)331.73sTiempo de respuesta (total)639.88s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.78sTiempo de respuesta (máximo)10.78sTiempo de respuesta (total)10.78s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.39sTiempo de respuesta (máximo)6.01sTiempo de respuesta (total)10.78s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)341.76sTiempo de respuesta (máximo)341.76sTiempo de respuesta (total)341.76s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Sin respuesta: 1Tiempo de respuesta (promedio)30.08sTiempo de respuesta (máximo)155.23sTiempo de respuesta (total)631.77s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Sin respuesta: 1Tiempo de respuesta (promedio)41.96sTiempo de respuesta (máximo)155.23sTiempo de respuesta (total)167.84s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)70.35sTiempo de respuesta (máximo)105.98sTiempo de respuesta (total)211.04s
Combinado
: 9.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.43sTiempo de respuesta (máximo)13.43sTiempo de respuesta (total)13.43s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.50sTiempo de respuesta (máximo)5.55sTiempo de respuesta (total)9.00s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)65.66sTiempo de respuesta (máximo)121.62sTiempo de respuesta (total)196.99s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.15sTiempo de respuesta (máximo)4.15sTiempo de respuesta (total)4.15s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.57sTiempo de respuesta (máximo)2.61sTiempo de respuesta (total)5.15s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.43sTiempo de respuesta (máximo)4.37sTiempo de respuesta (total)10.29s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.01sTiempo de respuesta (máximo)3.01sTiempo de respuesta (total)3.01s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.88sTiempo de respuesta (máximo)10.88sTiempo de respuesta (total)10.88s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.31sTiempo de respuesta (máximo)14.20sTiempo de respuesta (total)33.24s
Programación
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)109.63sTiempo de respuesta (máximo)172.60sTiempo de respuesta (total)328.90s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)43.11sTiempo de respuesta (máximo)43.11sTiempo de respuesta (total)43.11s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.33sTiempo de respuesta (máximo)9.40sTiempo de respuesta (total)18.66s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)29.77sTiempo de respuesta (máximo)32.22sTiempo de respuesta (total)89.30s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)20.95sTiempo de respuesta (máximo)20.95sTiempo de respuesta (total)20.95s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.47sTiempo de respuesta (máximo)10.16sTiempo de respuesta (total)14.94s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)31.64sTiempo de respuesta (máximo)46.04sTiempo de respuesta (total)94.91s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)29.40sTiempo de respuesta (máximo)29.40sTiempo de respuesta (total)29.40s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6Sin respuesta: 4Tiempo de respuesta (promedio)64.46sTiempo de respuesta (máximo)364.99sTiempo de respuesta (total)1353.57s…
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.40sTiempo de respuesta (máximo)45.73sTiempo de respuesta (total)53.58s
Programación
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)206.21sTiempo de respuesta (máximo)364.99sTiempo de respuesta (total)618.64s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.01sTiempo de respuesta (máximo)13.01sTiempo de respuesta (total)13.01s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.72sTiempo de respuesta (máximo)24.97sTiempo de respuesta (total)29.43s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Sin respuesta: 1Tiempo de respuesta (promedio)149.64sTiempo de respuesta (máximo)163.21sTiempo de respuesta (total)448.91s
Inteligencia general
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)4.17sTiempo de respuesta (total)4.17s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)3.03s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)10.22sTiempo de respuesta (máximo)23.65sTiempo de respuesta (total)30.66s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.79sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)2.79s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)149.34sTiempo de respuesta (máximo)149.34sTiempo de respuesta (total)149.34s
Trucos anti-IA
: 8.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)15.85sTiempo de respuesta (máximo)20.83sTiempo de respuesta (total)47.55s
Programación
: 6.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.71sTiempo de respuesta (máximo)17.72sTiempo de respuesta (total)32.13s
Combinado
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)75.68sTiempo de respuesta (máximo)75.68sTiempo de respuesta (total)75.68s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)96.01sTiempo de respuesta (máximo)96.01sTiempo de respuesta (total)96.01s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.20sTiempo de respuesta (máximo)4.20sTiempo de respuesta (total)4.20s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.28sTiempo de respuesta (máximo)7.37sTiempo de respuesta (total)8.55s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.87sTiempo de respuesta (máximo)5.26sTiempo de respuesta (total)7.74s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.78sTiempo de respuesta (máximo)27.78sTiempo de respuesta (total)27.78s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.34sTiempo de respuesta (máximo)20.69sTiempo de respuesta (total)133.19s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.70sTiempo de respuesta (máximo)5.66sTiempo de respuesta (total)14.80s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)20.69sTiempo de respuesta (máximo)20.69sTiempo de respuesta (total)20.69s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.17sTiempo de respuesta (máximo)11.71sTiempo de respuesta (total)14.35s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)6.50sTiempo de respuesta (máximo)7.79sTiempo de respuesta (total)19.51s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.42sTiempo de respuesta (máximo)4.42sTiempo de respuesta (total)4.42s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.84sTiempo de respuesta (máximo)4.88sTiempo de respuesta (total)7.68s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.31sTiempo de respuesta (máximo)3.63sTiempo de respuesta (total)9.92s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.76sTiempo de respuesta (máximo)15.76sTiempo de respuesta (total)15.76s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.41sTiempo de respuesta (máximo)3.41sTiempo de respuesta (total)3.41s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.85sTiempo de respuesta (máximo)29.38sTiempo de respuesta (total)59.86s…
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.38sTiempo de respuesta (máximo)2.69sTiempo de respuesta (total)5.51s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.15sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)6.44s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.38sTiempo de respuesta (máximo)29.38sTiempo de respuesta (total)29.38s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.57sTiempo de respuesta (total)2.86s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)868msTiempo de respuesta (máximo)1.02sTiempo de respuesta (total)2.60s
Inteligencia general
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)1.33s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)929msTiempo de respuesta (máximo)1.05sTiempo de respuesta (total)1.86s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.71sTiempo de respuesta (máximo)2.65sTiempo de respuesta (total)5.13s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.21sTiempo de respuesta (máximo)1.21sTiempo de respuesta (total)1.21s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Sin respuesta: 2Tiempo agotado: 2Tiempo de respuesta (promedio)63.41sTiempo de respuesta (máximo)369.32sTiempo de respuesta (total)1268.28s…
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.20sTiempo de respuesta (máximo)9.64sTiempo de respuesta (total)24.78s
Programación
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)272.54sTiempo de respuesta (máximo)369.32sTiempo de respuesta (total)817.61s
Combinado
: 9.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)73.55sTiempo de respuesta (máximo)73.55sTiempo de respuesta (total)73.55s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.51sTiempo de respuesta (máximo)20.57sTiempo de respuesta (total)33.02s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)23.62sTiempo de respuesta (máximo)27.00sTiempo de respuesta (total)47.23s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.76sTiempo de respuesta (máximo)29.76sTiempo de respuesta (total)29.76s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.54sTiempo de respuesta (máximo)21.25sTiempo de respuesta (total)35.08s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.79sTiempo de respuesta (máximo)6.85sTiempo de respuesta (total)17.36s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.01sTiempo de respuesta (máximo)9.01sTiempo de respuesta (total)9.01s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)180.87sTiempo de respuesta (máximo)180.87sTiempo de respuesta (total)180.87s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.74sTiempo de respuesta (máximo)23.74sTiempo de respuesta (total)23.74s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.61sTiempo de respuesta (máximo)6.06sTiempo de respuesta (total)9.23s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.72sTiempo de respuesta (máximo)7.90sTiempo de respuesta (total)11.17s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.05sTiempo de respuesta (máximo)2.05sTiempo de respuesta (total)2.05s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.12sTiempo de respuesta (máximo)4.37sTiempo de respuesta (total)8.24s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.61sTiempo de respuesta (máximo)5.19sTiempo de respuesta (total)10.83s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.40sTiempo de respuesta (máximo)7.40sTiempo de respuesta (total)7.40s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.76sTiempo de respuesta (máximo)5.76sTiempo de respuesta (total)5.76s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Tiempo de respuesta (promedio)3.40sTiempo de respuesta (máximo)6.36sTiempo de respuesta (total)13.58s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.73sTiempo de respuesta (máximo)17.73sTiempo de respuesta (total)17.73s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.77sTiempo de respuesta (máximo)1.93sTiempo de respuesta (total)3.53s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.70sTiempo de respuesta (máximo)2.16sTiempo de respuesta (total)5.09s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.48sTiempo de respuesta (máximo)3.48sTiempo de respuesta (total)3.48s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.37sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)2.73s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)2.74sTiempo de respuesta (máximo)3.46sTiempo de respuesta (total)8.22s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.35sTiempo de respuesta (máximo)5.35sTiempo de respuesta (total)5.35s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)3.41sTiempo de respuesta (máximo)3.41sTiempo de respuesta (total)3.41s
Programación
: 6.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)63.38sTiempo de respuesta (máximo)95.88sTiempo de respuesta (total)190.15s
Combinado
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)15.06sTiempo de respuesta (máximo)15.06sTiempo de respuesta (total)15.06s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.60sTiempo de respuesta (máximo)9.92sTiempo de respuesta (total)19.19s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)38.15sTiempo de respuesta (máximo)67.08sTiempo de respuesta (total)114.45s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.09sTiempo de respuesta (máximo)11.09sTiempo de respuesta (total)11.09s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.74sTiempo de respuesta (máximo)5.23sTiempo de respuesta (total)7.47s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.24sTiempo de respuesta (máximo)16.95sTiempo de respuesta (total)30.72s
Llamada de herramientas
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)12.53sTiempo de respuesta (máximo)12.53sTiempo de respuesta (total)12.53s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)40.96sTiempo de respuesta (máximo)40.96sTiempo de respuesta (total)40.96s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.94sTiempo de respuesta (máximo)4.83sTiempo de respuesta (total)5.88s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.19sTiempo de respuesta (máximo)9.79sTiempo de respuesta (total)15.56s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.84sTiempo de respuesta (máximo)23.84sTiempo de respuesta (total)23.84s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.43sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)3.43s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.56sTiempo de respuesta (máximo)2.56sTiempo de respuesta (total)2.56s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)2.53sTiempo de respuesta (máximo)2.54sTiempo de respuesta (total)5.06s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.11sTiempo de respuesta (máximo)4.11sTiempo de respuesta (total)4.11s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.67sTiempo de respuesta (máximo)4.67sTiempo de respuesta (total)4.67s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.59sTiempo de respuesta (máximo)10.20sTiempo de respuesta (total)26.37s
Programación
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)31.37sTiempo de respuesta (máximo)31.37sTiempo de respuesta (total)31.37s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.04sTiempo de respuesta (máximo)46.04sTiempo de respuesta (total)46.04s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)5.25sTiempo de respuesta (máximo)5.25sTiempo de respuesta (total)5.25s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)22.30sTiempo de respuesta (máximo)30.51sTiempo de respuesta (total)66.90s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.84sTiempo de respuesta (máximo)16.84sTiempo de respuesta (total)16.84s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.16sTiempo de respuesta (máximo)7.72sTiempo de respuesta (total)12.31s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)11.06sTiempo de respuesta (máximo)14.35sTiempo de respuesta (total)33.17s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.02sTiempo de respuesta (máximo)15.02sTiempo de respuesta (total)15.02s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.86sTiempo de respuesta (máximo)39.86sTiempo de respuesta (total)39.86s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.95sTiempo de respuesta (máximo)5.68sTiempo de respuesta (total)15.80s
Programación
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)109.93sTiempo de respuesta (máximo)199.66sTiempo de respuesta (total)329.79s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.40sTiempo de respuesta (máximo)17.40sTiempo de respuesta (total)17.40s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)5.02sTiempo de respuesta (total)8.34s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)27.03sTiempo de respuesta (máximo)29.87sTiempo de respuesta (total)81.10s
Inteligencia general
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)24.48sTiempo de respuesta (máximo)24.48sTiempo de respuesta (total)24.48s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.26sTiempo de respuesta (máximo)4.46sTiempo de respuesta (total)8.52s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.22sTiempo de respuesta (máximo)11.63sTiempo de respuesta (total)18.66s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.68sTiempo de respuesta (máximo)13.68sTiempo de respuesta (total)13.68s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)63.48sTiempo de respuesta (máximo)63.48sTiempo de respuesta (total)63.48s