Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)2.40sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)33.56s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)2.74sTiempo de respuesta (total)3.82s
Programación
: 4.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.54sTiempo de respuesta (máximo)3.63sTiempo de respuesta (total)5.09s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.65sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)6.65s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.44sTiempo de respuesta (total)2.33s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.26sTiempo de respuesta (máximo)2.26sTiempo de respuesta (total)2.26s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.71sTiempo de respuesta (máximo)3.29sTiempo de respuesta (total)5.41s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.11sTiempo de respuesta (total)1.11s
Trucos anti-IA
: 9.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)43.33sTiempo de respuesta (máximo)71.76sTiempo de respuesta (total)173.31s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)143.82sTiempo de respuesta (máximo)143.82sTiempo de respuesta (total)143.82s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)73.40sTiempo de respuesta (máximo)90.09sTiempo de respuesta (total)220.20s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.63sTiempo de respuesta (máximo)15.63sTiempo de respuesta (total)15.63s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.36sTiempo de respuesta (máximo)40.24sTiempo de respuesta (total)54.72s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)31.47sTiempo de respuesta (máximo)46.84sTiempo de respuesta (total)94.41s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)133.60sTiempo de respuesta (máximo)133.60sTiempo de respuesta (total)133.60s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)889msTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)17.79s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)582msTiempo de respuesta (máximo)844msTiempo de respuesta (total)2.33s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)810msTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)1.62s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)652msTiempo de respuesta (máximo)660msTiempo de respuesta (total)1.30s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)495msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.49s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)615msTiempo de respuesta (máximo)615msTiempo de respuesta (total)615ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)590msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.18s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)604msTiempo de respuesta (máximo)700msTiempo de respuesta (total)1.81s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)1.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.15sTiempo de respuesta (máximo)1.15sTiempo de respuesta (total)1.15s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)3.95sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)51.38s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.37sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)4.75s
Programación
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)5.18sTiempo de respuesta (máximo)8.84sTiempo de respuesta (total)10.37s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.98sTiempo de respuesta (máximo)4.98sTiempo de respuesta (total)4.98s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.78sTiempo de respuesta (máximo)5.78sTiempo de respuesta (total)5.78s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.24sTiempo de respuesta (máximo)2.24sTiempo de respuesta (total)2.24s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.27sTiempo de respuesta (máximo)3.27sTiempo de respuesta (total)3.27s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.48sTiempo de respuesta (máximo)1.48sTiempo de respuesta (total)1.48s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)3.82s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.07sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)11.07s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.62sTiempo de respuesta (máximo)3.62sTiempo de respuesta (total)3.62s
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)4.75sTiempo de respuesta (máximo)7.62sTiempo de respuesta (total)19.00s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)30.53sTiempo de respuesta (máximo)30.53sTiempo de respuesta (total)30.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.16sTiempo de respuesta (máximo)26.55sTiempo de respuesta (total)46.33s
Inteligencia general
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.44sTiempo de respuesta (máximo)6.44sTiempo de respuesta (total)6.44s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.18sTiempo de respuesta (máximo)4.46sTiempo de respuesta (total)8.36s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.33sTiempo de respuesta (máximo)17.33sTiempo de respuesta (total)17.33s
Trucos anti-IA
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.46sTiempo de respuesta (máximo)4.38sTiempo de respuesta (total)13.86s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.11sTiempo de respuesta (máximo)27.11sTiempo de respuesta (total)27.11s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.54sTiempo de respuesta (máximo)7.51sTiempo de respuesta (total)11.08s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Formato extra: 1Tiempo de respuesta (promedio)24.67sTiempo de respuesta (máximo)35.28sTiempo de respuesta (total)74.02s
Inteligencia general
: 5.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.40sTiempo de respuesta (máximo)6.40sTiempo de respuesta (total)6.40s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.52sTiempo de respuesta (máximo)3.80sTiempo de respuesta (total)7.04s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.28sTiempo de respuesta (máximo)2.09sTiempo de respuesta (total)5.13s
Programación
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.83sTiempo de respuesta (máximo)7.07sTiempo de respuesta (total)7.66s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)30.53sTiempo de respuesta (máximo)30.53sTiempo de respuesta (total)30.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.70sTiempo de respuesta (máximo)2.21sTiempo de respuesta (total)3.41s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.49sTiempo de respuesta (máximo)4.23sTiempo de respuesta (total)7.48s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)690msTiempo de respuesta (máximo)878msTiempo de respuesta (total)1.38s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)57.10sTiempo de respuesta (máximo)57.10sTiempo de respuesta (total)57.10s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)778msTiempo de respuesta (máximo)778msTiempo de respuesta (total)778ms
Programación
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)3.79sTiempo de respuesta (total)5.50s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.96sTiempo de respuesta (máximo)5.96sTiempo de respuesta (total)5.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.76sTiempo de respuesta (máximo)2.60sTiempo de respuesta (total)3.51s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.10sTiempo de respuesta (máximo)3.58sTiempo de respuesta (total)6.30s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.33sTiempo de respuesta (máximo)2.33sTiempo de respuesta (total)2.33s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.26sTiempo de respuesta (máximo)6.81sTiempo de respuesta (total)8.51s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.55sTiempo de respuesta (total)3.48s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.40sTiempo de respuesta (máximo)5.40sTiempo de respuesta (total)5.40s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.30sTiempo de respuesta (total)1.30s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)25.50sTiempo de respuesta (máximo)37.73sTiempo de respuesta (total)51.00s
Programación
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)47.80sTiempo de respuesta (máximo)54.86sTiempo de respuesta (total)95.59s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.96sTiempo de respuesta (máximo)65.96sTiempo de respuesta (total)65.96s
Análisis y extracción de datos
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)21.42sTiempo de respuesta (máximo)21.42sTiempo de respuesta (total)21.42s
Específico del dominio
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)204.02sTiempo de respuesta (máximo)204.02sTiempo de respuesta (total)204.02s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)17.51sTiempo de respuesta (máximo)17.51sTiempo de respuesta (total)17.51s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.64sTiempo de respuesta (máximo)15.64sTiempo de respuesta (total)15.64s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)33.30sTiempo de respuesta (máximo)33.30sTiempo de respuesta (total)33.30s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)20.13sTiempo de respuesta (máximo)20.13sTiempo de respuesta (total)20.13s
Trucos anti-IA
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)16.53sTiempo de respuesta (máximo)39.91sTiempo de respuesta (total)66.11s
Programación
: 2.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo agotado: 1Tiempo de respuesta (promedio)51.77sTiempo de respuesta (máximo)51.77sTiempo de respuesta (total)51.77s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.02sTiempo de respuesta (máximo)65.02sTiempo de respuesta (total)65.02s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)23.62sTiempo de respuesta (máximo)36.44sTiempo de respuesta (total)47.24s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)25.09sTiempo de respuesta (máximo)25.09sTiempo de respuesta (total)25.09s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)41.16sTiempo de respuesta (máximo)43.56sTiempo de respuesta (total)82.32s
Resolución de acertijos
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.84sTiempo de respuesta (máximo)76.46sTiempo de respuesta (total)104.52s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.33sTiempo de respuesta (máximo)21.33sTiempo de respuesta (total)21.33s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.14sTiempo de respuesta (máximo)39.14sTiempo de respuesta (total)39.14s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)7.85sTiempo de respuesta (máximo)22.30sTiempo de respuesta (total)31.40s
Programación
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)62.38sTiempo de respuesta (máximo)62.38sTiempo de respuesta (total)62.38s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)87.80sTiempo de respuesta (máximo)87.80sTiempo de respuesta (total)87.80s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.16sTiempo de respuesta (máximo)20.65sTiempo de respuesta (total)36.33s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)16.19sTiempo de respuesta (máximo)21.56sTiempo de respuesta (total)32.39s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)6.91sTiempo de respuesta (total)6.91s
Seguimiento de instrucciones
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.97sTiempo de respuesta (máximo)11.23sTiempo de respuesta (total)13.95s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)39.75sTiempo de respuesta (máximo)39.75sTiempo de respuesta (total)39.75s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)55.32sTiempo de respuesta (máximo)55.32sTiempo de respuesta (total)55.32s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 3Tiempo de respuesta (promedio)22.41sTiempo de respuesta (máximo)68.16sTiempo de respuesta (total)291.35s…
Programación
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)47.24sTiempo de respuesta (máximo)68.16sTiempo de respuesta (total)94.49s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.18sTiempo de respuesta (máximo)31.18sTiempo de respuesta (total)31.18s
Análisis y extracción de datos
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)1.98sTiempo de respuesta (total)1.98s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)50.92sTiempo de respuesta (máximo)50.92sTiempo de respuesta (total)50.92s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)7.90sTiempo de respuesta (máximo)7.90sTiempo de respuesta (total)7.90s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.63sTiempo de respuesta (máximo)7.63sTiempo de respuesta (total)7.63s
Llamada de herramientas
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)6.91sTiempo de respuesta (total)6.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)26.51sTiempo de respuesta (máximo)26.51sTiempo de respuesta (total)26.51s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12Tiempo de respuesta (promedio)3.74sTiempo de respuesta (máximo)27.18sTiempo de respuesta (total)74.71s…
Trucos anti-IA
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)3.89sTiempo de respuesta (total)5.30s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)993msTiempo de respuesta (máximo)1.29sTiempo de respuesta (total)1.99s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.22sTiempo de respuesta (máximo)6.22sTiempo de respuesta (total)6.22s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.57sTiempo de respuesta (máximo)1.83sTiempo de respuesta (total)3.14s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)905msTiempo de respuesta (máximo)1.10sTiempo de respuesta (total)2.71s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)803msTiempo de respuesta (máximo)803msTiempo de respuesta (total)803ms
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.81sTiempo de respuesta (máximo)13.73sTiempo de respuesta (total)17.61s
Resolución de acertijos
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)10.89sTiempo de respuesta (máximo)27.18sTiempo de respuesta (total)32.68s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.67sTiempo de respuesta (máximo)3.67sTiempo de respuesta (total)3.67s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)588msTiempo de respuesta (máximo)588msTiempo de respuesta (total)588ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.04sTiempo de respuesta (máximo)6.51sTiempo de respuesta (total)60.88s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)3.13sTiempo de respuesta (máximo)5.90sTiempo de respuesta (total)12.50s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.77sTiempo de respuesta (máximo)5.30sTiempo de respuesta (total)7.54s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.51sTiempo de respuesta (máximo)6.51sTiempo de respuesta (total)6.51s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)5.69sTiempo de respuesta (total)7.62s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.09sTiempo de respuesta (máximo)2.39sTiempo de respuesta (total)6.26s
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.22sTiempo de respuesta (máximo)2.22sTiempo de respuesta (total)2.22s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.97sTiempo de respuesta (máximo)2.43sTiempo de respuesta (total)3.93s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.86sTiempo de respuesta (máximo)4.86sTiempo de respuesta (total)4.86s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.23sTiempo de respuesta (máximo)2.23sTiempo de respuesta (total)2.23s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12Tiempo de respuesta (promedio)2.48sTiempo de respuesta (máximo)6.70sTiempo de respuesta (total)49.67s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)6.70sTiempo de respuesta (total)9.73s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.95sTiempo de respuesta (máximo)4.61sTiempo de respuesta (total)5.89s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.59sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)6.59s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.97sTiempo de respuesta (total)3.63s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)1.53sTiempo de respuesta (total)4.00s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.45sTiempo de respuesta (máximo)3.45sTiempo de respuesta (total)3.45s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.09sTiempo de respuesta (total)2.12s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.78sTiempo de respuesta (máximo)5.20sTiempo de respuesta (total)8.34s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.94sTiempo de respuesta (máximo)3.94sTiempo de respuesta (total)3.94s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)3.97sTiempo de respuesta (máximo)7.48sTiempo de respuesta (total)15.89s
Programación
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)19.08sTiempo de respuesta (máximo)30.81sTiempo de respuesta (total)38.16s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.01sTiempo de respuesta (máximo)10.01sTiempo de respuesta (total)10.01s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.64sTiempo de respuesta (máximo)29.16sTiempo de respuesta (total)43.28s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)8.58sTiempo de respuesta (máximo)9.48sTiempo de respuesta (total)25.74s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)58.63sTiempo de respuesta (máximo)58.63sTiempo de respuesta (total)58.63s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.15sTiempo de respuesta (máximo)15.94sTiempo de respuesta (total)20.30s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.26sTiempo de respuesta (máximo)8.26sTiempo de respuesta (total)8.26s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.38sTiempo de respuesta (máximo)2.38sTiempo de respuesta (total)2.38s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.30sTiempo de respuesta (máximo)9.80sTiempo de respuesta (total)25.20s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.41sTiempo de respuesta (máximo)21.41sTiempo de respuesta (total)21.41s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)12.47sTiempo de respuesta (máximo)12.47sTiempo de respuesta (total)12.47s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.36sTiempo de respuesta (máximo)11.05sTiempo de respuesta (total)14.73s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)36.09sTiempo de respuesta (máximo)36.09sTiempo de respuesta (total)36.09s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)4.20sTiempo de respuesta (máximo)32.57sTiempo de respuesta (total)83.95s…
Trucos anti-IA
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.11sTiempo de respuesta (máximo)3.94sTiempo de respuesta (total)8.46s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)6.33sTiempo de respuesta (máximo)9.79sTiempo de respuesta (total)12.65s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)32.57sTiempo de respuesta (máximo)32.57sTiempo de respuesta (total)32.57s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.08sTiempo de respuesta (máximo)1.62sTiempo de respuesta (total)2.15s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.99sTiempo de respuesta (máximo)3.99sTiempo de respuesta (total)5.98s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)790msTiempo de respuesta (máximo)790msTiempo de respuesta (total)790ms
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)2.28sTiempo de respuesta (total)3.97s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.45sTiempo de respuesta (máximo)2.09sTiempo de respuesta (total)4.36s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.68sTiempo de respuesta (máximo)10.68sTiempo de respuesta (total)10.68s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.34sTiempo de respuesta (máximo)2.34sTiempo de respuesta (total)2.34s
Programación
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)8.27sTiempo de respuesta (máximo)14.69sTiempo de respuesta (total)16.54s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)25.49sTiempo de respuesta (máximo)25.49sTiempo de respuesta (total)25.49s
Análisis y extracción de datos
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)30.54sTiempo de respuesta (máximo)58.65sTiempo de respuesta (total)61.08s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.17sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)9.52s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.75sTiempo de respuesta (máximo)3.75sTiempo de respuesta (total)3.75s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.23sTiempo de respuesta (máximo)13.43sTiempo de respuesta (total)16.45s
Resolución de acertijos
: 7.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)15.95sTiempo de respuesta (máximo)27.12sTiempo de respuesta (total)47.86s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.92sTiempo de respuesta (máximo)5.92sTiempo de respuesta (total)5.92s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.59sTiempo de respuesta (máximo)15.59sTiempo de respuesta (total)15.59s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)4.57sTiempo de respuesta (máximo)33.34sTiempo de respuesta (total)91.37s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.88sTiempo de respuesta (máximo)4.81sTiempo de respuesta (total)7.53s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)13.32sTiempo de respuesta (máximo)13.32sTiempo de respuesta (total)13.32s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.82sTiempo de respuesta (máximo)3.86sTiempo de respuesta (total)5.65s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)4.43sTiempo de respuesta (máximo)10.83sTiempo de respuesta (total)13.28s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)1.41sTiempo de respuesta (total)1.41s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)2.35s
Resolución de acertijos
: 6.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.97sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)5.91s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.42sTiempo de respuesta (máximo)4.42sTiempo de respuesta (total)4.42s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)33.34sTiempo de respuesta (máximo)33.34sTiempo de respuesta (total)33.34s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.50sTiempo de respuesta (máximo)47.43sTiempo de respuesta (total)70.00s…
Trucos anti-IA
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)5.71s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.72sTiempo de respuesta (máximo)2.67sTiempo de respuesta (total)3.43s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)47.43sTiempo de respuesta (máximo)47.43sTiempo de respuesta (total)47.43s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.42sTiempo de respuesta (total)2.33s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)485msTiempo de respuesta (máximo)549msTiempo de respuesta (total)1.45s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)1.19s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)809msTiempo de respuesta (máximo)983msTiempo de respuesta (total)1.62s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.30sTiempo de respuesta (máximo)2.30sTiempo de respuesta (total)2.30s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)493msTiempo de respuesta (máximo)493msTiempo de respuesta (total)493ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)33.82s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)788msTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)3.15s
Programación
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)3.97s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.39sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)9.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.45sTiempo de respuesta (total)2.86s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)540msTiempo de respuesta (máximo)649msTiempo de respuesta (total)1.62s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)2.06s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)599msTiempo de respuesta (máximo)599msTiempo de respuesta (total)599ms
Trucos anti-IA
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.83sTiempo de respuesta (máximo)7.62sTiempo de respuesta (total)11.33s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.75sTiempo de respuesta (máximo)10.18sTiempo de respuesta (total)11.51s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)9.95sTiempo de respuesta (máximo)9.95sTiempo de respuesta (total)9.95s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.06sTiempo de respuesta (máximo)2.39sTiempo de respuesta (total)4.11s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.03sTiempo de respuesta (máximo)4.83sTiempo de respuesta (total)9.08s
Inteligencia general
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.92sTiempo de respuesta (máximo)1.94sTiempo de respuesta (total)3.83s
Llamada de herramientas
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.74sTiempo de respuesta (máximo)6.74sTiempo de respuesta (total)6.74s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.03sTiempo de respuesta (máximo)4.03sTiempo de respuesta (total)4.03s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.00sTiempo de respuesta (máximo)11.53sTiempo de respuesta (total)39.99s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)47.38sTiempo de respuesta (máximo)47.38sTiempo de respuesta (total)47.38s
Análisis y extracción de datos
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.36sTiempo de respuesta (máximo)26.57sTiempo de respuesta (total)34.71s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)128.15sTiempo de respuesta (máximo)309.02sTiempo de respuesta (total)384.46s
Inteligencia general
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)23.23sTiempo de respuesta (máximo)23.23sTiempo de respuesta (total)23.23s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.60sTiempo de respuesta (máximo)14.49sTiempo de respuesta (total)23.20s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.19sTiempo de respuesta (máximo)11.19sTiempo de respuesta (total)11.19s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)36.98sTiempo de respuesta (máximo)36.98sTiempo de respuesta (total)36.98s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)2.27sTiempo de respuesta (máximo)6.58sTiempo de respuesta (total)45.50s…
Trucos anti-IA
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.80sTiempo de respuesta (máximo)2.62sTiempo de respuesta (total)7.19s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.65sTiempo de respuesta (máximo)3.82sTiempo de respuesta (total)5.30s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.58sTiempo de respuesta (máximo)6.58sTiempo de respuesta (total)6.58s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)1.42sTiempo de respuesta (total)2.78s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.78sTiempo de respuesta (máximo)2.49sTiempo de respuesta (total)5.34s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.44sTiempo de respuesta (máximo)2.44sTiempo de respuesta (total)2.44s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.95sTiempo de respuesta (total)5.02s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.63sTiempo de respuesta (máximo)1.63sTiempo de respuesta (total)1.63s
Programación
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)39.68sTiempo de respuesta (máximo)47.10sTiempo de respuesta (total)79.37s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)21.74sTiempo de respuesta (máximo)21.74sTiempo de respuesta (total)21.74s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.60sTiempo de respuesta (máximo)3.92sTiempo de respuesta (total)7.19s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.00sTiempo de respuesta (máximo)4.69sTiempo de respuesta (total)8.99s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.61sTiempo de respuesta (máximo)4.61sTiempo de respuesta (total)4.61s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.63sTiempo de respuesta (máximo)2.77sTiempo de respuesta (total)5.27s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)22.78sTiempo de respuesta (máximo)22.78sTiempo de respuesta (total)22.78s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.50sTiempo de respuesta (máximo)2.50sTiempo de respuesta (total)2.50s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.45sTiempo de respuesta (máximo)2.95sTiempo de respuesta (total)29.00s…
Trucos anti-IA
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.21sTiempo de respuesta (máximo)2.58sTiempo de respuesta (total)4.85s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.99sTiempo de respuesta (máximo)2.95sTiempo de respuesta (total)3.97s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.89sTiempo de respuesta (máximo)2.89sTiempo de respuesta (total)2.89s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.08s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)3.22s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.78sTiempo de respuesta (máximo)1.78sTiempo de respuesta (total)1.78s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.15s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)2.75sTiempo de respuesta (total)2.75s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)990msTiempo de respuesta (máximo)990msTiempo de respuesta (total)990ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 3Tiempo de respuesta (promedio)13.82sTiempo de respuesta (máximo)238.89sTiempo de respuesta (total)276.39s…
Trucos anti-IA
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)2.96sTiempo de respuesta (total)5.56s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)122.77sTiempo de respuesta (máximo)238.89sTiempo de respuesta (total)245.54s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.38sTiempo de respuesta (máximo)3.38sTiempo de respuesta (total)3.38s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)2.64s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.48sTiempo de respuesta (máximo)1.85sTiempo de respuesta (total)4.45s
Inteligencia general
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.55sTiempo de respuesta (máximo)1.55sTiempo de respuesta (total)1.55s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.64sTiempo de respuesta (máximo)1.80sTiempo de respuesta (total)3.28s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.46sTiempo de respuesta (máximo)4.46sTiempo de respuesta (total)4.46s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.36sTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)1.36s
Trucos anti-IA
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.63sTiempo de respuesta (máximo)4.60sTiempo de respuesta (total)6.51s
Programación
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.34sTiempo de respuesta (máximo)2.46sTiempo de respuesta (total)4.68s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)4.22sTiempo de respuesta (máximo)4.22sTiempo de respuesta (total)4.22s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.13sTiempo de respuesta (máximo)3.35sTiempo de respuesta (total)4.26s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)3.32s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)947msTiempo de respuesta (máximo)947msTiempo de respuesta (total)947ms
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.10sTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)2.19s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.49sTiempo de respuesta (máximo)2.49sTiempo de respuesta (total)2.49s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)649msTiempo de respuesta (máximo)649msTiempo de respuesta (total)649ms
Trucos anti-IA
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)597msTiempo de respuesta (máximo)866msTiempo de respuesta (total)2.39s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.14sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)1.14s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)6.48sTiempo de respuesta (máximo)6.48sTiempo de respuesta (total)6.48s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)601msTiempo de respuesta (máximo)634msTiempo de respuesta (total)1.20s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)611msTiempo de respuesta (máximo)616msTiempo de respuesta (total)1.83s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)541msTiempo de respuesta (máximo)541msTiempo de respuesta (total)541ms
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)649msTiempo de respuesta (máximo)952msTiempo de respuesta (total)1.30s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)586msTiempo de respuesta (máximo)813msTiempo de respuesta (total)1.76s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.79sTiempo de respuesta (máximo)4.79sTiempo de respuesta (total)4.79s