Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.28sTiempo de respuesta (máximo)2.09sTiempo de respuesta (total)5.13s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)7.07sTiempo de respuesta (máximo)7.07sTiempo de respuesta (total)7.07s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)30.53sTiempo de respuesta (máximo)30.53sTiempo de respuesta (total)30.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.70sTiempo de respuesta (máximo)2.21sTiempo de respuesta (total)3.41s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.49sTiempo de respuesta (máximo)4.23sTiempo de respuesta (total)7.48s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.08sTiempo de respuesta (máximo)1.65sTiempo de respuesta (total)2.15s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)57.10sTiempo de respuesta (máximo)57.10sTiempo de respuesta (total)57.10s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)778msTiempo de respuesta (máximo)778msTiempo de respuesta (total)778ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 1Tiempo de respuesta (promedio)916msTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)17.41s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)582msTiempo de respuesta (máximo)844msTiempo de respuesta (total)2.33s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)1.16s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)652msTiempo de respuesta (máximo)660msTiempo de respuesta (total)1.30s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)495msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.49s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)615msTiempo de respuesta (máximo)615msTiempo de respuesta (total)615ms
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)672msTiempo de respuesta (máximo)785msTiempo de respuesta (total)1.34s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)1.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.15sTiempo de respuesta (máximo)1.15sTiempo de respuesta (total)1.15s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8No siguió las instrucciones: 3Tiempo de respuesta (promedio)2.23sTiempo de respuesta (máximo)14.63sTiempo de respuesta (total)40.10s…
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.53sTiempo de respuesta (máximo)1.53sTiempo de respuesta (total)1.53s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.28sTiempo de respuesta (máximo)3.28sTiempo de respuesta (total)3.28s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)2.21s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.48sTiempo de respuesta (máximo)14.63sTiempo de respuesta (total)19.43s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)821msTiempo de respuesta (máximo)821msTiempo de respuesta (total)821ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.58sTiempo de respuesta (máximo)2.58sTiempo de respuesta (total)2.58s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.37sTiempo de respuesta (máximo)6.81sTiempo de respuesta (total)45.03s…
Programación
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.72sTiempo de respuesta (máximo)1.72sTiempo de respuesta (total)1.72s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.96sTiempo de respuesta (máximo)5.96sTiempo de respuesta (total)5.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.76sTiempo de respuesta (máximo)2.60sTiempo de respuesta (total)3.51s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.10sTiempo de respuesta (máximo)3.58sTiempo de respuesta (total)6.30s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.33sTiempo de respuesta (máximo)2.33sTiempo de respuesta (total)2.33s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.26sTiempo de respuesta (máximo)6.81sTiempo de respuesta (total)8.51s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.55sTiempo de respuesta (total)3.48s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.40sTiempo de respuesta (máximo)5.40sTiempo de respuesta (total)5.40s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.30sTiempo de respuesta (total)1.30s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10Tiempo de respuesta (promedio)4.18sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)50.12s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.37sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)4.75s
Programación
: 5.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.84sTiempo de respuesta (máximo)8.84sTiempo de respuesta (total)8.84s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.98sTiempo de respuesta (máximo)4.98sTiempo de respuesta (total)4.98s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.78sTiempo de respuesta (máximo)5.78sTiempo de respuesta (total)5.78s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.24sTiempo de respuesta (máximo)2.24sTiempo de respuesta (total)2.24s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.27sTiempo de respuesta (máximo)3.27sTiempo de respuesta (total)3.27s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.48sTiempo de respuesta (máximo)1.48sTiempo de respuesta (total)1.48s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.05sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)4.10s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.07sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)11.07s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.62sTiempo de respuesta (máximo)3.62sTiempo de respuesta (total)3.62s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)5.65sTiempo de respuesta (total)7.62s
Programación
: 2.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)23.58sTiempo de respuesta (máximo)23.58sTiempo de respuesta (total)23.58s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)37.64sTiempo de respuesta (máximo)37.64sTiempo de respuesta (total)37.64s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.63sTiempo de respuesta (máximo)6.63sTiempo de respuesta (total)6.63s
Específico del dominio
: 5.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)121.79sTiempo de respuesta (máximo)121.79sTiempo de respuesta (total)121.79s
Inteligencia general
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)16.25sTiempo de respuesta (máximo)16.25sTiempo de respuesta (total)16.25s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.30sTiempo de respuesta (máximo)5.30sTiempo de respuesta (total)5.30s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)27.71sTiempo de respuesta (máximo)27.71sTiempo de respuesta (total)27.71s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)25.52sTiempo de respuesta (máximo)25.52sTiempo de respuesta (total)25.52s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10Tiempo de respuesta (promedio)2.49sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)32.33s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)2.74sTiempo de respuesta (total)3.82s
Programación
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.63sTiempo de respuesta (máximo)3.63sTiempo de respuesta (total)3.63s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.65sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)6.65s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.44sTiempo de respuesta (total)2.33s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.26sTiempo de respuesta (máximo)2.26sTiempo de respuesta (total)2.26s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.82sTiempo de respuesta (máximo)3.52sTiempo de respuesta (total)5.65s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.11sTiempo de respuesta (total)1.11s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.68sTiempo de respuesta (máximo)3.09sTiempo de respuesta (total)8.04s
Programación
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)14.36sTiempo de respuesta (máximo)14.36sTiempo de respuesta (total)14.36s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.92sTiempo de respuesta (máximo)15.92sTiempo de respuesta (total)15.92s
Análisis y extracción de datos
: 7.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)9.34sTiempo de respuesta (máximo)16.71sTiempo de respuesta (total)18.68s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Sin respuesta: 1Tiempo de respuesta (promedio)11.12sTiempo de respuesta (máximo)29.11sTiempo de respuesta (total)33.35s
Inteligencia general
: 0.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.68sTiempo de respuesta (máximo)2.03sTiempo de respuesta (total)3.36s
Resolución de acertijos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.99sTiempo de respuesta (máximo)2.00sTiempo de respuesta (total)3.97s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)3.39sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)3.39s
Cultura general
: 0.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Trucos anti-IA
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.46sTiempo de respuesta (máximo)4.38sTiempo de respuesta (total)13.86s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.11sTiempo de respuesta (máximo)27.11sTiempo de respuesta (total)27.11s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.54sTiempo de respuesta (máximo)7.51sTiempo de respuesta (total)11.08s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Formato extra: 1Tiempo de respuesta (promedio)24.67sTiempo de respuesta (máximo)35.28sTiempo de respuesta (total)74.02s
Inteligencia general
: 5.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.40sTiempo de respuesta (máximo)6.40sTiempo de respuesta (total)6.40s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.63sTiempo de respuesta (máximo)5.46sTiempo de respuesta (total)9.26s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)21.13s…
Trucos anti-IA
: 7.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)4.27s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.59sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)1.59s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.73sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)2.73s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)843msTiempo de respuesta (máximo)907msTiempo de respuesta (total)1.69s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)762msTiempo de respuesta (máximo)814msTiempo de respuesta (total)2.29s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)992msTiempo de respuesta (máximo)992msTiempo de respuesta (total)992ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)859msTiempo de respuesta (máximo)975msTiempo de respuesta (total)1.72s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.97sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)2.97s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)733msTiempo de respuesta (máximo)733msTiempo de respuesta (total)733ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9Tiempo de respuesta (promedio)1.99sTiempo de respuesta (máximo)5.56sTiempo de respuesta (total)37.87s…
Trucos anti-IA
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.31sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)5.25s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.05sTiempo de respuesta (máximo)2.05sTiempo de respuesta (total)2.05s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.56sTiempo de respuesta (máximo)5.56sTiempo de respuesta (total)5.56s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.18sTiempo de respuesta (máximo)1.24sTiempo de respuesta (total)2.37s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.31sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)3.92s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.41sTiempo de respuesta (máximo)3.41sTiempo de respuesta (total)3.41s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.15sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)2.31s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.36sTiempo de respuesta (máximo)1.56sTiempo de respuesta (total)4.09s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.90sTiempo de respuesta (máximo)3.90sTiempo de respuesta (total)3.90s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.01sTiempo de respuesta (máximo)5.01sTiempo de respuesta (total)5.01s
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)4.75sTiempo de respuesta (máximo)7.62sTiempo de respuesta (total)19.00s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)30.53sTiempo de respuesta (máximo)30.53sTiempo de respuesta (total)30.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.16sTiempo de respuesta (máximo)26.55sTiempo de respuesta (total)46.33s
Inteligencia general
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.44sTiempo de respuesta (máximo)6.44sTiempo de respuesta (total)6.44s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.18sTiempo de respuesta (máximo)4.46sTiempo de respuesta (total)8.36s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.33sTiempo de respuesta (máximo)17.33sTiempo de respuesta (total)17.33s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)12.62sTiempo de respuesta (máximo)18.61sTiempo de respuesta (total)50.50s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)168.22sTiempo de respuesta (máximo)168.22sTiempo de respuesta (total)168.22s
Combinado
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)83.07sTiempo de respuesta (máximo)83.07sTiempo de respuesta (total)83.07s
Análisis y extracción de datos
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 2Tiempo de respuesta (promedio)37.30sTiempo de respuesta (máximo)54.01sTiempo de respuesta (total)74.60s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)73.38sTiempo de respuesta (máximo)101.55sTiempo de respuesta (total)220.15s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)39.53sTiempo de respuesta (máximo)39.53sTiempo de respuesta (total)39.53s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)37.96sTiempo de respuesta (máximo)47.48sTiempo de respuesta (total)75.92s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)60.21sTiempo de respuesta (máximo)97.76sTiempo de respuesta (total)180.63s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.88sTiempo de respuesta (máximo)16.88sTiempo de respuesta (total)16.88s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)80.99sTiempo de respuesta (máximo)80.99sTiempo de respuesta (total)80.99s
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)51.38sTiempo de respuesta (máximo)85.28sTiempo de respuesta (total)102.75s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)150.77sTiempo de respuesta (máximo)150.77sTiempo de respuesta (total)150.77s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)71.37sTiempo de respuesta (máximo)71.37sTiempo de respuesta (total)71.37s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)49.78sTiempo de respuesta (máximo)49.78sTiempo de respuesta (total)49.78s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)137.29sTiempo de respuesta (máximo)137.29sTiempo de respuesta (total)137.29s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)69.73sTiempo de respuesta (máximo)69.73sTiempo de respuesta (total)69.73s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)92.47sTiempo de respuesta (máximo)92.47sTiempo de respuesta (total)92.47s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.74sTiempo de respuesta (máximo)31.74sTiempo de respuesta (total)31.74s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.95sTiempo de respuesta (máximo)83.95sTiempo de respuesta (total)83.95s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)4.49sTiempo de respuesta (total)26.72s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.10sTiempo de respuesta (máximo)1.65sTiempo de respuesta (total)4.42s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.31sTiempo de respuesta (máximo)1.31sTiempo de respuesta (total)1.31s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.53sTiempo de respuesta (máximo)2.53sTiempo de respuesta (total)2.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.32sTiempo de respuesta (total)2.07s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.02sTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)3.06s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)791msTiempo de respuesta (máximo)791msTiempo de respuesta (total)791ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)932msTiempo de respuesta (máximo)1.00sTiempo de respuesta (total)1.86s
Resolución de acertijos
: 6.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo de respuesta (promedio)2.15sTiempo de respuesta (máximo)4.49sTiempo de respuesta (total)6.45s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.51sTiempo de respuesta (máximo)3.51sTiempo de respuesta (total)3.51s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)724msTiempo de respuesta (máximo)724msTiempo de respuesta (total)724ms
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.18sTiempo de respuesta (máximo)23.18sTiempo de respuesta (total)23.18s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.15sTiempo de respuesta (máximo)88.15sTiempo de respuesta (total)88.15s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.58sTiempo de respuesta (máximo)13.87sTiempo de respuesta (total)25.16s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)44.63sTiempo de respuesta (máximo)82.55sTiempo de respuesta (total)133.89s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.50sTiempo de respuesta (máximo)13.50sTiempo de respuesta (total)13.50s
Seguimiento de instrucciones
: 7.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)15.66sTiempo de respuesta (máximo)21.80sTiempo de respuesta (total)31.32s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.64sTiempo de respuesta (máximo)18.64sTiempo de respuesta (total)18.64s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.99sTiempo de respuesta (máximo)9.99sTiempo de respuesta (total)9.99s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.95sTiempo de respuesta (máximo)5.68sTiempo de respuesta (total)15.80s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)24.33sTiempo de respuesta (máximo)24.33sTiempo de respuesta (total)24.33s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.40sTiempo de respuesta (máximo)17.40sTiempo de respuesta (total)17.40s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)5.02sTiempo de respuesta (total)8.34s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)27.03sTiempo de respuesta (máximo)29.87sTiempo de respuesta (total)81.10s
Inteligencia general
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)24.48sTiempo de respuesta (máximo)24.48sTiempo de respuesta (total)24.48s
Seguimiento de instrucciones
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)4.42sTiempo de respuesta (máximo)4.46sTiempo de respuesta (total)8.84s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.20sTiempo de respuesta (máximo)11.63sTiempo de respuesta (total)18.61s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.68sTiempo de respuesta (máximo)13.68sTiempo de respuesta (total)13.68s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)63.48sTiempo de respuesta (máximo)63.48sTiempo de respuesta (total)63.48s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 2Tiempo de respuesta (promedio)58.93sTiempo de respuesta (máximo)358.35sTiempo de respuesta (total)1119.75s…
Trucos anti-IA
: 7.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)16.53sTiempo de respuesta (máximo)39.91sTiempo de respuesta (total)66.11s
Programación
: 2.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)51.77sTiempo de respuesta (máximo)51.77sTiempo de respuesta (total)51.77s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.02sTiempo de respuesta (máximo)65.02sTiempo de respuesta (total)65.02s
Análisis y extracción de datos
: 8.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.62sTiempo de respuesta (máximo)36.44sTiempo de respuesta (total)47.24s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)205.66sTiempo de respuesta (máximo)358.35sTiempo de respuesta (total)616.97s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)25.09sTiempo de respuesta (máximo)25.09sTiempo de respuesta (total)25.09s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)41.16sTiempo de respuesta (máximo)43.56sTiempo de respuesta (total)82.32s
Resolución de acertijos
: 7.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.92sTiempo de respuesta (máximo)76.46sTiempo de respuesta (total)104.76s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.33sTiempo de respuesta (máximo)21.33sTiempo de respuesta (total)21.33s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.14sTiempo de respuesta (máximo)39.14sTiempo de respuesta (total)39.14s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.85sTiempo de respuesta (máximo)4.45sTiempo de respuesta (total)7.40s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)26.13sTiempo de respuesta (máximo)26.13sTiempo de respuesta (total)26.13s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.25sTiempo de respuesta (máximo)3.02sTiempo de respuesta (total)4.51s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.22sTiempo de respuesta (máximo)4.68sTiempo de respuesta (total)9.67s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.09sTiempo de respuesta (máximo)2.09sTiempo de respuesta (total)2.09s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.84sTiempo de respuesta (máximo)4.45sTiempo de respuesta (total)5.68s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.25sTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)1.25s
Trucos anti-IA
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.87sTiempo de respuesta (máximo)6.30sTiempo de respuesta (total)14.62s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)35.61sTiempo de respuesta (máximo)35.61sTiempo de respuesta (total)35.61s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)53.14sTiempo de respuesta (máximo)53.14sTiempo de respuesta (total)53.14s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.93sTiempo de respuesta (máximo)5.03sTiempo de respuesta (total)9.86s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)24.14sTiempo de respuesta (máximo)45.83sTiempo de respuesta (total)72.43s
Inteligencia general
: 0.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.30sTiempo de respuesta (máximo)6.00sTiempo de respuesta (total)8.59s
Resolución de acertijos
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.57sTiempo de respuesta (máximo)9.69sTiempo de respuesta (total)15.14s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.31sTiempo de respuesta (máximo)6.31sTiempo de respuesta (total)6.31s
Cultura general
: 0.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)4.59sTiempo de respuesta (total)10.98s
Programación
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)68.55sTiempo de respuesta (máximo)68.55sTiempo de respuesta (total)68.55s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)25.87sTiempo de respuesta (máximo)25.87sTiempo de respuesta (total)25.87s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.04sTiempo de respuesta (máximo)4.12sTiempo de respuesta (total)6.07s
Inteligencia general
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.61sTiempo de respuesta (máximo)3.61sTiempo de respuesta (total)3.61s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.99sTiempo de respuesta (máximo)7.14sTiempo de respuesta (total)9.99s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.98sTiempo de respuesta (máximo)13.98sTiempo de respuesta (total)13.98s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)234.19sTiempo de respuesta (máximo)234.19sTiempo de respuesta (total)234.19s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.94sTiempo de respuesta (máximo)4.83sTiempo de respuesta (total)5.88s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.67sTiempo de respuesta (máximo)3.67sTiempo de respuesta (total)3.67s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.84sTiempo de respuesta (máximo)23.84sTiempo de respuesta (total)23.84s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.43sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)3.43s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.56sTiempo de respuesta (máximo)2.56sTiempo de respuesta (total)2.56s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)2.92sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)5.84s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.11sTiempo de respuesta (máximo)4.11sTiempo de respuesta (total)4.11s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.67sTiempo de respuesta (máximo)4.67sTiempo de respuesta (total)4.67s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5No siguió las instrucciones: 4Tiempo de respuesta (promedio)16.00sTiempo de respuesta (máximo)102.91sTiempo de respuesta (total)303.99s…
Trucos anti-IA
: 8.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.05sTiempo de respuesta (máximo)6.69sTiempo de respuesta (total)16.20s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.76sTiempo de respuesta (máximo)7.76sTiempo de respuesta (total)7.76s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.81sTiempo de respuesta (máximo)17.81sTiempo de respuesta (total)17.81s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)4.87s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)65.31sTiempo de respuesta (máximo)102.91sTiempo de respuesta (total)195.92s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.72sTiempo de respuesta (máximo)3.72sTiempo de respuesta (total)3.72s
Seguimiento de instrucciones
: 7.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.50sTiempo de respuesta (máximo)2.55sTiempo de respuesta (total)5.00s
Resolución de acertijos
: 7.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.33sTiempo de respuesta (máximo)7.27sTiempo de respuesta (total)13.00s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)9.62sTiempo de respuesta (máximo)9.62sTiempo de respuesta (total)9.62s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)30.10sTiempo de respuesta (máximo)30.10sTiempo de respuesta (total)30.10s
Trucos anti-IA
: 9.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.23sTiempo de respuesta (máximo)29.86sTiempo de respuesta (total)96.93s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)180.92sTiempo de respuesta (máximo)180.92sTiempo de respuesta (total)180.92s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)93.11sTiempo de respuesta (máximo)93.11sTiempo de respuesta (total)93.11s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)36.09sTiempo de respuesta (máximo)39.12sTiempo de respuesta (total)72.18s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)33.91sTiempo de respuesta (total)72.82s
Inteligencia general
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)58.29sTiempo de respuesta (máximo)58.29sTiempo de respuesta (total)58.29s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)35.78sTiempo de respuesta (máximo)47.30sTiempo de respuesta (total)71.56s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.81sTiempo de respuesta (máximo)34.81sTiempo de respuesta (total)34.81s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.99sTiempo de respuesta (máximo)83.99sTiempo de respuesta (total)83.99s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.12sTiempo de respuesta (máximo)15.12sTiempo de respuesta (total)15.12s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.06sTiempo de respuesta (máximo)14.06sTiempo de respuesta (total)14.06s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.15sTiempo de respuesta (máximo)3.15sTiempo de respuesta (total)3.15s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)77.80sTiempo de respuesta (máximo)77.80sTiempo de respuesta (total)77.80s
Inteligencia general
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.32sTiempo de respuesta (máximo)4.32sTiempo de respuesta (total)4.32s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.12sTiempo de respuesta (máximo)3.12sTiempo de respuesta (total)3.12s
Resolución de acertijos
: 7.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.47sTiempo de respuesta (máximo)6.45sTiempo de respuesta (total)10.94s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)10.30sTiempo de respuesta (máximo)10.30sTiempo de respuesta (total)10.30s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)28.18sTiempo de respuesta (máximo)28.18sTiempo de respuesta (total)28.18s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.13sTiempo de respuesta (máximo)34.96sTiempo de respuesta (total)84.53s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)79.09sTiempo de respuesta (máximo)79.09sTiempo de respuesta (total)79.09s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)75.34sTiempo de respuesta (máximo)75.34sTiempo de respuesta (total)75.34s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)59.33sTiempo de respuesta (máximo)97.12sTiempo de respuesta (total)118.65s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)88.34sTiempo de respuesta (máximo)106.00sTiempo de respuesta (total)265.01s
Inteligencia general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)30.30sTiempo de respuesta (máximo)30.30sTiempo de respuesta (total)30.30s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.45sTiempo de respuesta (máximo)43.36sTiempo de respuesta (total)48.89s
Resolución de acertijos
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)31.58sTiempo de respuesta (máximo)60.18sTiempo de respuesta (total)94.75s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.65sTiempo de respuesta (máximo)4.65sTiempo de respuesta (total)4.65s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)177.35sTiempo de respuesta (máximo)177.35sTiempo de respuesta (total)177.35s
Trucos anti-IA
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)74.75sTiempo de respuesta (máximo)182.10sTiempo de respuesta (total)298.98s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)197.31sTiempo de respuesta (máximo)197.31sTiempo de respuesta (total)197.31s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)262.83sTiempo de respuesta (máximo)262.83sTiempo de respuesta (total)262.83s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)27.52sTiempo de respuesta (total)48.54s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Inteligencia general
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)36.65sTiempo de respuesta (máximo)36.65sTiempo de respuesta (total)36.65s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.47sTiempo de respuesta (máximo)19.46sTiempo de respuesta (total)34.93s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)25.85sTiempo de respuesta (máximo)32.95sTiempo de respuesta (total)77.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.68sTiempo de respuesta (máximo)88.68sTiempo de respuesta (total)88.68s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)56.76sTiempo de respuesta (máximo)56.76sTiempo de respuesta (total)56.76s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5No siguió las instrucciones: 2Tiempo de respuesta (promedio)55.10sTiempo de respuesta (máximo)143.82sTiempo de respuesta (total)881.55s…
Trucos anti-IA
: 9.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)43.33sTiempo de respuesta (máximo)71.76sTiempo de respuesta (total)173.31s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)143.82sTiempo de respuesta (máximo)143.82sTiempo de respuesta (total)143.82s
Combinado
: 0.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)45.87sTiempo de respuesta (máximo)45.87sTiempo de respuesta (total)45.87s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)73.40sTiempo de respuesta (máximo)90.09sTiempo de respuesta (total)220.20s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.63sTiempo de respuesta (máximo)15.63sTiempo de respuesta (total)15.63s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.36sTiempo de respuesta (máximo)40.24sTiempo de respuesta (total)54.72s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)31.47sTiempo de respuesta (máximo)46.84sTiempo de respuesta (total)94.41s
Llamada de herramientas
: 0.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)133.60sTiempo de respuesta (máximo)133.60sTiempo de respuesta (total)133.60s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 2Tiempo de respuesta (promedio)61.29sTiempo de respuesta (máximo)304.19sTiempo de respuesta (total)1164.50s…
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)42.21sTiempo de respuesta (máximo)89.34sTiempo de respuesta (total)168.84s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)59.65sTiempo de respuesta (máximo)59.65sTiempo de respuesta (total)59.65s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)304.19sTiempo de respuesta (máximo)304.19sTiempo de respuesta (total)304.19s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)37.36sTiempo de respuesta (máximo)54.24sTiempo de respuesta (total)74.71s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)64.92sTiempo de respuesta (máximo)150.55sTiempo de respuesta (total)194.76s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)58.26sTiempo de respuesta (máximo)58.26sTiempo de respuesta (total)58.26s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.78sTiempo de respuesta (máximo)17.75sTiempo de respuesta (total)23.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)104.44sTiempo de respuesta (máximo)104.44sTiempo de respuesta (total)104.44s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)113.91sTiempo de respuesta (máximo)113.91sTiempo de respuesta (total)113.91s
Trucos anti-IA
: 8.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)15.85sTiempo de respuesta (máximo)20.83sTiempo de respuesta (total)47.55s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)13.03sTiempo de respuesta (máximo)13.03sTiempo de respuesta (total)13.03s
Combinado
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)75.68sTiempo de respuesta (máximo)75.68sTiempo de respuesta (total)75.68s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)96.01sTiempo de respuesta (máximo)96.01sTiempo de respuesta (total)96.01s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.20sTiempo de respuesta (máximo)4.20sTiempo de respuesta (total)4.20s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.28sTiempo de respuesta (máximo)7.37sTiempo de respuesta (total)8.55s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.77sTiempo de respuesta (máximo)5.26sTiempo de respuesta (total)7.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.78sTiempo de respuesta (máximo)27.78sTiempo de respuesta (total)27.78s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s