Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)37.16sTiempo de respuesta (máximo)140.53sTiempo de respuesta (total)148.65s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)137.63sTiempo de respuesta (máximo)137.63sTiempo de respuesta (total)137.63s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)149.23sTiempo de respuesta (máximo)149.23sTiempo de respuesta (total)149.23s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.49sTiempo de respuesta (máximo)4.96sTiempo de respuesta (total)8.98s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)139.90sTiempo de respuesta (máximo)141.40sTiempo de respuesta (total)419.69s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)45.69sTiempo de respuesta (máximo)45.69sTiempo de respuesta (total)45.69s
Seguimiento de instrucciones
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)23.26sTiempo de respuesta (máximo)43.87sTiempo de respuesta (total)46.51s
Resolución de acertijos
: 5.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo de respuesta (promedio)50.83sTiempo de respuesta (máximo)144.85sTiempo de respuesta (total)152.49s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.44sTiempo de respuesta (máximo)6.44sTiempo de respuesta (total)6.44s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)54.83sTiempo de respuesta (máximo)95.88sTiempo de respuesta (total)109.65s
Combinado
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)15.06sTiempo de respuesta (máximo)15.06sTiempo de respuesta (total)15.06s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.60sTiempo de respuesta (máximo)9.92sTiempo de respuesta (total)19.19s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)38.15sTiempo de respuesta (máximo)67.08sTiempo de respuesta (total)114.45s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.09sTiempo de respuesta (máximo)11.09sTiempo de respuesta (total)11.09s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.74sTiempo de respuesta (máximo)5.23sTiempo de respuesta (total)7.47s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.24sTiempo de respuesta (máximo)16.95sTiempo de respuesta (total)30.72s
Llamada de herramientas
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)12.53sTiempo de respuesta (máximo)12.53sTiempo de respuesta (total)12.53s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)40.96sTiempo de respuesta (máximo)40.96sTiempo de respuesta (total)40.96s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 3Tiempo de respuesta (promedio)22.10sTiempo de respuesta (máximo)138.75sTiempo de respuesta (total)442.09s…
Trucos anti-IA
: 8.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.05sTiempo de respuesta (máximo)6.69sTiempo de respuesta (total)16.20s
Programación
: 7.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)73.25sTiempo de respuesta (máximo)138.75sTiempo de respuesta (total)146.51s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.81sTiempo de respuesta (máximo)17.81sTiempo de respuesta (total)17.81s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)4.87s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)65.31sTiempo de respuesta (máximo)102.91sTiempo de respuesta (total)195.92s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.72sTiempo de respuesta (máximo)3.72sTiempo de respuesta (total)3.72s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.13sTiempo de respuesta (máximo)2.45sTiempo de respuesta (total)4.25s
Resolución de acertijos
: 7.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.37sTiempo de respuesta (máximo)7.27sTiempo de respuesta (total)13.11s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)9.62sTiempo de respuesta (máximo)9.62sTiempo de respuesta (total)9.62s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)30.10sTiempo de respuesta (máximo)30.10sTiempo de respuesta (total)30.10s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.13sTiempo de respuesta (máximo)34.96sTiempo de respuesta (total)84.53s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)244.54sTiempo de respuesta (máximo)409.98sTiempo de respuesta (total)489.08s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)75.34sTiempo de respuesta (máximo)75.34sTiempo de respuesta (total)75.34s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)59.33sTiempo de respuesta (máximo)97.12sTiempo de respuesta (total)118.65s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)88.34sTiempo de respuesta (máximo)106.00sTiempo de respuesta (total)265.01s
Inteligencia general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)30.30sTiempo de respuesta (máximo)30.30sTiempo de respuesta (total)30.30s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.45sTiempo de respuesta (máximo)43.36sTiempo de respuesta (total)48.89s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)33.13sTiempo de respuesta (máximo)64.81sTiempo de respuesta (total)99.38s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.65sTiempo de respuesta (máximo)4.65sTiempo de respuesta (total)4.65s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)177.35sTiempo de respuesta (máximo)177.35sTiempo de respuesta (total)177.35s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7No siguió las instrucciones: 2Tiempo de respuesta (promedio)11.79sTiempo de respuesta (máximo)94.06sTiempo de respuesta (total)235.81s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.52sTiempo de respuesta (máximo)7.74sTiempo de respuesta (total)18.10s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)21.10sTiempo de respuesta (máximo)28.80sTiempo de respuesta (total)42.21s
Combinado
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.13sTiempo de respuesta (máximo)24.13sTiempo de respuesta (total)24.13s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.54sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)5.08s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)38.18sTiempo de respuesta (máximo)94.06sTiempo de respuesta (total)114.53s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.15sTiempo de respuesta (máximo)4.15sTiempo de respuesta (total)4.15s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.88sTiempo de respuesta (máximo)2.61sTiempo de respuesta (total)3.75s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.71sTiempo de respuesta (máximo)7.71sTiempo de respuesta (total)7.71s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.81sTiempo de respuesta (máximo)4.81sTiempo de respuesta (total)4.81s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6Sin respuesta: 3Tiempo de respuesta (promedio)49.43sTiempo de respuesta (máximo)192.75sTiempo de respuesta (total)988.58s…
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.40sTiempo de respuesta (máximo)45.73sTiempo de respuesta (total)53.58s
Programación
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)126.82sTiempo de respuesta (máximo)192.75sTiempo de respuesta (total)253.65s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.01sTiempo de respuesta (máximo)13.01sTiempo de respuesta (total)13.01s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.72sTiempo de respuesta (máximo)24.97sTiempo de respuesta (total)29.43s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Sin respuesta: 1Tiempo de respuesta (promedio)149.64sTiempo de respuesta (máximo)163.21sTiempo de respuesta (total)448.91s
Inteligencia general
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)4.17sTiempo de respuesta (total)4.17s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)3.03s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)10.22sTiempo de respuesta (máximo)23.65sTiempo de respuesta (total)30.66s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.79sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)2.79s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)149.34sTiempo de respuesta (máximo)149.34sTiempo de respuesta (total)149.34s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)185.58sTiempo de respuesta (máximo)218.40sTiempo de respuesta (total)371.16s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.30sTiempo de respuesta (máximo)65.30sTiempo de respuesta (total)65.30s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.92sTiempo de respuesta (máximo)16.89sTiempo de respuesta (total)29.85s
Específico del dominio
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Tiempo de respuesta (promedio)233.13sTiempo de respuesta (máximo)431.03sTiempo de respuesta (total)466.26s
Inteligencia general
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)33.25sTiempo de respuesta (máximo)33.25sTiempo de respuesta (total)33.25s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.14sTiempo de respuesta (máximo)6.80sTiempo de respuesta (total)12.27s
Resolución de acertijos
: 7.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)49.91sTiempo de respuesta (máximo)128.09sTiempo de respuesta (total)149.74s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)100.80sTiempo de respuesta (máximo)100.80sTiempo de respuesta (total)100.80s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)30.74sTiempo de respuesta (máximo)38.31sTiempo de respuesta (total)61.49s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.15sTiempo de respuesta (máximo)88.15sTiempo de respuesta (total)88.15s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.58sTiempo de respuesta (máximo)13.87sTiempo de respuesta (total)25.16s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)44.63sTiempo de respuesta (máximo)82.55sTiempo de respuesta (total)133.89s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.50sTiempo de respuesta (máximo)13.50sTiempo de respuesta (total)13.50s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.59sTiempo de respuesta (máximo)13.66sTiempo de respuesta (total)23.18s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.64sTiempo de respuesta (máximo)18.64sTiempo de respuesta (total)18.64s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.99sTiempo de respuesta (máximo)9.99sTiempo de respuesta (total)9.99s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9Tiempo de respuesta (promedio)3.31sTiempo de respuesta (máximo)20.51sTiempo de respuesta (total)66.17s…
Trucos anti-IA
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.63sTiempo de respuesta (máximo)5.57sTiempo de respuesta (total)10.53s
Programación
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.06sTiempo de respuesta (máximo)3.45sTiempo de respuesta (total)6.12s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)20.51sTiempo de respuesta (máximo)20.51sTiempo de respuesta (total)20.51s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.87sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)5.74s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)3.67s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.62sTiempo de respuesta (máximo)1.62sTiempo de respuesta (total)1.62s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.40sTiempo de respuesta (máximo)1.46sTiempo de respuesta (total)2.79s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.65sTiempo de respuesta (máximo)3.59sTiempo de respuesta (total)7.94s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.27sTiempo de respuesta (máximo)5.27sTiempo de respuesta (total)5.27s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.97sTiempo de respuesta (máximo)1.97sTiempo de respuesta (total)1.97s
Trucos anti-IA
: 8.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)15.85sTiempo de respuesta (máximo)20.83sTiempo de respuesta (total)47.55s
Programación
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.20sTiempo de respuesta (máximo)13.03sTiempo de respuesta (total)14.41s
Combinado
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)75.68sTiempo de respuesta (máximo)75.68sTiempo de respuesta (total)75.68s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)96.01sTiempo de respuesta (máximo)96.01sTiempo de respuesta (total)96.01s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.20sTiempo de respuesta (máximo)4.20sTiempo de respuesta (total)4.20s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.28sTiempo de respuesta (máximo)7.37sTiempo de respuesta (total)8.55s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.87sTiempo de respuesta (máximo)5.26sTiempo de respuesta (total)7.74s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.78sTiempo de respuesta (máximo)27.78sTiempo de respuesta (total)27.78s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Trucos anti-IA
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)74.75sTiempo de respuesta (máximo)182.10sTiempo de respuesta (total)298.98s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)220.48sTiempo de respuesta (máximo)243.66sTiempo de respuesta (total)440.97s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)262.83sTiempo de respuesta (máximo)262.83sTiempo de respuesta (total)262.83s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)27.52sTiempo de respuesta (total)48.54s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Inteligencia general
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)36.65sTiempo de respuesta (máximo)36.65sTiempo de respuesta (total)36.65s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.47sTiempo de respuesta (máximo)19.46sTiempo de respuesta (total)34.93s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)31.79sTiempo de respuesta (máximo)50.78sTiempo de respuesta (total)95.38s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.68sTiempo de respuesta (máximo)88.68sTiempo de respuesta (total)88.68s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)56.76sTiempo de respuesta (máximo)56.76sTiempo de respuesta (total)56.76s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.94sTiempo de respuesta (máximo)4.83sTiempo de respuesta (total)5.88s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)6.73sTiempo de respuesta (máximo)9.79sTiempo de respuesta (total)13.46s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.84sTiempo de respuesta (máximo)23.84sTiempo de respuesta (total)23.84s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.43sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)3.43s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.56sTiempo de respuesta (máximo)2.56sTiempo de respuesta (total)2.56s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)2.53sTiempo de respuesta (máximo)2.54sTiempo de respuesta (total)5.06s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.11sTiempo de respuesta (máximo)4.11sTiempo de respuesta (total)4.11s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.67sTiempo de respuesta (máximo)4.67sTiempo de respuesta (total)4.67s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.95sTiempo de respuesta (máximo)5.68sTiempo de respuesta (total)15.80s
Programación
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)65.07sTiempo de respuesta (máximo)105.80sTiempo de respuesta (total)130.13s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.40sTiempo de respuesta (máximo)17.40sTiempo de respuesta (total)17.40s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)5.02sTiempo de respuesta (total)8.34s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)27.03sTiempo de respuesta (máximo)29.87sTiempo de respuesta (total)81.10s
Inteligencia general
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)24.48sTiempo de respuesta (máximo)24.48sTiempo de respuesta (total)24.48s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.26sTiempo de respuesta (máximo)4.46sTiempo de respuesta (total)8.52s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.22sTiempo de respuesta (máximo)11.63sTiempo de respuesta (total)18.66s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.68sTiempo de respuesta (máximo)13.68sTiempo de respuesta (total)13.68s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)63.48sTiempo de respuesta (máximo)63.48sTiempo de respuesta (total)63.48s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)42.21sTiempo de respuesta (máximo)89.34sTiempo de respuesta (total)168.84s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)59.65sTiempo de respuesta (máximo)59.65sTiempo de respuesta (total)59.65s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)304.19sTiempo de respuesta (máximo)304.19sTiempo de respuesta (total)304.19s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)37.36sTiempo de respuesta (máximo)54.24sTiempo de respuesta (total)74.71s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)64.92sTiempo de respuesta (máximo)150.55sTiempo de respuesta (total)194.76s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)58.26sTiempo de respuesta (máximo)58.26sTiempo de respuesta (total)58.26s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.78sTiempo de respuesta (máximo)17.75sTiempo de respuesta (total)23.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)104.44sTiempo de respuesta (máximo)104.44sTiempo de respuesta (total)104.44s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)113.91sTiempo de respuesta (máximo)113.91sTiempo de respuesta (total)113.91s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 6Respuesta incorrecta: 3Tiempo de respuesta (promedio)56.57sTiempo de respuesta (máximo)149.94sTiempo de respuesta (total)848.59s…
Trucos anti-IA
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)15.12sTiempo de respuesta (máximo)19.99sTiempo de respuesta (total)45.37s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)99.76sTiempo de respuesta (máximo)99.76sTiempo de respuesta (total)99.76s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)113.09sTiempo de respuesta (máximo)113.09sTiempo de respuesta (total)113.09s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)12.11sTiempo de respuesta (máximo)12.11sTiempo de respuesta (total)12.11s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)109.04sTiempo de respuesta (máximo)149.94sTiempo de respuesta (total)327.11s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.36sTiempo de respuesta (máximo)41.83sTiempo de respuesta (total)68.73s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)27.94sTiempo de respuesta (máximo)45.06sTiempo de respuesta (total)55.89s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)78.83sTiempo de respuesta (máximo)78.83sTiempo de respuesta (total)78.83s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)47.71sTiempo de respuesta (máximo)47.71sTiempo de respuesta (total)47.71s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)4.59sTiempo de respuesta (total)10.98s
Programación
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)183.89sTiempo de respuesta (máximo)299.23sTiempo de respuesta (total)367.78s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)25.87sTiempo de respuesta (máximo)25.87sTiempo de respuesta (total)25.87s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.04sTiempo de respuesta (máximo)4.12sTiempo de respuesta (total)6.07s
Inteligencia general
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.61sTiempo de respuesta (máximo)3.61sTiempo de respuesta (total)3.61s
Seguimiento de instrucciones
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.99sTiempo de respuesta (máximo)7.14sTiempo de respuesta (total)9.99s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.98sTiempo de respuesta (máximo)13.98sTiempo de respuesta (total)13.98s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)234.19sTiempo de respuesta (máximo)234.19sTiempo de respuesta (total)234.19s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)24.23sTiempo de respuesta (máximo)29.86sTiempo de respuesta (total)96.93s
Programación
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)184.97sTiempo de respuesta (máximo)189.03sTiempo de respuesta (total)369.94s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)93.11sTiempo de respuesta (máximo)93.11sTiempo de respuesta (total)93.11s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)36.09sTiempo de respuesta (máximo)39.12sTiempo de respuesta (total)72.18s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)33.91sTiempo de respuesta (total)72.82s
Inteligencia general
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)58.29sTiempo de respuesta (máximo)58.29sTiempo de respuesta (total)58.29s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)35.78sTiempo de respuesta (máximo)47.30sTiempo de respuesta (total)71.56s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.81sTiempo de respuesta (máximo)34.81sTiempo de respuesta (total)34.81s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.99sTiempo de respuesta (máximo)83.99sTiempo de respuesta (total)83.99s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.85sTiempo de respuesta (máximo)4.45sTiempo de respuesta (total)7.40s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)14.84sTiempo de respuesta (máximo)26.13sTiempo de respuesta (total)29.68s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.25sTiempo de respuesta (máximo)3.02sTiempo de respuesta (total)4.51s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.22sTiempo de respuesta (máximo)4.68sTiempo de respuesta (total)9.67s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.09sTiempo de respuesta (máximo)2.09sTiempo de respuesta (total)2.09s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.84sTiempo de respuesta (máximo)4.45sTiempo de respuesta (total)5.68s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.25sTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)1.25s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.37sTiempo de respuesta (máximo)4.49sTiempo de respuesta (total)27.32s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.10sTiempo de respuesta (máximo)1.65sTiempo de respuesta (total)4.42s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)951msTiempo de respuesta (máximo)1.31sTiempo de respuesta (total)1.90s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.53sTiempo de respuesta (máximo)2.53sTiempo de respuesta (total)2.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.32sTiempo de respuesta (total)2.07s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.02sTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)3.06s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)791msTiempo de respuesta (máximo)791msTiempo de respuesta (total)791ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)932msTiempo de respuesta (máximo)1.00sTiempo de respuesta (total)1.86s
Resolución de acertijos
: 6.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo de respuesta (promedio)2.15sTiempo de respuesta (máximo)4.49sTiempo de respuesta (total)6.45s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.51sTiempo de respuesta (máximo)3.51sTiempo de respuesta (total)3.51s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)724msTiempo de respuesta (máximo)724msTiempo de respuesta (total)724ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.95sTiempo de respuesta (máximo)29.38sTiempo de respuesta (total)58.96s…
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.38sTiempo de respuesta (máximo)2.69sTiempo de respuesta (total)5.51s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.77sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)5.54s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.38sTiempo de respuesta (máximo)29.38sTiempo de respuesta (total)29.38s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.57sTiempo de respuesta (total)2.86s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)868msTiempo de respuesta (máximo)1.02sTiempo de respuesta (total)2.60s
Inteligencia general
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)1.33s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)929msTiempo de respuesta (máximo)1.05sTiempo de respuesta (total)1.86s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.71sTiempo de respuesta (máximo)2.65sTiempo de respuesta (total)5.13s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.21sTiempo de respuesta (máximo)1.21sTiempo de respuesta (total)1.21s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.99sTiempo de respuesta (máximo)109.60sTiempo de respuesta (total)139.95s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.54sTiempo de respuesta (máximo)34.54sTiempo de respuesta (total)34.54s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)14.37sTiempo de respuesta (máximo)14.37sTiempo de respuesta (total)14.37s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.30sTiempo de respuesta (máximo)9.30sTiempo de respuesta (total)9.30s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)114.12sTiempo de respuesta (máximo)114.12sTiempo de respuesta (total)114.12s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 6Respuesta incorrecta: 4Tiempo de respuesta (promedio)24.56sTiempo de respuesta (máximo)78.74sTiempo de respuesta (total)368.35s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)9.32sTiempo de respuesta (máximo)12.36sTiempo de respuesta (total)27.96s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)27.94sTiempo de respuesta (máximo)27.94sTiempo de respuesta (total)27.94s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)78.74sTiempo de respuesta (máximo)78.74sTiempo de respuesta (total)78.74s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)5.85sTiempo de respuesta (máximo)5.85sTiempo de respuesta (total)5.85s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)40.44sTiempo de respuesta (máximo)46.32sTiempo de respuesta (total)121.31s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.98sTiempo de respuesta (máximo)22.24sTiempo de respuesta (total)31.97s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.51sTiempo de respuesta (máximo)7.86sTiempo de respuesta (total)15.02s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)17.84sTiempo de respuesta (máximo)17.84sTiempo de respuesta (total)17.84s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)41.74sTiempo de respuesta (máximo)41.74sTiempo de respuesta (total)41.74s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10Tiempo de respuesta (promedio)1.93sTiempo de respuesta (máximo)5.56sTiempo de respuesta (total)38.64s…
Trucos anti-IA
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.31sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)5.25s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)2.05sTiempo de respuesta (total)3.04s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.56sTiempo de respuesta (máximo)5.56sTiempo de respuesta (total)5.56s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.18sTiempo de respuesta (máximo)1.24sTiempo de respuesta (total)2.37s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.31sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)3.92s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.41sTiempo de respuesta (máximo)3.41sTiempo de respuesta (total)3.41s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.15sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)2.31s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.29sTiempo de respuesta (máximo)1.56sTiempo de respuesta (total)3.87s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.90sTiempo de respuesta (máximo)3.90sTiempo de respuesta (total)3.90s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.01sTiempo de respuesta (máximo)5.01sTiempo de respuesta (total)5.01s
Trucos anti-IA
: 8.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)5.65sTiempo de respuesta (total)7.62s
Programación
: 2.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)23.58sTiempo de respuesta (máximo)23.58sTiempo de respuesta (total)23.58s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)37.64sTiempo de respuesta (máximo)37.64sTiempo de respuesta (total)37.64s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.63sTiempo de respuesta (máximo)6.63sTiempo de respuesta (total)6.63s
Específico del dominio
: 5.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)121.79sTiempo de respuesta (máximo)121.79sTiempo de respuesta (total)121.79s
Inteligencia general
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)16.25sTiempo de respuesta (máximo)16.25sTiempo de respuesta (total)16.25s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.63sTiempo de respuesta (máximo)4.63sTiempo de respuesta (total)4.63s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)27.71sTiempo de respuesta (máximo)27.71sTiempo de respuesta (total)27.71s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)25.52sTiempo de respuesta (máximo)25.52sTiempo de respuesta (total)25.52s
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.87sTiempo de respuesta (máximo)6.30sTiempo de respuesta (total)14.62s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)35.61sTiempo de respuesta (máximo)35.61sTiempo de respuesta (total)35.61s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)53.14sTiempo de respuesta (máximo)53.14sTiempo de respuesta (total)53.14s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.93sTiempo de respuesta (máximo)5.03sTiempo de respuesta (total)9.86s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)24.14sTiempo de respuesta (máximo)45.83sTiempo de respuesta (total)72.43s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.30sTiempo de respuesta (máximo)6.00sTiempo de respuesta (total)8.59s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.19sTiempo de respuesta (máximo)14.92sTiempo de respuesta (total)20.37s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.31sTiempo de respuesta (máximo)6.31sTiempo de respuesta (total)6.31s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 8Respuesta incorrecta: 2Tiempo de respuesta (promedio)15.25sTiempo de respuesta (máximo)43.55sTiempo de respuesta (total)182.96s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)11.69sTiempo de respuesta (máximo)19.37sTiempo de respuesta (total)35.08s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.95sTiempo de respuesta (máximo)34.95sTiempo de respuesta (total)34.95s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.95sTiempo de respuesta (máximo)15.40sTiempo de respuesta (total)29.90s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Error de API: 1Tiempo de respuesta (promedio)22.08sTiempo de respuesta (máximo)43.55sTiempo de respuesta (total)66.23s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)3.40sTiempo de respuesta (máximo)3.40sTiempo de respuesta (total)3.40s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)7.52sTiempo de respuesta (máximo)7.52sTiempo de respuesta (total)7.52s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.87sTiempo de respuesta (máximo)5.87sTiempo de respuesta (total)5.87s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)51.38sTiempo de respuesta (máximo)85.28sTiempo de respuesta (total)102.75s
Programación
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)215.89sTiempo de respuesta (máximo)281.00sTiempo de respuesta (total)431.77s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)71.37sTiempo de respuesta (máximo)71.37sTiempo de respuesta (total)71.37s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)49.78sTiempo de respuesta (máximo)49.78sTiempo de respuesta (total)49.78s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)137.29sTiempo de respuesta (máximo)137.29sTiempo de respuesta (total)137.29s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)69.73sTiempo de respuesta (máximo)69.73sTiempo de respuesta (total)69.73s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)92.47sTiempo de respuesta (máximo)92.47sTiempo de respuesta (total)92.47s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.74sTiempo de respuesta (máximo)31.74sTiempo de respuesta (total)31.74s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.95sTiempo de respuesta (máximo)83.95sTiempo de respuesta (total)83.95s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)12.62sTiempo de respuesta (máximo)18.61sTiempo de respuesta (total)50.50s
Programación
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)165.39sTiempo de respuesta (máximo)168.22sTiempo de respuesta (total)330.78s
Combinado
: 7.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)83.07sTiempo de respuesta (máximo)83.07sTiempo de respuesta (total)83.07s
Análisis y extracción de datos
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 2Tiempo de respuesta (promedio)37.30sTiempo de respuesta (máximo)54.01sTiempo de respuesta (total)74.60s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)73.38sTiempo de respuesta (máximo)101.55sTiempo de respuesta (total)220.15s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)39.53sTiempo de respuesta (máximo)39.53sTiempo de respuesta (total)39.53s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)37.96sTiempo de respuesta (máximo)47.48sTiempo de respuesta (total)75.92s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)61.14sTiempo de respuesta (máximo)97.76sTiempo de respuesta (total)183.42s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.88sTiempo de respuesta (máximo)16.88sTiempo de respuesta (total)16.88s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)80.99sTiempo de respuesta (máximo)80.99sTiempo de respuesta (total)80.99s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.09sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)21.79s…
Trucos anti-IA
: 7.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)4.27s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)2.26s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.73sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)2.73s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)843msTiempo de respuesta (máximo)907msTiempo de respuesta (total)1.69s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)762msTiempo de respuesta (máximo)814msTiempo de respuesta (total)2.29s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)992msTiempo de respuesta (máximo)992msTiempo de respuesta (total)992ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)859msTiempo de respuesta (máximo)975msTiempo de respuesta (total)1.72s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.97sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)2.97s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)733msTiempo de respuesta (máximo)733msTiempo de respuesta (total)733ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8No siguió las instrucciones: 3Tiempo de respuesta (promedio)2.27sTiempo de respuesta (máximo)14.63sTiempo de respuesta (total)43.20s…
Programación
: 7.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.29sTiempo de respuesta (máximo)3.06sTiempo de respuesta (total)4.58s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.28sTiempo de respuesta (máximo)3.28sTiempo de respuesta (total)3.28s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)2.21s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.48sTiempo de respuesta (máximo)14.63sTiempo de respuesta (total)19.43s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)821msTiempo de respuesta (máximo)821msTiempo de respuesta (total)821ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.58sTiempo de respuesta (máximo)2.58sTiempo de respuesta (total)2.58s