Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)42.21sTiempo de respuesta (máximo)89.34sTiempo de respuesta (total)168.84s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)59.65sTiempo de respuesta (máximo)59.65sTiempo de respuesta (total)59.65s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)304.19sTiempo de respuesta (máximo)304.19sTiempo de respuesta (total)304.19s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)37.36sTiempo de respuesta (máximo)54.24sTiempo de respuesta (total)74.71s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)64.92sTiempo de respuesta (máximo)150.55sTiempo de respuesta (total)194.76s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)58.26sTiempo de respuesta (máximo)58.26sTiempo de respuesta (total)58.26s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.78sTiempo de respuesta (máximo)17.75sTiempo de respuesta (total)23.55s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)104.44sTiempo de respuesta (máximo)104.44sTiempo de respuesta (total)104.44s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)113.91sTiempo de respuesta (máximo)113.91sTiempo de respuesta (total)113.91s
Trucos anti-IA
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.44sTiempo de respuesta (máximo)57.86sTiempo de respuesta (total)103.31s
Programación
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo agotado: 1Tiempo de respuesta (promedio)135.61sTiempo de respuesta (máximo)135.61sTiempo de respuesta (total)135.61s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo agotado: 1Tiempo de respuesta (promedio)87.31sTiempo de respuesta (máximo)87.31sTiempo de respuesta (total)87.31s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)137.75sTiempo de respuesta (máximo)202.61sTiempo de respuesta (total)413.24s
Inteligencia general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)226.38sTiempo de respuesta (máximo)226.38sTiempo de respuesta (total)226.38s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)5.75sTiempo de respuesta (máximo)5.75sTiempo de respuesta (total)5.75s
Resolución de acertijos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)32.27sTiempo de respuesta (máximo)47.31sTiempo de respuesta (total)96.80s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.31sTiempo de respuesta (máximo)4.31sTiempo de respuesta (total)4.31s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)177.02sTiempo de respuesta (máximo)177.02sTiempo de respuesta (total)177.02s
Trucos anti-IA
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)24.23sTiempo de respuesta (máximo)29.86sTiempo de respuesta (total)96.93s
Programación
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)184.97sTiempo de respuesta (máximo)189.03sTiempo de respuesta (total)369.94s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)93.11sTiempo de respuesta (máximo)93.11sTiempo de respuesta (total)93.11s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)36.09sTiempo de respuesta (máximo)39.12sTiempo de respuesta (total)72.18s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)33.91sTiempo de respuesta (total)72.82s
Inteligencia general
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)58.29sTiempo de respuesta (máximo)58.29sTiempo de respuesta (total)58.29s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)35.78sTiempo de respuesta (máximo)47.30sTiempo de respuesta (total)71.56s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.81sTiempo de respuesta (máximo)34.81sTiempo de respuesta (total)34.81s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.99sTiempo de respuesta (máximo)83.99sTiempo de respuesta (total)83.99s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)4.57sTiempo de respuesta (máximo)33.34sTiempo de respuesta (total)91.37s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.88sTiempo de respuesta (máximo)4.81sTiempo de respuesta (total)7.53s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)13.32sTiempo de respuesta (máximo)13.32sTiempo de respuesta (total)13.32s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.82sTiempo de respuesta (máximo)3.86sTiempo de respuesta (total)5.65s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)4.43sTiempo de respuesta (máximo)10.83sTiempo de respuesta (total)13.28s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)1.41sTiempo de respuesta (total)1.41s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)2.35s
Resolución de acertijos
: 6.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.97sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)5.91s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.42sTiempo de respuesta (máximo)4.42sTiempo de respuesta (total)4.42s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)33.34sTiempo de respuesta (máximo)33.34sTiempo de respuesta (total)33.34s
Trucos anti-IA
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.10sTiempo de respuesta (máximo)6.15sTiempo de respuesta (total)8.41s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)12.29sTiempo de respuesta (máximo)22.52sTiempo de respuesta (total)24.58s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.46sTiempo de respuesta (máximo)2.03sTiempo de respuesta (total)2.93s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)7.45sTiempo de respuesta (máximo)12.46sTiempo de respuesta (total)22.35s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.51sTiempo de respuesta (máximo)3.51sTiempo de respuesta (total)3.51s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.86sTiempo de respuesta (máximo)2.83sTiempo de respuesta (total)3.73s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)414msTiempo de respuesta (máximo)414msTiempo de respuesta (total)414ms
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.89sTiempo de respuesta (máximo)26.66sTiempo de respuesta (total)51.55s
Programación
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)110.94sTiempo de respuesta (máximo)150.90sTiempo de respuesta (total)221.87s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.11sTiempo de respuesta (máximo)21.94sTiempo de respuesta (total)42.21s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)38.48sTiempo de respuesta (máximo)68.92sTiempo de respuesta (total)115.43s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.57sTiempo de respuesta (máximo)9.57sTiempo de respuesta (total)9.57s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.76sTiempo de respuesta (máximo)17.53sTiempo de respuesta (total)25.52s
Resolución de acertijos
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)26.91sTiempo de respuesta (máximo)61.08sTiempo de respuesta (total)80.72s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)90.14sTiempo de respuesta (máximo)90.14sTiempo de respuesta (total)90.14s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 2Tiempo de respuesta (promedio)46.36sTiempo de respuesta (máximo)218.13sTiempo de respuesta (total)927.27s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)28.51sTiempo de respuesta (máximo)39.73sTiempo de respuesta (total)114.05s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)58.13sTiempo de respuesta (máximo)62.48sTiempo de respuesta (total)116.27s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)76.57sTiempo de respuesta (máximo)76.57sTiempo de respuesta (total)76.57s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)28.03sTiempo de respuesta (máximo)30.49sTiempo de respuesta (total)56.07s
Específico del dominio
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)100.31sTiempo de respuesta (máximo)218.13sTiempo de respuesta (total)300.92s
Inteligencia general
: 6.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)25.15sTiempo de respuesta (máximo)25.15sTiempo de respuesta (total)25.15s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.36sTiempo de respuesta (máximo)19.53sTiempo de respuesta (total)30.73s
Resolución de acertijos
: 8.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)26.11sTiempo de respuesta (máximo)32.37sTiempo de respuesta (total)78.32s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)74.73sTiempo de respuesta (máximo)74.73sTiempo de respuesta (total)74.73s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)54.46sTiempo de respuesta (máximo)54.46sTiempo de respuesta (total)54.46s
Trucos anti-IA
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.83sTiempo de respuesta (máximo)7.62sTiempo de respuesta (total)11.33s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.75sTiempo de respuesta (máximo)10.18sTiempo de respuesta (total)11.51s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)9.95sTiempo de respuesta (máximo)9.95sTiempo de respuesta (total)9.95s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.06sTiempo de respuesta (máximo)2.39sTiempo de respuesta (total)4.11s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.03sTiempo de respuesta (máximo)4.83sTiempo de respuesta (total)9.08s
Inteligencia general
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.92sTiempo de respuesta (máximo)1.94sTiempo de respuesta (total)3.83s
Llamada de herramientas
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.74sTiempo de respuesta (máximo)6.74sTiempo de respuesta (total)6.74s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.03sTiempo de respuesta (máximo)4.03sTiempo de respuesta (total)4.03s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.95sTiempo de respuesta (máximo)29.38sTiempo de respuesta (total)58.96s…
Trucos anti-IA
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.38sTiempo de respuesta (máximo)2.69sTiempo de respuesta (total)5.51s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.77sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)5.54s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.38sTiempo de respuesta (máximo)29.38sTiempo de respuesta (total)29.38s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.57sTiempo de respuesta (total)2.86s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)868msTiempo de respuesta (máximo)1.02sTiempo de respuesta (total)2.60s
Inteligencia general
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)1.33s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)929msTiempo de respuesta (máximo)1.05sTiempo de respuesta (total)1.86s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.71sTiempo de respuesta (máximo)2.65sTiempo de respuesta (total)5.13s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.21sTiempo de respuesta (máximo)1.21sTiempo de respuesta (total)1.21s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 14Tiempo de respuesta (promedio)14.06sTiempo de respuesta (máximo)42.13sTiempo de respuesta (total)182.72s…
Trucos anti-IA
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)6.24sTiempo de respuesta (máximo)11.38sTiempo de respuesta (total)12.48s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)35.97sTiempo de respuesta (máximo)38.78sTiempo de respuesta (total)71.93s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)19.16sTiempo de respuesta (máximo)19.16sTiempo de respuesta (total)19.16s
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)42.13sTiempo de respuesta (máximo)42.13sTiempo de respuesta (total)42.13s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)4.38sTiempo de respuesta (máximo)4.38sTiempo de respuesta (total)4.38s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.00sTiempo de respuesta (máximo)4.00sTiempo de respuesta (total)4.00s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.67sTiempo de respuesta (máximo)2.67sTiempo de respuesta (total)2.67s
Resolución de acertijos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)4.04sTiempo de respuesta (máximo)7.81sTiempo de respuesta (total)8.08s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.99sTiempo de respuesta (máximo)13.99sTiempo de respuesta (total)13.99s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.90sTiempo de respuesta (máximo)3.90sTiempo de respuesta (total)3.90s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8Tiempo de respuesta (promedio)1.92sTiempo de respuesta (máximo)5.66sTiempo de respuesta (total)38.45s…
Trucos anti-IA
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.84sTiempo de respuesta (máximo)3.08sTiempo de respuesta (total)7.37s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.71sTiempo de respuesta (máximo)1.97sTiempo de respuesta (total)3.42s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.48sTiempo de respuesta (máximo)4.48sTiempo de respuesta (total)4.48s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.44sTiempo de respuesta (máximo)1.51sTiempo de respuesta (total)2.89s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.63sTiempo de respuesta (total)4.57s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.37sTiempo de respuesta (máximo)1.37sTiempo de respuesta (total)1.37s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.68sTiempo de respuesta (total)3.04s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.40sTiempo de respuesta (máximo)1.41sTiempo de respuesta (total)4.20s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.66sTiempo de respuesta (máximo)5.66sTiempo de respuesta (total)5.66s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.46sTiempo de respuesta (máximo)1.46sTiempo de respuesta (total)1.46s
Trucos anti-IA
: 9.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)43.33sTiempo de respuesta (máximo)71.76sTiempo de respuesta (total)173.31s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)143.82sTiempo de respuesta (máximo)143.82sTiempo de respuesta (total)143.82s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)73.40sTiempo de respuesta (máximo)90.09sTiempo de respuesta (total)220.20s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.63sTiempo de respuesta (máximo)15.63sTiempo de respuesta (total)15.63s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.36sTiempo de respuesta (máximo)40.24sTiempo de respuesta (total)54.72s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)31.47sTiempo de respuesta (máximo)46.84sTiempo de respuesta (total)94.41s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)133.60sTiempo de respuesta (máximo)133.60sTiempo de respuesta (total)133.60s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)3.95sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)51.38s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.37sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)4.75s
Programación
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)5.18sTiempo de respuesta (máximo)8.84sTiempo de respuesta (total)10.37s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.98sTiempo de respuesta (máximo)4.98sTiempo de respuesta (total)4.98s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.78sTiempo de respuesta (máximo)5.78sTiempo de respuesta (total)5.78s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.24sTiempo de respuesta (máximo)2.24sTiempo de respuesta (total)2.24s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.27sTiempo de respuesta (máximo)3.27sTiempo de respuesta (total)3.27s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.48sTiempo de respuesta (máximo)1.48sTiempo de respuesta (total)1.48s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)3.82s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.07sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)11.07s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.62sTiempo de respuesta (máximo)3.62sTiempo de respuesta (total)3.62s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.85sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)57.08s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.12sTiempo de respuesta (máximo)3.18sTiempo de respuesta (total)8.50s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.56sTiempo de respuesta (máximo)2.20sTiempo de respuesta (total)3.13s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.00sTiempo de respuesta (máximo)3.74sTiempo de respuesta (total)5.99s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.36sTiempo de respuesta (máximo)3.51sTiempo de respuesta (total)7.07s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.54sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)1.54s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.49sTiempo de respuesta (máximo)1.66sTiempo de respuesta (total)2.99s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)5.08s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.54sTiempo de respuesta (máximo)9.54sTiempo de respuesta (total)9.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.35sTiempo de respuesta (máximo)1.35sTiempo de respuesta (total)1.35s
Trucos anti-IA
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)4.76s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.87sTiempo de respuesta (máximo)2.87sTiempo de respuesta (total)2.87s
Análisis y extracción de datos
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Formato extra: 1Tiempo de respuesta (promedio)19.68sTiempo de respuesta (máximo)19.68sTiempo de respuesta (total)19.68s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)564msTiempo de respuesta (máximo)564msTiempo de respuesta (total)564ms
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)857msTiempo de respuesta (máximo)955msTiempo de respuesta (total)1.71s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.86sTiempo de respuesta (máximo)2.70sTiempo de respuesta (total)3.71s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.28sTiempo de respuesta (máximo)2.28sTiempo de respuesta (total)2.28s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.82sTiempo de respuesta (total)1.82s
Programación
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)8.27sTiempo de respuesta (máximo)14.69sTiempo de respuesta (total)16.54s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)25.49sTiempo de respuesta (máximo)25.49sTiempo de respuesta (total)25.49s
Análisis y extracción de datos
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)30.54sTiempo de respuesta (máximo)58.65sTiempo de respuesta (total)61.08s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.17sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)9.52s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.75sTiempo de respuesta (máximo)3.75sTiempo de respuesta (total)3.75s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.23sTiempo de respuesta (máximo)13.43sTiempo de respuesta (total)16.45s
Resolución de acertijos
: 7.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)15.95sTiempo de respuesta (máximo)27.12sTiempo de respuesta (total)47.86s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.92sTiempo de respuesta (máximo)5.92sTiempo de respuesta (total)5.92s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.59sTiempo de respuesta (máximo)15.59sTiempo de respuesta (total)15.59s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7Tiempo de respuesta (promedio)1.70sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)22.05s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.25sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)2.49s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.19sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)4.38s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.56sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)3.56s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)1.41sTiempo de respuesta (total)1.41s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)963msTiempo de respuesta (máximo)963msTiempo de respuesta (total)963ms
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)1.13s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.58sTiempo de respuesta (máximo)1.58sTiempo de respuesta (total)1.58s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.05sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.11s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.35sTiempo de respuesta (máximo)3.35sTiempo de respuesta (total)3.35s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Programación
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)3.79sTiempo de respuesta (total)5.50s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.96sTiempo de respuesta (máximo)5.96sTiempo de respuesta (total)5.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.76sTiempo de respuesta (máximo)2.60sTiempo de respuesta (total)3.51s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.10sTiempo de respuesta (máximo)3.58sTiempo de respuesta (total)6.30s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.33sTiempo de respuesta (máximo)2.33sTiempo de respuesta (total)2.33s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.26sTiempo de respuesta (máximo)6.81sTiempo de respuesta (total)8.51s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.55sTiempo de respuesta (total)3.48s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.40sTiempo de respuesta (máximo)5.40sTiempo de respuesta (total)5.40s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.30sTiempo de respuesta (total)1.30s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.99sTiempo de respuesta (máximo)109.60sTiempo de respuesta (total)139.95s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.54sTiempo de respuesta (máximo)34.54sTiempo de respuesta (total)34.54s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)14.37sTiempo de respuesta (máximo)14.37sTiempo de respuesta (total)14.37s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.30sTiempo de respuesta (máximo)9.30sTiempo de respuesta (total)9.30s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)114.12sTiempo de respuesta (máximo)114.12sTiempo de respuesta (total)114.12s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.38sTiempo de respuesta (máximo)46.00sTiempo de respuesta (total)67.55s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.59sTiempo de respuesta (máximo)3.60sTiempo de respuesta (total)6.38s
Programación
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.14sTiempo de respuesta (máximo)3.44sTiempo de respuesta (total)4.29s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)46.00sTiempo de respuesta (máximo)46.00sTiempo de respuesta (total)46.00s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.01sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.02s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)465msTiempo de respuesta (máximo)492msTiempo de respuesta (total)1.39s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.12sTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)1.12s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)513msTiempo de respuesta (máximo)570msTiempo de respuesta (total)1.03s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.04sTiempo de respuesta (máximo)2.04sTiempo de respuesta (total)2.04s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)295msTiempo de respuesta (máximo)295msTiempo de respuesta (total)295ms
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)7.85sTiempo de respuesta (máximo)22.30sTiempo de respuesta (total)31.40s
Programación
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)62.38sTiempo de respuesta (máximo)62.38sTiempo de respuesta (total)62.38s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)87.80sTiempo de respuesta (máximo)87.80sTiempo de respuesta (total)87.80s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.16sTiempo de respuesta (máximo)20.65sTiempo de respuesta (total)36.33s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)16.19sTiempo de respuesta (máximo)21.56sTiempo de respuesta (total)32.39s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)6.91sTiempo de respuesta (total)6.91s
Seguimiento de instrucciones
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.97sTiempo de respuesta (máximo)11.23sTiempo de respuesta (total)13.95s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)39.75sTiempo de respuesta (máximo)39.75sTiempo de respuesta (total)39.75s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)55.32sTiempo de respuesta (máximo)55.32sTiempo de respuesta (total)55.32s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12Tiempo de respuesta (promedio)2.48sTiempo de respuesta (máximo)6.70sTiempo de respuesta (total)49.67s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)6.70sTiempo de respuesta (total)9.73s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.95sTiempo de respuesta (máximo)4.61sTiempo de respuesta (total)5.89s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.59sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)6.59s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.97sTiempo de respuesta (total)3.63s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)1.53sTiempo de respuesta (total)4.00s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.45sTiempo de respuesta (máximo)3.45sTiempo de respuesta (total)3.45s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.09sTiempo de respuesta (total)2.12s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.78sTiempo de respuesta (máximo)5.20sTiempo de respuesta (total)8.34s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.94sTiempo de respuesta (máximo)3.94sTiempo de respuesta (total)3.94s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.59sTiempo de respuesta (máximo)10.20sTiempo de respuesta (total)26.37s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)31.37sTiempo de respuesta (máximo)31.37sTiempo de respuesta (total)31.37s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.04sTiempo de respuesta (máximo)46.04sTiempo de respuesta (total)46.04s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)5.25sTiempo de respuesta (máximo)5.25sTiempo de respuesta (total)5.25s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)22.30sTiempo de respuesta (máximo)30.51sTiempo de respuesta (total)66.90s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.84sTiempo de respuesta (máximo)16.84sTiempo de respuesta (total)16.84s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.16sTiempo de respuesta (máximo)7.72sTiempo de respuesta (total)12.31s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)11.06sTiempo de respuesta (máximo)14.35sTiempo de respuesta (total)33.17s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.02sTiempo de respuesta (máximo)15.02sTiempo de respuesta (total)15.02s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.86sTiempo de respuesta (máximo)39.86sTiempo de respuesta (total)39.86s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.23sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)24.68s…
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)2.13s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.20sTiempo de respuesta (máximo)3.20sTiempo de respuesta (total)3.20s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)2.44s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)942msTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)2.83s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)741msTiempo de respuesta (máximo)741msTiempo de respuesta (total)741ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)2.27s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)900msTiempo de respuesta (máximo)962msTiempo de respuesta (total)2.70s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.39sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)3.39s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)814msTiempo de respuesta (máximo)814msTiempo de respuesta (total)814ms
Combinado
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)115.89sTiempo de respuesta (máximo)115.89sTiempo de respuesta (total)115.89s
Análisis y extracción de datos
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.42sTiempo de respuesta (máximo)16.20sTiempo de respuesta (total)18.84s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Error de API: 1Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)9.09sTiempo de respuesta (total)12.51s
Inteligencia general
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)9.32sTiempo de respuesta (máximo)9.32sTiempo de respuesta (total)9.32s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.99sTiempo de respuesta (total)3.04s
Resolución de acertijos
: 7.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)10.09sTiempo de respuesta (total)20.74s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.85sTiempo de respuesta (máximo)11.85sTiempo de respuesta (total)11.85s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.23sTiempo de respuesta (máximo)17.23sTiempo de respuesta (total)17.23s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 4Tiempo de respuesta (promedio)1.84sTiempo de respuesta (máximo)8.32sTiempo de respuesta (total)36.79s…
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)1.42sTiempo de respuesta (total)2.64s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)877msTiempo de respuesta (máximo)904msTiempo de respuesta (total)2.63s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.58sTiempo de respuesta (máximo)2.58sTiempo de respuesta (total)2.58s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.10sTiempo de respuesta (total)2.06s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.30sTiempo de respuesta (máximo)3.30sTiempo de respuesta (total)3.30s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)2.40sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)33.56s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)2.74sTiempo de respuesta (total)3.82s
Programación
: 4.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.54sTiempo de respuesta (máximo)3.63sTiempo de respuesta (total)5.09s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.65sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)6.65s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.44sTiempo de respuesta (total)2.33s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.26sTiempo de respuesta (máximo)2.26sTiempo de respuesta (total)2.26s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.71sTiempo de respuesta (máximo)3.29sTiempo de respuesta (total)5.41s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.11sTiempo de respuesta (total)1.11s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 6Respuesta incorrecta: 4Tiempo de respuesta (promedio)24.56sTiempo de respuesta (máximo)78.74sTiempo de respuesta (total)368.35s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)9.32sTiempo de respuesta (máximo)12.36sTiempo de respuesta (total)27.96s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)27.94sTiempo de respuesta (máximo)27.94sTiempo de respuesta (total)27.94s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)78.74sTiempo de respuesta (máximo)78.74sTiempo de respuesta (total)78.74s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)5.85sTiempo de respuesta (máximo)5.85sTiempo de respuesta (total)5.85s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)40.44sTiempo de respuesta (máximo)46.32sTiempo de respuesta (total)121.31s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.98sTiempo de respuesta (máximo)22.24sTiempo de respuesta (total)31.97s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.51sTiempo de respuesta (máximo)7.86sTiempo de respuesta (total)15.02s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)17.84sTiempo de respuesta (máximo)17.84sTiempo de respuesta (total)17.84s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)41.74sTiempo de respuesta (máximo)41.74sTiempo de respuesta (total)41.74s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)889msTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)17.79s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)582msTiempo de respuesta (máximo)844msTiempo de respuesta (total)2.33s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)810msTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)1.62s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)652msTiempo de respuesta (máximo)660msTiempo de respuesta (total)1.30s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)495msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.49s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)615msTiempo de respuesta (máximo)615msTiempo de respuesta (total)615ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)590msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.18s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)604msTiempo de respuesta (máximo)700msTiempo de respuesta (total)1.81s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)1.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.15sTiempo de respuesta (máximo)1.15sTiempo de respuesta (total)1.15s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)33.82s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)788msTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)3.15s
Programación
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)3.97s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.39sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)9.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.45sTiempo de respuesta (total)2.86s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)540msTiempo de respuesta (máximo)649msTiempo de respuesta (total)1.62s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)2.06s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)599msTiempo de respuesta (máximo)599msTiempo de respuesta (total)599ms