Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.62sTiempo de respuesta (máximo)5.51sTiempo de respuesta (total)19.48s…
Programación
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.79sTiempo de respuesta (máximo)1.79sTiempo de respuesta (total)1.79s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)943msTiempo de respuesta (máximo)943msTiempo de respuesta (total)943ms
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)1.06s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.08sTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)1.08s
Resolución de acertijos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.10sTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)2.21s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.51sTiempo de respuesta (máximo)5.51sTiempo de respuesta (total)5.51s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)731msTiempo de respuesta (máximo)731msTiempo de respuesta (total)731ms
Trucos anti-IA
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.07sTiempo de respuesta (máximo)4.40sTiempo de respuesta (total)8.30s
Programación
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)14.34sTiempo de respuesta (máximo)14.34sTiempo de respuesta (total)14.34s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.91sTiempo de respuesta (máximo)8.91sTiempo de respuesta (total)8.91s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.26sTiempo de respuesta (máximo)4.66sTiempo de respuesta (total)6.52s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)877msTiempo de respuesta (máximo)894msTiempo de respuesta (total)2.63s
Inteligencia general
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)873msTiempo de respuesta (máximo)873msTiempo de respuesta (total)873ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.67sTiempo de respuesta (máximo)6.67sTiempo de respuesta (total)6.67s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)777msTiempo de respuesta (máximo)777msTiempo de respuesta (total)777ms
Programación
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.01sTiempo de respuesta (máximo)3.14sTiempo de respuesta (total)4.03s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)45.14sTiempo de respuesta (máximo)45.14sTiempo de respuesta (total)45.14s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)1.32sTiempo de respuesta (total)1.32s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)962msTiempo de respuesta (máximo)962msTiempo de respuesta (total)962ms
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.34sTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)1.34s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.78sTiempo de respuesta (máximo)14.65sTiempo de respuesta (total)15.56s
Resolución de acertijos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)24.34sTiempo de respuesta (máximo)42.58sTiempo de respuesta (total)48.69s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.47sTiempo de respuesta (máximo)2.47sTiempo de respuesta (total)2.47s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)601msTiempo de respuesta (máximo)601msTiempo de respuesta (total)601ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 15No siguió las instrucciones: 1Tiempo de respuesta (promedio)614msTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)12.28s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)483msTiempo de respuesta (máximo)716msTiempo de respuesta (total)1.93s
Programación
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)831msTiempo de respuesta (máximo)969msTiempo de respuesta (total)1.66s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)606msTiempo de respuesta (máximo)606msTiempo de respuesta (total)606ms
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)667msTiempo de respuesta (máximo)819msTiempo de respuesta (total)1.33s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)534msTiempo de respuesta (máximo)733msTiempo de respuesta (total)1.60s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)628msTiempo de respuesta (máximo)628msTiempo de respuesta (total)628ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)551msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.10s
Resolución de acertijos
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)535msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.60s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)548msTiempo de respuesta (máximo)548msTiempo de respuesta (total)548ms
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.57sTiempo de respuesta (máximo)9.57sTiempo de respuesta (total)9.57s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)7.12sTiempo de respuesta (máximo)7.12sTiempo de respuesta (total)7.12s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)34.98sTiempo de respuesta (máximo)68.97sTiempo de respuesta (total)104.94s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.79sTiempo de respuesta (máximo)10.79sTiempo de respuesta (total)10.79s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.06sTiempo de respuesta (máximo)5.85sTiempo de respuesta (total)10.12s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)47.29sTiempo de respuesta (máximo)47.29sTiempo de respuesta (total)47.29s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 14No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)3.84sTiempo de respuesta (total)26.54s…
Trucos anti-IA
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.18sTiempo de respuesta (máximo)1.81sTiempo de respuesta (total)4.70s
Programación
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.09sTiempo de respuesta (máximo)1.43sTiempo de respuesta (total)2.18s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.84sTiempo de respuesta (máximo)3.84sTiempo de respuesta (total)3.84s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)2.23s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)926msTiempo de respuesta (máximo)959msTiempo de respuesta (total)2.78s
Inteligencia general
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.31sTiempo de respuesta (máximo)1.31sTiempo de respuesta (total)1.31s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)784msTiempo de respuesta (máximo)859msTiempo de respuesta (total)1.57s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.40sTiempo de respuesta (máximo)3.40sTiempo de respuesta (total)3.40s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)773msTiempo de respuesta (máximo)773msTiempo de respuesta (total)773ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.50sTiempo de respuesta (máximo)47.43sTiempo de respuesta (total)70.00s…
Trucos anti-IA
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)5.71s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.72sTiempo de respuesta (máximo)2.67sTiempo de respuesta (total)3.43s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)47.43sTiempo de respuesta (máximo)47.43sTiempo de respuesta (total)47.43s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.42sTiempo de respuesta (total)2.33s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)485msTiempo de respuesta (máximo)549msTiempo de respuesta (total)1.45s
Inteligencia general
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)1.19s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)809msTiempo de respuesta (máximo)983msTiempo de respuesta (total)1.62s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.30sTiempo de respuesta (máximo)2.30sTiempo de respuesta (total)2.30s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)493msTiempo de respuesta (máximo)493msTiempo de respuesta (total)493ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 3Tiempo de respuesta (promedio)22.41sTiempo de respuesta (máximo)68.16sTiempo de respuesta (total)291.35s…
Programación
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)47.24sTiempo de respuesta (máximo)68.16sTiempo de respuesta (total)94.49s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.18sTiempo de respuesta (máximo)31.18sTiempo de respuesta (total)31.18s
Análisis y extracción de datos
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)1.98sTiempo de respuesta (total)1.98s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)50.92sTiempo de respuesta (máximo)50.92sTiempo de respuesta (total)50.92s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)7.90sTiempo de respuesta (máximo)7.90sTiempo de respuesta (total)7.90s
Seguimiento de instrucciones
: 9.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.63sTiempo de respuesta (máximo)7.63sTiempo de respuesta (total)7.63s
Llamada de herramientas
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)6.91sTiempo de respuesta (total)6.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)26.51sTiempo de respuesta (máximo)26.51sTiempo de respuesta (total)26.51s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.09sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)21.79s…
Trucos anti-IA
: 7.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)4.27s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)2.26s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.73sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)2.73s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)843msTiempo de respuesta (máximo)907msTiempo de respuesta (total)1.69s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)762msTiempo de respuesta (máximo)814msTiempo de respuesta (total)2.29s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)992msTiempo de respuesta (máximo)992msTiempo de respuesta (total)992ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)859msTiempo de respuesta (máximo)975msTiempo de respuesta (total)1.72s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.97sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)2.97s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)733msTiempo de respuesta (máximo)733msTiempo de respuesta (total)733ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.37sTiempo de respuesta (máximo)4.49sTiempo de respuesta (total)27.32s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.10sTiempo de respuesta (máximo)1.65sTiempo de respuesta (total)4.42s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)951msTiempo de respuesta (máximo)1.31sTiempo de respuesta (total)1.90s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.53sTiempo de respuesta (máximo)2.53sTiempo de respuesta (total)2.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.32sTiempo de respuesta (total)2.07s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.02sTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)3.06s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)791msTiempo de respuesta (máximo)791msTiempo de respuesta (total)791ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)932msTiempo de respuesta (máximo)1.00sTiempo de respuesta (total)1.86s
Resolución de acertijos
: 6.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo de respuesta (promedio)2.15sTiempo de respuesta (máximo)4.49sTiempo de respuesta (total)6.45s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.51sTiempo de respuesta (máximo)3.51sTiempo de respuesta (total)3.51s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)724msTiempo de respuesta (máximo)724msTiempo de respuesta (total)724ms
Trucos anti-IA
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.63sTiempo de respuesta (máximo)4.60sTiempo de respuesta (total)6.51s
Programación
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.34sTiempo de respuesta (máximo)2.46sTiempo de respuesta (total)4.68s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)4.22sTiempo de respuesta (máximo)4.22sTiempo de respuesta (total)4.22s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.13sTiempo de respuesta (máximo)3.35sTiempo de respuesta (total)4.26s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)3.32s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)947msTiempo de respuesta (máximo)947msTiempo de respuesta (total)947ms
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.10sTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)2.19s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.49sTiempo de respuesta (máximo)2.49sTiempo de respuesta (total)2.49s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)649msTiempo de respuesta (máximo)649msTiempo de respuesta (total)649ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)33.82s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)788msTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)3.15s
Programación
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)3.97s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.39sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)9.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.45sTiempo de respuesta (total)2.86s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)540msTiempo de respuesta (máximo)649msTiempo de respuesta (total)1.62s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)2.06s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)599msTiempo de respuesta (máximo)599msTiempo de respuesta (total)599ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)889msTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)17.79s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)582msTiempo de respuesta (máximo)844msTiempo de respuesta (total)2.33s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)810msTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)1.62s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)652msTiempo de respuesta (máximo)660msTiempo de respuesta (total)1.30s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)495msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.49s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)615msTiempo de respuesta (máximo)615msTiempo de respuesta (total)615ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)590msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.18s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)604msTiempo de respuesta (máximo)700msTiempo de respuesta (total)1.81s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)1.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.15sTiempo de respuesta (máximo)1.15sTiempo de respuesta (total)1.15s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 6Respuesta incorrecta: 4Tiempo de respuesta (promedio)24.56sTiempo de respuesta (máximo)78.74sTiempo de respuesta (total)368.35s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)9.32sTiempo de respuesta (máximo)12.36sTiempo de respuesta (total)27.96s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)27.94sTiempo de respuesta (máximo)27.94sTiempo de respuesta (total)27.94s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)78.74sTiempo de respuesta (máximo)78.74sTiempo de respuesta (total)78.74s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)5.85sTiempo de respuesta (máximo)5.85sTiempo de respuesta (total)5.85s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)40.44sTiempo de respuesta (máximo)46.32sTiempo de respuesta (total)121.31s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.98sTiempo de respuesta (máximo)22.24sTiempo de respuesta (total)31.97s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.51sTiempo de respuesta (máximo)7.86sTiempo de respuesta (total)15.02s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)17.84sTiempo de respuesta (máximo)17.84sTiempo de respuesta (total)17.84s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)41.74sTiempo de respuesta (máximo)41.74sTiempo de respuesta (total)41.74s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)2.40sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)33.56s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)2.74sTiempo de respuesta (total)3.82s
Programación
: 4.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.54sTiempo de respuesta (máximo)3.63sTiempo de respuesta (total)5.09s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.65sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)6.65s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.44sTiempo de respuesta (total)2.33s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.26sTiempo de respuesta (máximo)2.26sTiempo de respuesta (total)2.26s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.71sTiempo de respuesta (máximo)3.29sTiempo de respuesta (total)5.41s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.11sTiempo de respuesta (total)1.11s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 4Tiempo de respuesta (promedio)1.84sTiempo de respuesta (máximo)8.32sTiempo de respuesta (total)36.79s…
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)1.42sTiempo de respuesta (total)2.64s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)877msTiempo de respuesta (máximo)904msTiempo de respuesta (total)2.63s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.58sTiempo de respuesta (máximo)2.58sTiempo de respuesta (total)2.58s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.10sTiempo de respuesta (total)2.06s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.30sTiempo de respuesta (máximo)3.30sTiempo de respuesta (total)3.30s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Combinado
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)115.89sTiempo de respuesta (máximo)115.89sTiempo de respuesta (total)115.89s
Análisis y extracción de datos
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.42sTiempo de respuesta (máximo)16.20sTiempo de respuesta (total)18.84s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Error de API: 1Tiempo de respuesta (promedio)4.17sTiempo de respuesta (máximo)9.09sTiempo de respuesta (total)12.51s
Inteligencia general
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)9.32sTiempo de respuesta (máximo)9.32sTiempo de respuesta (total)9.32s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.99sTiempo de respuesta (total)3.04s
Resolución de acertijos
: 7.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)10.09sTiempo de respuesta (total)20.74s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.85sTiempo de respuesta (máximo)11.85sTiempo de respuesta (total)11.85s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.23sTiempo de respuesta (máximo)17.23sTiempo de respuesta (total)17.23s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.23sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)24.68s…
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)2.13s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.20sTiempo de respuesta (máximo)3.20sTiempo de respuesta (total)3.20s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)2.44s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)942msTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)2.83s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)741msTiempo de respuesta (máximo)741msTiempo de respuesta (total)741ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)2.27s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)900msTiempo de respuesta (máximo)962msTiempo de respuesta (total)2.70s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.39sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)3.39s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)814msTiempo de respuesta (máximo)814msTiempo de respuesta (total)814ms
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.59sTiempo de respuesta (máximo)10.20sTiempo de respuesta (total)26.37s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)31.37sTiempo de respuesta (máximo)31.37sTiempo de respuesta (total)31.37s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.04sTiempo de respuesta (máximo)46.04sTiempo de respuesta (total)46.04s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)5.25sTiempo de respuesta (máximo)5.25sTiempo de respuesta (total)5.25s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)22.30sTiempo de respuesta (máximo)30.51sTiempo de respuesta (total)66.90s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.84sTiempo de respuesta (máximo)16.84sTiempo de respuesta (total)16.84s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.16sTiempo de respuesta (máximo)7.72sTiempo de respuesta (total)12.31s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)11.06sTiempo de respuesta (máximo)14.35sTiempo de respuesta (total)33.17s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.02sTiempo de respuesta (máximo)15.02sTiempo de respuesta (total)15.02s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.86sTiempo de respuesta (máximo)39.86sTiempo de respuesta (total)39.86s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12Tiempo de respuesta (promedio)2.48sTiempo de respuesta (máximo)6.70sTiempo de respuesta (total)49.67s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)6.70sTiempo de respuesta (total)9.73s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.95sTiempo de respuesta (máximo)4.61sTiempo de respuesta (total)5.89s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.59sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)6.59s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.97sTiempo de respuesta (total)3.63s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)1.53sTiempo de respuesta (total)4.00s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.45sTiempo de respuesta (máximo)3.45sTiempo de respuesta (total)3.45s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.09sTiempo de respuesta (total)2.12s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.78sTiempo de respuesta (máximo)5.20sTiempo de respuesta (total)8.34s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.94sTiempo de respuesta (máximo)3.94sTiempo de respuesta (total)3.94s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)7.85sTiempo de respuesta (máximo)22.30sTiempo de respuesta (total)31.40s
Programación
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Tiempo de respuesta (promedio)62.38sTiempo de respuesta (máximo)62.38sTiempo de respuesta (total)62.38s
Combinado
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)87.80sTiempo de respuesta (máximo)87.80sTiempo de respuesta (total)87.80s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.16sTiempo de respuesta (máximo)20.65sTiempo de respuesta (total)36.33s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)16.19sTiempo de respuesta (máximo)21.56sTiempo de respuesta (total)32.39s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)6.91sTiempo de respuesta (total)6.91s
Seguimiento de instrucciones
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.97sTiempo de respuesta (máximo)11.23sTiempo de respuesta (total)13.95s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)39.75sTiempo de respuesta (máximo)39.75sTiempo de respuesta (total)39.75s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)55.32sTiempo de respuesta (máximo)55.32sTiempo de respuesta (total)55.32s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.38sTiempo de respuesta (máximo)46.00sTiempo de respuesta (total)67.55s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.59sTiempo de respuesta (máximo)3.60sTiempo de respuesta (total)6.38s
Programación
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.14sTiempo de respuesta (máximo)3.44sTiempo de respuesta (total)4.29s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)46.00sTiempo de respuesta (máximo)46.00sTiempo de respuesta (total)46.00s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.01sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.02s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)465msTiempo de respuesta (máximo)492msTiempo de respuesta (total)1.39s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.12sTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)1.12s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)513msTiempo de respuesta (máximo)570msTiempo de respuesta (total)1.03s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.04sTiempo de respuesta (máximo)2.04sTiempo de respuesta (total)2.04s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)295msTiempo de respuesta (máximo)295msTiempo de respuesta (total)295ms
Trucos anti-IA
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.99sTiempo de respuesta (máximo)109.60sTiempo de respuesta (total)139.95s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.54sTiempo de respuesta (máximo)34.54sTiempo de respuesta (total)34.54s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)14.37sTiempo de respuesta (máximo)14.37sTiempo de respuesta (total)14.37s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.30sTiempo de respuesta (máximo)9.30sTiempo de respuesta (total)9.30s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)114.12sTiempo de respuesta (máximo)114.12sTiempo de respuesta (total)114.12s
Programación
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)3.79sTiempo de respuesta (total)5.50s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.96sTiempo de respuesta (máximo)5.96sTiempo de respuesta (total)5.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.76sTiempo de respuesta (máximo)2.60sTiempo de respuesta (total)3.51s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.10sTiempo de respuesta (máximo)3.58sTiempo de respuesta (total)6.30s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.33sTiempo de respuesta (máximo)2.33sTiempo de respuesta (total)2.33s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.26sTiempo de respuesta (máximo)6.81sTiempo de respuesta (total)8.51s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.55sTiempo de respuesta (total)3.48s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.40sTiempo de respuesta (máximo)5.40sTiempo de respuesta (total)5.40s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.30sTiempo de respuesta (total)1.30s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7Tiempo de respuesta (promedio)1.70sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)22.05s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.25sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)2.49s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.19sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)4.38s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.56sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)3.56s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)1.41sTiempo de respuesta (total)1.41s
Específico del dominio
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)963msTiempo de respuesta (máximo)963msTiempo de respuesta (total)963ms
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)1.13s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.58sTiempo de respuesta (máximo)1.58sTiempo de respuesta (total)1.58s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.05sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.11s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.35sTiempo de respuesta (máximo)3.35sTiempo de respuesta (total)3.35s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Programación
: 5.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)8.27sTiempo de respuesta (máximo)14.69sTiempo de respuesta (total)16.54s
Combinado
: 9.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)25.49sTiempo de respuesta (máximo)25.49sTiempo de respuesta (total)25.49s
Análisis y extracción de datos
: 6.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)30.54sTiempo de respuesta (máximo)58.65sTiempo de respuesta (total)61.08s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.17sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)9.52s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.75sTiempo de respuesta (máximo)3.75sTiempo de respuesta (total)3.75s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.23sTiempo de respuesta (máximo)13.43sTiempo de respuesta (total)16.45s
Resolución de acertijos
: 7.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)15.95sTiempo de respuesta (máximo)27.12sTiempo de respuesta (total)47.86s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.92sTiempo de respuesta (máximo)5.92sTiempo de respuesta (total)5.92s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.59sTiempo de respuesta (máximo)15.59sTiempo de respuesta (total)15.59s
Trucos anti-IA
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)4.76s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.87sTiempo de respuesta (máximo)2.87sTiempo de respuesta (total)2.87s
Análisis y extracción de datos
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Formato extra: 1Tiempo de respuesta (promedio)19.68sTiempo de respuesta (máximo)19.68sTiempo de respuesta (total)19.68s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)564msTiempo de respuesta (máximo)564msTiempo de respuesta (total)564ms
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)857msTiempo de respuesta (máximo)955msTiempo de respuesta (total)1.71s
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.86sTiempo de respuesta (máximo)2.70sTiempo de respuesta (total)3.71s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.28sTiempo de respuesta (máximo)2.28sTiempo de respuesta (total)2.28s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.82sTiempo de respuesta (total)1.82s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.85sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)57.08s…
Trucos anti-IA
: 8.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.12sTiempo de respuesta (máximo)3.18sTiempo de respuesta (total)8.50s
Programación
: 6.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.56sTiempo de respuesta (máximo)2.20sTiempo de respuesta (total)3.13s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.00sTiempo de respuesta (máximo)3.74sTiempo de respuesta (total)5.99s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.36sTiempo de respuesta (máximo)3.51sTiempo de respuesta (total)7.07s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.54sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)1.54s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.49sTiempo de respuesta (máximo)1.66sTiempo de respuesta (total)2.99s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)5.08s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.54sTiempo de respuesta (máximo)9.54sTiempo de respuesta (total)9.54s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.35sTiempo de respuesta (máximo)1.35sTiempo de respuesta (total)1.35s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)3.95sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)51.38s…
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.37sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)4.75s
Programación
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)5.18sTiempo de respuesta (máximo)8.84sTiempo de respuesta (total)10.37s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.98sTiempo de respuesta (máximo)4.98sTiempo de respuesta (total)4.98s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.78sTiempo de respuesta (máximo)5.78sTiempo de respuesta (total)5.78s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.24sTiempo de respuesta (máximo)2.24sTiempo de respuesta (total)2.24s
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.27sTiempo de respuesta (máximo)3.27sTiempo de respuesta (total)3.27s
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.48sTiempo de respuesta (máximo)1.48sTiempo de respuesta (total)1.48s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)3.82s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.07sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)11.07s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.62sTiempo de respuesta (máximo)3.62sTiempo de respuesta (total)3.62s
Trucos anti-IA
: 9.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)43.33sTiempo de respuesta (máximo)71.76sTiempo de respuesta (total)173.31s
Programación
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)143.82sTiempo de respuesta (máximo)143.82sTiempo de respuesta (total)143.82s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)73.40sTiempo de respuesta (máximo)90.09sTiempo de respuesta (total)220.20s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.63sTiempo de respuesta (máximo)15.63sTiempo de respuesta (total)15.63s
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.36sTiempo de respuesta (máximo)40.24sTiempo de respuesta (total)54.72s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)31.47sTiempo de respuesta (máximo)46.84sTiempo de respuesta (total)94.41s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)133.60sTiempo de respuesta (máximo)133.60sTiempo de respuesta (total)133.60s