Programación
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)1.39s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)3.81sTiempo de respuesta (total)3.81s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.05sTiempo de respuesta (total)2.08s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)927msTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.78s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)854msTiempo de respuesta (máximo)854msTiempo de respuesta (total)854ms
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.07s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)2.79sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)2.79s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.21sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)25.45s…
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)967msTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)2.90s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.20sTiempo de respuesta (máximo)3.20sTiempo de respuesta (total)3.20s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)2.44s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)942msTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)2.83s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)741msTiempo de respuesta (máximo)741msTiempo de respuesta (total)741ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)2.27s
Resolución de acertijos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)900msTiempo de respuesta (máximo)962msTiempo de respuesta (total)2.70s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.39sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)3.39s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)814msTiempo de respuesta (máximo)814msTiempo de respuesta (total)814ms
Trucos anti-IA
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)597msTiempo de respuesta (máximo)866msTiempo de respuesta (total)2.39s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.14sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)1.14s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)6.48sTiempo de respuesta (máximo)6.48sTiempo de respuesta (total)6.48s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)601msTiempo de respuesta (máximo)634msTiempo de respuesta (total)1.20s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)611msTiempo de respuesta (máximo)616msTiempo de respuesta (total)1.83s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)541msTiempo de respuesta (máximo)541msTiempo de respuesta (total)541ms
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)649msTiempo de respuesta (máximo)952msTiempo de respuesta (total)1.30s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)586msTiempo de respuesta (máximo)813msTiempo de respuesta (total)1.76s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.79sTiempo de respuesta (máximo)4.79sTiempo de respuesta (total)4.79s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)2.52sTiempo de respuesta (total)23.82s…
Trucos anti-IA
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)929msTiempo de respuesta (máximo)1.55sTiempo de respuesta (total)3.72s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)913msTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)2.74s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.52sTiempo de respuesta (máximo)2.52sTiempo de respuesta (total)2.52s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.58sTiempo de respuesta (total)2.61s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)937msTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)2.81s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.82sTiempo de respuesta (total)1.82s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)728msTiempo de respuesta (máximo)731msTiempo de respuesta (total)1.46s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.32sTiempo de respuesta (máximo)2.32sTiempo de respuesta (total)2.32s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)1.33s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)501msTiempo de respuesta (máximo)839msTiempo de respuesta (total)2.01s
Programación
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.22sTiempo de respuesta (total)1.22s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)6.04sTiempo de respuesta (máximo)6.04sTiempo de respuesta (total)6.04s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)522msTiempo de respuesta (máximo)537msTiempo de respuesta (total)1.04s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Formato extra: 1Tiempo de respuesta (promedio)687msTiempo de respuesta (máximo)821msTiempo de respuesta (total)2.06s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)659msTiempo de respuesta (máximo)659msTiempo de respuesta (total)659ms
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)445msTiempo de respuesta (máximo)505msTiempo de respuesta (total)889ms
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)473msTiempo de respuesta (máximo)502msTiempo de respuesta (total)1.42s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.63sTiempo de respuesta (máximo)4.63sTiempo de respuesta (total)4.63s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)22.35s…
Trucos anti-IA
: 7.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)4.27s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)938msTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)2.81s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.73sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)2.73s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)843msTiempo de respuesta (máximo)907msTiempo de respuesta (total)1.69s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)762msTiempo de respuesta (máximo)814msTiempo de respuesta (total)2.29s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)992msTiempo de respuesta (máximo)992msTiempo de respuesta (total)992ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)859msTiempo de respuesta (máximo)975msTiempo de respuesta (total)1.72s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.97sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)2.97s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)733msTiempo de respuesta (máximo)733msTiempo de respuesta (total)733ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 12Tiempo de respuesta (promedio)875msTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)18.37s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)582msTiempo de respuesta (máximo)844msTiempo de respuesta (total)2.33s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)736msTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)2.21s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)652msTiempo de respuesta (máximo)660msTiempo de respuesta (total)1.30s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)495msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.49s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)615msTiempo de respuesta (máximo)615msTiempo de respuesta (total)615ms
Seguimiento de instrucciones
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)590msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.18s
Resolución de acertijos
: 7.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)604msTiempo de respuesta (máximo)700msTiempo de respuesta (total)1.81s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)1.91s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.15sTiempo de respuesta (máximo)1.15sTiempo de respuesta (total)1.15s
Programación
: 2.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.01sTiempo de respuesta (máximo)2.01sTiempo de respuesta (total)2.01s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)646msTiempo de respuesta (máximo)658msTiempo de respuesta (total)1.29s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)371msTiempo de respuesta (máximo)419msTiempo de respuesta (total)1.11s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)439msTiempo de respuesta (máximo)448msTiempo de respuesta (total)878ms
Resolución de acertijos
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)650msTiempo de respuesta (máximo)843msTiempo de respuesta (total)1.30s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)1.93sTiempo de respuesta (máximo)1.93sTiempo de respuesta (total)1.93s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Trucos anti-IA
: 3.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)471msTiempo de respuesta (máximo)872msTiempo de respuesta (total)1.41s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)714msTiempo de respuesta (máximo)987msTiempo de respuesta (total)1.43s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)287msTiempo de respuesta (máximo)334msTiempo de respuesta (total)860ms
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)395msTiempo de respuesta (máximo)395msTiempo de respuesta (total)395ms
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)752msTiempo de respuesta (máximo)1.22sTiempo de respuesta (total)1.50s
Resolución de acertijos
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Error de API: 1Tiempo de respuesta (promedio)1.78sTiempo de respuesta (máximo)3.15sTiempo de respuesta (total)5.34s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Error de API: 1Tiempo de respuesta (promedio)584msTiempo de respuesta (máximo)772msTiempo de respuesta (total)1.75s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.42sTiempo de respuesta (máximo)2.21sTiempo de respuesta (total)2.84s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)489msTiempo de respuesta (máximo)513msTiempo de respuesta (total)1.47s
Inteligencia general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)1.88sTiempo de respuesta (máximo)1.88sTiempo de respuesta (total)1.88s
Análisis y extracción de datos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)575msTiempo de respuesta (máximo)583msTiempo de respuesta (total)1.15s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)357msTiempo de respuesta (máximo)463msTiempo de respuesta (total)1.07s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)499msTiempo de respuesta (máximo)499msTiempo de respuesta (total)499ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.17sTiempo de respuesta (máximo)2.17sTiempo de respuesta (total)2.17s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)306msTiempo de respuesta (máximo)306msTiempo de respuesta (total)306ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 16No siguió las instrucciones: 1Tiempo de respuesta (promedio)653msTiempo de respuesta (máximo)1.43sTiempo de respuesta (total)13.72s…
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)483msTiempo de respuesta (máximo)716msTiempo de respuesta (total)1.93s
Programación
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.43sTiempo de respuesta (total)3.10s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)606msTiempo de respuesta (máximo)606msTiempo de respuesta (total)606ms
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)667msTiempo de respuesta (máximo)819msTiempo de respuesta (total)1.33s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)534msTiempo de respuesta (máximo)733msTiempo de respuesta (total)1.60s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)628msTiempo de respuesta (máximo)628msTiempo de respuesta (total)628ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)551msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.10s
Resolución de acertijos
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)535msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.60s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)548msTiempo de respuesta (máximo)548msTiempo de respuesta (total)548ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 15No siguió las instrucciones: 1Tiempo de respuesta (promedio)630msTiempo de respuesta (máximo)1.72sTiempo de respuesta (total)13.22s…
Trucos anti-IA
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)395msTiempo de respuesta (máximo)769msTiempo de respuesta (total)1.58s
Programación
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)901msTiempo de respuesta (máximo)1.28sTiempo de respuesta (total)2.70s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.72sTiempo de respuesta (máximo)1.72sTiempo de respuesta (total)1.72s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)822msTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)1.64s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)367msTiempo de respuesta (máximo)388msTiempo de respuesta (total)1.10s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)729msTiempo de respuesta (máximo)729msTiempo de respuesta (total)729ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)380msTiempo de respuesta (máximo)380msTiempo de respuesta (total)759ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.40sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)1.40s
Cultura general
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)397msTiempo de respuesta (máximo)397msTiempo de respuesta (total)397ms