Pruebas totales: 18Pruebas incorrectas: 13Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 33.3%Pruebas inestables: 2…Tokens de salida: 4,444Tokens de razonamiento: 0Tiempo de respuesta: promedio 29.39s · total 529.10s · máximo 111.96s
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)20.18sTiempo de respuesta (máximo)26.54sTiempo de respuesta (total)80.73s
Programación
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)24.04sTiempo de respuesta (máximo)24.04sTiempo de respuesta (total)24.04s
Combinado
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)111.96sTiempo de respuesta (máximo)111.96sTiempo de respuesta (total)111.96s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.79sTiempo de respuesta (máximo)23.85sTiempo de respuesta (total)47.57s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)19.73sTiempo de respuesta (máximo)27.66sTiempo de respuesta (total)59.18s
Inteligencia general
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)23.74sTiempo de respuesta (máximo)23.74sTiempo de respuesta (total)23.74s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)17.54sTiempo de respuesta (máximo)18.51sTiempo de respuesta (total)35.08s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)77.93sTiempo de respuesta (máximo)77.93sTiempo de respuesta (total)77.93s
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 29.6%Pruebas inestables: 2…Tokens de salida: 1,591Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.19s · total 21.37s · máximo 6.48s
Trucos anti-IA
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)597msTiempo de respuesta (máximo)866msTiempo de respuesta (total)2.39s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.14sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)1.14s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)6.48sTiempo de respuesta (máximo)6.48sTiempo de respuesta (total)6.48s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)601msTiempo de respuesta (máximo)634msTiempo de respuesta (total)1.20s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)611msTiempo de respuesta (máximo)616msTiempo de respuesta (total)1.83s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)541msTiempo de respuesta (máximo)541msTiempo de respuesta (total)541ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.79sTiempo de respuesta (máximo)4.79sTiempo de respuesta (total)4.79s
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 51.9%Pruebas inestables: 10…Tokens de salida: 4,984Tokens de razonamiento: 62,787Tiempo de respuesta: promedio 31.08s · total 528.37s · máximo 117.04s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)91.27sTiempo de respuesta (máximo)91.27sTiempo de respuesta (total)91.27s
Combinado
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)41.03sTiempo de respuesta (máximo)41.03sTiempo de respuesta (total)41.03s
Análisis y extracción de datos
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)21.95sTiempo de respuesta (máximo)24.88sTiempo de respuesta (total)43.89s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)19.00sTiempo de respuesta (máximo)21.63sTiempo de respuesta (total)38.01s
Inteligencia general
: 3.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)38.70sTiempo de respuesta (máximo)38.70sTiempo de respuesta (total)38.70s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)12.05sTiempo de respuesta (máximo)12.05sTiempo de respuesta (total)12.05s
Pruebas totales: 18Pruebas incorrectas: 13Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 29.6%Pruebas inestables: 1…Tokens de salida: 2,596Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.27s · total 22.82s · máximo 3.70s
Trucos anti-IA
: 6.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)2.04sTiempo de respuesta (total)4.75s
Programación
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.30sTiempo de respuesta (total)1.30s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.70sTiempo de respuesta (máximo)3.70sTiempo de respuesta (total)3.70s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)979msTiempo de respuesta (máximo)1.02sTiempo de respuesta (total)1.96s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)925msTiempo de respuesta (máximo)1.16sTiempo de respuesta (total)2.77s
Inteligencia general
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)920msTiempo de respuesta (máximo)920msTiempo de respuesta (total)920ms
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)987msTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)1.97s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)2.83sTiempo de respuesta (máximo)2.83sTiempo de respuesta (total)2.83s
Pruebas totales: 18Pruebas incorrectas: 13Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 29.6%Pruebas inestables: 1…Tokens de salida: 1,967Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.11s · total 20.02s · máximo 6.04s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)501msTiempo de respuesta (máximo)839msTiempo de respuesta (total)2.01s
Programación
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.22sTiempo de respuesta (total)1.22s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)6.04sTiempo de respuesta (máximo)6.04sTiempo de respuesta (total)6.04s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)522msTiempo de respuesta (máximo)537msTiempo de respuesta (total)1.04s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Formato extra: 1Tiempo de respuesta (promedio)687msTiempo de respuesta (máximo)821msTiempo de respuesta (total)2.06s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)659msTiempo de respuesta (máximo)659msTiempo de respuesta (total)659ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.63sTiempo de respuesta (máximo)4.63sTiempo de respuesta (total)4.63s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)665msTiempo de respuesta (máximo)1.72sTiempo de respuesta (total)11.97s…
Pruebas totales: 18Pruebas incorrectas: 13Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 31.5%Pruebas inestables: 1…Tokens de salida: 2,207Tokens de razonamiento: 0Tiempo de respuesta: promedio 665ms · total 11.97s · máximo 1.72s
Trucos anti-IA
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)395msTiempo de respuesta (máximo)769msTiempo de respuesta (total)1.58s
Programación
: 4.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.28sTiempo de respuesta (máximo)1.28sTiempo de respuesta (total)1.28s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.72sTiempo de respuesta (máximo)1.72sTiempo de respuesta (total)1.72s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)822msTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)1.64s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)367msTiempo de respuesta (máximo)388msTiempo de respuesta (total)1.10s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)729msTiempo de respuesta (máximo)729msTiempo de respuesta (total)729ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)380msTiempo de respuesta (máximo)380msTiempo de respuesta (total)759ms
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.40sTiempo de respuesta (máximo)1.40sTiempo de respuesta (total)1.40s
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 38.9%Pruebas inestables: 5…Tokens de salida: 44,652Tokens de razonamiento: 0Tiempo de respuesta: promedio 11.96s · total 179.34s · máximo 68.97s
Programación
: 4.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.57sTiempo de respuesta (máximo)9.57sTiempo de respuesta (total)9.57s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)7.12sTiempo de respuesta (máximo)7.12sTiempo de respuesta (total)7.12s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)34.98sTiempo de respuesta (máximo)68.97sTiempo de respuesta (total)104.94s
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.83sTiempo de respuesta (máximo)2.83sTiempo de respuesta (total)2.83s
Seguimiento de instrucciones
: 8.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.10sTiempo de respuesta (máximo)5.85sTiempo de respuesta (total)10.21s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Pruebas totales: 18Pruebas incorrectas: 13Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 31.5%Pruebas inestables: 1…Tokens de salida: 2,573Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.23s · total 22.16s · máximo 3.81s
Programación
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)1.39s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.81sTiempo de respuesta (máximo)3.81sTiempo de respuesta (total)3.81s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.05sTiempo de respuesta (total)2.08s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)927msTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.78s
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)854msTiempo de respuesta (máximo)854msTiempo de respuesta (total)854ms
Seguimiento de instrucciones
: 9.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.03sTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.07s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)2.79sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)2.79s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)2.52sTiempo de respuesta (total)21.01s…
Pruebas totales: 18Pruebas incorrectas: 13Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 35.2%Pruebas inestables: 3…Tokens de salida: 2,418Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.17s · total 21.01s · máximo 2.52s
Trucos anti-IA
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)929msTiempo de respuesta (máximo)1.55sTiempo de respuesta (total)3.72s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)1.19s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.52sTiempo de respuesta (máximo)2.52sTiempo de respuesta (total)2.52s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.58sTiempo de respuesta (total)2.61s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)937msTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)2.81s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.82sTiempo de respuesta (máximo)1.82sTiempo de respuesta (total)1.82s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)728msTiempo de respuesta (máximo)731msTiempo de respuesta (total)1.46s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.32sTiempo de respuesta (máximo)2.32sTiempo de respuesta (total)2.32s
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 25.9%Pruebas inestables: 1…Tokens de salida: 3,617Tokens de razonamiento: 0Tiempo de respuesta: promedio 10.18s · total 122.13s · máximo 45.14s
Programación
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.14sTiempo de respuesta (máximo)3.14sTiempo de respuesta (total)3.14s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)45.14sTiempo de respuesta (máximo)45.14sTiempo de respuesta (total)45.14s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)1.32sTiempo de respuesta (total)1.32s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)962msTiempo de respuesta (máximo)962msTiempo de respuesta (total)962ms
Inteligencia general
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.34sTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)1.34s
Seguimiento de instrucciones
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.71sTiempo de respuesta (máximo)14.65sTiempo de respuesta (total)15.42s
Resolución de acertijos
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)22.86sTiempo de respuesta (máximo)42.58sTiempo de respuesta (total)45.73s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.47sTiempo de respuesta (máximo)2.47sTiempo de respuesta (total)2.47s
Pruebas totales: 18Pruebas incorrectas: 13Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 27.8%Pruebas inestables: 0…Tokens de salida: 2,177Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.05s · total 18.94s · máximo 2.43s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)842msTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)3.37s
Programación
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.95sTiempo de respuesta (máximo)1.95sTiempo de respuesta (total)1.95s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.36sTiempo de respuesta (máximo)2.36sTiempo de respuesta (total)2.36s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)1.01sTiempo de respuesta (máximo)1.18sTiempo de respuesta (total)2.03s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)756msTiempo de respuesta (máximo)877msTiempo de respuesta (total)2.27s
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)841msTiempo de respuesta (máximo)841msTiempo de respuesta (total)841ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)751msTiempo de respuesta (máximo)821msTiempo de respuesta (total)1.50s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)2.43sTiempo de respuesta (total)2.43s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10No siguió las instrucciones: 4Tiempo de respuesta (promedio)8.54sTiempo de respuesta (máximo)24.97sTiempo de respuesta (total)153.69s…
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 35.2%Pruebas inestables: 4…Tokens de salida: 4,760Tokens de razonamiento: 0Tiempo de respuesta: promedio 8.54s · total 153.69s · máximo 24.97s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)7.43sTiempo de respuesta (máximo)16.69sTiempo de respuesta (total)29.72s
Programación
: 3.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.99sTiempo de respuesta (máximo)2.99sTiempo de respuesta (total)2.99s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)19.98sTiempo de respuesta (máximo)19.98sTiempo de respuesta (total)19.98s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.92sTiempo de respuesta (máximo)13.23sTiempo de respuesta (total)15.84s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.23sTiempo de respuesta (máximo)14.38sTiempo de respuesta (total)18.70s
Inteligencia general
: 4.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)24.97sTiempo de respuesta (máximo)24.97sTiempo de respuesta (total)24.97s
Llamada de herramientas
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)16.00sTiempo de respuesta (máximo)16.00sTiempo de respuesta (total)16.00s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.00sTiempo de respuesta (máximo)7.58sTiempo de respuesta (total)21.99s…
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 22.2%Pruebas inestables: 0…Tokens de salida: 1,947Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.00s · total 21.99s · máximo 7.58s
Trucos anti-IA
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.34sTiempo de respuesta (máximo)1.83sTiempo de respuesta (total)2.67s
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.55sTiempo de respuesta (máximo)2.55sTiempo de respuesta (total)2.55s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.58sTiempo de respuesta (máximo)7.58sTiempo de respuesta (total)7.58s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)637msTiempo de respuesta (máximo)637msTiempo de respuesta (total)637ms
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)909msTiempo de respuesta (máximo)909msTiempo de respuesta (total)909ms
Resolución de acertijos
: 3.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)2.60s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 24.1%Pruebas inestables: 1…Tokens de salida: 3,951Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.47s · total 26.43s · máximo 5.91s
Trucos anti-IA
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.71sTiempo de respuesta (máximo)3.79sTiempo de respuesta (total)6.84s
Programación
: 5.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.69sTiempo de respuesta (máximo)5.69sTiempo de respuesta (total)5.69s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)5.91sTiempo de respuesta (máximo)5.91sTiempo de respuesta (total)5.91s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)847msTiempo de respuesta (máximo)1.09sTiempo de respuesta (total)1.69s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)464msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.39s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)552msTiempo de respuesta (máximo)552msTiempo de respuesta (total)552ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)514msTiempo de respuesta (máximo)582msTiempo de respuesta (total)1.03s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 1Tiempo de respuesta (promedio)613msTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)11.04s…
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 27.8%Pruebas inestables: 2…Tokens de salida: 1,625Tokens de razonamiento: 0Tiempo de respuesta: promedio 613ms · total 11.04s · máximo 1.27s
Trucos anti-IA
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)483msTiempo de respuesta (máximo)716msTiempo de respuesta (total)1.93s
Programación
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)969msTiempo de respuesta (máximo)969msTiempo de respuesta (total)969ms
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)606msTiempo de respuesta (máximo)606msTiempo de respuesta (total)606ms
Análisis y extracción de datos
: 7.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)667msTiempo de respuesta (máximo)819msTiempo de respuesta (total)1.33s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)534msTiempo de respuesta (máximo)733msTiempo de respuesta (total)1.60s
Inteligencia general
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)628msTiempo de respuesta (máximo)628msTiempo de respuesta (total)628ms
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)551msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.10s
Resolución de acertijos
: 3.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)533msTiempo de respuesta (máximo)637msTiempo de respuesta (total)1.60s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Pruebas totales: 18Pruebas incorrectas: 15Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 27.8%Pruebas inestables: 3…Tokens de salida: 3,241Tokens de razonamiento: 0Tiempo de respuesta: promedio 10.75s · total 129.01s · máximo 81.80s
Programación
: 4.7 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)1.69sTiempo de respuesta (total)1.69s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.28sTiempo de respuesta (máximo)4.28sTiempo de respuesta (total)4.28s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)81.80sTiempo de respuesta (máximo)81.80sTiempo de respuesta (total)81.80s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)638msTiempo de respuesta (máximo)638msTiempo de respuesta (total)638ms
Inteligencia general
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)1.39s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.64sTiempo de respuesta (máximo)2.64sTiempo de respuesta (total)2.64s
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 27.8%Pruebas inestables: 2…Tokens de salida: 2,639Tokens de razonamiento: 0Tiempo de respuesta: promedio 13.56s · total 230.55s · máximo 35.84s
Programación
: 2.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.56sTiempo de respuesta (máximo)4.56sTiempo de respuesta (total)4.56s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)35.84sTiempo de respuesta (máximo)35.84sTiempo de respuesta (total)35.84s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)2.85sTiempo de respuesta (máximo)2.85sTiempo de respuesta (total)2.85s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Error de API: 1Tiempo de respuesta (promedio)17.61sTiempo de respuesta (máximo)25.68sTiempo de respuesta (total)52.82s
Inteligencia general
: 4.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)16.07sTiempo de respuesta (máximo)16.07sTiempo de respuesta (total)16.07s
Seguimiento de instrucciones
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)12.98sTiempo de respuesta (máximo)23.51sTiempo de respuesta (total)25.95s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)33.76sTiempo de respuesta (máximo)33.76sTiempo de respuesta (total)33.76s
Pruebas totales: 18Pruebas incorrectas: 14Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 38.9%Pruebas inestables: 8…Tokens de salida: 39,688Tokens de razonamiento: 72,401Tiempo de respuesta: promedio 32.33s · total 355.65s · máximo 174.55s
Programación
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)21.26sTiempo de respuesta (máximo)21.26sTiempo de respuesta (total)21.26s
Combinado
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)65.57sTiempo de respuesta (máximo)65.57sTiempo de respuesta (total)65.57s
Análisis y extracción de datos
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)1.51sTiempo de respuesta (máximo)1.51sTiempo de respuesta (total)1.51s
Específico del dominio
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Sin respuesta: 1Tiempo de respuesta (promedio)174.55sTiempo de respuesta (máximo)174.55sTiempo de respuesta (total)174.55s
Inteligencia general
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)18.14sTiempo de respuesta (máximo)18.14sTiempo de respuesta (total)18.14s
Seguimiento de instrucciones
: 6.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.97sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)2.97s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.95sTiempo de respuesta (máximo)15.95sTiempo de respuesta (total)15.95s
Pruebas totales: 18Pruebas incorrectas: 15Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 27.8%Pruebas inestables: 5…Tokens de salida: 68,522Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.79s · total 39.08s · máximo 19.68s
Trucos anti-IA
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)4.76s
Programación
: 6.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.79sTiempo de respuesta (máximo)2.79sTiempo de respuesta (total)2.79s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.87sTiempo de respuesta (máximo)2.87sTiempo de respuesta (total)2.87s
Análisis y extracción de datos
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Formato extra: 1Tiempo de respuesta (promedio)19.68sTiempo de respuesta (máximo)19.68sTiempo de respuesta (total)19.68s
Específico del dominio
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)564msTiempo de respuesta (máximo)564msTiempo de respuesta (total)564ms
Inteligencia general
: 4.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Seguimiento de instrucciones
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)857msTiempo de respuesta (máximo)955msTiempo de respuesta (total)1.71s
Resolución de acertijos
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.38sTiempo de respuesta (máximo)1.74sTiempo de respuesta (total)2.75s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.28sTiempo de respuesta (máximo)2.28sTiempo de respuesta (total)2.28s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.76sTiempo de respuesta (máximo)5.51sTiempo de respuesta (total)19.35s…
Pruebas totales: 18Pruebas incorrectas: 15Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 24.1%Pruebas inestables: 3…Tokens de salida: 1,721Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.76s · total 19.35s · máximo 5.51s
Programación
: 5.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.79sTiempo de respuesta (máximo)1.79sTiempo de respuesta (total)1.79s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)943msTiempo de respuesta (máximo)943msTiempo de respuesta (total)943ms
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)1.06s
Inteligencia general
: 4.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.08sTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)1.08s
Seguimiento de instrucciones
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)923msTiempo de respuesta (máximo)923msTiempo de respuesta (total)923ms
Resolución de acertijos
: 3.2 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.28sTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)2.56s
Llamada de herramientas
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.51sTiempo de respuesta (máximo)5.51sTiempo de respuesta (total)5.51s
Pruebas totales: 18Pruebas incorrectas: 15Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 16.7%Pruebas inestables: 0…Tokens de salida: 2,434Tokens de razonamiento: 0Tiempo de respuesta: promedio 8.79s · total 158.19s · máximo 25.72s
Trucos anti-IA
: 3.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)6.55sTiempo de respuesta (máximo)9.41sTiempo de respuesta (total)26.19s
Programación
: 5.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.57sTiempo de respuesta (máximo)10.57sTiempo de respuesta (total)10.57s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)23.53sTiempo de respuesta (máximo)23.53sTiempo de respuesta (total)23.53s
Análisis y extracción de datos
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.37sTiempo de respuesta (máximo)1.37sTiempo de respuesta (total)2.73s
Específico del dominio
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)3.11s
Inteligencia general
: 5.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)20.34sTiempo de respuesta (máximo)20.34sTiempo de respuesta (total)20.34s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.36sTiempo de respuesta (máximo)9.81sTiempo de respuesta (total)10.73s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Llamada de herramienta no válida: 1Tiempo de respuesta (promedio)25.72sTiempo de respuesta (máximo)25.72sTiempo de respuesta (total)25.72s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 13No siguió las instrucciones: 3Tiempo de respuesta (promedio)1.40sTiempo de respuesta (máximo)3.84sTiempo de respuesta (total)25.14s…
Pruebas totales: 18Pruebas incorrectas: 16Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 31.5%Pruebas inestables: 7…Tokens de salida: 2,762Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.40s · total 25.14s · máximo 3.84s
Trucos anti-IA
: 3.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4Tiempo de respuesta (promedio)1.18sTiempo de respuesta (máximo)1.81sTiempo de respuesta (total)4.70s
Programación
: 7.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.43sTiempo de respuesta (total)1.43s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.84sTiempo de respuesta (máximo)3.84sTiempo de respuesta (total)3.84s
Análisis y extracción de datos
: 6.5 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.25sTiempo de respuesta (total)2.23s
Específico del dominio
: 2.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)926msTiempo de respuesta (máximo)959msTiempo de respuesta (total)2.78s
Inteligencia general
: 3.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.31sTiempo de respuesta (máximo)1.31sTiempo de respuesta (total)1.31s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.40sTiempo de respuesta (máximo)3.40sTiempo de respuesta (total)3.40s
Pruebas totales: 18Pruebas incorrectas: 15Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 33.3%Pruebas inestables: 6…Tokens de salida: 24,291Tokens de razonamiento: 172,597Tiempo de respuesta: promedio 73.64s · total 1104.60s · máximo 226.38s
Trucos anti-IA
: 5.1 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.44sTiempo de respuesta (máximo)57.86sTiempo de respuesta (total)103.31s
Programación
: 2.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)135.61sTiempo de respuesta (máximo)135.61sTiempo de respuesta (total)135.61s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo agotado: 1Tiempo de respuesta (promedio)87.31sTiempo de respuesta (máximo)87.31sTiempo de respuesta (total)87.31s
Específico del dominio
: 3.6 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)137.75sTiempo de respuesta (máximo)202.61sTiempo de respuesta (total)413.24s
Inteligencia general
: 2.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)226.38sTiempo de respuesta (máximo)226.38sTiempo de respuesta (total)226.38s
Seguimiento de instrucciones
: 6.4 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)17.15sTiempo de respuesta (máximo)28.54sTiempo de respuesta (total)34.29s
Llamada de herramientas
: 10.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.31sTiempo de respuesta (máximo)4.31sTiempo de respuesta (total)4.31s
Pruebas totales: 16Pruebas incorrectas: 15Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 14.6%Pruebas inestables: 2…Tokens de salida: 1,185Tokens de razonamiento: 0Tiempo de respuesta: promedio 811ms · total 11.35s · máximo 2.88s
Trucos anti-IA
: 3.3 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)471msTiempo de respuesta (máximo)872msTiempo de respuesta (total)1.41s
Combinado
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Análisis y extracción de datos
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)714msTiempo de respuesta (máximo)987msTiempo de respuesta (total)1.43s
Específico del dominio
: 5.9 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)287msTiempo de respuesta (máximo)334msTiempo de respuesta (total)860ms
Inteligencia general
: 4.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)395msTiempo de respuesta (máximo)395msTiempo de respuesta (total)395ms
Seguimiento de instrucciones
: 4.8 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.09sTiempo de respuesta (máximo)1.90sTiempo de respuesta (total)2.18s
Llamada de herramientas
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms…
Pruebas totales: 1Pruebas incorrectas: 1Fiabilidad: N/DLa telemetría de fiabilidad no está disponible o está incompleta para este modelo.Tasa de aciertos por intento: 0.0%Pruebas inestables: 0…Tokens de salida: 0Tokens de razonamiento: 0Tiempo de respuesta: promedio 0ms · total 0ms · máximo 0ms
Programación
: 3.0 Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms