Sigue los mejores modelos de IA SOTA con el leaderboard de AI BENCHY: una forma fácil de ver qué modelos lideran ahora en puntuación, calidad de razonamiento, fiabilidad y valor. Ordenar por: Costo por resultado ↓.
Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06Modelos evaluados: 55
0/0
No hay datos disponibles.
Rango
Modelo
Empresa
PuntuaciónPuntaje promedio en todas las pruebas de benchmark.
Costo por resultadoMuestra el costo promedio por respuesta correcta del benchmark en centavos (menor es mejor).
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 1Tiempo de respuesta (promedio)68.83sTiempo de respuesta (máximo)280.52sTiempo de respuesta (total)1101.32s…
Pruebas totales: 16Pruebas incorrectas: 4Tasa de aciertos por intento: 77.1%Pruebas inestables: 1…Tokens de salida: 1,283Tokens de razonamiento: 1,533,310Tiempo de respuesta: promedio 68.83s · total 1101.32s · máximo 280.52s
Respuesta incorrecta: 3No siguió las instrucciones: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)43.87sTiempo de respuesta (máximo)121.88sTiempo de respuesta (total)131.62s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)280.52sTiempo de respuesta (máximo)280.52sTiempo de respuesta (total)280.52s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.16sTiempo de respuesta (máximo)8.54sTiempo de respuesta (total)14.31s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)127.58sTiempo de respuesta (máximo)133.93sTiempo de respuesta (total)382.74s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.25sTiempo de respuesta (máximo)5.25sTiempo de respuesta (total)5.25s
Instructions following: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)70.07sTiempo de respuesta (máximo)136.53sTiempo de respuesta (total)140.14s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)46.33sTiempo de respuesta (máximo)134.22sTiempo de respuesta (total)139.00s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.73sTiempo de respuesta (máximo)7.73sTiempo de respuesta (total)7.73s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 4Respuesta incorrecta: 2Tiempo de respuesta (promedio)22.86sTiempo de respuesta (máximo)83.40sTiempo de respuesta (total)205.71s…
Pruebas totales: 16Pruebas incorrectas: 6Tasa de aciertos por intento: 66.7%Pruebas inestables: 2…Tokens de salida: 26,254Tokens de razonamiento: 17,363Tiempo de respuesta: promedio 22.86s · total 205.71s · máximo 83.40s
Formato extra: 4Respuesta incorrecta: 2
Anti-AI Tricks: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Tiempo de respuesta (promedio)11.88sTiempo de respuesta (máximo)11.88sTiempo de respuesta (total)11.88s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)76.66sTiempo de respuesta (máximo)76.66sTiempo de respuesta (total)76.66s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.37sTiempo de respuesta (máximo)7.37sTiempo de respuesta (total)7.37s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)83.40sTiempo de respuesta (máximo)83.40sTiempo de respuesta (total)83.40s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.04sTiempo de respuesta (máximo)5.04sTiempo de respuesta (total)5.04s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.43sTiempo de respuesta (máximo)2.43sTiempo de respuesta (total)2.43s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.60sTiempo de respuesta (máximo)4.66sTiempo de respuesta (total)9.20s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.73sTiempo de respuesta (máximo)9.73sTiempo de respuesta (total)9.73s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.23sTiempo de respuesta (máximo)46.35sTiempo de respuesta (total)89.84s…
Pruebas totales: 16Pruebas incorrectas: 4Tasa de aciertos por intento: 77.1%Pruebas inestables: 1…Tokens de salida: 35,159Tokens de razonamiento: 24,687Tiempo de respuesta: promedio 11.23s · total 89.84s · máximo 46.35s
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)4.95sTiempo de respuesta (máximo)4.95sTiempo de respuesta (total)4.95s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.35sTiempo de respuesta (máximo)46.35sTiempo de respuesta (total)46.35s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.90sTiempo de respuesta (máximo)13.90sTiempo de respuesta (total)13.90s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.94sTiempo de respuesta (máximo)4.94sTiempo de respuesta (total)4.94s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.61sTiempo de respuesta (máximo)2.61sTiempo de respuesta (total)2.61s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.80sTiempo de respuesta (máximo)5.22sTiempo de respuesta (total)9.60s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.48sTiempo de respuesta (máximo)7.48sTiempo de respuesta (total)7.48s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Respuesta incorrecta: 2Tiempo de respuesta (promedio)20.05sTiempo de respuesta (máximo)100.41sTiempo de respuesta (total)320.87s…
Pruebas totales: 16Pruebas incorrectas: 4Tasa de aciertos por intento: 83.3%Pruebas inestables: 3…Tokens de salida: 1,756Tokens de razonamiento: 46,642Tiempo de respuesta: promedio 20.05s · total 320.87s · máximo 100.41s
No siguió las instrucciones: 2Respuesta incorrecta: 2
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.02sTiempo de respuesta (máximo)6.42sTiempo de respuesta (total)15.06s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)20.57sTiempo de respuesta (máximo)20.57sTiempo de respuesta (total)20.57s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.32sTiempo de respuesta (máximo)5.40sTiempo de respuesta (total)10.64s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)74.27sTiempo de respuesta (máximo)100.41sTiempo de respuesta (total)222.80s
General Intelligence: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.92sTiempo de respuesta (máximo)4.92sTiempo de respuesta (total)4.92s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.11sTiempo de respuesta (máximo)3.68sTiempo de respuesta (total)6.22s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)9.13sTiempo de respuesta (máximo)18.14sTiempo de respuesta (total)27.39s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.28sTiempo de respuesta (máximo)13.28sTiempo de respuesta (total)13.28s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5No siguió las instrucciones: 3Tiempo agotado: 2invalid tool call: 1Tiempo de respuesta (promedio)43.03sTiempo de respuesta (máximo)237.27sTiempo de respuesta (total)387.25s…
Pruebas totales: 16Pruebas incorrectas: 11Tasa de aciertos por intento: 60.4%Pruebas inestables: 9…Tokens de salida: 107,044Tokens de razonamiento: 206,190Tiempo de respuesta: promedio 43.03s · total 387.25s · máximo 237.27s
Respuesta incorrecta: 5No siguió las instrucciones: 3Tiempo agotado: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)32.42sTiempo de respuesta (máximo)32.42sTiempo de respuesta (total)32.42s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.invalid tool call: 1Tiempo de respuesta (promedio)60.39sTiempo de respuesta (máximo)60.39sTiempo de respuesta (total)60.39s
Data parsing and extraction: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.48sTiempo de respuesta (máximo)7.48sTiempo de respuesta (total)7.48s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)237.27sTiempo de respuesta (máximo)237.27sTiempo de respuesta (total)237.27s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.63sTiempo de respuesta (máximo)6.63sTiempo de respuesta (total)6.63s
Instructions following: 8.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.64sTiempo de respuesta (máximo)4.64sTiempo de respuesta (total)4.64s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.54sTiempo de respuesta (máximo)17.37sTiempo de respuesta (total)23.08s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.35sTiempo de respuesta (máximo)15.35sTiempo de respuesta (total)15.35s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Respuesta incorrecta: 2Tiempo de respuesta (promedio)16.59sTiempo de respuesta (máximo)100.93sTiempo de respuesta (total)265.39s…
Pruebas totales: 16Pruebas incorrectas: 4Tasa de aciertos por intento: 83.3%Pruebas inestables: 2…Tokens de salida: 1,764Tokens de razonamiento: 33,348Tiempo de respuesta: promedio 16.59s · total 265.39s · máximo 100.93s
No siguió las instrucciones: 2Respuesta incorrecta: 2
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.69sTiempo de respuesta (máximo)6.68sTiempo de respuesta (total)14.06s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)19.56sTiempo de respuesta (máximo)19.56sTiempo de respuesta (total)19.56s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.07sTiempo de respuesta (máximo)3.59sTiempo de respuesta (total)6.15s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)64.31sTiempo de respuesta (máximo)100.93sTiempo de respuesta (total)192.94s
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.87sTiempo de respuesta (máximo)4.87sTiempo de respuesta (total)4.87s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.04sTiempo de respuesta (máximo)3.44sTiempo de respuesta (total)6.07s
Puzzle Solving: 9.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.12sTiempo de respuesta (máximo)8.73sTiempo de respuesta (total)15.37s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.37sTiempo de respuesta (máximo)6.37sTiempo de respuesta (total)6.37s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 4Respuesta incorrecta: 2Error de API: 1Sin respuesta: 1Tiempo de respuesta (promedio)43.93sTiempo de respuesta (máximo)106.00sTiempo de respuesta (total)702.85s…
Pruebas totales: 16Pruebas incorrectas: 8Tasa de aciertos por intento: 77.1%Pruebas inestables: 7…Tokens de salida: 5,495Tokens de razonamiento: 169,266Tiempo de respuesta: promedio 43.93s · total 702.85s · máximo 106.00s
Tiempo agotado: 4Respuesta incorrecta: 2Error de API: 1Sin respuesta: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.75sTiempo de respuesta (máximo)34.96sTiempo de respuesta (total)65.26s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)75.34sTiempo de respuesta (máximo)75.34sTiempo de respuesta (total)75.34s
Data parsing and extraction: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)59.33sTiempo de respuesta (máximo)97.12sTiempo de respuesta (total)118.65s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)88.34sTiempo de respuesta (máximo)106.00sTiempo de respuesta (total)265.01s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)30.30sTiempo de respuesta (máximo)30.30sTiempo de respuesta (total)30.30s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.45sTiempo de respuesta (máximo)43.36sTiempo de respuesta (total)48.89s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)31.58sTiempo de respuesta (máximo)60.18sTiempo de respuesta (total)94.75s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.65sTiempo de respuesta (máximo)4.65sTiempo de respuesta (total)4.65s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo agotado: 1Tiempo de respuesta (promedio)29.74sTiempo de respuesta (máximo)119.29sTiempo de respuesta (total)475.83s…
Pruebas totales: 16Pruebas incorrectas: 4Tasa de aciertos por intento: 79.2%Pruebas inestables: 2…Tokens de salida: 17,292Tokens de razonamiento: 145,625Tiempo de respuesta: promedio 29.74s · total 475.83s · máximo 119.29s
Respuesta incorrecta: 3Tiempo agotado: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.99sTiempo de respuesta (máximo)11.62sTiempo de respuesta (total)20.98s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)107.79sTiempo de respuesta (máximo)107.79sTiempo de respuesta (total)107.79s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.41sTiempo de respuesta (máximo)29.79sTiempo de respuesta (total)46.83s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)63.40sTiempo de respuesta (máximo)119.29sTiempo de respuesta (total)190.20s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)34.11sTiempo de respuesta (máximo)34.11sTiempo de respuesta (total)34.11s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.88sTiempo de respuesta (máximo)15.44sTiempo de respuesta (total)19.76s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.18sTiempo de respuesta (máximo)31.99sTiempo de respuesta (total)51.55s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.60sTiempo de respuesta (máximo)4.60sTiempo de respuesta (total)4.60s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)52.13sTiempo de respuesta (máximo)163.96sTiempo de respuesta (total)834.16s…
Pruebas totales: 16Pruebas incorrectas: 4Tasa de aciertos por intento: 81.3%Pruebas inestables: 2…Tokens de salida: 1,658Tokens de razonamiento: 200,786Tiempo de respuesta: promedio 52.13s · total 834.16s · máximo 163.96s
No siguió las instrucciones: 2Tiempo agotado: 1Respuesta incorrecta: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.69sTiempo de respuesta (máximo)10.84sTiempo de respuesta (total)29.06s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)163.96sTiempo de respuesta (máximo)163.96sTiempo de respuesta (total)163.96s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)30.26sTiempo de respuesta (máximo)32.03sTiempo de respuesta (total)60.52s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)79.53sTiempo de respuesta (máximo)95.52sTiempo de respuesta (total)238.59s
General Intelligence: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)101.41sTiempo de respuesta (máximo)101.41sTiempo de respuesta (total)101.41s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)19.66sTiempo de respuesta (máximo)32.25sTiempo de respuesta (total)39.32s
Puzzle Solving: 8.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)64.61sTiempo de respuesta (máximo)123.57sTiempo de respuesta (total)193.84s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.45sTiempo de respuesta (máximo)7.45sTiempo de respuesta (total)7.45s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)16.60sTiempo de respuesta (máximo)40.61sTiempo de respuesta (total)149.36s…
Pruebas totales: 16Pruebas incorrectas: 1Tasa de aciertos por intento: 93.8%Pruebas inestables: 0…Tokens de salida: 1,521Tokens de razonamiento: 35,656Tiempo de respuesta: promedio 16.60s · total 149.36s · máximo 40.61s
Respuesta incorrecta: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.52sTiempo de respuesta (máximo)9.52sTiempo de respuesta (total)9.52s
Combined: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)40.61sTiempo de respuesta (máximo)40.61sTiempo de respuesta (total)40.61s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.72sTiempo de respuesta (máximo)7.72sTiempo de respuesta (total)7.72s
Domain specific: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)32.73sTiempo de respuesta (máximo)32.73sTiempo de respuesta (total)32.73s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.77sTiempo de respuesta (máximo)11.77sTiempo de respuesta (total)11.77s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.56sTiempo de respuesta (máximo)9.56sTiempo de respuesta (total)9.56s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.15sTiempo de respuesta (máximo)8.49sTiempo de respuesta (total)14.30s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.15sTiempo de respuesta (máximo)23.15sTiempo de respuesta (total)23.15s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 2Tiempo de respuesta (promedio)5.96sTiempo de respuesta (máximo)18.33sTiempo de respuesta (total)95.30s…
Pruebas totales: 16Pruebas incorrectas: 6Tasa de aciertos por intento: 70.8%Pruebas inestables: 3…Tokens de salida: 19,272Tokens de razonamiento: 0Tiempo de respuesta: promedio 5.96s · total 95.30s · máximo 18.33s
Respuesta incorrecta: 4No siguió las instrucciones: 2
Anti-AI Tricks: 7.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.72sTiempo de respuesta (máximo)7.35sTiempo de respuesta (total)14.17s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.96sTiempo de respuesta (máximo)11.96sTiempo de respuesta (total)11.96s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.21sTiempo de respuesta (máximo)2.52sTiempo de respuesta (total)4.42s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)13.01sTiempo de respuesta (máximo)18.33sTiempo de respuesta (total)39.04s
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.99sTiempo de respuesta (máximo)1.99sTiempo de respuesta (total)1.99s
Instructions following: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.29sTiempo de respuesta (máximo)4.18sTiempo de respuesta (total)6.59s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.93sTiempo de respuesta (máximo)3.05sTiempo de respuesta (total)8.78s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)8.36sTiempo de respuesta (máximo)8.36sTiempo de respuesta (total)8.36s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 3Sin respuesta: 1Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)15.33sTiempo de respuesta (máximo)77.80sTiempo de respuesta (total)138.01s…
Pruebas totales: 16Pruebas incorrectas: 6Tasa de aciertos por intento: 75.0%Pruebas inestables: 4…Tokens de salida: 2,220Tokens de razonamiento: 16,811Tiempo de respuesta: promedio 15.33s · total 138.01s · máximo 77.80s
No siguió las instrucciones: 3Sin respuesta: 1Tiempo agotado: 1Respuesta incorrecta: 1
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)14.34sTiempo de respuesta (máximo)14.34sTiempo de respuesta (total)14.34s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.06sTiempo de respuesta (máximo)14.06sTiempo de respuesta (total)14.06s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.15sTiempo de respuesta (máximo)3.15sTiempo de respuesta (total)3.15s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)77.80sTiempo de respuesta (máximo)77.80sTiempo de respuesta (total)77.80s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.32sTiempo de respuesta (máximo)4.32sTiempo de respuesta (total)4.32s
Instructions following: 9.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.12sTiempo de respuesta (máximo)3.12sTiempo de respuesta (total)3.12s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.47sTiempo de respuesta (máximo)6.45sTiempo de respuesta (total)10.94s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)10.30sTiempo de respuesta (máximo)10.30sTiempo de respuesta (total)10.30s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 1Tiempo de respuesta (promedio)12.35sTiempo de respuesta (máximo)95.48sTiempo de respuesta (total)197.62s…
Pruebas totales: 16Pruebas incorrectas: 5Tasa de aciertos por intento: 72.9%Pruebas inestables: 1…Tokens de salida: 1,370Tokens de razonamiento: 110,522Tiempo de respuesta: promedio 12.35s · total 197.62s · máximo 95.48s
Respuesta incorrecta: 4No siguió las instrucciones: 1
Anti-AI Tricks: 7.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.98sTiempo de respuesta (máximo)15.56sTiempo de respuesta (total)20.95s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)28.44sTiempo de respuesta (máximo)28.44sTiempo de respuesta (total)28.44s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.06sTiempo de respuesta (máximo)5.06sTiempo de respuesta (total)8.11s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)37.34sTiempo de respuesta (máximo)95.48sTiempo de respuesta (total)112.01s
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.86sTiempo de respuesta (máximo)4.86sTiempo de respuesta (total)4.86s
Instructions following: 9.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.62sTiempo de respuesta (máximo)2.78sTiempo de respuesta (total)5.24s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.94sTiempo de respuesta (máximo)6.33sTiempo de respuesta (total)11.83s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.20sTiempo de respuesta (máximo)6.20sTiempo de respuesta (total)6.20s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 3Respuesta incorrecta: 2No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.57sTiempo de respuesta (máximo)23.84sTiempo de respuesta (total)50.12s…
Pruebas totales: 16Pruebas incorrectas: 6Tasa de aciertos por intento: 66.7%Pruebas inestables: 1…Tokens de salida: 6,895Tokens de razonamiento: 0Tiempo de respuesta: promedio 5.57s · total 50.12s · máximo 23.84s
Formato extra: 3Respuesta incorrecta: 2No siguió las instrucciones: 1
Anti-AI Tricks: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Tiempo de respuesta (promedio)4.83sTiempo de respuesta (máximo)4.83sTiempo de respuesta (total)4.83s
Combined: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)23.84sTiempo de respuesta (máximo)23.84sTiempo de respuesta (total)23.84s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.43sTiempo de respuesta (máximo)3.43sTiempo de respuesta (total)3.43s
Domain specific: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
General Intelligence: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.56sTiempo de respuesta (máximo)2.56sTiempo de respuesta (total)2.56s
Instructions following: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.96sTiempo de respuesta (máximo)1.96sTiempo de respuesta (total)1.96s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1Tiempo de respuesta (promedio)2.92sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)5.84s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.11sTiempo de respuesta (máximo)4.11sTiempo de respuesta (total)4.11s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 1Tiempo de respuesta (promedio)7.03sTiempo de respuesta (máximo)38.52sTiempo de respuesta (total)112.51s…
Pruebas totales: 16Pruebas incorrectas: 5Tasa de aciertos por intento: 75.0%Pruebas inestables: 2…Tokens de salida: 15,845Tokens de razonamiento: 0Tiempo de respuesta: promedio 7.03s · total 112.51s · máximo 38.52s
Respuesta incorrecta: 4No siguió las instrucciones: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.97sTiempo de respuesta (máximo)4.78sTiempo de respuesta (total)11.90s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.12sTiempo de respuesta (máximo)9.12sTiempo de respuesta (total)9.12s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.05sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)6.10s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)17.78sTiempo de respuesta (máximo)38.52sTiempo de respuesta (total)53.33s
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.20sTiempo de respuesta (máximo)3.20sTiempo de respuesta (total)3.20s
Instructions following: 6.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.46sTiempo de respuesta (máximo)6.45sTiempo de respuesta (total)10.92s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.42sTiempo de respuesta (máximo)5.04sTiempo de respuesta (total)13.27s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.68sTiempo de respuesta (máximo)4.68sTiempo de respuesta (total)4.68s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 2Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)69.83sTiempo de respuesta (máximo)137.29sTiempo de respuesta (total)628.45s…
Pruebas totales: 16Pruebas incorrectas: 7Tasa de aciertos por intento: 72.9%Pruebas inestables: 5…Tokens de salida: 38,453Tokens de razonamiento: 72,496Tiempo de respuesta: promedio 69.83s · total 628.45s · máximo 137.29s
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)85.28sTiempo de respuesta (máximo)85.28sTiempo de respuesta (total)85.28s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)71.37sTiempo de respuesta (máximo)71.37sTiempo de respuesta (total)71.37s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)49.78sTiempo de respuesta (máximo)49.78sTiempo de respuesta (total)49.78s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)137.29sTiempo de respuesta (máximo)137.29sTiempo de respuesta (total)137.29s
General Intelligence: 6.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)69.73sTiempo de respuesta (máximo)69.73sTiempo de respuesta (total)69.73s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)92.47sTiempo de respuesta (máximo)92.47sTiempo de respuesta (total)92.47s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)45.40sTiempo de respuesta (máximo)82.75sTiempo de respuesta (total)90.79s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.74sTiempo de respuesta (máximo)31.74sTiempo de respuesta (total)31.74s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.48sTiempo de respuesta (máximo)2.89sTiempo de respuesta (total)23.64s…
Pruebas totales: 16Pruebas incorrectas: 10Tasa de aciertos por intento: 41.7%Pruebas inestables: 2…Tokens de salida: 1,819Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.48s · total 23.64s · máximo 2.89s
Respuesta incorrecta: 9No siguió las instrucciones: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)2.58sTiempo de respuesta (total)4.23s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.89sTiempo de respuesta (máximo)2.89sTiempo de respuesta (total)2.89s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.04sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.08s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)3.22s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.78sTiempo de respuesta (máximo)1.78sTiempo de respuesta (total)1.78s
Instructions following: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.17sTiempo de respuesta (total)2.15s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.82sTiempo de respuesta (total)4.56s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.75sTiempo de respuesta (máximo)2.75sTiempo de respuesta (total)2.75s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)7.15sTiempo de respuesta (máximo)11.96sTiempo de respuesta (total)64.34s…
Pruebas totales: 16Pruebas incorrectas: 3Tasa de aciertos por intento: 81.3%Pruebas inestables: 0…Tokens de salida: 1,502Tokens de razonamiento: 9,706Tiempo de respuesta: promedio 7.15s · total 64.34s · máximo 11.96s
Respuesta incorrecta: 3
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.75sTiempo de respuesta (máximo)3.75sTiempo de respuesta (total)3.75s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)10.37sTiempo de respuesta (máximo)10.37sTiempo de respuesta (total)10.37s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.84sTiempo de respuesta (máximo)10.84sTiempo de respuesta (total)10.84s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.01sTiempo de respuesta (máximo)7.01sTiempo de respuesta (total)7.01s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.34sTiempo de respuesta (máximo)9.34sTiempo de respuesta (total)9.34s
Instructions following: 9.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.26sTiempo de respuesta (máximo)3.26sTiempo de respuesta (total)3.26s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.91sTiempo de respuesta (máximo)4.23sTiempo de respuesta (total)7.81s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.96sTiempo de respuesta (máximo)11.96sTiempo de respuesta (total)11.96s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 4Respuesta incorrecta: 3Tiempo agotado: 1Tiempo de respuesta (promedio)25.14sTiempo de respuesta (máximo)88.15sTiempo de respuesta (total)402.29s…
Pruebas totales: 16Pruebas incorrectas: 8Tasa de aciertos por intento: 58.3%Pruebas inestables: 2…Tokens de salida: 5,826Tokens de razonamiento: 48,768Tiempo de respuesta: promedio 25.14s · total 402.29s · máximo 88.15s
No siguió las instrucciones: 4Respuesta incorrecta: 3Tiempo agotado: 1
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)16.45sTiempo de respuesta (máximo)26.00sTiempo de respuesta (total)49.36s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.15sTiempo de respuesta (máximo)88.15sTiempo de respuesta (total)88.15s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.58sTiempo de respuesta (máximo)13.87sTiempo de respuesta (total)25.16s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)44.63sTiempo de respuesta (máximo)82.55sTiempo de respuesta (total)133.89s
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)13.50sTiempo de respuesta (máximo)13.50sTiempo de respuesta (total)13.50s
Instructions following: 7.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)15.66sTiempo de respuesta (máximo)21.80sTiempo de respuesta (total)31.32s
Puzzle Solving: 4.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)14.09sTiempo de respuesta (máximo)16.81sTiempo de respuesta (total)42.28s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.64sTiempo de respuesta (máximo)18.64sTiempo de respuesta (total)18.64s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)34.45sTiempo de respuesta (máximo)79.86sTiempo de respuesta (total)310.09s…
Pruebas totales: 16Pruebas incorrectas: 3Tasa de aciertos por intento: 85.4%Pruebas inestables: 1…Tokens de salida: 1,735Tokens de razonamiento: 77,212Tiempo de respuesta: promedio 34.45s · total 310.09s · máximo 79.86s
Tiempo agotado: 2Respuesta incorrecta: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.37sTiempo de respuesta (máximo)10.37sTiempo de respuesta (total)10.37s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.85sTiempo de respuesta (máximo)46.85sTiempo de respuesta (total)46.85s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)46.91sTiempo de respuesta (máximo)46.91sTiempo de respuesta (total)46.91s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)17.50sTiempo de respuesta (máximo)17.50sTiempo de respuesta (total)17.50s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)79.86sTiempo de respuesta (máximo)79.86sTiempo de respuesta (total)79.86s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.93sTiempo de respuesta (máximo)31.93sTiempo de respuesta (total)31.93s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.57sTiempo de respuesta (máximo)49.12sTiempo de respuesta (total)69.13s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.54sTiempo de respuesta (máximo)7.54sTiempo de respuesta (total)7.54s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7No siguió las instrucciones: 2Sin respuesta: 2invalid tool call: 1Tiempo de respuesta (promedio)36.84sTiempo de respuesta (máximo)174.55sTiempo de respuesta (total)331.58s…
Pruebas totales: 16Pruebas incorrectas: 12Tasa de aciertos por intento: 41.7%Pruebas inestables: 7…Tokens de salida: 38,682Tokens de razonamiento: 64,952Tiempo de respuesta: promedio 36.84s · total 331.58s · máximo 174.55s
Respuesta incorrecta: 7No siguió las instrucciones: 2Sin respuesta: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)27.09sTiempo de respuesta (máximo)27.09sTiempo de respuesta (total)27.09s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.invalid tool call: 1Tiempo de respuesta (promedio)65.57sTiempo de respuesta (máximo)65.57sTiempo de respuesta (total)65.57s
Data parsing and extraction: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)1.51sTiempo de respuesta (máximo)1.51sTiempo de respuesta (total)1.51s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Sin respuesta: 1Tiempo de respuesta (promedio)174.55sTiempo de respuesta (máximo)174.55sTiempo de respuesta (total)174.55s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)18.14sTiempo de respuesta (máximo)18.14sTiempo de respuesta (total)18.14s
Instructions following: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.97sTiempo de respuesta (máximo)2.97sTiempo de respuesta (total)2.97s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2No siguió las instrucciones: 1Tiempo de respuesta (promedio)12.90sTiempo de respuesta (máximo)22.33sTiempo de respuesta (total)25.80s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.95sTiempo de respuesta (máximo)15.95sTiempo de respuesta (total)15.95s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)12.36sTiempo de respuesta (máximo)50.16sTiempo de respuesta (total)111.21s…
Pruebas totales: 16Pruebas incorrectas: 0Tasa de aciertos por intento: 100.0%Pruebas inestables: 0…Tokens de salida: 1,634Tokens de razonamiento: 47,907Tiempo de respuesta: promedio 12.36s · total 111.21s · máximo 50.16s
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.61sTiempo de respuesta (máximo)5.61sTiempo de respuesta (total)5.61s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)50.16sTiempo de respuesta (máximo)50.16sTiempo de respuesta (total)50.16s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.72sTiempo de respuesta (máximo)4.72sTiempo de respuesta (total)4.72s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)21.12sTiempo de respuesta (máximo)21.12sTiempo de respuesta (total)21.12s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.09sTiempo de respuesta (máximo)4.09sTiempo de respuesta (total)4.09s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.10sTiempo de respuesta (máximo)6.10sTiempo de respuesta (total)6.10s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.43sTiempo de respuesta (máximo)4.68sTiempo de respuesta (total)8.85s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.55sTiempo de respuesta (máximo)10.55sTiempo de respuesta (total)10.55s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2No siguió las instrucciones: 1Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)16.16sTiempo de respuesta (máximo)28.96sTiempo de respuesta (total)129.26s…
Pruebas totales: 16Pruebas incorrectas: 5Tasa de aciertos por intento: 83.3%Pruebas inestables: 4…Tokens de salida: 19,773Tokens de razonamiento: 36,459Tiempo de respuesta: promedio 16.16s · total 129.26s · máximo 28.96s
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)22.26sTiempo de respuesta (máximo)22.26sTiempo de respuesta (total)22.26s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)28.96sTiempo de respuesta (máximo)28.96sTiempo de respuesta (total)28.96s
Data parsing and extraction: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)8.90sTiempo de respuesta (máximo)8.90sTiempo de respuesta (total)8.90s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo agotado: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
General Intelligence: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)14.69sTiempo de respuesta (máximo)14.69sTiempo de respuesta (total)14.69s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.25sTiempo de respuesta (máximo)7.25sTiempo de respuesta (total)7.25s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.64sTiempo de respuesta (máximo)16.34sTiempo de respuesta (total)31.27s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.93sTiempo de respuesta (máximo)15.93sTiempo de respuesta (total)15.93s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5No siguió las instrucciones: 3Tiempo agotado: 1Tiempo de respuesta (promedio)47.94sTiempo de respuesta (máximo)204.02sTiempo de respuesta (total)431.47s…
Pruebas totales: 16Pruebas incorrectas: 9Tasa de aciertos por intento: 60.4%Pruebas inestables: 6…Tokens de salida: 4,386Tokens de razonamiento: 142,080Tiempo de respuesta: promedio 47.94s · total 431.47s · máximo 204.02s
Respuesta incorrecta: 5No siguió las instrucciones: 3Tiempo agotado: 1
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)37.73sTiempo de respuesta (máximo)37.73sTiempo de respuesta (total)37.73s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)65.96sTiempo de respuesta (máximo)65.96sTiempo de respuesta (total)65.96s
Data parsing and extraction: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)21.42sTiempo de respuesta (máximo)21.42sTiempo de respuesta (total)21.42s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)204.02sTiempo de respuesta (máximo)204.02sTiempo de respuesta (total)204.02s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)17.51sTiempo de respuesta (máximo)17.51sTiempo de respuesta (total)17.51s
Instructions following: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)11.90sTiempo de respuesta (máximo)11.90sTiempo de respuesta (total)11.90s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)19.81sTiempo de respuesta (máximo)21.31sTiempo de respuesta (total)39.63s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)33.30sTiempo de respuesta (máximo)33.30sTiempo de respuesta (total)33.30s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10Error de API: 1Formato extra: 1No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.97sTiempo de respuesta (máximo)19.68sTiempo de respuesta (total)35.60s…
Pruebas totales: 16Pruebas incorrectas: 13Tasa de aciertos por intento: 29.2%Pruebas inestables: 4…Tokens de salida: 67,790Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.97s · total 35.60s · máximo 19.68s
Respuesta incorrecta: 10Error de API: 1Formato extra: 1No siguió las instrucciones: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.36sTiempo de respuesta (máximo)2.73sTiempo de respuesta (total)4.07s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.87sTiempo de respuesta (máximo)2.87sTiempo de respuesta (total)2.87s
Data parsing and extraction: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Formato extra: 1Tiempo de respuesta (promedio)19.68sTiempo de respuesta (máximo)19.68sTiempo de respuesta (total)19.68s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)564msTiempo de respuesta (máximo)564msTiempo de respuesta (total)564ms
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Instructions following: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)857msTiempo de respuesta (máximo)955msTiempo de respuesta (total)1.71s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.38sTiempo de respuesta (máximo)1.74sTiempo de respuesta (total)2.75s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.28sTiempo de respuesta (máximo)2.28sTiempo de respuesta (total)2.28s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Error de API: 1No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)70.81sTiempo de respuesta (máximo)234.29sTiempo de respuesta (total)1132.90s…
Pruebas totales: 16Pruebas incorrectas: 6Tasa de aciertos por intento: 81.3%Pruebas inestables: 5…Tokens de salida: 1,807Tokens de razonamiento: 169,952Tiempo de respuesta: promedio 70.81s · total 1132.90s · máximo 234.29s
Tiempo agotado: 3Error de API: 1No siguió las instrucciones: 1Respuesta incorrecta: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)71.35sTiempo de respuesta (máximo)168.31sTiempo de respuesta (total)214.06s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.78sTiempo de respuesta (máximo)17.78sTiempo de respuesta (total)17.78s
Data parsing and extraction: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)56.99sTiempo de respuesta (máximo)80.14sTiempo de respuesta (total)113.98s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)146.50sTiempo de respuesta (máximo)234.29sTiempo de respuesta (total)439.49s
General Intelligence: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)40.05sTiempo de respuesta (máximo)40.05sTiempo de respuesta (total)40.05s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)63.49sTiempo de respuesta (máximo)111.61sTiempo de respuesta (total)126.98s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 2Tiempo de respuesta (promedio)56.74sTiempo de respuesta (máximo)115.01sTiempo de respuesta (total)170.23s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)10.33sTiempo de respuesta (máximo)10.33sTiempo de respuesta (total)10.33s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5No siguió las instrucciones: 4Tiempo de respuesta (promedio)2.36sTiempo de respuesta (máximo)14.63sTiempo de respuesta (total)35.39s…
Pruebas totales: 16Pruebas incorrectas: 9Tasa de aciertos por intento: 54.2%Pruebas inestables: 3…Tokens de salida: 3,708Tokens de razonamiento: 45,921Tiempo de respuesta: promedio 2.36s · total 35.39s · máximo 14.63s
Respuesta incorrecta: 5No siguió las instrucciones: 4
Anti-AI Tricks: 7.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)2.46sTiempo de respuesta (total)3.89s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.28sTiempo de respuesta (máximo)3.28sTiempo de respuesta (total)3.28s
Data parsing and extraction: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.11sTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)2.21s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.48sTiempo de respuesta (máximo)14.63sTiempo de respuesta (total)19.43s
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)821msTiempo de respuesta (máximo)821msTiempo de respuesta (total)821ms
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.07sTiempo de respuesta (máximo)1.07sTiempo de respuesta (total)1.07s
Puzzle Solving: 1.7Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)934msTiempo de respuesta (máximo)1.18sTiempo de respuesta (total)2.80s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.11sTiempo de respuesta (máximo)14.72sTiempo de respuesta (total)97.74s…
Pruebas totales: 16Pruebas incorrectas: 3Tasa de aciertos por intento: 83.3%Pruebas inestables: 1…Tokens de salida: 1,586Tokens de razonamiento: 19,950Tiempo de respuesta: promedio 6.11s · total 97.74s · máximo 14.72s
Respuesta incorrecta: 3
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.50sTiempo de respuesta (máximo)4.31sTiempo de respuesta (total)10.49s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.27sTiempo de respuesta (máximo)3.27sTiempo de respuesta (total)3.27s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.40sTiempo de respuesta (máximo)14.72sTiempo de respuesta (total)18.80s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)8.05sTiempo de respuesta (máximo)14.40sTiempo de respuesta (total)24.15s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.68sTiempo de respuesta (máximo)3.68sTiempo de respuesta (total)3.68s
Instructions following: 9.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.02sTiempo de respuesta (máximo)7.35sTiempo de respuesta (total)14.03s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.11sTiempo de respuesta (máximo)10.27sTiempo de respuesta (total)18.32s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.99sTiempo de respuesta (máximo)4.99sTiempo de respuesta (total)4.99s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 3Respuesta incorrecta: 2Sin respuesta: 1Tiempo agotado: 1Tiempo de respuesta (promedio)26.35sTiempo de respuesta (máximo)121.79sTiempo de respuesta (total)237.11s…
Pruebas totales: 16Pruebas incorrectas: 7Tasa de aciertos por intento: 66.7%Pruebas inestables: 4…Tokens de salida: 1,183Tokens de razonamiento: 83,875Tiempo de respuesta: promedio 26.35s · total 237.11s · máximo 121.79s
No siguió las instrucciones: 3Respuesta incorrecta: 2Sin respuesta: 1Tiempo agotado: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.65sTiempo de respuesta (máximo)5.65sTiempo de respuesta (total)5.65s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)37.64sTiempo de respuesta (máximo)37.64sTiempo de respuesta (total)37.64s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.63sTiempo de respuesta (máximo)6.63sTiempo de respuesta (total)6.63s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)121.79sTiempo de respuesta (máximo)121.79sTiempo de respuesta (total)121.79s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)16.25sTiempo de respuesta (máximo)16.25sTiempo de respuesta (total)16.25s
Instructions following: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.30sTiempo de respuesta (máximo)5.30sTiempo de respuesta (total)5.30s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.08sTiempo de respuesta (máximo)8.38sTiempo de respuesta (total)16.17s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Sin respuesta: 1Tiempo de respuesta (promedio)27.71sTiempo de respuesta (máximo)27.71sTiempo de respuesta (total)27.71s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.83sTiempo de respuesta (máximo)14.93sTiempo de respuesta (total)61.25s…
Pruebas totales: 16Pruebas incorrectas: 5Tasa de aciertos por intento: 68.8%Pruebas inestables: 0…Tokens de salida: 1,731Tokens de razonamiento: 25,821Tiempo de respuesta: promedio 3.83s · total 61.25s · máximo 14.93s
Respuesta incorrecta: 4No siguió las instrucciones: 1
Anti-AI Tricks: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.53sTiempo de respuesta (máximo)3.89sTiempo de respuesta (total)7.58s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)14.93sTiempo de respuesta (máximo)14.93sTiempo de respuesta (total)14.93s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.29sTiempo de respuesta (máximo)2.31sTiempo de respuesta (total)4.59s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)4.21sTiempo de respuesta (máximo)5.86sTiempo de respuesta (total)12.62s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.16sTiempo de respuesta (máximo)3.16sTiempo de respuesta (total)3.16s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.93sTiempo de respuesta (total)3.82s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.58sTiempo de respuesta (máximo)4.41sTiempo de respuesta (total)10.75s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.80sTiempo de respuesta (máximo)3.80sTiempo de respuesta (total)3.80s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.72sTiempo de respuesta (máximo)46.00sTiempo de respuesta (total)59.46s…
Pruebas totales: 16Pruebas incorrectas: 10Tasa de aciertos por intento: 39.6%Pruebas inestables: 1…Tokens de salida: 2,679Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.72s · total 59.46s · máximo 46.00s
Respuesta incorrecta: 9No siguió las instrucciones: 1
Anti-AI Tricks: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)927msTiempo de respuesta (máximo)1.38sTiempo de respuesta (total)2.78s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)46.00sTiempo de respuesta (máximo)46.00sTiempo de respuesta (total)46.00s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.01sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.02s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)465msTiempo de respuesta (máximo)492msTiempo de respuesta (total)1.39s
General Intelligence: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.12sTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)1.12s
Instructions following: 4.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)585msTiempo de respuesta (máximo)715msTiempo de respuesta (total)1.17s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)982msTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)2.95s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.04sTiempo de respuesta (máximo)2.04sTiempo de respuesta (total)2.04s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Error de API: 1No siguió las instrucciones: 1Tiempo de respuesta (promedio)25.33sTiempo de respuesta (máximo)96.01sTiempo de respuesta (total)253.33s…
Pruebas totales: 16Pruebas incorrectas: 5Tasa de aciertos por intento: 72.9%Pruebas inestables: 1…Tokens de salida: 11,613Tokens de razonamiento: 106,714Tiempo de respuesta: promedio 25.33s · total 253.33s · máximo 96.01s
Respuesta incorrecta: 3Error de API: 1No siguió las instrucciones: 1
Anti-AI Tricks: 9.7Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)16.79sTiempo de respuesta (máximo)20.83sTiempo de respuesta (total)33.57s
Combined: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)75.68sTiempo de respuesta (máximo)75.68sTiempo de respuesta (total)75.68s
Data parsing and extraction: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)96.01sTiempo de respuesta (máximo)96.01sTiempo de respuesta (total)96.01s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.20sTiempo de respuesta (máximo)4.20sTiempo de respuesta (total)4.20s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.28sTiempo de respuesta (máximo)7.37sTiempo de respuesta (total)8.55s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.77sTiempo de respuesta (máximo)5.26sTiempo de respuesta (total)7.55s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)27.78sTiempo de respuesta (máximo)27.78sTiempo de respuesta (total)27.78s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.75sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)28.05s…
Pruebas totales: 16Pruebas incorrectas: 11Tasa de aciertos por intento: 37.5%Pruebas inestables: 2…Tokens de salida: 3,161Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.75s · total 28.05s · máximo 9.39s
Respuesta incorrecta: 9No siguió las instrucciones: 2
Anti-AI Tricks: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)796msTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)2.39s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.39sTiempo de respuesta (máximo)9.39sTiempo de respuesta (total)9.39s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.43sTiempo de respuesta (máximo)1.45sTiempo de respuesta (total)2.86s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)540msTiempo de respuesta (máximo)649msTiempo de respuesta (total)1.62s
General Intelligence: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Instructions following: 4.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)815msTiempo de respuesta (máximo)973msTiempo de respuesta (total)1.63s
Puzzle Solving: 6.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.37sTiempo de respuesta (máximo)2.23sTiempo de respuesta (total)4.12s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)3.54sTiempo de respuesta (total)3.54s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)42.13sTiempo de respuesta (total)107.16s…
Pruebas totales: 16Pruebas incorrectas: 11Tasa de aciertos por intento: 39.6%Pruebas inestables: 3…Tokens de salida: 2,000Tokens de razonamiento: 0Tiempo de respuesta: promedio 11.91s · total 107.16s · máximo 42.13s
Respuesta incorrecta: 11
Anti-AI Tricks: 2.7Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)11.38sTiempo de respuesta (máximo)11.38sTiempo de respuesta (total)11.38s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)19.16sTiempo de respuesta (máximo)19.16sTiempo de respuesta (total)19.16s
Data parsing and extraction: 5.4Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)42.13sTiempo de respuesta (máximo)42.13sTiempo de respuesta (total)42.13s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)4.38sTiempo de respuesta (máximo)4.38sTiempo de respuesta (total)4.38s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)4.00sTiempo de respuesta (máximo)4.00sTiempo de respuesta (total)4.00s
Instructions following: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.67sTiempo de respuesta (máximo)2.67sTiempo de respuesta (total)2.67s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)4.73sTiempo de respuesta (máximo)7.81sTiempo de respuesta (total)9.45s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)13.99sTiempo de respuesta (máximo)13.99sTiempo de respuesta (total)13.99s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 4No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)65.09sTiempo de respuesta (máximo)262.83sTiempo de respuesta (total)846.14s…
Pruebas totales: 16Pruebas incorrectas: 6Tasa de aciertos por intento: 68.8%Pruebas inestables: 2…Tokens de salida: 1,965Tokens de razonamiento: 58,456Tiempo de respuesta: promedio 65.09s · total 846.14s · máximo 262.83s
Tiempo agotado: 4No siguió las instrucciones: 1Respuesta incorrecta: 1
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Tiempo de respuesta (promedio)98.99sTiempo de respuesta (máximo)182.10sTiempo de respuesta (total)296.96s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)262.83sTiempo de respuesta (máximo)262.83sTiempo de respuesta (total)262.83s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)24.27sTiempo de respuesta (máximo)27.52sTiempo de respuesta (total)48.54s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 3Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
General Intelligence: 6.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)36.65sTiempo de respuesta (máximo)36.65sTiempo de respuesta (total)36.65s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)17.47sTiempo de respuesta (máximo)19.46sTiempo de respuesta (total)34.93s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)25.85sTiempo de respuesta (máximo)32.95sTiempo de respuesta (total)77.55s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)88.68sTiempo de respuesta (máximo)88.68sTiempo de respuesta (total)88.68s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.90sTiempo de respuesta (máximo)5.51sTiempo de respuesta (total)17.14s…
Pruebas totales: 16Pruebas incorrectas: 13Tasa de aciertos por intento: 25.0%Pruebas inestables: 2…Tokens de salida: 1,148Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.90s · total 17.14s · máximo 5.51s
Respuesta incorrecta: 11No siguió las instrucciones: 2
Anti-AI Tricks: 1.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.73sTiempo de respuesta (máximo)1.73sTiempo de respuesta (total)1.73s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)943msTiempo de respuesta (máximo)943msTiempo de respuesta (total)943ms
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)1.06s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.08sTiempo de respuesta (máximo)1.08sTiempo de respuesta (total)1.08s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)923msTiempo de respuesta (máximo)923msTiempo de respuesta (total)923ms
Puzzle Solving: 1.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.28sTiempo de respuesta (máximo)1.36sTiempo de respuesta (total)2.56s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)5.51sTiempo de respuesta (máximo)5.51sTiempo de respuesta (total)5.51s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8No siguió las instrucciones: 2Tiempo de respuesta (promedio)4.10sTiempo de respuesta (máximo)47.43sTiempo de respuesta (total)65.62s…
Pruebas totales: 16Pruebas incorrectas: 10Tasa de aciertos por intento: 50.0%Pruebas inestables: 3…Tokens de salida: 3,756Tokens de razonamiento: 0Tiempo de respuesta: promedio 4.10s · total 65.62s · máximo 47.43s
Respuesta incorrecta: 8No siguió las instrucciones: 2
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.76sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)5.27s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)47.43sTiempo de respuesta (máximo)47.43sTiempo de respuesta (total)47.43s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.42sTiempo de respuesta (total)2.33s
Domain specific: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)485msTiempo de respuesta (máximo)549msTiempo de respuesta (total)1.45s
General Intelligence: 6.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.19sTiempo de respuesta (máximo)1.19sTiempo de respuesta (total)1.19s
Instructions following: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)809msTiempo de respuesta (máximo)983msTiempo de respuesta (total)1.62s
Puzzle Solving: 1.7Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.34sTiempo de respuesta (máximo)2.25sTiempo de respuesta (total)4.03s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.30sTiempo de respuesta (máximo)2.30sTiempo de respuesta (total)2.30s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8No siguió las instrucciones: 5Tiempo de respuesta (promedio)12.53sTiempo de respuesta (máximo)81.80sTiempo de respuesta (total)125.32s…
Pruebas totales: 16Pruebas incorrectas: 13Tasa de aciertos por intento: 27.1%Pruebas inestables: 2…Tokens de salida: 2,935Tokens de razonamiento: 0Tiempo de respuesta: promedio 12.53s · total 125.32s · máximo 81.80s
Respuesta incorrecta: 8No siguió las instrucciones: 5
Anti-AI Tricks: 1.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2No siguió las instrucciones: 1Tiempo de respuesta (promedio)15.28sTiempo de respuesta (máximo)15.28sTiempo de respuesta (total)15.28s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.28sTiempo de respuesta (máximo)4.28sTiempo de respuesta (total)4.28s
Data parsing and extraction: 5.4Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)81.80sTiempo de respuesta (máximo)81.80sTiempo de respuesta (total)81.80s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)638msTiempo de respuesta (máximo)638msTiempo de respuesta (total)638ms
General Intelligence: 6.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.39sTiempo de respuesta (máximo)1.39sTiempo de respuesta (total)1.39s
Instructions following: 4.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.34sTiempo de respuesta (máximo)13.67sTiempo de respuesta (total)14.68s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.30sTiempo de respuesta (máximo)3.80sTiempo de respuesta (total)4.61s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.64sTiempo de respuesta (máximo)2.64sTiempo de respuesta (total)2.64s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3No siguió las instrucciones: 1Tiempo agotado: 1Tiempo de respuesta (promedio)39.48sTiempo de respuesta (máximo)93.11sTiempo de respuesta (total)631.71s…
Pruebas totales: 16Pruebas incorrectas: 5Tasa de aciertos por intento: 79.2%Pruebas inestables: 3…Tokens de salida: 7,392Tokens de razonamiento: 39,089Tiempo de respuesta: promedio 39.48s · total 631.71s · máximo 93.11s
Respuesta incorrecta: 3No siguió las instrucciones: 1Tiempo agotado: 1
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)33.39sTiempo de respuesta (máximo)44.23sTiempo de respuesta (total)100.18s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)93.11sTiempo de respuesta (máximo)93.11sTiempo de respuesta (total)93.11s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)36.09sTiempo de respuesta (máximo)39.12sTiempo de respuesta (total)72.18s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Tiempo agotado: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)39.32sTiempo de respuesta (máximo)79.03sTiempo de respuesta (total)117.95s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)31.30sTiempo de respuesta (máximo)31.30sTiempo de respuesta (total)31.30s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)35.78sTiempo de respuesta (máximo)47.30sTiempo de respuesta (total)71.56s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)36.87sTiempo de respuesta (máximo)59.22sTiempo de respuesta (total)110.62s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)34.81sTiempo de respuesta (máximo)34.81sTiempo de respuesta (total)34.81s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 6Formato extra: 2invalid tool call: 1Tiempo de respuesta (promedio)12.86sTiempo de respuesta (máximo)115.89sTiempo de respuesta (total)205.78s…
Pruebas totales: 16Pruebas incorrectas: 9Tasa de aciertos por intento: 54.2%Pruebas inestables: 3…Tokens de salida: 7,823Tokens de razonamiento: 0Tiempo de respuesta: promedio 12.86s · total 205.78s · máximo 115.89s
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.79sTiempo de respuesta (máximo)12.26sTiempo de respuesta (total)26.38s
Combined: 8.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.invalid tool call: 1Tiempo de respuesta (promedio)115.89sTiempo de respuesta (máximo)115.89sTiempo de respuesta (total)115.89s
Data parsing and extraction: 5.4Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)9.42sTiempo de respuesta (máximo)16.20sTiempo de respuesta (total)18.84s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.61sTiempo de respuesta (máximo)1.77sTiempo de respuesta (total)4.83s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.86sTiempo de respuesta (máximo)2.86sTiempo de respuesta (total)2.86s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.52sTiempo de respuesta (máximo)1.99sTiempo de respuesta (total)3.04s
Puzzle Solving: 7.7Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.37sTiempo de respuesta (máximo)10.78sTiempo de respuesta (total)22.10s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.85sTiempo de respuesta (máximo)11.85sTiempo de respuesta (total)11.85s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7Tiempo de respuesta (promedio)4.03sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)36.30s…
Pruebas totales: 16Pruebas incorrectas: 7Tasa de aciertos por intento: 56.3%Pruebas inestables: 0…Tokens de salida: 1,548Tokens de razonamiento: 0Tiempo de respuesta: promedio 4.03s · total 36.30s · máximo 11.07s
Respuesta incorrecta: 7
Anti-AI Tricks: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.39sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)3.39s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.98sTiempo de respuesta (máximo)4.98sTiempo de respuesta (total)4.98s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)5.78sTiempo de respuesta (máximo)5.78sTiempo de respuesta (total)5.78s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)2.24sTiempo de respuesta (máximo)2.24sTiempo de respuesta (total)2.24s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.27sTiempo de respuesta (máximo)3.27sTiempo de respuesta (total)3.27s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.48sTiempo de respuesta (máximo)1.48sTiempo de respuesta (total)1.48s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.05sTiempo de respuesta (máximo)2.08sTiempo de respuesta (total)4.10s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.07sTiempo de respuesta (máximo)11.07sTiempo de respuesta (total)11.07s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 1Tiempo de respuesta (promedio)923msTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)14.78s…
Pruebas totales: 16Pruebas incorrectas: 10Tasa de aciertos por intento: 43.8%Pruebas inestables: 2…Tokens de salida: 1,270Tokens de razonamiento: 0Tiempo de respuesta: promedio 923ms · total 14.78s · máximo 4.39s
Respuesta incorrecta: 9No siguió las instrucciones: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)668msTiempo de respuesta (máximo)844msTiempo de respuesta (total)2.01s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)652msTiempo de respuesta (máximo)660msTiempo de respuesta (total)1.30s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)495msTiempo de respuesta (máximo)642msTiempo de respuesta (total)1.49s
General Intelligence: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)615msTiempo de respuesta (máximo)615msTiempo de respuesta (total)615ms
Instructions following: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)672msTiempo de respuesta (máximo)785msTiempo de respuesta (total)1.34s
Puzzle Solving: 4.7Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)576msTiempo de respuesta (máximo)700msTiempo de respuesta (total)1.73s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.91sTiempo de respuesta (máximo)1.91sTiempo de respuesta (total)1.91s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.36sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)53.84s…
Pruebas totales: 16Pruebas incorrectas: 5Tasa de aciertos por intento: 68.8%Pruebas inestables: 0…Tokens de salida: 1,611Tokens de razonamiento: 7,272Tiempo de respuesta: promedio 3.36s · total 53.84s · máximo 11.91s
Respuesta incorrecta: 4No siguió las instrucciones: 1
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.18sTiempo de respuesta (máximo)3.18sTiempo de respuesta (total)6.53s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.00sTiempo de respuesta (máximo)3.74sTiempo de respuesta (total)5.99s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.36sTiempo de respuesta (máximo)3.51sTiempo de respuesta (total)7.07s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)1.54sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)1.54s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.49sTiempo de respuesta (máximo)1.66sTiempo de respuesta (total)2.99s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.76sTiempo de respuesta (máximo)5.08sTiempo de respuesta (total)8.27s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)9.54sTiempo de respuesta (máximo)9.54sTiempo de respuesta (total)9.54s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 10Formato extra: 1No siguió las instrucciones: 1Tiempo de respuesta (promedio)11.68sTiempo de respuesta (máximo)45.14sTiempo de respuesta (total)116.76s…
Pruebas totales: 16Pruebas incorrectas: 12Tasa de aciertos por intento: 25.0%Pruebas inestables: 0…Tokens de salida: 3,026Tokens de razonamiento: 0Tiempo de respuesta: promedio 11.68s · total 116.76s · máximo 45.14s
Respuesta incorrecta: 10Formato extra: 1No siguió las instrucciones: 1
Anti-AI Tricks: 2.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Formato extra: 1No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.39sTiempo de respuesta (máximo)4.39sTiempo de respuesta (total)4.39s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)45.14sTiempo de respuesta (máximo)45.14sTiempo de respuesta (total)45.14s
Data parsing and extraction: 5.4Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.32sTiempo de respuesta (máximo)1.32sTiempo de respuesta (total)1.32s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)962msTiempo de respuesta (máximo)962msTiempo de respuesta (total)962ms
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.34sTiempo de respuesta (máximo)1.34sTiempo de respuesta (total)1.34s
Instructions following: 4.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)7.71sTiempo de respuesta (máximo)14.65sTiempo de respuesta (total)15.42s
Puzzle Solving: 1.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)22.86sTiempo de respuesta (máximo)42.58sTiempo de respuesta (total)45.73s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.47sTiempo de respuesta (máximo)2.47sTiempo de respuesta (total)2.47s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 7Tiempo de respuesta (promedio)2.65sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)26.52s…
Pruebas totales: 16Pruebas incorrectas: 7Tasa de aciertos por intento: 58.3%Pruebas inestables: 1…Tokens de salida: 2,015Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.65s · total 26.52s · máximo 6.65s
Respuesta incorrecta: 7
Anti-AI Tricks: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)2.74sTiempo de respuesta (máximo)2.74sTiempo de respuesta (total)2.74s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.65sTiempo de respuesta (máximo)6.65sTiempo de respuesta (total)6.65s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.89sTiempo de respuesta (máximo)1.89sTiempo de respuesta (total)1.89s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.17sTiempo de respuesta (máximo)1.44sTiempo de respuesta (total)2.33s
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.26sTiempo de respuesta (máximo)2.26sTiempo de respuesta (total)2.26s
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.67sTiempo de respuesta (máximo)1.67sTiempo de respuesta (total)1.67s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)2.82sTiempo de respuesta (máximo)3.52sTiempo de respuesta (total)5.65s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.33sTiempo de respuesta (máximo)3.33sTiempo de respuesta (total)3.33s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5Tiempo de respuesta (promedio)1.75sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)15.71s…
Pruebas totales: 16Pruebas incorrectas: 5Tasa de aciertos por intento: 75.0%Pruebas inestables: 2…Tokens de salida: 1,411Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.75s · total 15.71s · máximo 3.56s
Respuesta incorrecta: 5
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.59sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)1.59s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.56sTiempo de respuesta (máximo)3.56sTiempo de respuesta (total)3.56s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.41sTiempo de respuesta (máximo)1.41sTiempo de respuesta (total)1.41s
Domain specific: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)963msTiempo de respuesta (máximo)963msTiempo de respuesta (total)963ms
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)1.13s
Instructions following: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.58sTiempo de respuesta (máximo)1.58sTiempo de respuesta (total)1.58s
Puzzle Solving: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.06sTiempo de respuesta (máximo)1.06sTiempo de respuesta (total)2.12s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.35sTiempo de respuesta (máximo)3.35sTiempo de respuesta (total)3.35s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 1Tiempo de respuesta (promedio)596msTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)9.54s…
Pruebas totales: 16Pruebas incorrectas: 12Tasa de aciertos por intento: 31.3%Pruebas inestables: 2…Tokens de salida: 1,303Tokens de razonamiento: 0Tiempo de respuesta: promedio 596ms · total 9.54s · máximo 1.27s
Respuesta incorrecta: 11No siguió las instrucciones: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)466msTiempo de respuesta (máximo)716msTiempo de respuesta (total)1.40s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)606msTiempo de respuesta (máximo)606msTiempo de respuesta (total)606ms
Data parsing and extraction: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)667msTiempo de respuesta (máximo)819msTiempo de respuesta (total)1.33s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)534msTiempo de respuesta (máximo)733msTiempo de respuesta (total)1.60s
General Intelligence: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)628msTiempo de respuesta (máximo)628msTiempo de respuesta (total)628ms
Instructions following: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)551msTiempo de respuesta (máximo)622msTiempo de respuesta (total)1.10s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)533msTiempo de respuesta (máximo)637msTiempo de respuesta (total)1.60s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 4No siguió las instrucciones: 2Tiempo de respuesta (promedio)1.33sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)21.27s…
Pruebas totales: 16Pruebas incorrectas: 6Tasa de aciertos por intento: 66.7%Pruebas inestables: 1…Tokens de salida: 4,715Tokens de razonamiento: 0Tiempo de respuesta: promedio 1.33s · total 21.27s · máximo 3.39s
Respuesta incorrecta: 4No siguió las instrucciones: 2
Anti-AI Tricks: 6.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.16sTiempo de respuesta (máximo)1.47sTiempo de respuesta (total)3.49s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)3.20sTiempo de respuesta (máximo)3.20sTiempo de respuesta (total)3.20s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.22sTiempo de respuesta (máximo)1.33sTiempo de respuesta (total)2.44s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)942msTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)2.83s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)741msTiempo de respuesta (máximo)741msTiempo de respuesta (total)741ms
Instructions following: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.13sTiempo de respuesta (máximo)1.14sTiempo de respuesta (total)2.27s
Puzzle Solving: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)972msTiempo de respuesta (máximo)1.13sTiempo de respuesta (total)2.92s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.39sTiempo de respuesta (máximo)3.39sTiempo de respuesta (total)3.39s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 5No siguió las instrucciones: 4Tiempo de respuesta (promedio)16.65sTiempo de respuesta (máximo)50.92sTiempo de respuesta (total)149.88s…
Pruebas totales: 16Pruebas incorrectas: 9Tasa de aciertos por intento: 54.2%Pruebas inestables: 5…Tokens de salida: 13,210Tokens de razonamiento: 34,230Tiempo de respuesta: promedio 16.65s · total 149.88s · máximo 50.92s
Respuesta incorrecta: 5No siguió las instrucciones: 4
Anti-AI Tricks: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)19.76sTiempo de respuesta (máximo)19.76sTiempo de respuesta (total)19.76s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)31.18sTiempo de respuesta (máximo)31.18sTiempo de respuesta (total)31.18s
Data parsing and extraction: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.98sTiempo de respuesta (máximo)1.98sTiempo de respuesta (total)1.98s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)50.92sTiempo de respuesta (máximo)50.92sTiempo de respuesta (total)50.92s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)7.90sTiempo de respuesta (máximo)7.90sTiempo de respuesta (total)7.90s
Instructions following: 9.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)7.63sTiempo de respuesta (máximo)7.63sTiempo de respuesta (total)7.63s
Puzzle Solving: 1.7Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)11.80sTiempo de respuesta (máximo)12.60sTiempo de respuesta (total)23.61s
Tool Calling: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.91sTiempo de respuesta (máximo)6.91sTiempo de respuesta (total)6.91s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 11No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.07sTiempo de respuesta (máximo)7.58sTiempo de respuesta (total)18.60s…
Pruebas totales: 16Pruebas incorrectas: 12Tasa de aciertos por intento: 25.0%Pruebas inestables: 0…Tokens de salida: 1,594Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.07s · total 18.60s · máximo 7.58s
Respuesta incorrecta: 11No siguió las instrucciones: 1
Anti-AI Tricks: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.83sTiempo de respuesta (máximo)1.83sTiempo de respuesta (total)1.83s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.58sTiempo de respuesta (máximo)7.58sTiempo de respuesta (total)7.58s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Domain specific: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)637msTiempo de respuesta (máximo)637msTiempo de respuesta (total)637ms
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)909msTiempo de respuesta (máximo)909msTiempo de respuesta (total)909ms
Instructions following: 4.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.27sTiempo de respuesta (máximo)1.27sTiempo de respuesta (total)1.27s
Puzzle Solving: 2.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.30sTiempo de respuesta (máximo)1.54sTiempo de respuesta (total)2.60s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)2.51sTiempo de respuesta (máximo)2.51sTiempo de respuesta (total)2.51s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 8No siguió las instrucciones: 1Tiempo de respuesta (promedio)3.54sTiempo de respuesta (máximo)13.73sTiempo de respuesta (total)56.70s…
Pruebas totales: 16Pruebas incorrectas: 9Tasa de aciertos por intento: 45.8%Pruebas inestables: 1…Tokens de salida: 3,774Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.54s · total 56.70s · máximo 13.73s
Respuesta incorrecta: 8No siguió las instrucciones: 1
Anti-AI Tricks: 2.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)1.62sTiempo de respuesta (máximo)3.89sTiempo de respuesta (total)4.85s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)6.22sTiempo de respuesta (máximo)6.22sTiempo de respuesta (total)6.22s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)1.57sTiempo de respuesta (máximo)1.83sTiempo de respuesta (total)3.14s
Domain specific: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)905msTiempo de respuesta (máximo)1.10sTiempo de respuesta (total)2.71s
General Intelligence: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)803msTiempo de respuesta (máximo)803msTiempo de respuesta (total)803ms
Instructions following: 5.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.81sTiempo de respuesta (máximo)13.73sTiempo de respuesta (total)17.61s
Puzzle Solving: 1.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2No siguió las instrucciones: 1Tiempo de respuesta (promedio)5.90sTiempo de respuesta (máximo)12.19sTiempo de respuesta (total)17.69s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.67sTiempo de respuesta (máximo)3.67sTiempo de respuesta (total)3.67s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 2invalid tool call: 1Tiempo de respuesta (promedio)2.99sTiempo de respuesta (máximo)7.05sTiempo de respuesta (total)26.90s…
Pruebas totales: 16Pruebas incorrectas: 12Tasa de aciertos por intento: 35.4%Pruebas inestables: 3…Tokens de salida: 1,855Tokens de razonamiento: 0Tiempo de respuesta: promedio 2.99s · total 26.90s · máximo 7.05s
Respuesta incorrecta: 9No siguió las instrucciones: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)6.59sTiempo de respuesta (máximo)6.59sTiempo de respuesta (total)6.59s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.invalid tool call: 1Tiempo de respuesta (promedio)3.22sTiempo de respuesta (máximo)3.22sTiempo de respuesta (total)3.22s
Data parsing and extraction: 5.4Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)4.82sTiempo de respuesta (máximo)4.82sTiempo de respuesta (total)4.82s
Domain specific: 7.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)744msTiempo de respuesta (máximo)744msTiempo de respuesta (total)744ms
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.59sTiempo de respuesta (máximo)1.59sTiempo de respuesta (total)1.59s
Instructions following: 5.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)888msTiempo de respuesta (máximo)888msTiempo de respuesta (total)888ms
Puzzle Solving: 3.7Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 2Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.00sTiempo de respuesta (máximo)1.12sTiempo de respuesta (total)2.00s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.05sTiempo de respuesta (máximo)7.05sTiempo de respuesta (total)7.05s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9Error de API: 4No siguió las instrucciones: 2Tiempo de respuesta (promedio)811msTiempo de respuesta (máximo)2.88sTiempo de respuesta (total)11.35s…
Pruebas totales: 16Pruebas incorrectas: 15Tasa de aciertos por intento: 14.6%Pruebas inestables: 2…Tokens de salida: 1,185Tokens de razonamiento: 0Tiempo de respuesta: promedio 811ms · total 11.35s · máximo 2.88s
Respuesta incorrecta: 9Error de API: 4No siguió las instrucciones: 2
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)471msTiempo de respuesta (máximo)872msTiempo de respuesta (total)1.41s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Data parsing and extraction: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)714msTiempo de respuesta (máximo)987msTiempo de respuesta (total)1.43s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)287msTiempo de respuesta (máximo)334msTiempo de respuesta (total)860ms
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)395msTiempo de respuesta (máximo)395msTiempo de respuesta (total)395ms
Instructions following: 4.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)1.09sTiempo de respuesta (máximo)1.90sTiempo de respuesta (total)2.18s
Puzzle Solving: 3.3Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.69sTiempo de respuesta (máximo)2.88sTiempo de respuesta (total)5.08s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Error de API: 1Tiempo de respuesta (promedio)0msTiempo de respuesta (máximo)0msTiempo de respuesta (total)0ms
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 3Respuesta incorrecta: 3Tiempo de respuesta (promedio)29.10sTiempo de respuesta (máximo)170.45sTiempo de respuesta (total)290.96s…
Pruebas totales: 16Pruebas incorrectas: 6Tasa de aciertos por intento: 68.8%Pruebas inestables: 2…Tokens de salida: 71,452Tokens de razonamiento: 155,147Tiempo de respuesta: promedio 29.10s · total 290.96s · máximo 170.45s
No siguió las instrucciones: 3Respuesta incorrecta: 3
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)18.54sTiempo de respuesta (máximo)32.30sTiempo de respuesta (total)37.07s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)29.57sTiempo de respuesta (máximo)29.57sTiempo de respuesta (total)29.57s
Data parsing and extraction: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)15.01sTiempo de respuesta (máximo)15.01sTiempo de respuesta (total)15.01s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)170.45sTiempo de respuesta (máximo)170.45sTiempo de respuesta (total)170.45s
General Intelligence: 6.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)6.54sTiempo de respuesta (máximo)6.54sTiempo de respuesta (total)6.54s
Instructions following: 9.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)4.98sTiempo de respuesta (máximo)4.98sTiempo de respuesta (total)4.98s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)7.72sTiempo de respuesta (máximo)10.60sTiempo de respuesta (total)15.44s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)11.91sTiempo de respuesta (máximo)11.91sTiempo de respuesta (total)11.91s
Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 9No siguió las instrucciones: 2Tiempo de respuesta (promedio)3.15sTiempo de respuesta (máximo)8.91sTiempo de respuesta (total)50.46s…
Pruebas totales: 16Pruebas incorrectas: 11Tasa de aciertos por intento: 33.3%Pruebas inestables: 1…Tokens de salida: 1,837Tokens de razonamiento: 0Tiempo de respuesta: promedio 3.15s · total 50.46s · máximo 8.91s
Respuesta incorrecta: 9No siguió las instrucciones: 2
Anti-AI Tricks: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 3Tiempo de respuesta (promedio)3.59sTiempo de respuesta (máximo)8.17sTiempo de respuesta (total)10.78s
Combined: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 1Tiempo de respuesta (promedio)8.91sTiempo de respuesta (máximo)8.91sTiempo de respuesta (total)8.91s
Data parsing and extraction: 9.9Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)3.26sTiempo de respuesta (máximo)4.66sTiempo de respuesta (total)6.52s
Domain specific: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)877msTiempo de respuesta (máximo)894msTiempo de respuesta (total)2.63s
General Intelligence: 3.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Tiempo de respuesta (promedio)2.86sTiempo de respuesta (máximo)2.86sTiempo de respuesta (total)2.86s
Instructions following: 3.5Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No siguió las instrucciones: 1Respuesta incorrecta: 1Tiempo de respuesta (promedio)1.09sTiempo de respuesta (máximo)1.23sTiempo de respuesta (total)2.19s
Puzzle Solving: 4.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.Respuesta incorrecta: 2Tiempo de respuesta (promedio)3.30sTiempo de respuesta (máximo)4.81sTiempo de respuesta (total)9.91s
Tool Calling: 10.0Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.No hay respuestas fallidas.Tiempo de respuesta (promedio)6.67sTiempo de respuesta (máximo)6.67sTiempo de respuesta (total)6.67s