Urmărește cele mai bune modele AI SOTA cu leaderboard-ul de benchmark AI BENCHY — o modalitate simplă de a vedea ce modele conduc acum la scor, calitatea raționamentului, fiabilitate și valoare. Sortează după: Cost per rezultat ↓.
Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06Modele evaluate: 55
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)68.83sTimp de răspuns (maxim)280.52sTimp de răspuns (total)1101.32s…
Total teste: 16Teste greșite: 4Rată de trecere pe încercare: 77.1%Teste instabile: 1…Tokenuri de ieșire: 1,283Tokenuri de raționament: 1,533,310Timp de răspuns: medie 68.83s · total 1101.32s · maxim 280.52s
Răspuns greșit: 3Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)43.87sTimp de răspuns (maxim)121.88sTimp de răspuns (total)131.62s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)280.52sTimp de răspuns (maxim)280.52sTimp de răspuns (total)280.52s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.16sTimp de răspuns (maxim)8.54sTimp de răspuns (total)14.31s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)127.58sTimp de răspuns (maxim)133.93sTimp de răspuns (total)382.74s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.25sTimp de răspuns (maxim)5.25sTimp de răspuns (total)5.25s
Instructions following: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)70.07sTimp de răspuns (maxim)136.53sTimp de răspuns (total)140.14s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)46.33sTimp de răspuns (maxim)134.22sTimp de răspuns (total)139.00s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.73sTimp de răspuns (maxim)7.73sTimp de răspuns (total)7.73s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 4Răspuns greșit: 2Timp de răspuns (mediu)22.86sTimp de răspuns (maxim)83.40sTimp de răspuns (total)205.71s…
Total teste: 16Teste greșite: 6Rată de trecere pe încercare: 66.7%Teste instabile: 2…Tokenuri de ieșire: 26,254Tokenuri de raționament: 17,363Timp de răspuns: medie 22.86s · total 205.71s · maxim 83.40s
Formatare suplimentară: 4Răspuns greșit: 2
Anti-AI Tricks: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Timp de răspuns (mediu)11.88sTimp de răspuns (maxim)11.88sTimp de răspuns (total)11.88s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)76.66sTimp de răspuns (maxim)76.66sTimp de răspuns (total)76.66s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.37sTimp de răspuns (maxim)7.37sTimp de răspuns (total)7.37s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Răspuns greșit: 1Timp de răspuns (mediu)83.40sTimp de răspuns (maxim)83.40sTimp de răspuns (total)83.40s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.04sTimp de răspuns (maxim)5.04sTimp de răspuns (total)5.04s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)2.43sTimp de răspuns (total)2.43s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.60sTimp de răspuns (maxim)4.66sTimp de răspuns (total)9.20s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.73sTimp de răspuns (maxim)9.73sTimp de răspuns (total)9.73s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)11.23sTimp de răspuns (maxim)46.35sTimp de răspuns (total)89.84s…
Total teste: 16Teste greșite: 4Rată de trecere pe încercare: 77.1%Teste instabile: 1…Tokenuri de ieșire: 35,159Tokenuri de raționament: 24,687Timp de răspuns: medie 11.23s · total 89.84s · maxim 46.35s
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)4.95sTimp de răspuns (maxim)4.95sTimp de răspuns (total)4.95s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.35sTimp de răspuns (maxim)46.35sTimp de răspuns (total)46.35s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.90sTimp de răspuns (maxim)13.90sTimp de răspuns (total)13.90s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.94sTimp de răspuns (maxim)4.94sTimp de răspuns (total)4.94s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.61sTimp de răspuns (maxim)2.61sTimp de răspuns (total)2.61s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.80sTimp de răspuns (maxim)5.22sTimp de răspuns (total)9.60s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.48sTimp de răspuns (maxim)7.48sTimp de răspuns (total)7.48s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Răspuns greșit: 2Timp de răspuns (mediu)20.05sTimp de răspuns (maxim)100.41sTimp de răspuns (total)320.87s…
Total teste: 16Teste greșite: 4Rată de trecere pe încercare: 83.3%Teste instabile: 3…Tokenuri de ieșire: 1,756Tokenuri de raționament: 46,642Timp de răspuns: medie 20.05s · total 320.87s · maxim 100.41s
Nu a urmat instrucțiunile: 2Răspuns greșit: 2
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.02sTimp de răspuns (maxim)6.42sTimp de răspuns (total)15.06s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.57sTimp de răspuns (maxim)20.57sTimp de răspuns (total)20.57s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.32sTimp de răspuns (maxim)5.40sTimp de răspuns (total)10.64s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)74.27sTimp de răspuns (maxim)100.41sTimp de răspuns (total)222.80s
General Intelligence: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.92sTimp de răspuns (maxim)4.92sTimp de răspuns (total)4.92s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.11sTimp de răspuns (maxim)3.68sTimp de răspuns (total)6.22s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)9.13sTimp de răspuns (maxim)18.14sTimp de răspuns (total)27.39s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.28sTimp de răspuns (maxim)13.28sTimp de răspuns (total)13.28s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 3Timp expirat: 2invalid tool call: 1Timp de răspuns (mediu)43.03sTimp de răspuns (maxim)237.27sTimp de răspuns (total)387.25s…
Total teste: 16Teste greșite: 11Rată de trecere pe încercare: 60.4%Teste instabile: 9…Tokenuri de ieșire: 107,044Tokenuri de raționament: 206,190Timp de răspuns: medie 43.03s · total 387.25s · maxim 237.27s
Răspuns greșit: 5Nu a urmat instrucțiunile: 3Timp expirat: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)32.42sTimp de răspuns (maxim)32.42sTimp de răspuns (total)32.42s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.invalid tool call: 1Timp de răspuns (mediu)60.39sTimp de răspuns (maxim)60.39sTimp de răspuns (total)60.39s
Data parsing and extraction: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.48sTimp de răspuns (maxim)7.48sTimp de răspuns (total)7.48s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)237.27sTimp de răspuns (maxim)237.27sTimp de răspuns (total)237.27s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.63sTimp de răspuns (maxim)6.63sTimp de răspuns (total)6.63s
Instructions following: 8.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.64sTimp de răspuns (maxim)4.64sTimp de răspuns (total)4.64s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)11.54sTimp de răspuns (maxim)17.37sTimp de răspuns (total)23.08s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.35sTimp de răspuns (maxim)15.35sTimp de răspuns (total)15.35s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Răspuns greșit: 2Timp de răspuns (mediu)16.59sTimp de răspuns (maxim)100.93sTimp de răspuns (total)265.39s…
Total teste: 16Teste greșite: 4Rată de trecere pe încercare: 83.3%Teste instabile: 2…Tokenuri de ieșire: 1,764Tokenuri de raționament: 33,348Timp de răspuns: medie 16.59s · total 265.39s · maxim 100.93s
Nu a urmat instrucțiunile: 2Răspuns greșit: 2
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.69sTimp de răspuns (maxim)6.68sTimp de răspuns (total)14.06s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.56sTimp de răspuns (maxim)19.56sTimp de răspuns (total)19.56s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.07sTimp de răspuns (maxim)3.59sTimp de răspuns (total)6.15s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)64.31sTimp de răspuns (maxim)100.93sTimp de răspuns (total)192.94s
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.87sTimp de răspuns (maxim)4.87sTimp de răspuns (total)4.87s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.04sTimp de răspuns (maxim)3.44sTimp de răspuns (total)6.07s
Puzzle Solving: 9.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.12sTimp de răspuns (maxim)8.73sTimp de răspuns (total)15.37s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.37sTimp de răspuns (maxim)6.37sTimp de răspuns (total)6.37s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 4Răspuns greșit: 2Eroare API: 1Fără răspuns: 1Timp de răspuns (mediu)43.93sTimp de răspuns (maxim)106.00sTimp de răspuns (total)702.85s…
Total teste: 16Teste greșite: 8Rată de trecere pe încercare: 77.1%Teste instabile: 7…Tokenuri de ieșire: 5,495Tokenuri de raționament: 169,266Timp de răspuns: medie 43.93s · total 702.85s · maxim 106.00s
Timp expirat: 4Răspuns greșit: 2Eroare API: 1Fără răspuns: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.75sTimp de răspuns (maxim)34.96sTimp de răspuns (total)65.26s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)75.34sTimp de răspuns (maxim)75.34sTimp de răspuns (total)75.34s
Data parsing and extraction: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)59.33sTimp de răspuns (maxim)97.12sTimp de răspuns (total)118.65s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)88.34sTimp de răspuns (maxim)106.00sTimp de răspuns (total)265.01s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)30.30sTimp de răspuns (maxim)30.30sTimp de răspuns (total)30.30s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.45sTimp de răspuns (maxim)43.36sTimp de răspuns (total)48.89s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)31.58sTimp de răspuns (maxim)60.18sTimp de răspuns (total)94.75s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.65sTimp de răspuns (maxim)4.65sTimp de răspuns (total)4.65s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp expirat: 1Timp de răspuns (mediu)29.74sTimp de răspuns (maxim)119.29sTimp de răspuns (total)475.83s…
Total teste: 16Teste greșite: 4Rată de trecere pe încercare: 79.2%Teste instabile: 2…Tokenuri de ieșire: 17,292Tokenuri de raționament: 145,625Timp de răspuns: medie 29.74s · total 475.83s · maxim 119.29s
Răspuns greșit: 3Timp expirat: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.99sTimp de răspuns (maxim)11.62sTimp de răspuns (total)20.98s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)107.79sTimp de răspuns (maxim)107.79sTimp de răspuns (total)107.79s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.41sTimp de răspuns (maxim)29.79sTimp de răspuns (total)46.83s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)63.40sTimp de răspuns (maxim)119.29sTimp de răspuns (total)190.20s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)34.11sTimp de răspuns (maxim)34.11sTimp de răspuns (total)34.11s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.88sTimp de răspuns (maxim)15.44sTimp de răspuns (total)19.76s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.18sTimp de răspuns (maxim)31.99sTimp de răspuns (total)51.55s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.60sTimp de răspuns (maxim)4.60sTimp de răspuns (total)4.60s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)52.13sTimp de răspuns (maxim)163.96sTimp de răspuns (total)834.16s…
Total teste: 16Teste greșite: 4Rată de trecere pe încercare: 81.3%Teste instabile: 2…Tokenuri de ieșire: 1,658Tokenuri de raționament: 200,786Timp de răspuns: medie 52.13s · total 834.16s · maxim 163.96s
Nu a urmat instrucțiunile: 2Timp expirat: 1Răspuns greșit: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.69sTimp de răspuns (maxim)10.84sTimp de răspuns (total)29.06s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)163.96sTimp de răspuns (maxim)163.96sTimp de răspuns (total)163.96s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)30.26sTimp de răspuns (maxim)32.03sTimp de răspuns (total)60.52s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)79.53sTimp de răspuns (maxim)95.52sTimp de răspuns (total)238.59s
General Intelligence: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)101.41sTimp de răspuns (maxim)101.41sTimp de răspuns (total)101.41s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.66sTimp de răspuns (maxim)32.25sTimp de răspuns (total)39.32s
Puzzle Solving: 8.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)64.61sTimp de răspuns (maxim)123.57sTimp de răspuns (total)193.84s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.45sTimp de răspuns (maxim)7.45sTimp de răspuns (total)7.45s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)16.60sTimp de răspuns (maxim)40.61sTimp de răspuns (total)149.36s…
Total teste: 16Teste greșite: 1Rată de trecere pe încercare: 93.8%Teste instabile: 0…Tokenuri de ieșire: 1,521Tokenuri de raționament: 35,656Timp de răspuns: medie 16.60s · total 149.36s · maxim 40.61s
Răspuns greșit: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.52sTimp de răspuns (maxim)9.52sTimp de răspuns (total)9.52s
Combined: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)40.61sTimp de răspuns (maxim)40.61sTimp de răspuns (total)40.61s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.72sTimp de răspuns (maxim)7.72sTimp de răspuns (total)7.72s
Domain specific: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)32.73sTimp de răspuns (maxim)32.73sTimp de răspuns (total)32.73s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.77sTimp de răspuns (maxim)11.77sTimp de răspuns (total)11.77s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.56sTimp de răspuns (maxim)9.56sTimp de răspuns (total)9.56s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.15sTimp de răspuns (maxim)8.49sTimp de răspuns (total)14.30s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.15sTimp de răspuns (maxim)23.15sTimp de răspuns (total)23.15s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.96sTimp de răspuns (maxim)18.33sTimp de răspuns (total)95.30s…
Total teste: 16Teste greșite: 6Rată de trecere pe încercare: 70.8%Teste instabile: 3…Tokenuri de ieșire: 19,272Tokenuri de raționament: 0Timp de răspuns: medie 5.96s · total 95.30s · maxim 18.33s
Răspuns greșit: 4Nu a urmat instrucțiunile: 2
Anti-AI Tricks: 7.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.72sTimp de răspuns (maxim)7.35sTimp de răspuns (total)14.17s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.21sTimp de răspuns (maxim)2.52sTimp de răspuns (total)4.42s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)13.01sTimp de răspuns (maxim)18.33sTimp de răspuns (total)39.04s
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.99sTimp de răspuns (maxim)1.99sTimp de răspuns (total)1.99s
Instructions following: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.29sTimp de răspuns (maxim)4.18sTimp de răspuns (total)6.59s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.93sTimp de răspuns (maxim)3.05sTimp de răspuns (total)8.78s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.36sTimp de răspuns (maxim)8.36sTimp de răspuns (total)8.36s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Fără răspuns: 1Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)15.33sTimp de răspuns (maxim)77.80sTimp de răspuns (total)138.01s…
Total teste: 16Teste greșite: 6Rată de trecere pe încercare: 75.0%Teste instabile: 4…Tokenuri de ieșire: 2,220Tokenuri de raționament: 16,811Timp de răspuns: medie 15.33s · total 138.01s · maxim 77.80s
Nu a urmat instrucțiunile: 3Fără răspuns: 1Timp expirat: 1Răspuns greșit: 1
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)14.34sTimp de răspuns (maxim)14.34sTimp de răspuns (total)14.34s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.06sTimp de răspuns (maxim)14.06sTimp de răspuns (total)14.06s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.15sTimp de răspuns (maxim)3.15sTimp de răspuns (total)3.15s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)77.80sTimp de răspuns (maxim)77.80sTimp de răspuns (total)77.80s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.32sTimp de răspuns (maxim)4.32sTimp de răspuns (total)4.32s
Instructions following: 9.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.12sTimp de răspuns (maxim)3.12sTimp de răspuns (total)3.12s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.47sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.94s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)10.30sTimp de răspuns (maxim)10.30sTimp de răspuns (total)10.30s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.35sTimp de răspuns (maxim)95.48sTimp de răspuns (total)197.62s…
Total teste: 16Teste greșite: 5Rată de trecere pe încercare: 72.9%Teste instabile: 1…Tokenuri de ieșire: 1,370Tokenuri de raționament: 110,522Timp de răspuns: medie 12.35s · total 197.62s · maxim 95.48s
Răspuns greșit: 4Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 7.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.98sTimp de răspuns (maxim)15.56sTimp de răspuns (total)20.95s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.44sTimp de răspuns (maxim)28.44sTimp de răspuns (total)28.44s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.06sTimp de răspuns (maxim)5.06sTimp de răspuns (total)8.11s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)37.34sTimp de răspuns (maxim)95.48sTimp de răspuns (total)112.01s
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.86sTimp de răspuns (maxim)4.86sTimp de răspuns (total)4.86s
Instructions following: 9.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.62sTimp de răspuns (maxim)2.78sTimp de răspuns (total)5.24s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.94sTimp de răspuns (maxim)6.33sTimp de răspuns (total)11.83s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.20sTimp de răspuns (maxim)6.20sTimp de răspuns (total)6.20s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 3Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.57sTimp de răspuns (maxim)23.84sTimp de răspuns (total)50.12s…
Total teste: 16Teste greșite: 6Rată de trecere pe încercare: 66.7%Teste instabile: 1…Tokenuri de ieșire: 6,895Tokenuri de raționament: 0Timp de răspuns: medie 5.57s · total 50.12s · maxim 23.84s
Formatare suplimentară: 3Răspuns greșit: 2Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Timp de răspuns (mediu)4.83sTimp de răspuns (maxim)4.83sTimp de răspuns (total)4.83s
Combined: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.84sTimp de răspuns (maxim)23.84sTimp de răspuns (total)23.84s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.43sTimp de răspuns (maxim)3.43sTimp de răspuns (total)3.43s
Domain specific: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)3.54sTimp de răspuns (total)3.54s
General Intelligence: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.56sTimp de răspuns (maxim)2.56sTimp de răspuns (total)2.56s
Instructions following: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.96sTimp de răspuns (maxim)1.96sTimp de răspuns (total)1.96s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)2.92sTimp de răspuns (maxim)3.33sTimp de răspuns (total)5.84s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.11sTimp de răspuns (maxim)4.11sTimp de răspuns (total)4.11s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)7.03sTimp de răspuns (maxim)38.52sTimp de răspuns (total)112.51s…
Total teste: 16Teste greșite: 5Rată de trecere pe încercare: 75.0%Teste instabile: 2…Tokenuri de ieșire: 15,845Tokenuri de raționament: 0Timp de răspuns: medie 7.03s · total 112.51s · maxim 38.52s
Răspuns greșit: 4Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.97sTimp de răspuns (maxim)4.78sTimp de răspuns (total)11.90s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.12sTimp de răspuns (maxim)9.12sTimp de răspuns (total)9.12s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.05sTimp de răspuns (maxim)3.33sTimp de răspuns (total)6.10s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)17.78sTimp de răspuns (maxim)38.52sTimp de răspuns (total)53.33s
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.20sTimp de răspuns (maxim)3.20sTimp de răspuns (total)3.20s
Instructions following: 6.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.46sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.92s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.42sTimp de răspuns (maxim)5.04sTimp de răspuns (total)13.27s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.68sTimp de răspuns (maxim)4.68sTimp de răspuns (total)4.68s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Fără răspuns: 1Timp expirat: 1Timp de răspuns (mediu)69.83sTimp de răspuns (maxim)137.29sTimp de răspuns (total)628.45s…
Total teste: 16Teste greșite: 7Rată de trecere pe încercare: 72.9%Teste instabile: 5…Tokenuri de ieșire: 38,453Tokenuri de raționament: 72,496Timp de răspuns: medie 69.83s · total 628.45s · maxim 137.29s
Răspuns greșit: 3Nu a urmat instrucțiunile: 2Fără răspuns: 1Timp expirat: 1
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)85.28sTimp de răspuns (maxim)85.28sTimp de răspuns (total)85.28s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)71.37sTimp de răspuns (maxim)71.37sTimp de răspuns (total)71.37s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)49.78sTimp de răspuns (maxim)49.78sTimp de răspuns (total)49.78s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)137.29sTimp de răspuns (maxim)137.29sTimp de răspuns (total)137.29s
General Intelligence: 6.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)69.73sTimp de răspuns (maxim)69.73sTimp de răspuns (total)69.73s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)92.47sTimp de răspuns (maxim)92.47sTimp de răspuns (total)92.47s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)45.40sTimp de răspuns (maxim)82.75sTimp de răspuns (total)90.79s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.74sTimp de răspuns (maxim)31.74sTimp de răspuns (total)31.74s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.48sTimp de răspuns (maxim)2.89sTimp de răspuns (total)23.64s…
Total teste: 16Teste greșite: 10Rată de trecere pe încercare: 41.7%Teste instabile: 2…Tokenuri de ieșire: 1,819Tokenuri de raționament: 0Timp de răspuns: medie 1.48s · total 23.64s · maxim 2.89s
Răspuns greșit: 9Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.41sTimp de răspuns (maxim)2.58sTimp de răspuns (total)4.23s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.89sTimp de răspuns (maxim)2.89sTimp de răspuns (total)2.89s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.04sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.08s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.54sTimp de răspuns (total)3.22s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.78sTimp de răspuns (maxim)1.78sTimp de răspuns (total)1.78s
Instructions following: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.17sTimp de răspuns (total)2.15s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)1.52sTimp de răspuns (maxim)1.82sTimp de răspuns (total)4.56s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.75sTimp de răspuns (maxim)2.75sTimp de răspuns (total)2.75s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)7.15sTimp de răspuns (maxim)11.96sTimp de răspuns (total)64.34s…
Total teste: 16Teste greșite: 3Rată de trecere pe încercare: 81.3%Teste instabile: 0…Tokenuri de ieșire: 1,502Tokenuri de raționament: 9,706Timp de răspuns: medie 7.15s · total 64.34s · maxim 11.96s
Răspuns greșit: 3
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.75sTimp de răspuns (maxim)3.75sTimp de răspuns (total)3.75s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.37sTimp de răspuns (maxim)10.37sTimp de răspuns (total)10.37s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.84sTimp de răspuns (maxim)10.84sTimp de răspuns (total)10.84s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.01sTimp de răspuns (maxim)7.01sTimp de răspuns (total)7.01s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.34sTimp de răspuns (maxim)9.34sTimp de răspuns (total)9.34s
Instructions following: 9.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.26sTimp de răspuns (maxim)3.26sTimp de răspuns (total)3.26s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.91sTimp de răspuns (maxim)4.23sTimp de răspuns (total)7.81s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 4Răspuns greșit: 3Timp expirat: 1Timp de răspuns (mediu)25.14sTimp de răspuns (maxim)88.15sTimp de răspuns (total)402.29s…
Total teste: 16Teste greșite: 8Rată de trecere pe încercare: 58.3%Teste instabile: 2…Tokenuri de ieșire: 5,826Tokenuri de raționament: 48,768Timp de răspuns: medie 25.14s · total 402.29s · maxim 88.15s
Nu a urmat instrucțiunile: 4Răspuns greșit: 3Timp expirat: 1
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.45sTimp de răspuns (maxim)26.00sTimp de răspuns (total)49.36s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)88.15sTimp de răspuns (maxim)88.15sTimp de răspuns (total)88.15s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.58sTimp de răspuns (maxim)13.87sTimp de răspuns (total)25.16s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)44.63sTimp de răspuns (maxim)82.55sTimp de răspuns (total)133.89s
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)13.50sTimp de răspuns (maxim)13.50sTimp de răspuns (total)13.50s
Instructions following: 7.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)15.66sTimp de răspuns (maxim)21.80sTimp de răspuns (total)31.32s
Puzzle Solving: 4.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)14.09sTimp de răspuns (maxim)16.81sTimp de răspuns (total)42.28s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)18.64sTimp de răspuns (maxim)18.64sTimp de răspuns (total)18.64s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)34.45sTimp de răspuns (maxim)79.86sTimp de răspuns (total)310.09s…
Total teste: 16Teste greșite: 3Rată de trecere pe încercare: 85.4%Teste instabile: 1…Tokenuri de ieșire: 1,735Tokenuri de raționament: 77,212Timp de răspuns: medie 34.45s · total 310.09s · maxim 79.86s
Timp expirat: 2Răspuns greșit: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.37sTimp de răspuns (maxim)10.37sTimp de răspuns (total)10.37s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.85sTimp de răspuns (maxim)46.85sTimp de răspuns (total)46.85s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.91sTimp de răspuns (maxim)46.91sTimp de răspuns (total)46.91s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)17.50sTimp de răspuns (maxim)17.50sTimp de răspuns (total)17.50s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)79.86sTimp de răspuns (maxim)79.86sTimp de răspuns (total)79.86s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.93sTimp de răspuns (maxim)31.93sTimp de răspuns (total)31.93s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.57sTimp de răspuns (maxim)49.12sTimp de răspuns (total)69.13s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)7.54sTimp de răspuns (total)7.54s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 7Nu a urmat instrucțiunile: 2Fără răspuns: 2invalid tool call: 1Timp de răspuns (mediu)36.84sTimp de răspuns (maxim)174.55sTimp de răspuns (total)331.58s…
Total teste: 16Teste greșite: 12Rată de trecere pe încercare: 41.7%Teste instabile: 7…Tokenuri de ieșire: 38,682Tokenuri de raționament: 64,952Timp de răspuns: medie 36.84s · total 331.58s · maxim 174.55s
Răspuns greșit: 7Nu a urmat instrucțiunile: 2Fără răspuns: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)27.09sTimp de răspuns (maxim)27.09sTimp de răspuns (total)27.09s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.invalid tool call: 1Timp de răspuns (mediu)65.57sTimp de răspuns (maxim)65.57sTimp de răspuns (total)65.57s
Data parsing and extraction: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)1.51sTimp de răspuns (maxim)1.51sTimp de răspuns (total)1.51s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Fără răspuns: 1Timp de răspuns (mediu)174.55sTimp de răspuns (maxim)174.55sTimp de răspuns (total)174.55s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)18.14sTimp de răspuns (maxim)18.14sTimp de răspuns (total)18.14s
Instructions following: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.97sTimp de răspuns (maxim)2.97sTimp de răspuns (total)2.97s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.90sTimp de răspuns (maxim)22.33sTimp de răspuns (total)25.80s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.95sTimp de răspuns (maxim)15.95sTimp de răspuns (total)15.95s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.36sTimp de răspuns (maxim)50.16sTimp de răspuns (total)111.21s…
Total teste: 16Teste greșite: 0Rată de trecere pe încercare: 100.0%Teste instabile: 0…Tokenuri de ieșire: 1,634Tokenuri de raționament: 47,907Timp de răspuns: medie 12.36s · total 111.21s · maxim 50.16s
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.61sTimp de răspuns (maxim)5.61sTimp de răspuns (total)5.61s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)50.16sTimp de răspuns (maxim)50.16sTimp de răspuns (total)50.16s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.72sTimp de răspuns (maxim)4.72sTimp de răspuns (total)4.72s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.12sTimp de răspuns (maxim)21.12sTimp de răspuns (total)21.12s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.09sTimp de răspuns (maxim)4.09sTimp de răspuns (total)4.09s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.10sTimp de răspuns (maxim)6.10sTimp de răspuns (total)6.10s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.43sTimp de răspuns (maxim)4.68sTimp de răspuns (total)8.85s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.55sTimp de răspuns (maxim)10.55sTimp de răspuns (total)10.55s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Fără răspuns: 1Timp expirat: 1Timp de răspuns (mediu)16.16sTimp de răspuns (maxim)28.96sTimp de răspuns (total)129.26s…
Total teste: 16Teste greșite: 5Rată de trecere pe încercare: 83.3%Teste instabile: 4…Tokenuri de ieșire: 19,773Tokenuri de raționament: 36,459Timp de răspuns: medie 16.16s · total 129.26s · maxim 28.96s
Răspuns greșit: 2Nu a urmat instrucțiunile: 1Fără răspuns: 1Timp expirat: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)22.26sTimp de răspuns (maxim)22.26sTimp de răspuns (total)22.26s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.96sTimp de răspuns (maxim)28.96sTimp de răspuns (total)28.96s
Data parsing and extraction: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)8.90sTimp de răspuns (maxim)8.90sTimp de răspuns (total)8.90s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
General Intelligence: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)14.69sTimp de răspuns (maxim)14.69sTimp de răspuns (total)14.69s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.25sTimp de răspuns (maxim)7.25sTimp de răspuns (total)7.25s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.64sTimp de răspuns (maxim)16.34sTimp de răspuns (total)31.27s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.93sTimp de răspuns (maxim)15.93sTimp de răspuns (total)15.93s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 3Timp expirat: 1Timp de răspuns (mediu)47.94sTimp de răspuns (maxim)204.02sTimp de răspuns (total)431.47s…
Total teste: 16Teste greșite: 9Rată de trecere pe încercare: 60.4%Teste instabile: 6…Tokenuri de ieșire: 4,386Tokenuri de raționament: 142,080Timp de răspuns: medie 47.94s · total 431.47s · maxim 204.02s
Răspuns greșit: 5Nu a urmat instrucțiunile: 3Timp expirat: 1
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)37.73sTimp de răspuns (maxim)37.73sTimp de răspuns (total)37.73s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)65.96sTimp de răspuns (maxim)65.96sTimp de răspuns (total)65.96s
Data parsing and extraction: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)21.42sTimp de răspuns (maxim)21.42sTimp de răspuns (total)21.42s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)204.02sTimp de răspuns (maxim)204.02sTimp de răspuns (total)204.02s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)17.51sTimp de răspuns (maxim)17.51sTimp de răspuns (total)17.51s
Instructions following: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.90sTimp de răspuns (maxim)11.90sTimp de răspuns (total)11.90s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)19.81sTimp de răspuns (maxim)21.31sTimp de răspuns (total)39.63s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)33.30sTimp de răspuns (maxim)33.30sTimp de răspuns (total)33.30s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Eroare API: 1Formatare suplimentară: 1Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.97sTimp de răspuns (maxim)19.68sTimp de răspuns (total)35.60s…
Total teste: 16Teste greșite: 13Rată de trecere pe încercare: 29.2%Teste instabile: 4…Tokenuri de ieșire: 67,790Tokenuri de raționament: 0Timp de răspuns: medie 2.97s · total 35.60s · maxim 19.68s
Răspuns greșit: 10Eroare API: 1Formatare suplimentară: 1Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.36sTimp de răspuns (maxim)2.73sTimp de răspuns (total)4.07s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.87sTimp de răspuns (maxim)2.87sTimp de răspuns (total)2.87s
Data parsing and extraction: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Formatare suplimentară: 1Timp de răspuns (mediu)19.68sTimp de răspuns (maxim)19.68sTimp de răspuns (total)19.68s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)564msTimp de răspuns (maxim)564msTimp de răspuns (total)564ms
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.67sTimp de răspuns (maxim)1.67sTimp de răspuns (total)1.67s
Instructions following: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)857msTimp de răspuns (maxim)955msTimp de răspuns (total)1.71s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.38sTimp de răspuns (maxim)1.74sTimp de răspuns (total)2.75s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.28sTimp de răspuns (maxim)2.28sTimp de răspuns (total)2.28s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 3Eroare API: 1Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)70.81sTimp de răspuns (maxim)234.29sTimp de răspuns (total)1132.90s…
Total teste: 16Teste greșite: 6Rată de trecere pe încercare: 81.3%Teste instabile: 5…Tokenuri de ieșire: 1,807Tokenuri de raționament: 169,952Timp de răspuns: medie 70.81s · total 1132.90s · maxim 234.29s
Timp expirat: 3Eroare API: 1Nu a urmat instrucțiunile: 1Răspuns greșit: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)71.35sTimp de răspuns (maxim)168.31sTimp de răspuns (total)214.06s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.78sTimp de răspuns (maxim)17.78sTimp de răspuns (total)17.78s
Data parsing and extraction: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)56.99sTimp de răspuns (maxim)80.14sTimp de răspuns (total)113.98s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)146.50sTimp de răspuns (maxim)234.29sTimp de răspuns (total)439.49s
General Intelligence: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)40.05sTimp de răspuns (maxim)40.05sTimp de răspuns (total)40.05s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)63.49sTimp de răspuns (maxim)111.61sTimp de răspuns (total)126.98s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Timp de răspuns (mediu)56.74sTimp de răspuns (maxim)115.01sTimp de răspuns (total)170.23s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.33sTimp de răspuns (maxim)10.33sTimp de răspuns (total)10.33s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)2.36sTimp de răspuns (maxim)14.63sTimp de răspuns (total)35.39s…
Total teste: 16Teste greșite: 9Rată de trecere pe încercare: 54.2%Teste instabile: 3…Tokenuri de ieșire: 3,708Tokenuri de raționament: 45,921Timp de răspuns: medie 2.36s · total 35.39s · maxim 14.63s
Răspuns greșit: 5Nu a urmat instrucțiunile: 4
Anti-AI Tricks: 7.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)2.46sTimp de răspuns (total)3.89s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.28sTimp de răspuns (maxim)3.28sTimp de răspuns (total)3.28s
Data parsing and extraction: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.11sTimp de răspuns (maxim)1.47sTimp de răspuns (total)2.21s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.48sTimp de răspuns (maxim)14.63sTimp de răspuns (total)19.43s
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)821msTimp de răspuns (maxim)821msTimp de răspuns (total)821ms
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.07sTimp de răspuns (total)1.07s
Puzzle Solving: 1.7Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Răspuns greșit: 1Timp de răspuns (mediu)934msTimp de răspuns (maxim)1.18sTimp de răspuns (total)2.80s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.89sTimp de răspuns (maxim)1.89sTimp de răspuns (total)1.89s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)14.72sTimp de răspuns (total)97.74s…
Total teste: 16Teste greșite: 3Rată de trecere pe încercare: 83.3%Teste instabile: 1…Tokenuri de ieșire: 1,586Tokenuri de raționament: 19,950Timp de răspuns: medie 6.11s · total 97.74s · maxim 14.72s
Răspuns greșit: 3
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.50sTimp de răspuns (maxim)4.31sTimp de răspuns (total)10.49s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.27sTimp de răspuns (maxim)3.27sTimp de răspuns (total)3.27s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.40sTimp de răspuns (maxim)14.72sTimp de răspuns (total)18.80s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)8.05sTimp de răspuns (maxim)14.40sTimp de răspuns (total)24.15s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.68sTimp de răspuns (maxim)3.68sTimp de răspuns (total)3.68s
Instructions following: 9.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.02sTimp de răspuns (maxim)7.35sTimp de răspuns (total)14.03s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)10.27sTimp de răspuns (total)18.32s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.99sTimp de răspuns (maxim)4.99sTimp de răspuns (total)4.99s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 2Fără răspuns: 1Timp expirat: 1Timp de răspuns (mediu)26.35sTimp de răspuns (maxim)121.79sTimp de răspuns (total)237.11s…
Total teste: 16Teste greșite: 7Rată de trecere pe încercare: 66.7%Teste instabile: 4…Tokenuri de ieșire: 1,183Tokenuri de raționament: 83,875Timp de răspuns: medie 26.35s · total 237.11s · maxim 121.79s
Nu a urmat instrucțiunile: 3Răspuns greșit: 2Fără răspuns: 1Timp expirat: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.65sTimp de răspuns (maxim)5.65sTimp de răspuns (total)5.65s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.64sTimp de răspuns (maxim)37.64sTimp de răspuns (total)37.64s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.63sTimp de răspuns (maxim)6.63sTimp de răspuns (total)6.63s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)121.79sTimp de răspuns (maxim)121.79sTimp de răspuns (total)121.79s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.25sTimp de răspuns (maxim)16.25sTimp de răspuns (total)16.25s
Instructions following: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.30sTimp de răspuns (maxim)5.30sTimp de răspuns (total)5.30s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)8.08sTimp de răspuns (maxim)8.38sTimp de răspuns (total)16.17s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)27.71sTimp de răspuns (maxim)27.71sTimp de răspuns (total)27.71s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.83sTimp de răspuns (maxim)14.93sTimp de răspuns (total)61.25s…
Total teste: 16Teste greșite: 5Rată de trecere pe încercare: 68.8%Teste instabile: 0…Tokenuri de ieșire: 1,731Tokenuri de raționament: 25,821Timp de răspuns: medie 3.83s · total 61.25s · maxim 14.93s
Răspuns greșit: 4Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.53sTimp de răspuns (maxim)3.89sTimp de răspuns (total)7.58s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.93sTimp de răspuns (maxim)14.93sTimp de răspuns (total)14.93s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.29sTimp de răspuns (maxim)2.31sTimp de răspuns (total)4.59s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)4.21sTimp de răspuns (maxim)5.86sTimp de răspuns (total)12.62s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.16sTimp de răspuns (total)3.16s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)1.93sTimp de răspuns (total)3.82s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.58sTimp de răspuns (maxim)4.41sTimp de răspuns (total)10.75s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.80sTimp de răspuns (maxim)3.80sTimp de răspuns (total)3.80s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.72sTimp de răspuns (maxim)46.00sTimp de răspuns (total)59.46s…
Total teste: 16Teste greșite: 10Rată de trecere pe încercare: 39.6%Teste instabile: 1…Tokenuri de ieșire: 2,679Tokenuri de raționament: 0Timp de răspuns: medie 3.72s · total 59.46s · maxim 46.00s
Răspuns greșit: 9Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)927msTimp de răspuns (maxim)1.38sTimp de răspuns (total)2.78s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)46.00sTimp de răspuns (maxim)46.00sTimp de răspuns (total)46.00s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.01sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.02s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)465msTimp de răspuns (maxim)492msTimp de răspuns (total)1.39s
General Intelligence: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.12sTimp de răspuns (maxim)1.12sTimp de răspuns (total)1.12s
Instructions following: 4.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)585msTimp de răspuns (maxim)715msTimp de răspuns (total)1.17s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)982msTimp de răspuns (maxim)1.36sTimp de răspuns (total)2.95s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.04sTimp de răspuns (maxim)2.04sTimp de răspuns (total)2.04s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Eroare API: 1Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)25.33sTimp de răspuns (maxim)96.01sTimp de răspuns (total)253.33s…
Total teste: 16Teste greșite: 5Rată de trecere pe încercare: 72.9%Teste instabile: 1…Tokenuri de ieșire: 11,613Tokenuri de raționament: 106,714Timp de răspuns: medie 25.33s · total 253.33s · maxim 96.01s
Răspuns greșit: 3Eroare API: 1Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 9.7Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.79sTimp de răspuns (maxim)20.83sTimp de răspuns (total)33.57s
Combined: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)75.68sTimp de răspuns (maxim)75.68sTimp de răspuns (total)75.68s
Data parsing and extraction: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)96.01sTimp de răspuns (maxim)96.01sTimp de răspuns (total)96.01s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.20sTimp de răspuns (maxim)4.20sTimp de răspuns (total)4.20s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)7.37sTimp de răspuns (total)8.55s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.77sTimp de răspuns (maxim)5.26sTimp de răspuns (total)7.55s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)27.78sTimp de răspuns (maxim)27.78sTimp de răspuns (total)27.78s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.75sTimp de răspuns (maxim)9.39sTimp de răspuns (total)28.05s…
Total teste: 16Teste greșite: 11Rată de trecere pe încercare: 37.5%Teste instabile: 2…Tokenuri de ieșire: 3,161Tokenuri de raționament: 0Timp de răspuns: medie 1.75s · total 28.05s · maxim 9.39s
Răspuns greșit: 9Nu a urmat instrucțiunile: 2
Anti-AI Tricks: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)796msTimp de răspuns (maxim)1.34sTimp de răspuns (total)2.39s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.39sTimp de răspuns (maxim)9.39sTimp de răspuns (total)9.39s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.43sTimp de răspuns (maxim)1.45sTimp de răspuns (total)2.86s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)540msTimp de răspuns (maxim)649msTimp de răspuns (total)1.62s
General Intelligence: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.51sTimp de răspuns (total)2.51s
Instructions following: 4.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)815msTimp de răspuns (maxim)973msTimp de răspuns (total)1.63s
Puzzle Solving: 6.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)1.37sTimp de răspuns (maxim)2.23sTimp de răspuns (total)4.12s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)3.54sTimp de răspuns (total)3.54s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 11Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)42.13sTimp de răspuns (total)107.16s…
Total teste: 16Teste greșite: 11Rată de trecere pe încercare: 39.6%Teste instabile: 3…Tokenuri de ieșire: 2,000Tokenuri de raționament: 0Timp de răspuns: medie 11.91s · total 107.16s · maxim 42.13s
Răspuns greșit: 11
Anti-AI Tricks: 2.7Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)11.38sTimp de răspuns (maxim)11.38sTimp de răspuns (total)11.38s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)19.16sTimp de răspuns (maxim)19.16sTimp de răspuns (total)19.16s
Data parsing and extraction: 5.4Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)42.13sTimp de răspuns (maxim)42.13sTimp de răspuns (total)42.13s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)4.38sTimp de răspuns (maxim)4.38sTimp de răspuns (total)4.38s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.00sTimp de răspuns (maxim)4.00sTimp de răspuns (total)4.00s
Instructions following: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.67sTimp de răspuns (maxim)2.67sTimp de răspuns (total)2.67s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)4.73sTimp de răspuns (maxim)7.81sTimp de răspuns (total)9.45s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.99sTimp de răspuns (maxim)13.99sTimp de răspuns (total)13.99s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 4Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)65.09sTimp de răspuns (maxim)262.83sTimp de răspuns (total)846.14s…
Total teste: 16Teste greșite: 6Rată de trecere pe încercare: 68.8%Teste instabile: 2…Tokenuri de ieșire: 1,965Tokenuri de raționament: 58,456Timp de răspuns: medie 65.09s · total 846.14s · maxim 262.83s
Timp expirat: 4Nu a urmat instrucțiunile: 1Răspuns greșit: 1
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)98.99sTimp de răspuns (maxim)182.10sTimp de răspuns (total)296.96s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)262.83sTimp de răspuns (maxim)262.83sTimp de răspuns (total)262.83s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.27sTimp de răspuns (maxim)27.52sTimp de răspuns (total)48.54s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 3Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
General Intelligence: 6.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)36.65sTimp de răspuns (maxim)36.65sTimp de răspuns (total)36.65s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.47sTimp de răspuns (maxim)19.46sTimp de răspuns (total)34.93s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)25.85sTimp de răspuns (maxim)32.95sTimp de răspuns (total)77.55s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)88.68sTimp de răspuns (maxim)88.68sTimp de răspuns (total)88.68s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 11Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.90sTimp de răspuns (maxim)5.51sTimp de răspuns (total)17.14s…
Total teste: 16Teste greșite: 13Rată de trecere pe încercare: 25.0%Teste instabile: 2…Tokenuri de ieșire: 1,148Tokenuri de raționament: 0Timp de răspuns: medie 1.90s · total 17.14s · maxim 5.51s
Răspuns greșit: 11Nu a urmat instrucțiunile: 2
Anti-AI Tricks: 1.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.73sTimp de răspuns (maxim)1.73sTimp de răspuns (total)1.73s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.33sTimp de răspuns (maxim)3.33sTimp de răspuns (total)3.33s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)943msTimp de răspuns (maxim)943msTimp de răspuns (total)943ms
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.06sTimp de răspuns (total)1.06s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.08sTimp de răspuns (maxim)1.08sTimp de răspuns (total)1.08s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)923msTimp de răspuns (maxim)923msTimp de răspuns (total)923ms
Puzzle Solving: 1.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.28sTimp de răspuns (maxim)1.36sTimp de răspuns (total)2.56s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.51sTimp de răspuns (maxim)5.51sTimp de răspuns (total)5.51s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 8Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)4.10sTimp de răspuns (maxim)47.43sTimp de răspuns (total)65.62s…
Total teste: 16Teste greșite: 10Rată de trecere pe încercare: 50.0%Teste instabile: 3…Tokenuri de ieșire: 3,756Tokenuri de raționament: 0Timp de răspuns: medie 4.10s · total 65.62s · maxim 47.43s
Răspuns greșit: 8Nu a urmat instrucțiunile: 2
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.76sTimp de răspuns (maxim)4.39sTimp de răspuns (total)5.27s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)47.43sTimp de răspuns (maxim)47.43sTimp de răspuns (total)47.43s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.16sTimp de răspuns (maxim)1.42sTimp de răspuns (total)2.33s
Domain specific: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)485msTimp de răspuns (maxim)549msTimp de răspuns (total)1.45s
General Intelligence: 6.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.19sTimp de răspuns (total)1.19s
Instructions following: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)809msTimp de răspuns (maxim)983msTimp de răspuns (total)1.62s
Puzzle Solving: 1.7Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.34sTimp de răspuns (maxim)2.25sTimp de răspuns (total)4.03s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.30sTimp de răspuns (maxim)2.30sTimp de răspuns (total)2.30s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 8Nu a urmat instrucțiunile: 5Timp de răspuns (mediu)12.53sTimp de răspuns (maxim)81.80sTimp de răspuns (total)125.32s…
Total teste: 16Teste greșite: 13Rată de trecere pe încercare: 27.1%Teste instabile: 2…Tokenuri de ieșire: 2,935Tokenuri de raționament: 0Timp de răspuns: medie 12.53s · total 125.32s · maxim 81.80s
Răspuns greșit: 8Nu a urmat instrucțiunile: 5
Anti-AI Tricks: 1.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)15.28sTimp de răspuns (maxim)15.28sTimp de răspuns (total)15.28s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)4.28sTimp de răspuns (total)4.28s
Data parsing and extraction: 5.4Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)81.80sTimp de răspuns (maxim)81.80sTimp de răspuns (total)81.80s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)638msTimp de răspuns (maxim)638msTimp de răspuns (total)638ms
General Intelligence: 6.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.39sTimp de răspuns (total)1.39s
Instructions following: 4.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)7.34sTimp de răspuns (maxim)13.67sTimp de răspuns (total)14.68s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Răspuns greșit: 1Timp de răspuns (mediu)2.30sTimp de răspuns (maxim)3.80sTimp de răspuns (total)4.61s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.64sTimp de răspuns (maxim)2.64sTimp de răspuns (total)2.64s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp expirat: 1Timp de răspuns (mediu)39.48sTimp de răspuns (maxim)93.11sTimp de răspuns (total)631.71s…
Total teste: 16Teste greșite: 5Rată de trecere pe încercare: 79.2%Teste instabile: 3…Tokenuri de ieșire: 7,392Tokenuri de raționament: 39,089Timp de răspuns: medie 39.48s · total 631.71s · maxim 93.11s
Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp expirat: 1
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)33.39sTimp de răspuns (maxim)44.23sTimp de răspuns (total)100.18s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)93.11sTimp de răspuns (maxim)93.11sTimp de răspuns (total)93.11s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)36.09sTimp de răspuns (maxim)39.12sTimp de răspuns (total)72.18s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)39.32sTimp de răspuns (maxim)79.03sTimp de răspuns (total)117.95s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)31.30sTimp de răspuns (maxim)31.30sTimp de răspuns (total)31.30s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)35.78sTimp de răspuns (maxim)47.30sTimp de răspuns (total)71.56s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)36.87sTimp de răspuns (maxim)59.22sTimp de răspuns (total)110.62s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.81sTimp de răspuns (maxim)34.81sTimp de răspuns (total)34.81s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 6Formatare suplimentară: 2invalid tool call: 1Timp de răspuns (mediu)12.86sTimp de răspuns (maxim)115.89sTimp de răspuns (total)205.78s…
Total teste: 16Teste greșite: 9Rată de trecere pe încercare: 54.2%Teste instabile: 3…Tokenuri de ieșire: 7,823Tokenuri de raționament: 0Timp de răspuns: medie 12.86s · total 205.78s · maxim 115.89s
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Răspuns greșit: 1Timp de răspuns (mediu)8.79sTimp de răspuns (maxim)12.26sTimp de răspuns (total)26.38s
Combined: 8.0Un test este considerat trecut complet doar dacă toate rulările lui trec.invalid tool call: 1Timp de răspuns (mediu)115.89sTimp de răspuns (maxim)115.89sTimp de răspuns (total)115.89s
Data parsing and extraction: 5.4Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.42sTimp de răspuns (maxim)16.20sTimp de răspuns (total)18.84s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.61sTimp de răspuns (maxim)1.77sTimp de răspuns (total)4.83s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.52sTimp de răspuns (maxim)1.99sTimp de răspuns (total)3.04s
Puzzle Solving: 7.7Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.37sTimp de răspuns (maxim)10.78sTimp de răspuns (total)22.10s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.85sTimp de răspuns (maxim)11.85sTimp de răspuns (total)11.85s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 7Timp de răspuns (mediu)4.03sTimp de răspuns (maxim)11.07sTimp de răspuns (total)36.30s…
Total teste: 16Teste greșite: 7Rată de trecere pe încercare: 56.3%Teste instabile: 0…Tokenuri de ieșire: 1,548Tokenuri de raționament: 0Timp de răspuns: medie 4.03s · total 36.30s · maxim 11.07s
Răspuns greșit: 7
Anti-AI Tricks: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)3.39sTimp de răspuns (maxim)3.39sTimp de răspuns (total)3.39s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.98sTimp de răspuns (maxim)4.98sTimp de răspuns (total)4.98s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.78sTimp de răspuns (maxim)5.78sTimp de răspuns (total)5.78s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)2.24sTimp de răspuns (maxim)2.24sTimp de răspuns (total)2.24s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.27sTimp de răspuns (maxim)3.27sTimp de răspuns (total)3.27s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.48sTimp de răspuns (maxim)1.48sTimp de răspuns (total)1.48s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.05sTimp de răspuns (maxim)2.08sTimp de răspuns (total)4.10s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.07sTimp de răspuns (maxim)11.07sTimp de răspuns (total)11.07s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)923msTimp de răspuns (maxim)4.39sTimp de răspuns (total)14.78s…
Total teste: 16Teste greșite: 10Rată de trecere pe încercare: 43.8%Teste instabile: 2…Tokenuri de ieșire: 1,270Tokenuri de raționament: 0Timp de răspuns: medie 923ms · total 14.78s · maxim 4.39s
Răspuns greșit: 9Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)668msTimp de răspuns (maxim)844msTimp de răspuns (total)2.01s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.39sTimp de răspuns (maxim)4.39sTimp de răspuns (total)4.39s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)652msTimp de răspuns (maxim)660msTimp de răspuns (total)1.30s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)495msTimp de răspuns (maxim)642msTimp de răspuns (total)1.49s
General Intelligence: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)615msTimp de răspuns (maxim)615msTimp de răspuns (total)615ms
Instructions following: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)672msTimp de răspuns (maxim)785msTimp de răspuns (total)1.34s
Puzzle Solving: 4.7Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)576msTimp de răspuns (maxim)700msTimp de răspuns (total)1.73s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)1.91sTimp de răspuns (total)1.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.36sTimp de răspuns (maxim)11.91sTimp de răspuns (total)53.84s…
Total teste: 16Teste greșite: 5Rată de trecere pe încercare: 68.8%Teste instabile: 0…Tokenuri de ieșire: 1,611Tokenuri de raționament: 7,272Timp de răspuns: medie 3.36s · total 53.84s · maxim 11.91s
Răspuns greșit: 4Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.18sTimp de răspuns (maxim)3.18sTimp de răspuns (total)6.53s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)11.91sTimp de răspuns (total)11.91s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.00sTimp de răspuns (maxim)3.74sTimp de răspuns (total)5.99s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.36sTimp de răspuns (maxim)3.51sTimp de răspuns (total)7.07s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.54sTimp de răspuns (maxim)1.54sTimp de răspuns (total)1.54s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.49sTimp de răspuns (maxim)1.66sTimp de răspuns (total)2.99s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.76sTimp de răspuns (maxim)5.08sTimp de răspuns (total)8.27s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.54sTimp de răspuns (maxim)9.54sTimp de răspuns (total)9.54s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Formatare suplimentară: 1Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.68sTimp de răspuns (maxim)45.14sTimp de răspuns (total)116.76s…
Total teste: 16Teste greșite: 12Rată de trecere pe încercare: 25.0%Teste instabile: 0…Tokenuri de ieșire: 3,026Tokenuri de raționament: 0Timp de răspuns: medie 11.68s · total 116.76s · maxim 45.14s
Răspuns greșit: 10Formatare suplimentară: 1Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 2.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)4.39sTimp de răspuns (maxim)4.39sTimp de răspuns (total)4.39s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)45.14sTimp de răspuns (maxim)45.14sTimp de răspuns (total)45.14s
Data parsing and extraction: 5.4Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.32sTimp de răspuns (maxim)1.32sTimp de răspuns (total)1.32s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)962msTimp de răspuns (maxim)962msTimp de răspuns (total)962ms
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.34sTimp de răspuns (maxim)1.34sTimp de răspuns (total)1.34s
Instructions following: 4.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.71sTimp de răspuns (maxim)14.65sTimp de răspuns (total)15.42s
Puzzle Solving: 1.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)22.86sTimp de răspuns (maxim)42.58sTimp de răspuns (total)45.73s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.47sTimp de răspuns (maxim)2.47sTimp de răspuns (total)2.47s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 7Timp de răspuns (mediu)2.65sTimp de răspuns (maxim)6.65sTimp de răspuns (total)26.52s…
Total teste: 16Teste greșite: 7Rată de trecere pe încercare: 58.3%Teste instabile: 1…Tokenuri de ieșire: 2,015Tokenuri de raționament: 0Timp de răspuns: medie 2.65s · total 26.52s · maxim 6.65s
Răspuns greșit: 7
Anti-AI Tricks: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.74sTimp de răspuns (maxim)2.74sTimp de răspuns (total)2.74s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.65sTimp de răspuns (maxim)6.65sTimp de răspuns (total)6.65s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.89sTimp de răspuns (maxim)1.89sTimp de răspuns (total)1.89s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.17sTimp de răspuns (maxim)1.44sTimp de răspuns (total)2.33s
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.26sTimp de răspuns (maxim)2.26sTimp de răspuns (total)2.26s
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.67sTimp de răspuns (maxim)1.67sTimp de răspuns (total)1.67s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.82sTimp de răspuns (maxim)3.52sTimp de răspuns (total)5.65s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.33sTimp de răspuns (maxim)3.33sTimp de răspuns (total)3.33s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Timp de răspuns (mediu)1.75sTimp de răspuns (maxim)3.56sTimp de răspuns (total)15.71s…
Total teste: 16Teste greșite: 5Rată de trecere pe încercare: 75.0%Teste instabile: 2…Tokenuri de ieșire: 1,411Tokenuri de raționament: 0Timp de răspuns: medie 1.75s · total 15.71s · maxim 3.56s
Răspuns greșit: 5
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.59sTimp de răspuns (maxim)1.59sTimp de răspuns (total)1.59s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.56sTimp de răspuns (maxim)3.56sTimp de răspuns (total)3.56s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.41sTimp de răspuns (maxim)1.41sTimp de răspuns (total)1.41s
Domain specific: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)963msTimp de răspuns (maxim)963msTimp de răspuns (total)963ms
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.13sTimp de răspuns (maxim)1.13sTimp de răspuns (total)1.13s
Instructions following: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.58sTimp de răspuns (maxim)1.58sTimp de răspuns (total)1.58s
Puzzle Solving: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.12s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.35sTimp de răspuns (maxim)3.35sTimp de răspuns (total)3.35s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 11Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)596msTimp de răspuns (maxim)1.27sTimp de răspuns (total)9.54s…
Total teste: 16Teste greșite: 12Rată de trecere pe încercare: 31.3%Teste instabile: 2…Tokenuri de ieșire: 1,303Tokenuri de raționament: 0Timp de răspuns: medie 596ms · total 9.54s · maxim 1.27s
Răspuns greșit: 11Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)466msTimp de răspuns (maxim)716msTimp de răspuns (total)1.40s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)606msTimp de răspuns (maxim)606msTimp de răspuns (total)606ms
Data parsing and extraction: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)667msTimp de răspuns (maxim)819msTimp de răspuns (total)1.33s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)534msTimp de răspuns (maxim)733msTimp de răspuns (total)1.60s
General Intelligence: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)628msTimp de răspuns (maxim)628msTimp de răspuns (total)628ms
Instructions following: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)551msTimp de răspuns (maxim)622msTimp de răspuns (total)1.10s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)533msTimp de răspuns (maxim)637msTimp de răspuns (total)1.60s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.33sTimp de răspuns (maxim)3.39sTimp de răspuns (total)21.27s…
Total teste: 16Teste greșite: 6Rată de trecere pe încercare: 66.7%Teste instabile: 1…Tokenuri de ieșire: 4,715Tokenuri de raționament: 0Timp de răspuns: medie 1.33s · total 21.27s · maxim 3.39s
Răspuns greșit: 4Nu a urmat instrucțiunile: 2
Anti-AI Tricks: 6.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)1.16sTimp de răspuns (maxim)1.47sTimp de răspuns (total)3.49s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.20sTimp de răspuns (maxim)3.20sTimp de răspuns (total)3.20s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.22sTimp de răspuns (maxim)1.33sTimp de răspuns (total)2.44s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)942msTimp de răspuns (maxim)1.12sTimp de răspuns (total)2.83s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)741msTimp de răspuns (maxim)741msTimp de răspuns (total)741ms
Instructions following: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.13sTimp de răspuns (maxim)1.14sTimp de răspuns (total)2.27s
Puzzle Solving: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)972msTimp de răspuns (maxim)1.13sTimp de răspuns (total)2.92s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.39sTimp de răspuns (maxim)3.39sTimp de răspuns (total)3.39s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)16.65sTimp de răspuns (maxim)50.92sTimp de răspuns (total)149.88s…
Total teste: 16Teste greșite: 9Rată de trecere pe încercare: 54.2%Teste instabile: 5…Tokenuri de ieșire: 13,210Tokenuri de raționament: 34,230Timp de răspuns: medie 16.65s · total 149.88s · maxim 50.92s
Răspuns greșit: 5Nu a urmat instrucțiunile: 4
Anti-AI Tricks: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)19.76sTimp de răspuns (maxim)19.76sTimp de răspuns (total)19.76s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.18sTimp de răspuns (maxim)31.18sTimp de răspuns (total)31.18s
Data parsing and extraction: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.98sTimp de răspuns (maxim)1.98sTimp de răspuns (total)1.98s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)50.92sTimp de răspuns (maxim)50.92sTimp de răspuns (total)50.92s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)7.90sTimp de răspuns (maxim)7.90sTimp de răspuns (total)7.90s
Instructions following: 9.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.63sTimp de răspuns (maxim)7.63sTimp de răspuns (total)7.63s
Puzzle Solving: 1.7Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Răspuns greșit: 1Timp de răspuns (mediu)11.80sTimp de răspuns (maxim)12.60sTimp de răspuns (total)23.61s
Tool Calling: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.91sTimp de răspuns (maxim)6.91sTimp de răspuns (total)6.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 11Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.07sTimp de răspuns (maxim)7.58sTimp de răspuns (total)18.60s…
Total teste: 16Teste greșite: 12Rată de trecere pe încercare: 25.0%Teste instabile: 0…Tokenuri de ieșire: 1,594Tokenuri de raționament: 0Timp de răspuns: medie 2.07s · total 18.60s · maxim 7.58s
Răspuns greșit: 11Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.83sTimp de răspuns (maxim)1.83sTimp de răspuns (total)1.83s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.58sTimp de răspuns (maxim)7.58sTimp de răspuns (total)7.58s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Domain specific: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)637msTimp de răspuns (maxim)637msTimp de răspuns (total)637ms
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)909msTimp de răspuns (maxim)909msTimp de răspuns (total)909ms
Instructions following: 4.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Puzzle Solving: 2.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.54sTimp de răspuns (total)2.60s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.51sTimp de răspuns (total)2.51s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 8Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)13.73sTimp de răspuns (total)56.70s…
Total teste: 16Teste greșite: 9Rată de trecere pe încercare: 45.8%Teste instabile: 1…Tokenuri de ieșire: 3,774Tokenuri de raționament: 0Timp de răspuns: medie 3.54s · total 56.70s · maxim 13.73s
Răspuns greșit: 8Nu a urmat instrucțiunile: 1
Anti-AI Tricks: 2.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.62sTimp de răspuns (maxim)3.89sTimp de răspuns (total)4.85s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.22sTimp de răspuns (maxim)6.22sTimp de răspuns (total)6.22s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.57sTimp de răspuns (maxim)1.83sTimp de răspuns (total)3.14s
Domain specific: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)905msTimp de răspuns (maxim)1.10sTimp de răspuns (total)2.71s
General Intelligence: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)803msTimp de răspuns (maxim)803msTimp de răspuns (total)803ms
Instructions following: 5.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)8.81sTimp de răspuns (maxim)13.73sTimp de răspuns (total)17.61s
Puzzle Solving: 1.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.90sTimp de răspuns (maxim)12.19sTimp de răspuns (total)17.69s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.67sTimp de răspuns (maxim)3.67sTimp de răspuns (total)3.67s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2invalid tool call: 1Timp de răspuns (mediu)2.99sTimp de răspuns (maxim)7.05sTimp de răspuns (total)26.90s…
Total teste: 16Teste greșite: 12Rată de trecere pe încercare: 35.4%Teste instabile: 3…Tokenuri de ieșire: 1,855Tokenuri de raționament: 0Timp de răspuns: medie 2.99s · total 26.90s · maxim 7.05s
Răspuns greșit: 9Nu a urmat instrucțiunile: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.59sTimp de răspuns (maxim)6.59sTimp de răspuns (total)6.59s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.invalid tool call: 1Timp de răspuns (mediu)3.22sTimp de răspuns (maxim)3.22sTimp de răspuns (total)3.22s
Data parsing and extraction: 5.4Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.82sTimp de răspuns (maxim)4.82sTimp de răspuns (total)4.82s
Domain specific: 7.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)744msTimp de răspuns (maxim)744msTimp de răspuns (total)744ms
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.59sTimp de răspuns (maxim)1.59sTimp de răspuns (total)1.59s
Instructions following: 5.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)888msTimp de răspuns (maxim)888msTimp de răspuns (total)888ms
Puzzle Solving: 3.7Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Răspuns greșit: 1Timp de răspuns (mediu)1.00sTimp de răspuns (maxim)1.12sTimp de răspuns (total)2.00s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.05sTimp de răspuns (maxim)7.05sTimp de răspuns (total)7.05s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Eroare API: 4Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)811msTimp de răspuns (maxim)2.88sTimp de răspuns (total)11.35s…
Total teste: 16Teste greșite: 15Rată de trecere pe încercare: 14.6%Teste instabile: 2…Tokenuri de ieșire: 1,185Tokenuri de raționament: 0Timp de răspuns: medie 811ms · total 11.35s · maxim 2.88s
Răspuns greșit: 9Eroare API: 4Nu a urmat instrucțiunile: 2
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)471msTimp de răspuns (maxim)872msTimp de răspuns (total)1.41s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Data parsing and extraction: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)714msTimp de răspuns (maxim)987msTimp de răspuns (total)1.43s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Răspuns greșit: 1Timp de răspuns (mediu)287msTimp de răspuns (maxim)334msTimp de răspuns (total)860ms
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)395msTimp de răspuns (maxim)395msTimp de răspuns (total)395ms
Instructions following: 4.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.09sTimp de răspuns (maxim)1.90sTimp de răspuns (total)2.18s
Puzzle Solving: 3.3Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)1.69sTimp de răspuns (maxim)2.88sTimp de răspuns (total)5.08s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 3Timp de răspuns (mediu)29.10sTimp de răspuns (maxim)170.45sTimp de răspuns (total)290.96s…
Total teste: 16Teste greșite: 6Rată de trecere pe încercare: 68.8%Teste instabile: 2…Tokenuri de ieșire: 71,452Tokenuri de raționament: 155,147Timp de răspuns: medie 29.10s · total 290.96s · maxim 170.45s
Nu a urmat instrucțiunile: 3Răspuns greșit: 3
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)18.54sTimp de răspuns (maxim)32.30sTimp de răspuns (total)37.07s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)29.57sTimp de răspuns (maxim)29.57sTimp de răspuns (total)29.57s
Data parsing and extraction: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.01sTimp de răspuns (maxim)15.01sTimp de răspuns (total)15.01s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)170.45sTimp de răspuns (maxim)170.45sTimp de răspuns (total)170.45s
General Intelligence: 6.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.54sTimp de răspuns (maxim)6.54sTimp de răspuns (total)6.54s
Instructions following: 9.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.98sTimp de răspuns (maxim)4.98sTimp de răspuns (total)4.98s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)7.72sTimp de răspuns (maxim)10.60sTimp de răspuns (total)15.44s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)11.91sTimp de răspuns (total)11.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)3.15sTimp de răspuns (maxim)8.91sTimp de răspuns (total)50.46s…
Total teste: 16Teste greșite: 11Rată de trecere pe încercare: 33.3%Teste instabile: 1…Tokenuri de ieșire: 1,837Tokenuri de raționament: 0Timp de răspuns: medie 3.15s · total 50.46s · maxim 8.91s
Răspuns greșit: 9Nu a urmat instrucțiunile: 2
Anti-AI Tricks: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)3.59sTimp de răspuns (maxim)8.17sTimp de răspuns (total)10.78s
Combined: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)8.91sTimp de răspuns (maxim)8.91sTimp de răspuns (total)8.91s
Data parsing and extraction: 9.9Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.26sTimp de răspuns (maxim)4.66sTimp de răspuns (total)6.52s
Domain specific: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)877msTimp de răspuns (maxim)894msTimp de răspuns (total)2.63s
General Intelligence: 3.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Instructions following: 3.5Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)1.09sTimp de răspuns (maxim)1.23sTimp de răspuns (total)2.19s
Puzzle Solving: 4.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)3.30sTimp de răspuns (maxim)4.81sTimp de răspuns (total)9.91s
Tool Calling: 10.0Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.67sTimp de răspuns (maxim)6.67sTimp de răspuns (total)6.67s