Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)13.94sTimp de răspuns (maxim)43.55sTimp de răspuns (total)237.01s…
Total teste: 17Teste greșite: 4Rată de trecere pe încercare: 76.5%Teste instabile: 0…Tokenuri de ieșire: 1,756Tokenuri de raționament: 77,213Timp de răspuns: medie 13.94s · total 237.01s · maxim 43.55s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.90sTimp de răspuns (maxim)19.37sTimp de răspuns (total)39.60s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.95sTimp de răspuns (maxim)34.95sTimp de răspuns (total)34.95s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.95sTimp de răspuns (maxim)15.40sTimp de răspuns (total)29.90s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)22.08sTimp de răspuns (maxim)43.55sTimp de răspuns (total)66.23s
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.05sTimp de răspuns (maxim)27.05sTimp de răspuns (total)27.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)11.67sTimp de răspuns (total)15.07s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)7.52sTimp de răspuns (total)18.34s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.87sTimp de răspuns (maxim)5.87sTimp de răspuns (total)5.87s
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 74.1%Teste instabile: 1…Tokenuri de ieșire: 1,763Tokenuri de raționament: 83,782Timp de răspuns: medie 15.27s · total 259.55s · maxim 43.55s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.90sTimp de răspuns (maxim)19.37sTimp de răspuns (total)39.60s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.95sTimp de răspuns (maxim)34.95sTimp de răspuns (total)34.95s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.95sTimp de răspuns (maxim)15.40sTimp de răspuns (total)29.90s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)29.59sTimp de răspuns (maxim)43.55sTimp de răspuns (total)88.77s
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.05sTimp de răspuns (maxim)27.05sTimp de răspuns (total)27.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)11.67sTimp de răspuns (total)15.07s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)7.52sTimp de răspuns (total)18.34s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.87sTimp de răspuns (maxim)5.87sTimp de răspuns (total)5.87s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 3Timp de răspuns (mediu)26.78sTimp de răspuns (maxim)170.45sTimp de răspuns (total)294.58s…
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 70.6%Teste instabile: 2…Tokenuri de ieșire: 71,904Tokenuri de raționament: 155,607Timp de răspuns: medie 26.78s · total 294.58s · maxim 170.45s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.56sTimp de răspuns (maxim)32.30sTimp de răspuns (total)40.68s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)29.57sTimp de răspuns (maxim)29.57sTimp de răspuns (total)29.57s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.01sTimp de răspuns (maxim)15.01sTimp de răspuns (total)15.01s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)170.45sTimp de răspuns (maxim)170.45sTimp de răspuns (total)170.45s
Inteligență generală
: 5.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.54sTimp de răspuns (maxim)6.54sTimp de răspuns (total)6.54s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)11.91sTimp de răspuns (total)11.91s
Total teste: 18Teste greșite: 10Rată de trecere pe încercare: 64.8%Teste instabile: 6…Tokenuri de ieșire: 4,724Tokenuri de raționament: 17,921Timp de răspuns: medie 10.33s · total 175.60s · maxim 30.53s
Trucuri anti-AI
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)4.75sTimp de răspuns (maxim)7.62sTimp de răspuns (total)19.00s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)30.53sTimp de răspuns (maxim)30.53sTimp de răspuns (total)30.53s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.16sTimp de răspuns (maxim)26.55sTimp de răspuns (total)46.33s
Inteligență generală
: 7.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.44sTimp de răspuns (maxim)6.44sTimp de răspuns (total)6.44s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.18sTimp de răspuns (maxim)4.46sTimp de răspuns (total)8.36s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.33sTimp de răspuns (maxim)17.33sTimp de răspuns (total)17.33s
Total teste: 18Teste greșite: 9Rată de trecere pe încercare: 55.6%Teste instabile: 3…Tokenuri de ieșire: 11,947Tokenuri de raționament: 29,768Timp de răspuns: medie 19.06s · total 305.04s · maxim 87.80s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.08sTimp de răspuns (maxim)22.30sTimp de răspuns (total)40.30s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)87.80sTimp de răspuns (maxim)87.80sTimp de răspuns (total)87.80s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)18.16sTimp de răspuns (maxim)20.65sTimp de răspuns (total)36.33s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)16.19sTimp de răspuns (maxim)21.56sTimp de răspuns (total)32.39s
Inteligență generală
: 3.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.86sTimp de răspuns (maxim)27.86sTimp de răspuns (total)27.86s
Respectarea instrucțiunilor
: 7.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)7.72sTimp de răspuns (maxim)11.23sTimp de răspuns (total)15.45s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)39.75sTimp de răspuns (maxim)39.75sTimp de răspuns (total)39.75s
Total teste: 18Teste greșite: 12Rată de trecere pe încercare: 46.3%Teste instabile: 4…Tokenuri de ieșire: 2,278Tokenuri de raționament: 0Timp de răspuns: medie 4.58s · total 77.92s · maxim 15.17s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)3.81sTimp de răspuns (maxim)6.85sTimp de răspuns (total)15.23s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)15.17sTimp de răspuns (maxim)15.17sTimp de răspuns (total)15.17s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.49sTimp de răspuns (maxim)14.02sTimp de răspuns (total)16.98s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.33sTimp de răspuns (maxim)2.94sTimp de răspuns (total)6.99s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.71sTimp de răspuns (maxim)2.71sTimp de răspuns (total)2.71s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.82sTimp de răspuns (maxim)2.92sTimp de răspuns (total)5.65s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.02sTimp de răspuns (maxim)6.02sTimp de răspuns (total)6.02s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 11Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.07sTimp de răspuns (maxim)39.47sTimp de răspuns (total)91.23s…
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 29.6%Teste instabile: 1…Tokenuri de ieșire: 1,985Tokenuri de raționament: 0Timp de răspuns: medie 5.07s · total 91.23s · maxim 39.47s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)3.02sTimp de răspuns (maxim)8.17sTimp de răspuns (total)12.07s
Programare
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)39.47sTimp de răspuns (maxim)39.47sTimp de răspuns (total)39.47s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)8.91sTimp de răspuns (maxim)8.91sTimp de răspuns (total)8.91s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.26sTimp de răspuns (maxim)4.66sTimp de răspuns (total)6.52s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)877msTimp de răspuns (maxim)894msTimp de răspuns (total)2.63s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Rezolvare de puzzle-uri
: 5.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)3.30sTimp de răspuns (maxim)4.81sTimp de răspuns (total)9.91s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.67sTimp de răspuns (maxim)6.67sTimp de răspuns (total)6.67s
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 29.6%Teste instabile: 1…Tokenuri de ieșire: 2,596Tokenuri de raționament: 0Timp de răspuns: medie 1.27s · total 22.82s · maxim 3.70s
Trucuri anti-AI
: 6.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)2.04sTimp de răspuns (total)4.75s
Programare
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.30sTimp de răspuns (total)1.30s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.70sTimp de răspuns (maxim)3.70sTimp de răspuns (total)3.70s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)979msTimp de răspuns (maxim)1.02sTimp de răspuns (total)1.96s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)925msTimp de răspuns (maxim)1.16sTimp de răspuns (total)2.77s
Inteligență generală
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)920msTimp de răspuns (maxim)920msTimp de răspuns (total)920ms
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)987msTimp de răspuns (maxim)1.13sTimp de răspuns (total)1.97s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)2.83sTimp de răspuns (maxim)2.83sTimp de răspuns (total)2.83s
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 31.5%Teste instabile: 1…Tokenuri de ieșire: 2,573Tokenuri de raționament: 0Timp de răspuns: medie 1.23s · total 22.16s · maxim 3.81s
Programare
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.39sTimp de răspuns (total)1.39s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.81sTimp de răspuns (maxim)3.81sTimp de răspuns (total)3.81s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.04sTimp de răspuns (maxim)1.05sTimp de răspuns (total)2.08s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)927msTimp de răspuns (maxim)1.17sTimp de răspuns (total)2.78s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)854msTimp de răspuns (maxim)854msTimp de răspuns (total)854ms
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.03sTimp de răspuns (maxim)1.17sTimp de răspuns (total)2.07s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)2.79sTimp de răspuns (maxim)2.79sTimp de răspuns (total)2.79s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)8.54sTimp de răspuns (maxim)24.97sTimp de răspuns (total)153.69s…
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 35.2%Teste instabile: 4…Tokenuri de ieșire: 4,760Tokenuri de raționament: 0Timp de răspuns: medie 8.54s · total 153.69s · maxim 24.97s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)7.43sTimp de răspuns (maxim)16.69sTimp de răspuns (total)29.72s
Programare
: 3.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.99sTimp de răspuns (maxim)2.99sTimp de răspuns (total)2.99s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)19.98sTimp de răspuns (maxim)19.98sTimp de răspuns (total)19.98s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.92sTimp de răspuns (maxim)13.23sTimp de răspuns (total)15.84s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.23sTimp de răspuns (maxim)14.38sTimp de răspuns (total)18.70s
Inteligență generală
: 4.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)24.97sTimp de răspuns (maxim)24.97sTimp de răspuns (total)24.97s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.00sTimp de răspuns (maxim)16.00sTimp de răspuns (total)16.00s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms…
Total teste: 1Teste greșite: 1Rată de trecere pe încercare: 0.0%Teste instabile: 0…Tokenuri de ieșire: 0Tokenuri de raționament: 0Timp de răspuns: medie 0ms · total 0ms · maxim 0ms
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Total teste: 16Teste greșite: 15Rată de trecere pe încercare: 14.6%Teste instabile: 2…Tokenuri de ieșire: 1,185Tokenuri de raționament: 0Timp de răspuns: medie 811ms · total 11.35s · maxim 2.88s
Trucuri anti-AI
: 3.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)471msTimp de răspuns (maxim)872msTimp de răspuns (total)1.41s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)714msTimp de răspuns (maxim)987msTimp de răspuns (total)1.43s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Răspuns greșit: 1Timp de răspuns (mediu)287msTimp de răspuns (maxim)334msTimp de răspuns (total)860ms
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)395msTimp de răspuns (maxim)395msTimp de răspuns (total)395ms
Respectarea instrucțiunilor
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.09sTimp de răspuns (maxim)1.90sTimp de răspuns (total)2.18s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Total teste: 18Teste greșite: 8Rată de trecere pe încercare: 55.6%Teste instabile: 0…Tokenuri de ieșire: 1,359Tokenuri de raționament: 0Timp de răspuns: medie 4.02s · total 64.33s · maxim 26.13s
Trucuri anti-AI
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.85sTimp de răspuns (maxim)4.45sTimp de răspuns (total)7.40s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)26.13sTimp de răspuns (maxim)26.13sTimp de răspuns (total)26.13s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.25sTimp de răspuns (maxim)3.02sTimp de răspuns (total)4.51s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.22sTimp de răspuns (maxim)4.68sTimp de răspuns (total)9.67s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.09sTimp de răspuns (maxim)2.09sTimp de răspuns (total)2.09s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.84sTimp de răspuns (maxim)4.45sTimp de răspuns (total)5.68s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 37.0%Teste instabile: 3…Tokenuri de ieșire: 2,489Tokenuri de raționament: 0Timp de răspuns: medie 3.35s · total 36.90s · maxim 7.05s
Trucuri anti-AI
: 5.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)5.51sTimp de răspuns (maxim)6.59sTimp de răspuns (total)11.02s
Programare
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.57sTimp de răspuns (maxim)5.57sTimp de răspuns (total)5.57s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)3.22sTimp de răspuns (maxim)3.22sTimp de răspuns (total)3.22s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.82sTimp de răspuns (maxim)4.82sTimp de răspuns (total)4.82s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)744msTimp de răspuns (maxim)744msTimp de răspuns (total)744ms
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.59sTimp de răspuns (maxim)1.59sTimp de răspuns (total)1.59s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)888msTimp de răspuns (maxim)888msTimp de răspuns (total)888ms
Apelare instrumente
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.05sTimp de răspuns (maxim)7.05sTimp de răspuns (total)7.05s
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 24.1%Teste instabile: 1…Tokenuri de ieșire: 3,951Tokenuri de raționament: 0Timp de răspuns: medie 1.47s · total 26.43s · maxim 5.91s
Trucuri anti-AI
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.71sTimp de răspuns (maxim)3.79sTimp de răspuns (total)6.84s
Programare
: 5.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.69sTimp de răspuns (maxim)5.69sTimp de răspuns (total)5.69s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)5.91sTimp de răspuns (maxim)5.91sTimp de răspuns (total)5.91s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)847msTimp de răspuns (maxim)1.09sTimp de răspuns (total)1.69s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)464msTimp de răspuns (maxim)622msTimp de răspuns (total)1.39s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)552msTimp de răspuns (maxim)552msTimp de răspuns (total)552ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)514msTimp de răspuns (maxim)582msTimp de răspuns (total)1.03s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.00sTimp de răspuns (maxim)7.58sTimp de răspuns (total)21.99s…
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 22.2%Teste instabile: 0…Tokenuri de ieșire: 1,947Tokenuri de raționament: 0Timp de răspuns: medie 2.00s · total 21.99s · maxim 7.58s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.34sTimp de răspuns (maxim)1.83sTimp de răspuns (total)2.67s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.55sTimp de răspuns (maxim)2.55sTimp de răspuns (total)2.55s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.58sTimp de răspuns (maxim)7.58sTimp de răspuns (total)7.58s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)637msTimp de răspuns (maxim)637msTimp de răspuns (total)637ms
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)909msTimp de răspuns (maxim)909msTimp de răspuns (total)909ms
Rezolvare de puzzle-uri
: 3.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.54sTimp de răspuns (total)2.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.51sTimp de răspuns (total)2.51s
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 48.2%Teste instabile: 3…Tokenuri de ieșire: 1,783Tokenuri de raționament: 0Timp de răspuns: medie 6.59s · total 118.61s · maxim 57.10s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.28sTimp de răspuns (maxim)2.09sTimp de răspuns (total)5.13s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)7.07sTimp de răspuns (maxim)7.07sTimp de răspuns (total)7.07s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)30.53sTimp de răspuns (maxim)30.53sTimp de răspuns (total)30.53s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.70sTimp de răspuns (maxim)2.21sTimp de răspuns (total)3.41s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)2.49sTimp de răspuns (maxim)4.23sTimp de răspuns (total)7.48s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)3.54sTimp de răspuns (total)3.54s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)57.10sTimp de răspuns (maxim)57.10sTimp de răspuns (total)57.10s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.25sTimp de răspuns (maxim)13.73sTimp de răspuns (total)58.44s…
Total teste: 18Teste greșite: 10Rată de trecere pe încercare: 46.3%Teste instabile: 1…Tokenuri de ieșire: 4,266Tokenuri de raționament: 0Timp de răspuns: medie 3.25s · total 58.44s · maxim 13.73s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.32sTimp de răspuns (maxim)3.89sTimp de răspuns (total)5.30s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.29sTimp de răspuns (maxim)1.29sTimp de răspuns (total)1.29s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.22sTimp de răspuns (maxim)6.22sTimp de răspuns (total)6.22s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.57sTimp de răspuns (maxim)1.83sTimp de răspuns (total)3.14s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)905msTimp de răspuns (maxim)1.10sTimp de răspuns (total)2.71s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)803msTimp de răspuns (maxim)803msTimp de răspuns (total)803ms
Respectarea instrucțiunilor
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)8.81sTimp de răspuns (maxim)13.73sTimp de răspuns (total)17.61s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.67sTimp de răspuns (maxim)3.67sTimp de răspuns (total)3.67s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 11Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)665msTimp de răspuns (maxim)1.72sTimp de răspuns (total)11.97s…
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 31.5%Teste instabile: 1…Tokenuri de ieșire: 2,207Tokenuri de raționament: 0Timp de răspuns: medie 665ms · total 11.97s · maxim 1.72s
Trucuri anti-AI
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)395msTimp de răspuns (maxim)769msTimp de răspuns (total)1.58s
Programare
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.28sTimp de răspuns (maxim)1.28sTimp de răspuns (total)1.28s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.72sTimp de răspuns (maxim)1.72sTimp de răspuns (total)1.72s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)822msTimp de răspuns (maxim)1.08sTimp de răspuns (total)1.64s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)367msTimp de răspuns (maxim)388msTimp de răspuns (total)1.10s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)729msTimp de răspuns (maxim)729msTimp de răspuns (total)729ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)380msTimp de răspuns (maxim)380msTimp de răspuns (total)759ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.40sTimp de răspuns (maxim)1.40sTimp de răspuns (total)1.40s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)613msTimp de răspuns (maxim)1.27sTimp de răspuns (total)11.04s…
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 27.8%Teste instabile: 2…Tokenuri de ieșire: 1,625Tokenuri de raționament: 0Timp de răspuns: medie 613ms · total 11.04s · maxim 1.27s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)483msTimp de răspuns (maxim)716msTimp de răspuns (total)1.93s
Programare
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)969msTimp de răspuns (maxim)969msTimp de răspuns (total)969ms
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)606msTimp de răspuns (maxim)606msTimp de răspuns (total)606ms
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)667msTimp de răspuns (maxim)819msTimp de răspuns (total)1.33s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)534msTimp de răspuns (maxim)733msTimp de răspuns (total)1.60s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)628msTimp de răspuns (maxim)628msTimp de răspuns (total)628ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)551msTimp de răspuns (maxim)622msTimp de răspuns (total)1.10s
Rezolvare de puzzle-uri
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)533msTimp de răspuns (maxim)637msTimp de răspuns (total)1.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 8Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.99sTimp de răspuns (maxim)6.81sTimp de răspuns (total)35.81s…
Total teste: 18Teste greșite: 10Rată de trecere pe încercare: 44.4%Teste instabile: 0…Tokenuri de ieșire: 868Tokenuri de raționament: 0Timp de răspuns: medie 1.99s · total 35.81s · maxim 6.81s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.10sTimp de răspuns (maxim)2.08sTimp de răspuns (total)4.39s
Programare
: 6.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.72sTimp de răspuns (maxim)1.72sTimp de răspuns (total)1.72s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.47sTimp de răspuns (maxim)2.47sTimp de răspuns (total)2.47s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.69sTimp de răspuns (maxim)2.46sTimp de răspuns (total)3.38s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.14sTimp de răspuns (maxim)1.63sTimp de răspuns (total)3.41s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.19sTimp de răspuns (total)1.19s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.18sTimp de răspuns (maxim)6.81sTimp de răspuns (total)8.36s
Rezolvare de puzzle-uri
: 8.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.71sTimp de răspuns (maxim)5.96sTimp de răspuns (total)8.14s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.76sTimp de răspuns (maxim)2.76sTimp de răspuns (total)2.76s
Total teste: 18Teste greșite: 15Rată de trecere pe încercare: 27.8%Teste instabile: 3…Tokenuri de ieșire: 3,241Tokenuri de raționament: 0Timp de răspuns: medie 10.75s · total 129.01s · maxim 81.80s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)1.69sTimp de răspuns (maxim)1.69sTimp de răspuns (total)1.69s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)4.28sTimp de răspuns (total)4.28s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)81.80sTimp de răspuns (maxim)81.80sTimp de răspuns (total)81.80s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)638msTimp de răspuns (maxim)638msTimp de răspuns (total)638ms
Inteligență generală
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.39sTimp de răspuns (total)1.39s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.64sTimp de răspuns (maxim)2.64sTimp de răspuns (total)2.64s
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 25.9%Teste instabile: 1…Tokenuri de ieșire: 3,617Tokenuri de raționament: 0Timp de răspuns: medie 10.18s · total 122.13s · maxim 45.14s
Programare
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.14sTimp de răspuns (maxim)3.14sTimp de răspuns (total)3.14s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)45.14sTimp de răspuns (maxim)45.14sTimp de răspuns (total)45.14s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.32sTimp de răspuns (maxim)1.32sTimp de răspuns (total)1.32s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)962msTimp de răspuns (maxim)962msTimp de răspuns (total)962ms
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.34sTimp de răspuns (maxim)1.34sTimp de răspuns (total)1.34s
Respectarea instrucțiunilor
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.71sTimp de răspuns (maxim)14.65sTimp de răspuns (total)15.42s
Rezolvare de puzzle-uri
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)22.86sTimp de răspuns (maxim)42.58sTimp de răspuns (total)45.73s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.47sTimp de răspuns (maxim)2.47sTimp de răspuns (total)2.47s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.76sTimp de răspuns (maxim)5.51sTimp de răspuns (total)19.35s…
Total teste: 18Teste greșite: 15Rată de trecere pe încercare: 24.1%Teste instabile: 3…Tokenuri de ieșire: 1,721Tokenuri de raționament: 0Timp de răspuns: medie 1.76s · total 19.35s · maxim 5.51s
Programare
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.79sTimp de răspuns (maxim)1.79sTimp de răspuns (total)1.79s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.33sTimp de răspuns (maxim)3.33sTimp de răspuns (total)3.33s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)943msTimp de răspuns (maxim)943msTimp de răspuns (total)943ms
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.06sTimp de răspuns (total)1.06s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.08sTimp de răspuns (maxim)1.08sTimp de răspuns (total)1.08s
Respectarea instrucțiunilor
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)923msTimp de răspuns (maxim)923msTimp de răspuns (total)923ms
Rezolvare de puzzle-uri
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.28sTimp de răspuns (maxim)1.36sTimp de răspuns (total)2.56s
Apelare instrumente
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.51sTimp de răspuns (maxim)5.51sTimp de răspuns (total)5.51s
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 38.9%Teste instabile: 5…Tokenuri de ieșire: 44,652Tokenuri de raționament: 0Timp de răspuns: medie 11.96s · total 179.34s · maxim 68.97s
Programare
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.57sTimp de răspuns (maxim)9.57sTimp de răspuns (total)9.57s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)7.12sTimp de răspuns (maxim)7.12sTimp de răspuns (total)7.12s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)34.98sTimp de răspuns (maxim)68.97sTimp de răspuns (total)104.94s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.83sTimp de răspuns (maxim)2.83sTimp de răspuns (total)2.83s
Respectarea instrucțiunilor
: 8.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.10sTimp de răspuns (maxim)5.85sTimp de răspuns (total)10.21s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)1.40sTimp de răspuns (maxim)3.84sTimp de răspuns (total)25.14s…
Total teste: 18Teste greșite: 16Rată de trecere pe încercare: 31.5%Teste instabile: 7…Tokenuri de ieșire: 2,762Tokenuri de raționament: 0Timp de răspuns: medie 1.40s · total 25.14s · maxim 3.84s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.18sTimp de răspuns (maxim)1.81sTimp de răspuns (total)4.70s
Programare
: 7.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.43sTimp de răspuns (maxim)1.43sTimp de răspuns (total)1.43s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.84sTimp de răspuns (maxim)3.84sTimp de răspuns (total)3.84s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.11sTimp de răspuns (maxim)1.25sTimp de răspuns (total)2.23s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)926msTimp de răspuns (maxim)959msTimp de răspuns (total)2.78s
Inteligență generală
: 3.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.31sTimp de răspuns (maxim)1.31sTimp de răspuns (total)1.31s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.40sTimp de răspuns (maxim)3.40sTimp de răspuns (total)3.40s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 7Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)16.08sTimp de răspuns (maxim)50.92sTimp de răspuns (total)176.88s…
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 51.9%Teste instabile: 6…Tokenuri de ieșire: 13,493Tokenuri de raționament: 36,879Timp de răspuns: medie 16.08s · total 176.88s · maxim 50.92s
Programare
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)26.33sTimp de răspuns (maxim)26.33sTimp de răspuns (total)26.33s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.18sTimp de răspuns (maxim)31.18sTimp de răspuns (total)31.18s
Parsare și extragere de date
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.98sTimp de răspuns (maxim)1.98sTimp de răspuns (total)1.98s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)50.92sTimp de răspuns (maxim)50.92sTimp de răspuns (total)50.92s
Inteligență generală
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)7.90sTimp de răspuns (maxim)7.90sTimp de răspuns (total)7.90s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.63sTimp de răspuns (maxim)7.63sTimp de răspuns (total)7.63s
Apelare instrumente
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.91sTimp de răspuns (maxim)6.91sTimp de răspuns (total)6.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)903msTimp de răspuns (maxim)4.39sTimp de răspuns (total)16.26s…
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 44.4%Teste instabile: 2…Tokenuri de ieșire: 1,726Tokenuri de raționament: 0Timp de răspuns: medie 903ms · total 16.26s · maxim 4.39s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)582msTimp de răspuns (maxim)844msTimp de răspuns (total)2.33s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.16sTimp de răspuns (maxim)1.16sTimp de răspuns (total)1.16s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.39sTimp de răspuns (maxim)4.39sTimp de răspuns (total)4.39s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)652msTimp de răspuns (maxim)660msTimp de răspuns (total)1.30s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)495msTimp de răspuns (maxim)642msTimp de răspuns (total)1.49s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)615msTimp de răspuns (maxim)615msTimp de răspuns (total)615ms
Respectarea instrucțiunilor
: 8.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)672msTimp de răspuns (maxim)785msTimp de răspuns (total)1.34s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)1.91sTimp de răspuns (total)1.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)3.82sTimp de răspuns (maxim)47.43sTimp de răspuns (total)68.74s…
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 50.0%Teste instabile: 3…Tokenuri de ieșire: 4,300Tokenuri de raționament: 0Timp de răspuns: medie 3.82s · total 68.74s · maxim 47.43s
Trucuri anti-AI
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.43sTimp de răspuns (maxim)4.39sTimp de răspuns (total)5.71s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.67sTimp de răspuns (maxim)2.67sTimp de răspuns (total)2.67s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)47.43sTimp de răspuns (maxim)47.43sTimp de răspuns (total)47.43s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.16sTimp de răspuns (maxim)1.42sTimp de răspuns (total)2.33s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)485msTimp de răspuns (maxim)549msTimp de răspuns (total)1.45s
Inteligență generală
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.19sTimp de răspuns (total)1.19s
Respectarea instrucțiunilor
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)809msTimp de răspuns (maxim)983msTimp de răspuns (total)1.62s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.30sTimp de răspuns (maxim)2.30sTimp de răspuns (total)2.30s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)3.39sTimp de răspuns (total)23.42s…
Total teste: 18Teste greșite: 6Rată de trecere pe încercare: 70.4%Teste instabile: 1…Tokenuri de ieșire: 5,361Tokenuri de raționament: 0Timp de răspuns: medie 1.30s · total 23.42s · maxim 3.39s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.47sTimp de răspuns (maxim)1.47sTimp de răspuns (total)1.47s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.20sTimp de răspuns (maxim)3.20sTimp de răspuns (total)3.20s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.22sTimp de răspuns (maxim)1.33sTimp de răspuns (total)2.44s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)942msTimp de răspuns (maxim)1.12sTimp de răspuns (total)2.83s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)741msTimp de răspuns (maxim)741msTimp de răspuns (total)741ms
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.13sTimp de răspuns (maxim)1.14sTimp de răspuns (total)2.27s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)972msTimp de răspuns (maxim)1.13sTimp de răspuns (total)2.92s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.39sTimp de răspuns (maxim)3.39sTimp de răspuns (total)3.39s
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 50.0%Teste instabile: 4…Tokenuri de ieșire: 8,384Tokenuri de raționament: 0Timp de răspuns: medie 12.09s · total 217.56s · maxim 115.89s
Programare
: 2.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.63sTimp de răspuns (maxim)7.63sTimp de răspuns (total)7.63s
Combinat
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)115.89sTimp de răspuns (maxim)115.89sTimp de răspuns (total)115.89s
Parsare și extragere de date
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.42sTimp de răspuns (maxim)16.20sTimp de răspuns (total)18.84s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.61sTimp de răspuns (maxim)1.77sTimp de răspuns (total)4.83s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.52sTimp de răspuns (maxim)1.99sTimp de răspuns (total)3.04s
Rezolvare de puzzle-uri
: 8.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.37sTimp de răspuns (maxim)10.78sTimp de răspuns (total)22.10s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.85sTimp de răspuns (maxim)11.85sTimp de răspuns (total)11.85s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.74sTimp de răspuns (maxim)9.39sTimp de răspuns (total)31.32s…
Total teste: 18Teste greșite: 12Rată de trecere pe încercare: 38.9%Teste instabile: 2…Tokenuri de ieșire: 3,545Tokenuri de raționament: 0Timp de răspuns: medie 1.74s · total 31.32s · maxim 9.39s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)788msTimp de răspuns (maxim)1.34sTimp de răspuns (total)3.15s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.51sTimp de răspuns (total)2.51s
Combinat
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.39sTimp de răspuns (maxim)9.39sTimp de răspuns (total)9.39s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.43sTimp de răspuns (maxim)1.45sTimp de răspuns (total)2.86s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)540msTimp de răspuns (maxim)649msTimp de răspuns (total)1.62s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.51sTimp de răspuns (total)2.51s
Respectarea instrucțiunilor
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)815msTimp de răspuns (maxim)973msTimp de răspuns (total)1.63s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)3.54sTimp de răspuns (total)3.54s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Timp de răspuns (mediu)2.53sTimp de răspuns (maxim)6.70sTimp de răspuns (total)45.46s…
Total teste: 18Teste greșite: 10Rată de trecere pe încercare: 55.6%Teste instabile: 5…Tokenuri de ieșire: 3,129Tokenuri de raționament: 0Timp de răspuns: medie 2.53s · total 45.46s · maxim 6.70s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)6.70sTimp de răspuns (total)9.73s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.61sTimp de răspuns (maxim)4.61sTimp de răspuns (total)4.61s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.59sTimp de răspuns (maxim)6.59sTimp de răspuns (total)6.59s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.82sTimp de răspuns (maxim)1.97sTimp de răspuns (total)3.63s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.33sTimp de răspuns (maxim)1.53sTimp de răspuns (total)4.00s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.45sTimp de răspuns (maxim)3.45sTimp de răspuns (total)3.45s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.09sTimp de răspuns (total)2.12s
Rezolvare de puzzle-uri
: 5.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.46sTimp de răspuns (maxim)4.23sTimp de răspuns (total)7.37s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.94sTimp de răspuns (maxim)3.94sTimp de răspuns (total)3.94s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 12Timp de răspuns (mediu)13.37sTimp de răspuns (maxim)42.13sTimp de răspuns (total)147.05s…
Total teste: 18Teste greșite: 12Rată de trecere pe încercare: 40.7%Teste instabile: 3…Tokenuri de ieșire: 2,659Tokenuri de raționament: 0Timp de răspuns: medie 13.37s · total 147.05s · maxim 42.13s
Trucuri anti-AI
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)6.24sTimp de răspuns (maxim)11.38sTimp de răspuns (total)12.48s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)38.78sTimp de răspuns (maxim)38.78sTimp de răspuns (total)38.78s
Combinat
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)19.16sTimp de răspuns (maxim)19.16sTimp de răspuns (total)19.16s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)42.13sTimp de răspuns (maxim)42.13sTimp de răspuns (total)42.13s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)4.38sTimp de răspuns (maxim)4.38sTimp de răspuns (total)4.38s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.00sTimp de răspuns (maxim)4.00sTimp de răspuns (total)4.00s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.67sTimp de răspuns (maxim)2.67sTimp de răspuns (total)2.67s
Rezolvare de puzzle-uri
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)4.73sTimp de răspuns (maxim)7.81sTimp de răspuns (total)9.45s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.99sTimp de răspuns (maxim)13.99sTimp de răspuns (total)13.99s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Timp de răspuns (mediu)2.60sTimp de răspuns (maxim)6.65sTimp de răspuns (total)31.23s…
Total teste: 18Teste greșite: 9Rată de trecere pe încercare: 53.7%Teste instabile: 2…Tokenuri de ieșire: 2,461Tokenuri de raționament: 0Timp de răspuns: medie 2.60s · total 31.23s · maxim 6.65s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)2.74sTimp de răspuns (total)3.82s
Programare
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.63sTimp de răspuns (maxim)3.63sTimp de răspuns (total)3.63s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.65sTimp de răspuns (maxim)6.65sTimp de răspuns (total)6.65s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.89sTimp de răspuns (maxim)1.89sTimp de răspuns (total)1.89s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.17sTimp de răspuns (maxim)1.44sTimp de răspuns (total)2.33s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.26sTimp de răspuns (maxim)2.26sTimp de răspuns (total)2.26s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.67sTimp de răspuns (maxim)1.67sTimp de răspuns (total)1.67s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.82sTimp de răspuns (maxim)3.52sTimp de răspuns (total)5.65s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.33sTimp de răspuns (maxim)3.33sTimp de răspuns (total)3.33s
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 79.6%Teste instabile: 2…Tokenuri de ieșire: 12,734Tokenuri de raționament: 27,950Timp de răspuns: medie 24.88s · total 398.13s · maxim 70.97s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.89sTimp de răspuns (maxim)26.66sTimp de răspuns (total)51.55s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)70.97sTimp de răspuns (maxim)70.97sTimp de răspuns (total)70.97s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.11sTimp de răspuns (maxim)21.94sTimp de răspuns (total)42.21s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)38.48sTimp de răspuns (maxim)68.92sTimp de răspuns (total)115.43s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.57sTimp de răspuns (maxim)9.57sTimp de răspuns (total)9.57s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.76sTimp de răspuns (maxim)17.53sTimp de răspuns (total)25.52s
Rezolvare de puzzle-uri
: 8.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.63sTimp de răspuns (maxim)61.08sTimp de răspuns (total)82.89s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Timp de răspuns (mediu)4.23sTimp de răspuns (maxim)11.07sTimp de răspuns (total)46.51s…
Total teste: 18Teste greșite: 9Rată de trecere pe încercare: 51.9%Teste instabile: 1…Tokenuri de ieșire: 1,959Tokenuri de raționament: 0Timp de răspuns: medie 4.23s · total 46.51s · maxim 11.07s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)2.37sTimp de răspuns (maxim)3.39sTimp de răspuns (total)4.75s
Programare
: 5.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)8.84sTimp de răspuns (maxim)8.84sTimp de răspuns (total)8.84s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.98sTimp de răspuns (maxim)4.98sTimp de răspuns (total)4.98s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.78sTimp de răspuns (maxim)5.78sTimp de răspuns (total)5.78s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)2.24sTimp de răspuns (maxim)2.24sTimp de răspuns (total)2.24s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.27sTimp de răspuns (maxim)3.27sTimp de răspuns (total)3.27s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.48sTimp de răspuns (maxim)1.48sTimp de răspuns (total)1.48s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.05sTimp de răspuns (maxim)2.08sTimp de răspuns (total)4.10s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.07sTimp de răspuns (maxim)11.07sTimp de răspuns (total)11.07s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Timp de răspuns (mediu)1.65sTimp de răspuns (maxim)3.56sTimp de răspuns (total)18.20s…
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 77.8%Teste instabile: 2…Tokenuri de ieșire: 1,840Tokenuri de raționament: 0Timp de răspuns: medie 1.65s · total 18.20s · maxim 3.56s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.25sTimp de răspuns (maxim)1.59sTimp de răspuns (total)2.49s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.59sTimp de răspuns (maxim)1.59sTimp de răspuns (total)1.59s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.56sTimp de răspuns (maxim)3.56sTimp de răspuns (total)3.56s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.41sTimp de răspuns (maxim)1.41sTimp de răspuns (total)1.41s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)963msTimp de răspuns (maxim)963msTimp de răspuns (total)963ms
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.13sTimp de răspuns (maxim)1.13sTimp de răspuns (total)1.13s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.58sTimp de răspuns (maxim)1.58sTimp de răspuns (total)1.58s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.12s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.35sTimp de răspuns (maxim)3.35sTimp de răspuns (total)3.35s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 11Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.69sTimp de răspuns (maxim)46.00sTimp de răspuns (total)66.50s…
Total teste: 18Teste greșite: 12Rată de trecere pe încercare: 38.9%Teste instabile: 2…Tokenuri de ieșire: 3,341Tokenuri de raționament: 0Timp de răspuns: medie 3.69s · total 66.50s · maxim 46.00s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.59sTimp de răspuns (maxim)3.60sTimp de răspuns (total)6.38s
Programare
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.44sTimp de răspuns (maxim)3.44sTimp de răspuns (total)3.44s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)46.00sTimp de răspuns (maxim)46.00sTimp de răspuns (total)46.00s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.01sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.02s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)465msTimp de răspuns (maxim)492msTimp de răspuns (total)1.39s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.12sTimp de răspuns (maxim)1.12sTimp de răspuns (total)1.12s
Respectarea instrucțiunilor
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)585msTimp de răspuns (maxim)715msTimp de răspuns (total)1.17s
Rezolvare de puzzle-uri
: 5.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)982msTimp de răspuns (maxim)1.36sTimp de răspuns (total)2.95s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.04sTimp de răspuns (maxim)2.04sTimp de răspuns (total)2.04s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.22sTimp de răspuns (maxim)11.91sTimp de răspuns (total)58.00s…
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 72.2%Teste instabile: 0…Tokenuri de ieșire: 2,247Tokenuri de raționament: 8,058Timp de răspuns: medie 3.22s · total 58.00s · maxim 11.91s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.12sTimp de răspuns (maxim)3.18sTimp de răspuns (total)8.50s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.20sTimp de răspuns (maxim)2.20sTimp de răspuns (total)2.20s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)11.91sTimp de răspuns (total)11.91s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.00sTimp de răspuns (maxim)3.74sTimp de răspuns (total)5.99s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.36sTimp de răspuns (maxim)3.51sTimp de răspuns (total)7.07s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.54sTimp de răspuns (maxim)1.54sTimp de răspuns (total)1.54s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.49sTimp de răspuns (maxim)1.66sTimp de răspuns (total)2.99s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.76sTimp de răspuns (maxim)5.08sTimp de răspuns (total)8.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.54sTimp de răspuns (maxim)9.54sTimp de răspuns (total)9.54s
Total teste: 18Teste greșite: 15Rată de trecere pe încercare: 27.8%Teste instabile: 5…Tokenuri de ieșire: 68,522Tokenuri de raționament: 0Timp de răspuns: medie 2.79s · total 39.08s · maxim 19.68s
Trucuri anti-AI
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)2.73sTimp de răspuns (total)4.76s
Programare
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.79sTimp de răspuns (maxim)2.79sTimp de răspuns (total)2.79s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.87sTimp de răspuns (maxim)2.87sTimp de răspuns (total)2.87s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)564msTimp de răspuns (maxim)564msTimp de răspuns (total)564ms
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.67sTimp de răspuns (maxim)1.67sTimp de răspuns (total)1.67s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)857msTimp de răspuns (maxim)955msTimp de răspuns (total)1.71s
Rezolvare de puzzle-uri
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.38sTimp de răspuns (maxim)1.74sTimp de răspuns (total)2.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.28sTimp de răspuns (maxim)2.28sTimp de răspuns (total)2.28s
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 75.9%Teste instabile: 2…Tokenuri de ieșire: 15,928Tokenuri de raționament: 44,631Timp de răspuns: medie 25.03s · total 425.48s · maxim 147.47s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.20sTimp de răspuns (maxim)9.64sTimp de răspuns (total)24.78s
Programare
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)147.47sTimp de răspuns (maxim)147.47sTimp de răspuns (total)147.47s
Combinat
: 9.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)73.55sTimp de răspuns (maxim)73.55sTimp de răspuns (total)73.55s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.51sTimp de răspuns (maxim)20.57sTimp de răspuns (total)33.02s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)23.62sTimp de răspuns (maxim)27.00sTimp de răspuns (total)47.23s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)29.76sTimp de răspuns (maxim)29.76sTimp de răspuns (total)29.76s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.54sTimp de răspuns (maxim)21.25sTimp de răspuns (total)35.08s
Rezolvare de puzzle-uri
: 7.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)8.52sTimp de răspuns (maxim)12.73sTimp de răspuns (total)25.56s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.01sTimp de răspuns (maxim)9.01sTimp de răspuns (total)9.01s
Total teste: 18Teste greșite: 6Rată de trecere pe încercare: 79.6%Teste instabile: 4…Tokenuri de ieșire: 10,620Tokenuri de raționament: 48,511Timp de răspuns: medie 46.41s · total 835.33s · maxim 180.92s
Trucuri anti-AI
: 8.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)30.72sTimp de răspuns (maxim)44.23sTimp de răspuns (total)122.88s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)180.92sTimp de răspuns (maxim)180.92sTimp de răspuns (total)180.92s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)93.11sTimp de răspuns (maxim)93.11sTimp de răspuns (total)93.11s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)36.09sTimp de răspuns (maxim)39.12sTimp de răspuns (total)72.18s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)39.32sTimp de răspuns (maxim)79.03sTimp de răspuns (total)117.95s
Inteligență generală
: 5.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)31.30sTimp de răspuns (maxim)31.30sTimp de răspuns (total)31.30s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)35.78sTimp de răspuns (maxim)47.30sTimp de răspuns (total)71.56s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)36.87sTimp de răspuns (maxim)59.22sTimp de răspuns (total)110.62s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.81sTimp de răspuns (maxim)34.81sTimp de răspuns (total)34.81s
Total teste: 18Teste greșite: 15Rată de trecere pe încercare: 33.3%Teste instabile: 6…Tokenuri de ieșire: 24,291Tokenuri de raționament: 172,597Timp de răspuns: medie 73.64s · total 1104.60s · maxim 226.38s
Trucuri anti-AI
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)34.44sTimp de răspuns (maxim)57.86sTimp de răspuns (total)103.31s
Programare
: 2.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)135.61sTimp de răspuns (maxim)135.61sTimp de răspuns (total)135.61s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 3Timp de răspuns (mediu)137.75sTimp de răspuns (maxim)202.61sTimp de răspuns (total)413.24s
Inteligență generală
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)226.38sTimp de răspuns (maxim)226.38sTimp de răspuns (total)226.38s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)17.15sTimp de răspuns (maxim)28.54sTimp de răspuns (total)34.29s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.31sTimp de răspuns (maxim)4.31sTimp de răspuns (total)4.31s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)2.94sTimp de răspuns (maxim)8.21sTimp de răspuns (total)52.98s…
Total teste: 18Teste greșite: 12Rată de trecere pe încercare: 37.0%Teste instabile: 2…Tokenuri de ieșire: 1,775Tokenuri de raționament: 0Timp de răspuns: medie 2.94s · total 52.98s · maxim 8.21s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)2.84sTimp de răspuns (maxim)4.15sTimp de răspuns (total)11.35s
Programare
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.93sTimp de răspuns (maxim)3.93sTimp de răspuns (total)3.93s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.89sTimp de răspuns (maxim)4.89sTimp de răspuns (total)4.89s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.47sTimp de răspuns (maxim)2.48sTimp de răspuns (total)4.95s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.97sTimp de răspuns (maxim)2.65sTimp de răspuns (total)5.92s
Inteligență generală
: 4.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.18sTimp de răspuns (maxim)2.18sTimp de răspuns (total)2.18s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.13sTimp de răspuns (maxim)2.53sTimp de răspuns (total)4.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.21sTimp de răspuns (maxim)8.21sTimp de răspuns (total)8.21s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)1.17sTimp de răspuns (maxim)2.52sTimp de răspuns (total)21.01s…
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 35.2%Teste instabile: 3…Tokenuri de ieșire: 2,418Tokenuri de raționament: 0Timp de răspuns: medie 1.17s · total 21.01s · maxim 2.52s
Trucuri anti-AI
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)929msTimp de răspuns (maxim)1.55sTimp de răspuns (total)3.72s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.19sTimp de răspuns (total)1.19s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.52sTimp de răspuns (maxim)2.52sTimp de răspuns (total)2.52s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.58sTimp de răspuns (total)2.61s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)937msTimp de răspuns (maxim)1.25sTimp de răspuns (total)2.81s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.82sTimp de răspuns (maxim)1.82sTimp de răspuns (total)1.82s
Respectarea instrucțiunilor
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)728msTimp de răspuns (maxim)731msTimp de răspuns (total)1.46s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.32sTimp de răspuns (maxim)2.32sTimp de răspuns (total)2.32s
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 50.0%Teste instabile: 7…Tokenuri de ieșire: 15,084Tokenuri de raționament: 39,408Timp de răspuns: medie 5.64s · total 101.52s · maxim 30.49s
Trucuri anti-AI
: 5.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)2.67sTimp de răspuns (maxim)5.03sTimp de răspuns (total)10.66s
Programare
: 6.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)30.49sTimp de răspuns (maxim)30.49sTimp de răspuns (total)30.49s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)25.25sTimp de răspuns (maxim)25.25sTimp de răspuns (total)25.25s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)1.23sTimp de răspuns (maxim)1.96sTimp de răspuns (total)2.46s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Răspuns greșit: 1Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)13.72sTimp de răspuns (total)18.34s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.05sTimp de răspuns (maxim)2.05sTimp de răspuns (total)2.05s
Respectarea instrucțiunilor
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.38sTimp de răspuns (maxim)1.61sTimp de răspuns (total)2.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.50sTimp de răspuns (maxim)3.50sTimp de răspuns (total)3.50s
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 66.7%Teste instabile: 2…Tokenuri de ieșire: 2,419Tokenuri de raționament: 79,238Timp de răspuns: medie 69.70s · total 1045.47s · maxim 262.83s
Trucuri anti-AI
: 6.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)74.75sTimp de răspuns (maxim)182.10sTimp de răspuns (total)298.98s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)197.31sTimp de răspuns (maxim)197.31sTimp de răspuns (total)197.31s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)262.83sTimp de răspuns (maxim)262.83sTimp de răspuns (total)262.83s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.27sTimp de răspuns (maxim)27.52sTimp de răspuns (total)48.54s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 3Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)36.65sTimp de răspuns (maxim)36.65sTimp de răspuns (total)36.65s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.47sTimp de răspuns (maxim)19.46sTimp de răspuns (total)34.93s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)25.85sTimp de răspuns (maxim)32.95sTimp de răspuns (total)77.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)88.68sTimp de răspuns (maxim)88.68sTimp de răspuns (total)88.68s
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 70.4%Teste instabile: 3…Tokenuri de ieșire: 12,387Tokenuri de raționament: 115,182Timp de răspuns: medie 23.36s · total 280.34s · maxim 96.01s
Trucuri anti-AI
: 8.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)15.85sTimp de răspuns (maxim)20.83sTimp de răspuns (total)47.55s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)13.03sTimp de răspuns (maxim)13.03sTimp de răspuns (total)13.03s
Combinat
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)75.68sTimp de răspuns (maxim)75.68sTimp de răspuns (total)75.68s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)96.01sTimp de răspuns (maxim)96.01sTimp de răspuns (total)96.01s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.20sTimp de răspuns (maxim)4.20sTimp de răspuns (total)4.20s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)7.37sTimp de răspuns (total)8.55s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.77sTimp de răspuns (maxim)5.26sTimp de răspuns (total)7.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)27.78sTimp de răspuns (maxim)27.78sTimp de răspuns (total)27.78s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)2.39sTimp de răspuns (maxim)6.58sTimp de răspuns (total)43.06s…
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 48.2%Teste instabile: 3…Tokenuri de ieșire: 2,320Tokenuri de raționament: 0Timp de răspuns: medie 2.39s · total 43.06s · maxim 6.58s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.80sTimp de răspuns (maxim)2.62sTimp de răspuns (total)7.19s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.82sTimp de răspuns (maxim)3.82sTimp de răspuns (total)3.82s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.58sTimp de răspuns (maxim)6.58sTimp de răspuns (total)6.58s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.42sTimp de răspuns (total)2.78s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.78sTimp de răspuns (maxim)2.49sTimp de răspuns (total)5.34s
Inteligență generală
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.44sTimp de răspuns (maxim)2.44sTimp de răspuns (total)2.44s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.95sTimp de răspuns (total)5.02s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.39sTimp de răspuns (maxim)4.39sTimp de răspuns (total)4.39s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 8Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)3.10sTimp de răspuns (maxim)6.51sTimp de răspuns (total)55.87s…
Total teste: 18Teste greșite: 10Rată de trecere pe încercare: 44.4%Teste instabile: 0…Tokenuri de ieșire: 1,724Tokenuri de raționament: 0Timp de răspuns: medie 3.10s · total 55.87s · maxim 6.51s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)3.13sTimp de răspuns (maxim)5.90sTimp de răspuns (total)12.50s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.30sTimp de răspuns (maxim)5.30sTimp de răspuns (total)5.30s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.51sTimp de răspuns (maxim)6.51sTimp de răspuns (total)6.51s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.81sTimp de răspuns (maxim)5.69sTimp de răspuns (total)7.62s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.09sTimp de răspuns (maxim)2.39sTimp de răspuns (total)6.26s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.22sTimp de răspuns (maxim)2.22sTimp de răspuns (total)2.22s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.97sTimp de răspuns (maxim)2.43sTimp de răspuns (total)3.93s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.86sTimp de răspuns (maxim)4.86sTimp de răspuns (total)4.86s
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 38.9%Teste instabile: 8…Tokenuri de ieșire: 39,688Tokenuri de raționament: 72,401Timp de răspuns: medie 32.33s · total 355.65s · maxim 174.55s
Programare
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)21.26sTimp de răspuns (maxim)21.26sTimp de răspuns (total)21.26s
Combinat
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)65.57sTimp de răspuns (maxim)65.57sTimp de răspuns (total)65.57s
Parsare și extragere de date
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)1.51sTimp de răspuns (maxim)1.51sTimp de răspuns (total)1.51s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Fără răspuns: 1Timp de răspuns (mediu)174.55sTimp de răspuns (maxim)174.55sTimp de răspuns (total)174.55s
Inteligență generală
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)18.14sTimp de răspuns (maxim)18.14sTimp de răspuns (total)18.14s
Respectarea instrucțiunilor
: 6.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.97sTimp de răspuns (maxim)2.97sTimp de răspuns (total)2.97s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.95sTimp de răspuns (maxim)15.95sTimp de răspuns (total)15.95s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 6Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)2.21sTimp de răspuns (maxim)14.63sTimp de răspuns (total)37.51s…
Total teste: 18Teste greșite: 10Rată de trecere pe încercare: 53.7%Teste instabile: 3…Tokenuri de ieșire: 3,972Tokenuri de raționament: 48,333Timp de răspuns: medie 2.21s · total 37.51s · maxim 14.63s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.53sTimp de răspuns (maxim)1.53sTimp de răspuns (total)1.53s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.28sTimp de răspuns (maxim)3.28sTimp de răspuns (total)3.28s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.11sTimp de răspuns (maxim)1.47sTimp de răspuns (total)2.21s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.48sTimp de răspuns (maxim)14.63sTimp de răspuns (total)19.43s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)821msTimp de răspuns (maxim)821msTimp de răspuns (total)821ms
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.07sTimp de răspuns (total)1.07s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.89sTimp de răspuns (maxim)1.89sTimp de răspuns (total)1.89s
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 37.0%Teste instabile: 4…Tokenuri de ieșire: 3,720Tokenuri de raționament: 0Timp de răspuns: medie 4.33s · total 78.02s · maxim 32.57s
Trucuri anti-AI
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)2.11sTimp de răspuns (maxim)3.94sTimp de răspuns (total)8.46s
Programare
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.79sTimp de răspuns (maxim)9.79sTimp de răspuns (total)9.79s
Combinat
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)32.57sTimp de răspuns (maxim)32.57sTimp de răspuns (total)32.57s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.08sTimp de răspuns (maxim)1.62sTimp de răspuns (total)2.15s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.99sTimp de răspuns (maxim)3.99sTimp de răspuns (total)5.98s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)790msTimp de răspuns (maxim)790msTimp de răspuns (total)790ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.68sTimp de răspuns (maxim)10.68sTimp de răspuns (total)10.68s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.74sTimp de răspuns (maxim)14.93sTimp de răspuns (total)67.31s…
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 72.2%Teste instabile: 0…Tokenuri de ieșire: 2,168Tokenuri de raționament: 29,030Timp de răspuns: medie 3.74s · total 67.31s · maxim 14.93s
Trucuri anti-AI
: 9.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.33sTimp de răspuns (maxim)3.89sTimp de răspuns (total)9.30s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.34sTimp de răspuns (maxim)4.34sTimp de răspuns (total)4.34s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.93sTimp de răspuns (maxim)14.93sTimp de răspuns (total)14.93s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.29sTimp de răspuns (maxim)2.31sTimp de răspuns (total)4.59s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)4.21sTimp de răspuns (maxim)5.86sTimp de răspuns (total)12.62s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.16sTimp de răspuns (total)3.16s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)1.93sTimp de răspuns (total)3.82s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.58sTimp de răspuns (maxim)4.41sTimp de răspuns (total)10.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.80sTimp de răspuns (maxim)3.80sTimp de răspuns (total)3.80s
Total teste: 18Teste greșite: 9Rată de trecere pe încercare: 64.8%Teste instabile: 6…Tokenuri de ieșire: 2,010Tokenuri de raționament: 91,298Timp de răspuns: medie 23.88s · total 262.66s · maxim 121.79s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.81sTimp de răspuns (maxim)5.65sTimp de răspuns (total)7.62s
Programare
: 2.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)23.58sTimp de răspuns (maxim)23.58sTimp de răspuns (total)23.58s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.64sTimp de răspuns (maxim)37.64sTimp de răspuns (total)37.64s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.63sTimp de răspuns (maxim)6.63sTimp de răspuns (total)6.63s
Specific domeniului
: 5.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)121.79sTimp de răspuns (maxim)121.79sTimp de răspuns (total)121.79s
Inteligență generală
: 4.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.25sTimp de răspuns (maxim)16.25sTimp de răspuns (total)16.25s
Apelare instrumente
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)27.71sTimp de răspuns (maxim)27.71sTimp de răspuns (total)27.71s
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 59.3%Teste instabile: 8…Tokenuri de ieșire: 4,980Tokenuri de raționament: 156,288Timp de răspuns: medie 44.13s · total 485.47s · maxim 204.02s
Trucuri anti-AI
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)25.50sTimp de răspuns (maxim)37.73sTimp de răspuns (total)51.00s
Programare
: 6.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)40.73sTimp de răspuns (maxim)40.73sTimp de răspuns (total)40.73s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)65.96sTimp de răspuns (maxim)65.96sTimp de răspuns (total)65.96s
Parsare și extragere de date
: 3.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)21.42sTimp de răspuns (maxim)21.42sTimp de răspuns (total)21.42s
Specific domeniului
: 5.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)204.02sTimp de răspuns (maxim)204.02sTimp de răspuns (total)204.02s
Inteligență generală
: 4.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)17.51sTimp de răspuns (maxim)17.51sTimp de răspuns (total)17.51s
Respectarea instrucțiunilor
: 8.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.90sTimp de răspuns (maxim)11.90sTimp de răspuns (total)11.90s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)33.30sTimp de răspuns (maxim)33.30sTimp de răspuns (total)33.30s
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 81.5%Teste instabile: 6…Tokenuri de ieșire: 2,073Tokenuri de raționament: 191,899Timp de răspuns: medie 66.72s · total 1201.03s · maxim 234.29s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)59.11sTimp de răspuns (maxim)168.31sTimp de răspuns (total)236.44s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)45.75sTimp de răspuns (maxim)45.75sTimp de răspuns (total)45.75s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.78sTimp de răspuns (maxim)17.78sTimp de răspuns (total)17.78s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)56.99sTimp de răspuns (maxim)80.14sTimp de răspuns (total)113.98s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)146.50sTimp de răspuns (maxim)234.29sTimp de răspuns (total)439.49s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)40.05sTimp de răspuns (maxim)40.05sTimp de răspuns (total)40.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)63.49sTimp de răspuns (maxim)111.61sTimp de răspuns (total)126.98s
Rezolvare de puzzle-uri
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Timp de răspuns (mediu)56.74sTimp de răspuns (maxim)115.01sTimp de răspuns (total)170.23s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.33sTimp de răspuns (maxim)10.33sTimp de răspuns (total)10.33s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)11.21sTimp de răspuns (maxim)94.06sTimp de răspuns (total)201.80s…
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 68.5%Teste instabile: 2…Tokenuri de ieșire: 2,946Tokenuri de raționament: 58,132Timp de răspuns: medie 11.21s · total 201.80s · maxim 94.06s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.52sTimp de răspuns (maxim)7.74sTimp de răspuns (total)18.10s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.41sTimp de răspuns (maxim)13.41sTimp de răspuns (total)13.41s
Combinat
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.13sTimp de răspuns (maxim)24.13sTimp de răspuns (total)24.13s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.54sTimp de răspuns (maxim)3.33sTimp de răspuns (total)5.08s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)38.18sTimp de răspuns (maxim)94.06sTimp de răspuns (total)114.53s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.15sTimp de răspuns (maxim)4.15sTimp de răspuns (total)4.15s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.88sTimp de răspuns (maxim)2.61sTimp de răspuns (total)3.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.71sTimp de răspuns (maxim)7.71sTimp de răspuns (total)7.71s
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 29.6%Teste instabile: 2…Tokenuri de ieșire: 1,591Tokenuri de raționament: 0Timp de răspuns: medie 1.19s · total 21.37s · maxim 6.48s
Trucuri anti-AI
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)597msTimp de răspuns (maxim)866msTimp de răspuns (total)2.39s
Programare
: 5.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.14sTimp de răspuns (maxim)1.14sTimp de răspuns (total)1.14s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)6.48sTimp de răspuns (maxim)6.48sTimp de răspuns (total)6.48s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)601msTimp de răspuns (maxim)634msTimp de răspuns (total)1.20s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)611msTimp de răspuns (maxim)616msTimp de răspuns (total)1.83s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)541msTimp de răspuns (maxim)541msTimp de răspuns (total)541ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.79sTimp de răspuns (maxim)4.79sTimp de răspuns (total)4.79s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.01sTimp de răspuns (maxim)14.72sTimp de răspuns (total)108.12s…
Total teste: 18Teste greșite: 3Rată de trecere pe încercare: 85.2%Teste instabile: 1…Tokenuri de ieșire: 2,018Tokenuri de raționament: 23,273Timp de răspuns: medie 6.01s · total 108.12s · maxim 14.72s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.48sTimp de răspuns (maxim)4.31sTimp de răspuns (total)13.94s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.94sTimp de răspuns (maxim)6.94sTimp de răspuns (total)6.94s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.27sTimp de răspuns (maxim)3.27sTimp de răspuns (total)3.27s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.40sTimp de răspuns (maxim)14.72sTimp de răspuns (total)18.80s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)8.05sTimp de răspuns (maxim)14.40sTimp de răspuns (total)24.15s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.68sTimp de răspuns (maxim)3.68sTimp de răspuns (total)3.68s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.02sTimp de răspuns (maxim)7.35sTimp de răspuns (total)14.03s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)10.27sTimp de răspuns (total)18.32s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.99sTimp de răspuns (maxim)4.99sTimp de răspuns (total)4.99s
Total teste: 18Teste greșite: 14Rată de trecere pe încercare: 51.9%Teste instabile: 10…Tokenuri de ieșire: 4,984Tokenuri de raționament: 62,787Timp de răspuns: medie 31.08s · total 528.37s · maxim 117.04s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)91.27sTimp de răspuns (maxim)91.27sTimp de răspuns (total)91.27s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)41.03sTimp de răspuns (maxim)41.03sTimp de răspuns (total)41.03s
Parsare și extragere de date
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)21.95sTimp de răspuns (maxim)24.88sTimp de răspuns (total)43.89s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)19.00sTimp de răspuns (maxim)21.63sTimp de răspuns (total)38.01s
Inteligență generală
: 3.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)38.70sTimp de răspuns (maxim)38.70sTimp de răspuns (total)38.70s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.05sTimp de răspuns (maxim)12.05sTimp de răspuns (total)12.05s
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 29.6%Teste instabile: 1…Tokenuri de ieșire: 1,967Tokenuri de raționament: 0Timp de răspuns: medie 1.11s · total 20.02s · maxim 6.04s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)501msTimp de răspuns (maxim)839msTimp de răspuns (total)2.01s
Programare
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.22sTimp de răspuns (maxim)1.22sTimp de răspuns (total)1.22s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)6.04sTimp de răspuns (maxim)6.04sTimp de răspuns (total)6.04s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)522msTimp de răspuns (maxim)537msTimp de răspuns (total)1.04s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)659msTimp de răspuns (maxim)659msTimp de răspuns (total)659ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.63sTimp de răspuns (maxim)4.63sTimp de răspuns (total)4.63s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.51sTimp de răspuns (maxim)2.95sTimp de răspuns (total)27.21s…
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 42.6%Teste instabile: 2…Tokenuri de ieșire: 2,317Tokenuri de raționament: 0Timp de răspuns: medie 1.51s · total 27.21s · maxim 2.95s
Trucuri anti-AI
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.21sTimp de răspuns (maxim)2.58sTimp de răspuns (total)4.85s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.95sTimp de răspuns (maxim)2.95sTimp de răspuns (total)2.95s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.89sTimp de răspuns (maxim)2.89sTimp de răspuns (total)2.89s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.04sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.08s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.54sTimp de răspuns (total)3.22s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.78sTimp de răspuns (maxim)1.78sTimp de răspuns (total)1.78s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.17sTimp de răspuns (total)2.15s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.75sTimp de răspuns (maxim)2.75sTimp de răspuns (total)2.75s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)30.37sTimp de răspuns (maxim)168.71sTimp de răspuns (total)546.72s…
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 83.3%Teste instabile: 3…Tokenuri de ieșire: 3,257Tokenuri de raționament: 52,042Timp de răspuns: medie 30.37s · total 546.72s · maxim 168.71s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)17.99sTimp de răspuns (maxim)48.33sTimp de răspuns (total)71.98s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)74.49sTimp de răspuns (maxim)74.49sTimp de răspuns (total)74.49s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.67sTimp de răspuns (maxim)37.67sTimp de răspuns (total)37.67s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.07sTimp de răspuns (maxim)12.19sTimp de răspuns (total)18.14s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)88.74sTimp de răspuns (maxim)168.71sTimp de răspuns (total)266.21s
Inteligență generală
: 6.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)18.25sTimp de răspuns (maxim)18.25sTimp de răspuns (total)18.25s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.26sTimp de răspuns (maxim)9.02sTimp de răspuns (total)14.52s
Rezolvare de puzzle-uri
: 9.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.03sTimp de răspuns (maxim)13.85sTimp de răspuns (total)33.09s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.38sTimp de răspuns (maxim)12.38sTimp de răspuns (total)12.38s
Total teste: 18Teste greșite: 9Rată de trecere pe încercare: 61.1%Teste instabile: 3…Tokenuri de ieșire: 6,379Tokenuri de raționament: 53,482Timp de răspuns: medie 23.98s · total 431.56s · maxim 88.15s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.18sTimp de răspuns (maxim)23.18sTimp de răspuns (total)23.18s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)88.15sTimp de răspuns (maxim)88.15sTimp de răspuns (total)88.15s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.58sTimp de răspuns (maxim)13.87sTimp de răspuns (total)25.16s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)44.63sTimp de răspuns (maxim)82.55sTimp de răspuns (total)133.89s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)13.50sTimp de răspuns (maxim)13.50sTimp de răspuns (total)13.50s
Respectarea instrucțiunilor
: 8.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)15.66sTimp de răspuns (maxim)21.80sTimp de răspuns (total)31.32s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)18.64sTimp de răspuns (maxim)18.64sTimp de răspuns (total)18.64s
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 61.1%Teste instabile: 0…Tokenuri de ieșire: 928Tokenuri de raționament: 72,661Timp de răspuns: medie 16.76s · total 301.61s · maxim 158.78s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.11sTimp de răspuns (maxim)3.43sTimp de răspuns (total)8.43s
Programare
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)68.55sTimp de răspuns (maxim)68.55sTimp de răspuns (total)68.55s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.29sTimp de răspuns (maxim)19.29sTimp de răspuns (total)19.29s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.29sTimp de răspuns (maxim)2.62sTimp de răspuns (total)4.58s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.07sTimp de răspuns (maxim)11.07sTimp de răspuns (total)11.07s
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 85.2%Teste instabile: 4…Tokenuri de ieșire: 20,163Tokenuri de raționament: 58,337Timp de răspuns: medie 23.34s · total 233.40s · maxim 79.09s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.66sTimp de răspuns (maxim)25.06sTimp de răspuns (total)47.32s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)79.09sTimp de răspuns (maxim)79.09sTimp de răspuns (total)79.09s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.96sTimp de răspuns (maxim)28.96sTimp de răspuns (total)28.96s
Parsare și extragere de date
: 7.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)8.90sTimp de răspuns (maxim)8.90sTimp de răspuns (total)8.90s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)14.69sTimp de răspuns (maxim)14.69sTimp de răspuns (total)14.69s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.25sTimp de răspuns (maxim)7.25sTimp de răspuns (total)7.25s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.64sTimp de răspuns (maxim)16.34sTimp de răspuns (total)31.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.93sTimp de răspuns (maxim)15.93sTimp de răspuns (total)15.93s
Total teste: 18Teste greșite: 6Rată de trecere pe încercare: 77.8%Teste instabile: 3…Tokenuri de ieșire: 2,360Tokenuri de raționament: 38,320Timp de răspuns: medie 12.27s · total 208.56s · maxim 64.71s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.06sTimp de răspuns (maxim)4.70sTimp de răspuns (total)12.23s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)52.12sTimp de răspuns (maxim)52.12sTimp de răspuns (total)52.12s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)64.71sTimp de răspuns (maxim)64.71sTimp de răspuns (total)64.71s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)17.20sTimp de răspuns (maxim)17.44sTimp de răspuns (total)34.40s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)6.00sTimp de răspuns (maxim)6.14sTimp de răspuns (total)12.01s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.06sTimp de răspuns (maxim)4.06sTimp de răspuns (total)4.06s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.36sTimp de răspuns (maxim)4.35sTimp de răspuns (total)6.72s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.19sTimp de răspuns (maxim)8.19sTimp de răspuns (total)8.19s
Total teste: 18Teste greșite: 6Rată de trecere pe încercare: 77.8%Teste instabile: 5…Tokenuri de ieșire: 12,197Tokenuri de raționament: 38,933Timp de răspuns: medie 17.67s · total 317.98s · maxim 194.23s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.82sTimp de răspuns (maxim)7.69sTimp de răspuns (total)19.26s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.26sTimp de răspuns (maxim)12.26sTimp de răspuns (total)12.26s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.88sTimp de răspuns (maxim)13.88sTimp de răspuns (total)13.88s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.19sTimp de răspuns (maxim)6.42sTimp de răspuns (total)12.38s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)71.07sTimp de răspuns (maxim)194.23sTimp de răspuns (total)213.22s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.05sTimp de răspuns (maxim)10.05sTimp de răspuns (total)10.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.38sTimp de răspuns (maxim)5.70sTimp de răspuns (total)10.77s
Rezolvare de puzzle-uri
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.44sTimp de răspuns (maxim)7.26sTimp de răspuns (total)16.32s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.84sTimp de răspuns (maxim)9.84sTimp de răspuns (total)9.84s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Eroare API: 1Timp de răspuns (mediu)9.06sTimp de răspuns (maxim)26.24sTimp de răspuns (total)90.58s…
Total teste: 18Teste greșite: 4Rată de trecere pe încercare: 77.8%Teste instabile: 0…Tokenuri de ieșire: 1,508Tokenuri de raționament: 10,084Timp de răspuns: medie 9.06s · total 90.58s · maxim 26.24s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.99sTimp de răspuns (maxim)26.24sTimp de răspuns (total)29.99s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.37sTimp de răspuns (maxim)10.37sTimp de răspuns (total)10.37s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.84sTimp de răspuns (maxim)10.84sTimp de răspuns (total)10.84s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.01sTimp de răspuns (maxim)7.01sTimp de răspuns (total)7.01s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.34sTimp de răspuns (maxim)9.34sTimp de răspuns (total)9.34s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.26sTimp de răspuns (maxim)3.26sTimp de răspuns (total)3.26s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.91sTimp de răspuns (maxim)4.23sTimp de răspuns (total)7.81s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp expirat: 2Eroare API: 1Timp de răspuns (mediu)24.13sTimp de răspuns (maxim)118.52sTimp de răspuns (total)410.25s…
Total teste: 18Teste greșite: 6Rată de trecere pe încercare: 75.9%Teste instabile: 3…Tokenuri de ieșire: 8,005Tokenuri de raționament: 49,090Timp de răspuns: medie 24.13s · total 410.25s · maxim 118.52s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.31sTimp de răspuns (maxim)14.20sTimp de răspuns (total)33.24s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)118.52sTimp de răspuns (maxim)118.52sTimp de răspuns (total)118.52s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)43.11sTimp de răspuns (maxim)43.11sTimp de răspuns (total)43.11s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.33sTimp de răspuns (maxim)9.40sTimp de răspuns (total)18.66s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)29.77sTimp de răspuns (maxim)32.22sTimp de răspuns (total)89.30s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.95sTimp de răspuns (maxim)20.95sTimp de răspuns (total)20.95s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.47sTimp de răspuns (maxim)10.16sTimp de răspuns (total)14.94s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)23.85sTimp de răspuns (maxim)33.09sTimp de răspuns (total)71.54s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 2Timp de răspuns (mediu)46.56sTimp de răspuns (maxim)120.91sTimp de răspuns (total)512.20s…
Total teste: 18Teste greșite: 4Rată de trecere pe încercare: 83.3%Teste instabile: 2…Tokenuri de ieșire: 2,121Tokenuri de raționament: 111,889Timp de răspuns: medie 46.56s · total 512.20s · maxim 120.91s
Trucuri anti-AI
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)45.78sTimp de răspuns (maxim)81.20sTimp de răspuns (total)91.57s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)120.91sTimp de răspuns (maxim)120.91sTimp de răspuns (total)120.91s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.85sTimp de răspuns (maxim)46.85sTimp de răspuns (total)46.85s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.91sTimp de răspuns (maxim)46.91sTimp de răspuns (total)46.91s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)17.50sTimp de răspuns (maxim)17.50sTimp de răspuns (total)17.50s
Inteligență generală
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)79.86sTimp de răspuns (maxim)79.86sTimp de răspuns (total)79.86s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.93sTimp de răspuns (maxim)31.93sTimp de răspuns (total)31.93s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.57sTimp de răspuns (maxim)49.12sTimp de răspuns (total)69.13s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)7.54sTimp de răspuns (total)7.54s
Total teste: 18Teste greșite: 9Rată de trecere pe încercare: 72.2%Teste instabile: 7…Tokenuri de ieșire: 42,176Tokenuri de raționament: 84,870Timp de răspuns: medie 72.43s · total 796.70s · maxim 150.77s
Trucuri anti-AI
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Răspuns greșit: 1Timp de răspuns (mediu)51.38sTimp de răspuns (maxim)85.28sTimp de răspuns (total)102.75s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)150.77sTimp de răspuns (maxim)150.77sTimp de răspuns (total)150.77s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)71.37sTimp de răspuns (maxim)71.37sTimp de răspuns (total)71.37s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)49.78sTimp de răspuns (maxim)49.78sTimp de răspuns (total)49.78s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)137.29sTimp de răspuns (maxim)137.29sTimp de răspuns (total)137.29s
Inteligență generală
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)69.73sTimp de răspuns (maxim)69.73sTimp de răspuns (total)69.73s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)92.47sTimp de răspuns (maxim)92.47sTimp de răspuns (total)92.47s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.74sTimp de răspuns (maxim)31.74sTimp de răspuns (total)31.74s
Total teste: 18Teste greșite: 13Rată de trecere pe încercare: 57.4%Teste instabile: 10…Tokenuri de ieșire: 107,044Tokenuri de raționament: 206,422Timp de răspuns: medie 39.65s · total 396.47s · maxim 237.27s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Combinat
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)60.39sTimp de răspuns (maxim)60.39sTimp de răspuns (total)60.39s
Parsare și extragere de date
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.48sTimp de răspuns (maxim)7.48sTimp de răspuns (total)7.48s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)237.27sTimp de răspuns (maxim)237.27sTimp de răspuns (total)237.27s
Inteligență generală
: 3.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.63sTimp de răspuns (maxim)6.63sTimp de răspuns (total)6.63s
Rezolvare de puzzle-uri
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)11.54sTimp de răspuns (maxim)17.37sTimp de răspuns (total)23.08s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.35sTimp de răspuns (maxim)15.35sTimp de răspuns (total)15.35s
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 64.8%Teste instabile: 1…Tokenuri de ieșire: 7,433Tokenuri de raționament: 0Timp de răspuns: medie 4.98s · total 54.83s · maxim 23.84s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.67sTimp de răspuns (maxim)3.67sTimp de răspuns (total)3.67s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.84sTimp de răspuns (maxim)23.84sTimp de răspuns (total)23.84s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.43sTimp de răspuns (maxim)3.43sTimp de răspuns (total)3.43s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)3.54sTimp de răspuns (total)3.54s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.56sTimp de răspuns (maxim)2.56sTimp de răspuns (total)2.56s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.96sTimp de răspuns (maxim)1.96sTimp de răspuns (total)1.96s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)2.92sTimp de răspuns (maxim)3.33sTimp de răspuns (total)5.84s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.11sTimp de răspuns (maxim)4.11sTimp de răspuns (total)4.11s
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 77.8%Teste instabile: 6…Tokenuri de ieșire: 2,351Tokenuri de raționament: 58,941Timp de răspuns: medie 14.96s · total 269.32s · maxim 67.08s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.78sTimp de răspuns (maxim)13.78sTimp de răspuns (total)13.78s
Combinat
: 6.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)15.06sTimp de răspuns (maxim)15.06sTimp de răspuns (total)15.06s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.60sTimp de răspuns (maxim)9.92sTimp de răspuns (total)19.19s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)38.15sTimp de răspuns (maxim)67.08sTimp de răspuns (total)114.45s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.09sTimp de răspuns (maxim)11.09sTimp de răspuns (total)11.09s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.74sTimp de răspuns (maxim)5.23sTimp de răspuns (total)7.47s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)10.91sTimp de răspuns (maxim)18.97sTimp de răspuns (total)32.74s
Apelare instrumente
: 7.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)12.53sTimp de răspuns (maxim)12.53sTimp de răspuns (total)12.53s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.84sTimp de răspuns (maxim)38.52sTimp de răspuns (total)123.17s…
Total teste: 18Teste greșite: 6Rată de trecere pe încercare: 75.9%Teste instabile: 3…Tokenuri de ieșire: 17,346Tokenuri de raționament: 0Timp de răspuns: medie 6.84s · total 123.17s · maxim 38.52s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.40sTimp de răspuns (maxim)4.78sTimp de răspuns (total)13.59s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.97sTimp de răspuns (maxim)8.97sTimp de răspuns (total)8.97s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.12sTimp de răspuns (maxim)9.12sTimp de răspuns (total)9.12s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.05sTimp de răspuns (maxim)3.33sTimp de răspuns (total)6.10s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)17.78sTimp de răspuns (maxim)38.52sTimp de răspuns (total)53.33s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.20sTimp de răspuns (maxim)3.20sTimp de răspuns (total)3.20s
Respectarea instrucțiunilor
: 7.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.46sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.92s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.42sTimp de răspuns (maxim)5.04sTimp de răspuns (total)13.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.68sTimp de răspuns (maxim)4.68sTimp de răspuns (total)4.68s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 5Răspuns greșit: 4Timp de răspuns (mediu)15.22sTimp de răspuns (maxim)102.91sTimp de răspuns (total)273.90s…
Total teste: 18Teste greșite: 9Rată de trecere pe încercare: 70.4%Teste instabile: 6…Tokenuri de ieșire: 2,131Tokenuri de raționament: 59,567Timp de răspuns: medie 15.22s · total 273.90s · maxim 102.91s
Trucuri anti-AI
: 8.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.05sTimp de răspuns (maxim)6.69sTimp de răspuns (total)16.20s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.76sTimp de răspuns (maxim)7.76sTimp de răspuns (total)7.76s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.81sTimp de răspuns (maxim)17.81sTimp de răspuns (total)17.81s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)3.39sTimp de răspuns (total)4.87s
Specific domeniului
: 4.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)65.31sTimp de răspuns (maxim)102.91sTimp de răspuns (total)195.92s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.72sTimp de răspuns (maxim)3.72sTimp de răspuns (total)3.72s
Rezolvare de puzzle-uri
: 6.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)4.33sTimp de răspuns (maxim)7.27sTimp de răspuns (total)13.00s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)9.62sTimp de răspuns (maxim)9.62sTimp de răspuns (total)9.62s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.60sTimp de răspuns (maxim)79.71sTimp de răspuns (total)193.57s…
Total teste: 18Teste greșite: 0Rată de trecere pe încercare: 100.0%Teste instabile: 0…Tokenuri de ieșire: 2,072Tokenuri de raționament: 97,041Timp de răspuns: medie 17.60s · total 193.57s · maxim 79.71s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.13sTimp de răspuns (maxim)5.61sTimp de răspuns (total)8.26s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)79.71sTimp de răspuns (maxim)79.71sTimp de răspuns (total)79.71s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)50.16sTimp de răspuns (maxim)50.16sTimp de răspuns (total)50.16s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.72sTimp de răspuns (maxim)4.72sTimp de răspuns (total)4.72s
Specific domeniului
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.12sTimp de răspuns (maxim)21.12sTimp de răspuns (total)21.12s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.09sTimp de răspuns (maxim)4.09sTimp de răspuns (total)4.09s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.10sTimp de răspuns (maxim)6.10sTimp de răspuns (total)6.10s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.43sTimp de răspuns (maxim)4.68sTimp de răspuns (total)8.85s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.55sTimp de răspuns (maxim)10.55sTimp de răspuns (total)10.55s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.12sTimp de răspuns (maxim)95.48sTimp de răspuns (total)218.12s…
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 75.9%Teste instabile: 1…Tokenuri de ieșire: 1,898Tokenuri de raționament: 122,273Timp de răspuns: medie 12.12s · total 218.12s · maxim 95.48s
Trucuri anti-AI
: 8.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.30sTimp de răspuns (maxim)15.56sTimp de răspuns (total)25.21s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.23sTimp de răspuns (maxim)16.23sTimp de răspuns (total)16.23s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.44sTimp de răspuns (maxim)28.44sTimp de răspuns (total)28.44s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.06sTimp de răspuns (maxim)5.06sTimp de răspuns (total)8.11s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)37.34sTimp de răspuns (maxim)95.48sTimp de răspuns (total)112.01s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.86sTimp de răspuns (maxim)4.86sTimp de răspuns (total)4.86s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.62sTimp de răspuns (maxim)2.78sTimp de răspuns (total)5.24s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.94sTimp de răspuns (maxim)6.33sTimp de răspuns (total)11.83s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.20sTimp de răspuns (maxim)6.20sTimp de răspuns (total)6.20s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.88sTimp de răspuns (maxim)18.33sTimp de răspuns (total)105.90s…
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 68.5%Teste instabile: 3…Tokenuri de ieșire: 20,784Tokenuri de raționament: 0Timp de răspuns: medie 5.88s · total 105.90s · maxim 18.33s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.32sTimp de răspuns (maxim)9.32sTimp de răspuns (total)9.32s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.21sTimp de răspuns (maxim)2.52sTimp de răspuns (total)4.42s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)13.01sTimp de răspuns (maxim)18.33sTimp de răspuns (total)39.04s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.99sTimp de răspuns (maxim)1.99sTimp de răspuns (total)1.99s
Respectarea instrucțiunilor
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.29sTimp de răspuns (maxim)4.18sTimp de răspuns (total)6.59s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.93sTimp de răspuns (maxim)3.05sTimp de răspuns (total)8.78s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.36sTimp de răspuns (maxim)8.36sTimp de răspuns (total)8.36s
Total teste: 18Teste greșite: 7Rată de trecere pe încercare: 72.2%Teste instabile: 4…Tokenuri de ieșire: 2,705Tokenuri de raționament: 18,977Timp de răspuns: medie 14.04s · total 154.41s · maxim 77.80s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.12sTimp de răspuns (maxim)15.12sTimp de răspuns (total)15.12s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.06sTimp de răspuns (maxim)14.06sTimp de răspuns (total)14.06s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.15sTimp de răspuns (maxim)3.15sTimp de răspuns (total)3.15s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)77.80sTimp de răspuns (maxim)77.80sTimp de răspuns (total)77.80s
Inteligență generală
: 3.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.32sTimp de răspuns (maxim)4.32sTimp de răspuns (total)4.32s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.12sTimp de răspuns (maxim)3.12sTimp de răspuns (total)3.12s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.47sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.94s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)10.30sTimp de răspuns (maxim)10.30sTimp de răspuns (total)10.30s
Total teste: 18Teste greșite: 8Rată de trecere pe încercare: 79.6%Teste instabile: 7…Tokenuri de ieșire: 10,137Tokenuri de raționament: 208,761Timp de răspuns: medie 44.51s · total 801.21s · maxim 106.00s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.13sTimp de răspuns (maxim)34.96sTimp de răspuns (total)84.53s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)79.09sTimp de răspuns (maxim)79.09sTimp de răspuns (total)79.09s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)75.34sTimp de răspuns (maxim)75.34sTimp de răspuns (total)75.34s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)59.33sTimp de răspuns (maxim)97.12sTimp de răspuns (total)118.65s
Specific domeniului
: 4.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)88.34sTimp de răspuns (maxim)106.00sTimp de răspuns (total)265.01s
Inteligență generală
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)30.30sTimp de răspuns (maxim)30.30sTimp de răspuns (total)30.30s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.45sTimp de răspuns (maxim)43.36sTimp de răspuns (total)48.89s
Rezolvare de puzzle-uri
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)31.58sTimp de răspuns (maxim)60.18sTimp de răspuns (total)94.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.65sTimp de răspuns (maxim)4.65sTimp de răspuns (total)4.65s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)3.53sTimp de răspuns (maxim)21.45sTimp de răspuns (total)60.03s…
Total teste: 18Teste greșite: 2Rată de trecere pe încercare: 88.9%Teste instabile: 0…Tokenuri de ieșire: 5,375Tokenuri de raționament: 1,341Timp de răspuns: medie 3.53s · total 60.03s · maxim 21.45s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.85sTimp de răspuns (maxim)2.71sTimp de răspuns (total)7.38s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.41sTimp de răspuns (maxim)6.41sTimp de răspuns (total)6.41s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.45sTimp de răspuns (maxim)21.45sTimp de răspuns (total)21.45s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.37sTimp de răspuns (maxim)3.30sTimp de răspuns (total)4.74s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)1.17sTimp de răspuns (maxim)1.40sTimp de răspuns (total)2.35s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.87sTimp de răspuns (maxim)2.87sTimp de răspuns (total)2.87s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.57sTimp de răspuns (maxim)1.66sTimp de răspuns (total)3.14s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.89sTimp de răspuns (total)7.54s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.17sTimp de răspuns (maxim)4.17sTimp de răspuns (total)4.17s
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 81.5%Teste instabile: 3…Tokenuri de ieșire: 2,500Tokenuri de raționament: 242,500Timp de răspuns: medie 53.03s · total 954.46s · maxim 163.96s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)19.75sTimp de răspuns (maxim)49.95sTimp de răspuns (total)79.01s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)70.35sTimp de răspuns (maxim)70.35sTimp de răspuns (total)70.35s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)163.96sTimp de răspuns (maxim)163.96sTimp de răspuns (total)163.96s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)30.26sTimp de răspuns (maxim)32.03sTimp de răspuns (total)60.52s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)79.53sTimp de răspuns (maxim)95.52sTimp de răspuns (total)238.59s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)101.41sTimp de răspuns (maxim)101.41sTimp de răspuns (total)101.41s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.66sTimp de răspuns (maxim)32.25sTimp de răspuns (total)39.32s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)64.61sTimp de răspuns (maxim)123.57sTimp de răspuns (total)193.84s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.45sTimp de răspuns (maxim)7.45sTimp de răspuns (total)7.45s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)3.13sTimp de răspuns (maxim)18.27sTimp de răspuns (total)56.33s…
Total teste: 18Teste greșite: 2Rată de trecere pe încercare: 88.9%Teste instabile: 0…Tokenuri de ieșire: 6,326Tokenuri de raționament: 0Timp de răspuns: medie 3.13s · total 56.33s · maxim 18.27s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.12sTimp de răspuns (maxim)3.75sTimp de răspuns (total)8.50s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.84sTimp de răspuns (maxim)2.84sTimp de răspuns (total)2.84s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)18.27sTimp de răspuns (maxim)18.27sTimp de răspuns (total)18.27s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.15sTimp de răspuns (maxim)2.33sTimp de răspuns (total)4.29s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.40sTimp de răspuns (total)3.58s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.47sTimp de răspuns (maxim)3.47sTimp de răspuns (total)3.47s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.46sTimp de răspuns (maxim)1.68sTimp de răspuns (total)2.91s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.58sTimp de răspuns (maxim)4.07sTimp de răspuns (total)7.73s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.74sTimp de răspuns (maxim)4.74sTimp de răspuns (total)4.74s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp expirat: 2Timp de răspuns (mediu)31.38sTimp de răspuns (maxim)119.29sTimp de răspuns (total)564.84s…
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 79.6%Teste instabile: 3…Tokenuri de ieșire: 17,635Tokenuri de raționament: 162,668Timp de răspuns: medie 31.38s · total 564.84s · maxim 119.29s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.75sTimp de răspuns (maxim)18.03sTimp de răspuns (total)39.01s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)70.98sTimp de răspuns (maxim)70.98sTimp de răspuns (total)70.98s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)107.79sTimp de răspuns (maxim)107.79sTimp de răspuns (total)107.79s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.41sTimp de răspuns (maxim)29.79sTimp de răspuns (total)46.83s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)63.40sTimp de răspuns (maxim)119.29sTimp de răspuns (total)190.20s
Inteligență generală
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)34.11sTimp de răspuns (maxim)34.11sTimp de răspuns (total)34.11s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.88sTimp de răspuns (maxim)15.44sTimp de răspuns (total)19.76s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.18sTimp de răspuns (maxim)31.99sTimp de răspuns (total)51.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.60sTimp de răspuns (maxim)4.60sTimp de răspuns (total)4.60s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)15.38sTimp de răspuns (maxim)100.93sTimp de răspuns (total)276.91s…
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 83.3%Teste instabile: 3…Tokenuri de ieșire: 2,279Tokenuri de raționament: 35,179Timp de răspuns: medie 15.38s · total 276.91s · maxim 100.93s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.16sTimp de răspuns (maxim)6.68sTimp de răspuns (total)16.63s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.95sTimp de răspuns (maxim)8.95sTimp de răspuns (total)8.95s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.56sTimp de răspuns (maxim)19.56sTimp de răspuns (total)19.56s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.07sTimp de răspuns (maxim)3.59sTimp de răspuns (total)6.15s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)64.31sTimp de răspuns (maxim)100.93sTimp de răspuns (total)192.94s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.87sTimp de răspuns (maxim)4.87sTimp de răspuns (total)4.87s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.04sTimp de răspuns (maxim)3.44sTimp de răspuns (total)6.07s
Rezolvare de puzzle-uri
: 9.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.12sTimp de răspuns (maxim)8.73sTimp de răspuns (total)15.37s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.37sTimp de răspuns (maxim)6.37sTimp de răspuns (total)6.37s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)15.96sTimp de răspuns (maxim)40.61sTimp de răspuns (total)175.52s…
Total teste: 18Teste greșite: 1Rată de trecere pe încercare: 94.4%Teste instabile: 0…Tokenuri de ieșire: 1,932Tokenuri de raționament: 40,542Timp de răspuns: medie 15.96s · total 175.52s · maxim 40.61s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.90sTimp de răspuns (maxim)9.52sTimp de răspuns (total)15.80s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.88sTimp de răspuns (maxim)19.88sTimp de răspuns (total)19.88s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)40.61sTimp de răspuns (maxim)40.61sTimp de răspuns (total)40.61s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.72sTimp de răspuns (maxim)7.72sTimp de răspuns (total)7.72s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)32.73sTimp de răspuns (maxim)32.73sTimp de răspuns (total)32.73s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.77sTimp de răspuns (maxim)11.77sTimp de răspuns (total)11.77s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.56sTimp de răspuns (maxim)9.56sTimp de răspuns (total)9.56s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.15sTimp de răspuns (maxim)8.49sTimp de răspuns (total)14.30s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.15sTimp de răspuns (maxim)23.15sTimp de răspuns (total)23.15s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 3Timp de răspuns (mediu)9.81sTimp de răspuns (maxim)31.36sTimp de răspuns (total)176.62s…
Total teste: 18Teste greșite: 6Rată de trecere pe încercare: 74.1%Teste instabile: 2…Tokenuri de ieșire: 1,568Tokenuri de raționament: 91,909Timp de răspuns: medie 9.81s · total 176.62s · maxim 31.36s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.44sTimp de răspuns (total)12.65s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.36sTimp de răspuns (maxim)31.36sTimp de răspuns (total)31.36s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.93sTimp de răspuns (maxim)20.93sTimp de răspuns (total)20.93s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.01sTimp de răspuns (maxim)4.27sTimp de răspuns (total)8.02s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)21.33sTimp de răspuns (maxim)24.21sTimp de răspuns (total)64.00s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.78sTimp de răspuns (maxim)5.78sTimp de răspuns (total)5.78s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.85sTimp de răspuns (maxim)4.53sTimp de răspuns (total)11.55s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.39sTimp de răspuns (maxim)12.39sTimp de răspuns (total)12.39s
Total teste: 18Teste greșite: 9Rată de trecere pe încercare: 66.7%Teste instabile: 5…Tokenuri de ieșire: 1,744Tokenuri de raționament: 109,882Timp de răspuns: medie 10.33s · total 185.87s · maxim 29.87s
Trucuri anti-AI
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.36sTimp de răspuns (maxim)4.08sTimp de răspuns (total)13.42s
Programare
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)24.33sTimp de răspuns (maxim)24.33sTimp de răspuns (total)24.33s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.40sTimp de răspuns (maxim)17.40sTimp de răspuns (total)17.40s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.17sTimp de răspuns (maxim)5.02sTimp de răspuns (total)8.34s
Inteligență generală
: 5.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)7.09sTimp de răspuns (maxim)7.09sTimp de răspuns (total)7.09s
Respectarea instrucțiunilor
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)4.42sTimp de răspuns (maxim)4.46sTimp de răspuns (total)8.84s
Rezolvare de puzzle-uri
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)3.89sTimp de răspuns (maxim)4.90sTimp de răspuns (total)11.67s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)13.68sTimp de răspuns (maxim)13.68sTimp de răspuns (total)13.68s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)18.63sTimp de răspuns (maxim)100.41sTimp de răspuns (total)335.26s…
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 79.6%Teste instabile: 3…Tokenuri de ieșire: 2,169Tokenuri de raționament: 48,732Timp de răspuns: medie 18.63s · total 335.26s · maxim 100.41s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.11sTimp de răspuns (maxim)6.42sTimp de răspuns (total)16.42s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.03sTimp de răspuns (maxim)13.03sTimp de răspuns (total)13.03s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.57sTimp de răspuns (maxim)20.57sTimp de răspuns (total)20.57s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.32sTimp de răspuns (maxim)5.40sTimp de răspuns (total)10.64s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)74.27sTimp de răspuns (maxim)100.41sTimp de răspuns (total)222.80s
Inteligență generală
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.92sTimp de răspuns (maxim)4.92sTimp de răspuns (total)4.92s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.11sTimp de răspuns (maxim)3.68sTimp de răspuns (total)6.22s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)9.13sTimp de răspuns (maxim)18.14sTimp de răspuns (total)27.39s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.28sTimp de răspuns (maxim)13.28sTimp de răspuns (total)13.28s
Total teste: 18Teste greșite: 5Rată de trecere pe încercare: 74.1%Teste instabile: 1…Tokenuri de ieșire: 42,068Tokenuri de raționament: 26,784Timp de răspuns: medie 12.66s · total 126.62s · maxim 46.35s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)35.76sTimp de răspuns (maxim)35.76sTimp de răspuns (total)35.76s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.35sTimp de răspuns (maxim)46.35sTimp de răspuns (total)46.35s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.90sTimp de răspuns (maxim)13.90sTimp de răspuns (total)13.90s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.94sTimp de răspuns (maxim)4.94sTimp de răspuns (total)4.94s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.61sTimp de răspuns (maxim)2.61sTimp de răspuns (total)2.61s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.80sTimp de răspuns (maxim)5.22sTimp de răspuns (total)9.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.48sTimp de răspuns (maxim)7.48sTimp de răspuns (total)7.48s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 4Răspuns greșit: 2Timp de răspuns (mediu)21.08sTimp de răspuns (maxim)83.40sTimp de răspuns (total)231.84s…
Total teste: 18Teste greșite: 6Rată de trecere pe încercare: 70.4%Teste instabile: 2…Tokenuri de ieșire: 29,829Tokenuri de raționament: 18,938Timp de răspuns: medie 21.08s · total 231.84s · maxim 83.40s
Trucuri anti-AI
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Timp de răspuns (mediu)7.45sTimp de răspuns (maxim)11.88sTimp de răspuns (total)14.90s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.11sTimp de răspuns (maxim)23.11sTimp de răspuns (total)23.11s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)76.66sTimp de răspuns (maxim)76.66sTimp de răspuns (total)76.66s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.37sTimp de răspuns (maxim)7.37sTimp de răspuns (total)7.37s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.04sTimp de răspuns (maxim)5.04sTimp de răspuns (total)5.04s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)2.43sTimp de răspuns (total)2.43s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.60sTimp de răspuns (maxim)4.66sTimp de răspuns (total)9.20s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.73sTimp de răspuns (maxim)9.73sTimp de răspuns (total)9.73s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)68.83sTimp de răspuns (maxim)280.52sTimp de răspuns (total)1101.32s…
Total teste: 16Teste greșite: 4Rată de trecere pe încercare: 77.1%Teste instabile: 1…Tokenuri de ieșire: 1,283Tokenuri de raționament: 1,533,310Timp de răspuns: medie 68.83s · total 1101.32s · maxim 280.52s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)43.87sTimp de răspuns (maxim)121.88sTimp de răspuns (total)131.62s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)280.52sTimp de răspuns (maxim)280.52sTimp de răspuns (total)280.52s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.16sTimp de răspuns (maxim)8.54sTimp de răspuns (total)14.31s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)127.58sTimp de răspuns (maxim)133.93sTimp de răspuns (total)382.74s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.25sTimp de răspuns (maxim)5.25sTimp de răspuns (total)5.25s
Respectarea instrucțiunilor
: 7.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)70.07sTimp de răspuns (maxim)136.53sTimp de răspuns (total)140.14s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)46.33sTimp de răspuns (maxim)134.22sTimp de răspuns (total)139.00s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.73sTimp de răspuns (maxim)7.73sTimp de răspuns (total)7.73s
Total teste: 18Teste greșite: 11Rată de trecere pe încercare: 57.4%Teste instabile: 6…Tokenuri de ieșire: 299,034Tokenuri de raționament: 309,670Timp de răspuns: medie 9.80s · total 156.75s · maxim 35.28s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)27.11sTimp de răspuns (maxim)27.11sTimp de răspuns (total)27.11s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.54sTimp de răspuns (maxim)7.51sTimp de răspuns (total)11.08s
Inteligență generală
: 5.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.40sTimp de răspuns (maxim)6.40sTimp de răspuns (total)6.40s
Rezolvare de puzzle-uri
: 7.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.01sTimp de răspuns (maxim)5.49sTimp de răspuns (total)15.03s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms