Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.39sTimp de răspuns (maxim)50.16sTimp de răspuns (total)113.86s…
Total teste: 17Teste greșite: 0Rată de trecere pe încercare: 100.0%Teste instabile: 0…Tokenuri de ieșire: 1,640Tokenuri de raționament: 48,270Timp de răspuns: medie 11.39s · total 113.86s · maxim 50.16s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.13sTimp de răspuns (maxim)5.61sTimp de răspuns (total)8.26s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)50.16sTimp de răspuns (maxim)50.16sTimp de răspuns (total)50.16s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.72sTimp de răspuns (maxim)4.72sTimp de răspuns (total)4.72s
Specific domeniului
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.12sTimp de răspuns (maxim)21.12sTimp de răspuns (total)21.12s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.09sTimp de răspuns (maxim)4.09sTimp de răspuns (total)4.09s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.10sTimp de răspuns (maxim)6.10sTimp de răspuns (total)6.10s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.43sTimp de răspuns (maxim)4.68sTimp de răspuns (total)8.85s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.55sTimp de răspuns (maxim)10.55sTimp de răspuns (total)10.55s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)15.56sTimp de răspuns (maxim)40.61sTimp de răspuns (total)155.64s…
Total teste: 17Teste greșite: 1Rată de trecere pe încercare: 94.1%Teste instabile: 0…Tokenuri de ieșire: 1,527Tokenuri de raționament: 36,341Timp de răspuns: medie 15.56s · total 155.64s · maxim 40.61s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.90sTimp de răspuns (maxim)9.52sTimp de răspuns (total)15.80s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)40.61sTimp de răspuns (maxim)40.61sTimp de răspuns (total)40.61s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.72sTimp de răspuns (maxim)7.72sTimp de răspuns (total)7.72s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)32.73sTimp de răspuns (maxim)32.73sTimp de răspuns (total)32.73s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.77sTimp de răspuns (maxim)11.77sTimp de răspuns (total)11.77s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.56sTimp de răspuns (maxim)9.56sTimp de răspuns (total)9.56s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.15sTimp de răspuns (maxim)8.49sTimp de răspuns (total)14.30s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.15sTimp de răspuns (maxim)23.15sTimp de răspuns (total)23.15s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)5.95sTimp de răspuns (maxim)14.72sTimp de răspuns (total)101.19s…
Total teste: 17Teste greșite: 3Rată de trecere pe încercare: 84.3%Teste instabile: 1…Tokenuri de ieșire: 1,592Tokenuri de raționament: 20,556Timp de răspuns: medie 5.95s · total 101.19s · maxim 14.72s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.48sTimp de răspuns (maxim)4.31sTimp de răspuns (total)13.94s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.27sTimp de răspuns (maxim)3.27sTimp de răspuns (total)3.27s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.40sTimp de răspuns (maxim)14.72sTimp de răspuns (total)18.80s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)8.05sTimp de răspuns (maxim)14.40sTimp de răspuns (total)24.15s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.68sTimp de răspuns (maxim)3.68sTimp de răspuns (total)3.68s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.02sTimp de răspuns (maxim)7.35sTimp de răspuns (total)14.03s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)10.27sTimp de răspuns (total)18.32s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.99sTimp de răspuns (maxim)4.99sTimp de răspuns (total)4.99s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)9.06sTimp de răspuns (maxim)26.24sTimp de răspuns (total)90.58s…
Total teste: 17Teste greșite: 3Rată de trecere pe încercare: 82.4%Teste instabile: 0…Tokenuri de ieșire: 1,508Tokenuri de raționament: 10,084Timp de răspuns: medie 9.06s · total 90.58s · maxim 26.24s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.99sTimp de răspuns (maxim)26.24sTimp de răspuns (total)29.99s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.37sTimp de răspuns (maxim)10.37sTimp de răspuns (total)10.37s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.84sTimp de răspuns (maxim)10.84sTimp de răspuns (total)10.84s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.01sTimp de răspuns (maxim)7.01sTimp de răspuns (total)7.01s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.34sTimp de răspuns (maxim)9.34sTimp de răspuns (total)9.34s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.26sTimp de răspuns (maxim)3.26sTimp de răspuns (total)3.26s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.91sTimp de răspuns (maxim)4.23sTimp de răspuns (total)7.81s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)27.78sTimp de răspuns (maxim)168.71sTimp de răspuns (total)472.24s…
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 82.4%Teste instabile: 3…Tokenuri de ieșire: 2,821Tokenuri de raționament: 44,723Timp de răspuns: medie 27.78s · total 472.24s · maxim 168.71s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)17.99sTimp de răspuns (maxim)48.33sTimp de răspuns (total)71.98s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.67sTimp de răspuns (maxim)37.67sTimp de răspuns (total)37.67s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.07sTimp de răspuns (maxim)12.19sTimp de răspuns (total)18.14s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)88.74sTimp de răspuns (maxim)168.71sTimp de răspuns (total)266.21s
Inteligență generală
: 6.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)18.25sTimp de răspuns (maxim)18.25sTimp de răspuns (total)18.25s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.26sTimp de răspuns (maxim)9.02sTimp de răspuns (total)14.52s
Rezolvare de puzzle-uri
: 9.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.03sTimp de răspuns (maxim)13.85sTimp de răspuns (total)33.09s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.38sTimp de răspuns (maxim)12.38sTimp de răspuns (total)12.38s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)13.94sTimp de răspuns (maxim)43.55sTimp de răspuns (total)237.01s…
Total teste: 17Teste greșite: 4Rată de trecere pe încercare: 76.5%Teste instabile: 0…Tokenuri de ieșire: 1,756Tokenuri de raționament: 77,213Timp de răspuns: medie 13.94s · total 237.01s · maxim 43.55s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.90sTimp de răspuns (maxim)19.37sTimp de răspuns (total)39.60s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.95sTimp de răspuns (maxim)34.95sTimp de răspuns (total)34.95s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.95sTimp de răspuns (maxim)15.40sTimp de răspuns (total)29.90s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)22.08sTimp de răspuns (maxim)43.55sTimp de răspuns (total)66.23s
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.05sTimp de răspuns (maxim)27.05sTimp de răspuns (total)27.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)11.67sTimp de răspuns (total)15.07s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)7.52sTimp de răspuns (total)18.34s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.87sTimp de răspuns (maxim)5.87sTimp de răspuns (total)5.87s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)15.76sTimp de răspuns (maxim)100.93sTimp de răspuns (total)267.97s…
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 82.4%Teste instabile: 3…Tokenuri de ieșire: 1,788Tokenuri de raționament: 33,649Timp de răspuns: medie 15.76s · total 267.97s · maxim 100.93s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.16sTimp de răspuns (maxim)6.68sTimp de răspuns (total)16.63s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.56sTimp de răspuns (maxim)19.56sTimp de răspuns (total)19.56s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.07sTimp de răspuns (maxim)3.59sTimp de răspuns (total)6.15s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)64.31sTimp de răspuns (maxim)100.93sTimp de răspuns (total)192.94s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.87sTimp de răspuns (maxim)4.87sTimp de răspuns (total)4.87s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.04sTimp de răspuns (maxim)3.44sTimp de răspuns (total)6.07s
Rezolvare de puzzle-uri
: 9.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.12sTimp de răspuns (maxim)8.73sTimp de răspuns (total)15.37s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.37sTimp de răspuns (maxim)6.37sTimp de răspuns (total)6.37s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)68.83sTimp de răspuns (maxim)280.52sTimp de răspuns (total)1101.32s…
Total teste: 16Teste greșite: 4Rată de trecere pe încercare: 77.1%Teste instabile: 1…Tokenuri de ieșire: 1,283Tokenuri de raționament: 1,533,310Timp de răspuns: medie 68.83s · total 1101.32s · maxim 280.52s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)43.87sTimp de răspuns (maxim)121.88sTimp de răspuns (total)131.62s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)280.52sTimp de răspuns (maxim)280.52sTimp de răspuns (total)280.52s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.16sTimp de răspuns (maxim)8.54sTimp de răspuns (total)14.31s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)127.58sTimp de răspuns (maxim)133.93sTimp de răspuns (total)382.74s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.25sTimp de răspuns (maxim)5.25sTimp de răspuns (total)5.25s
Respectarea instrucțiunilor
: 7.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)70.07sTimp de răspuns (maxim)136.53sTimp de răspuns (total)140.14s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)46.33sTimp de răspuns (maxim)134.22sTimp de răspuns (total)139.00s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.73sTimp de răspuns (maxim)7.73sTimp de răspuns (total)7.73s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 2Timp de răspuns (mediu)39.13sTimp de răspuns (maxim)81.20sTimp de răspuns (total)391.29s…
Total teste: 17Teste greșite: 4Rată de trecere pe încercare: 82.4%Teste instabile: 2…Tokenuri de ieșire: 1,754Tokenuri de raționament: 92,522Timp de răspuns: medie 39.13s · total 391.29s · maxim 81.20s
Trucuri anti-AI
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)45.78sTimp de răspuns (maxim)81.20sTimp de răspuns (total)91.57s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.85sTimp de răspuns (maxim)46.85sTimp de răspuns (total)46.85s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.91sTimp de răspuns (maxim)46.91sTimp de răspuns (total)46.91s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)17.50sTimp de răspuns (maxim)17.50sTimp de răspuns (total)17.50s
Inteligență generală
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)79.86sTimp de răspuns (maxim)79.86sTimp de răspuns (total)79.86s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.93sTimp de răspuns (maxim)31.93sTimp de răspuns (total)31.93s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.57sTimp de răspuns (maxim)49.12sTimp de răspuns (total)69.13s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)7.54sTimp de răspuns (total)7.54s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp expirat: 1Timp de răspuns (mediu)29.05sTimp de răspuns (maxim)119.29sTimp de răspuns (total)493.86s…
Total teste: 17Teste greșite: 4Rată de trecere pe încercare: 80.4%Teste instabile: 2…Tokenuri de ieșire: 17,313Tokenuri de raționament: 151,974Timp de răspuns: medie 29.05s · total 493.86s · maxim 119.29s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.75sTimp de răspuns (maxim)18.03sTimp de răspuns (total)39.01s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)107.79sTimp de răspuns (maxim)107.79sTimp de răspuns (total)107.79s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.41sTimp de răspuns (maxim)29.79sTimp de răspuns (total)46.83s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)63.40sTimp de răspuns (maxim)119.29sTimp de răspuns (total)190.20s
Inteligență generală
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)34.11sTimp de răspuns (maxim)34.11sTimp de răspuns (total)34.11s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.88sTimp de răspuns (maxim)15.44sTimp de răspuns (total)19.76s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.18sTimp de răspuns (maxim)31.99sTimp de răspuns (total)51.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.60sTimp de răspuns (maxim)4.60sTimp de răspuns (total)4.60s
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 80.4%Teste instabile: 3…Tokenuri de ieșire: 2,125Tokenuri de raționament: 223,335Timp de răspuns: medie 52.01s · total 884.10s · maxim 163.96s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)19.75sTimp de răspuns (maxim)49.95sTimp de răspuns (total)79.01s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)163.96sTimp de răspuns (maxim)163.96sTimp de răspuns (total)163.96s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)30.26sTimp de răspuns (maxim)32.03sTimp de răspuns (total)60.52s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)79.53sTimp de răspuns (maxim)95.52sTimp de răspuns (total)238.59s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)101.41sTimp de răspuns (maxim)101.41sTimp de răspuns (total)101.41s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.66sTimp de răspuns (maxim)32.25sTimp de răspuns (total)39.32s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)64.61sTimp de răspuns (maxim)123.57sTimp de răspuns (total)193.84s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.45sTimp de răspuns (maxim)7.45sTimp de răspuns (total)7.45s
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 84.3%Teste instabile: 4…Tokenuri de ieșire: 19,833Tokenuri de raționament: 38,523Timp de răspuns: medie 17.15s · total 154.32s · maxim 28.96s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.66sTimp de răspuns (maxim)25.06sTimp de răspuns (total)47.32s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.96sTimp de răspuns (maxim)28.96sTimp de răspuns (total)28.96s
Parsare și extragere de date
: 7.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)8.90sTimp de răspuns (maxim)8.90sTimp de răspuns (total)8.90s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)14.69sTimp de răspuns (maxim)14.69sTimp de răspuns (total)14.69s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.25sTimp de răspuns (maxim)7.25sTimp de răspuns (total)7.25s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.64sTimp de răspuns (maxim)16.34sTimp de răspuns (total)31.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.93sTimp de răspuns (maxim)15.93sTimp de răspuns (total)15.93s
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 80.4%Teste instabile: 3…Tokenuri de ieșire: 9,994Tokenuri de raționament: 41,719Timp de răspuns: medie 38.49s · total 654.41s · maxim 93.11s
Trucuri anti-AI
: 8.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)30.72sTimp de răspuns (maxim)44.23sTimp de răspuns (total)122.88s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)93.11sTimp de răspuns (maxim)93.11sTimp de răspuns (total)93.11s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)36.09sTimp de răspuns (maxim)39.12sTimp de răspuns (total)72.18s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)39.32sTimp de răspuns (maxim)79.03sTimp de răspuns (total)117.95s
Inteligență generală
: 5.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)31.30sTimp de răspuns (maxim)31.30sTimp de răspuns (total)31.30s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)35.78sTimp de răspuns (maxim)47.30sTimp de răspuns (total)71.56s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)36.87sTimp de răspuns (maxim)59.22sTimp de răspuns (total)110.62s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.81sTimp de răspuns (maxim)34.81sTimp de răspuns (total)34.81s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.88sTimp de răspuns (maxim)95.48sTimp de răspuns (total)201.89s…
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 74.5%Teste instabile: 1…Tokenuri de ieșire: 1,376Tokenuri de raționament: 111,923Timp de răspuns: medie 11.88s · total 201.89s · maxim 95.48s
Trucuri anti-AI
: 8.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.30sTimp de răspuns (maxim)15.56sTimp de răspuns (total)25.21s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.44sTimp de răspuns (maxim)28.44sTimp de răspuns (total)28.44s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.06sTimp de răspuns (maxim)5.06sTimp de răspuns (total)8.11s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)37.34sTimp de răspuns (maxim)95.48sTimp de răspuns (total)112.01s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.86sTimp de răspuns (maxim)4.86sTimp de răspuns (total)4.86s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.62sTimp de răspuns (maxim)2.78sTimp de răspuns (total)5.24s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.94sTimp de răspuns (maxim)6.33sTimp de răspuns (total)11.83s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.20sTimp de răspuns (maxim)6.20sTimp de răspuns (total)6.20s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.70sTimp de răspuns (maxim)14.93sTimp de răspuns (total)62.97s…
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 70.6%Teste instabile: 0…Tokenuri de ieșire: 1,737Tokenuri de raționament: 26,346Timp de răspuns: medie 3.70s · total 62.97s · maxim 14.93s
Trucuri anti-AI
: 9.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.33sTimp de răspuns (maxim)3.89sTimp de răspuns (total)9.30s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.93sTimp de răspuns (maxim)14.93sTimp de răspuns (total)14.93s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.29sTimp de răspuns (maxim)2.31sTimp de răspuns (total)4.59s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)4.21sTimp de răspuns (maxim)5.86sTimp de răspuns (total)12.62s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.16sTimp de răspuns (total)3.16s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)1.93sTimp de răspuns (total)3.82s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.58sTimp de răspuns (maxim)4.41sTimp de răspuns (total)10.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.80sTimp de răspuns (maxim)3.80sTimp de răspuns (total)3.80s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)18.95sTimp de răspuns (maxim)100.41sTimp de răspuns (total)322.23s…
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 78.4%Teste instabile: 3…Tokenuri de ieșire: 1,780Tokenuri de raționament: 46,687Timp de răspuns: medie 18.95s · total 322.23s · maxim 100.41s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.11sTimp de răspuns (maxim)6.42sTimp de răspuns (total)16.42s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.57sTimp de răspuns (maxim)20.57sTimp de răspuns (total)20.57s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.32sTimp de răspuns (maxim)5.40sTimp de răspuns (total)10.64s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)74.27sTimp de răspuns (maxim)100.41sTimp de răspuns (total)222.80s
Inteligență generală
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.92sTimp de răspuns (maxim)4.92sTimp de răspuns (total)4.92s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.11sTimp de răspuns (maxim)3.68sTimp de răspuns (total)6.22s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)9.13sTimp de răspuns (maxim)18.14sTimp de răspuns (total)27.39s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.28sTimp de răspuns (maxim)13.28sTimp de răspuns (total)13.28s
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 76.5%Teste instabile: 5…Tokenuri de ieșire: 11,865Tokenuri de raționament: 35,632Timp de răspuns: medie 17.98s · total 305.72s · maxim 194.23s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.82sTimp de răspuns (maxim)7.69sTimp de răspuns (total)19.26s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.88sTimp de răspuns (maxim)13.88sTimp de răspuns (total)13.88s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.19sTimp de răspuns (maxim)6.42sTimp de răspuns (total)12.38s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)71.07sTimp de răspuns (maxim)194.23sTimp de răspuns (total)213.22s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.05sTimp de răspuns (maxim)10.05sTimp de răspuns (total)10.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.38sTimp de răspuns (maxim)5.70sTimp de răspuns (total)10.77s
Rezolvare de puzzle-uri
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.44sTimp de răspuns (maxim)7.26sTimp de răspuns (total)16.32s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.84sTimp de răspuns (maxim)9.84sTimp de răspuns (total)9.84s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.28sTimp de răspuns (maxim)11.91sTimp de răspuns (total)55.80s…
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 70.6%Teste instabile: 0…Tokenuri de ieșire: 1,617Tokenuri de raționament: 7,686Timp de răspuns: medie 3.28s · total 55.80s · maxim 11.91s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.12sTimp de răspuns (maxim)3.18sTimp de răspuns (total)8.50s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)11.91sTimp de răspuns (total)11.91s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.00sTimp de răspuns (maxim)3.74sTimp de răspuns (total)5.99s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.36sTimp de răspuns (maxim)3.51sTimp de răspuns (total)7.07s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.54sTimp de răspuns (maxim)1.54sTimp de răspuns (total)1.54s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.49sTimp de răspuns (maxim)1.66sTimp de răspuns (total)2.99s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.76sTimp de răspuns (maxim)5.08sTimp de răspuns (total)8.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.54sTimp de răspuns (maxim)9.54sTimp de răspuns (total)9.54s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Timp de răspuns (mediu)1.66sTimp de răspuns (maxim)3.56sTimp de răspuns (total)16.61s…
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 76.5%Teste instabile: 2…Tokenuri de ieșire: 1,417Tokenuri de raționament: 0Timp de răspuns: medie 1.66s · total 16.61s · maxim 3.56s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.25sTimp de răspuns (maxim)1.59sTimp de răspuns (total)2.49s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.56sTimp de răspuns (maxim)3.56sTimp de răspuns (total)3.56s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.41sTimp de răspuns (maxim)1.41sTimp de răspuns (total)1.41s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)963msTimp de răspuns (maxim)963msTimp de răspuns (total)963ms
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.13sTimp de răspuns (maxim)1.13sTimp de răspuns (total)1.13s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.58sTimp de răspuns (maxim)1.58sTimp de răspuns (total)1.58s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.12s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.35sTimp de răspuns (maxim)3.35sTimp de răspuns (total)3.35s
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 82.4%Teste instabile: 5…Tokenuri de ieșire: 1,827Tokenuri de raționament: 179,299Timp de răspuns: medie 67.96s · total 1155.28s · maxim 234.29s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)59.11sTimp de răspuns (maxim)168.31sTimp de răspuns (total)236.44s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.78sTimp de răspuns (maxim)17.78sTimp de răspuns (total)17.78s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)56.99sTimp de răspuns (maxim)80.14sTimp de răspuns (total)113.98s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)146.50sTimp de răspuns (maxim)234.29sTimp de răspuns (total)439.49s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)40.05sTimp de răspuns (maxim)40.05sTimp de răspuns (total)40.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)63.49sTimp de răspuns (maxim)111.61sTimp de răspuns (total)126.98s
Rezolvare de puzzle-uri
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Timp de răspuns (mediu)56.74sTimp de răspuns (maxim)115.01sTimp de răspuns (total)170.23s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.33sTimp de răspuns (maxim)10.33sTimp de răspuns (total)10.33s
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 76.5%Teste instabile: 3…Tokenuri de ieșire: 1,875Tokenuri de raționament: 26,959Timp de răspuns: medie 9.78s · total 156.45s · maxim 64.71s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.06sTimp de răspuns (maxim)4.70sTimp de răspuns (total)12.23s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)64.71sTimp de răspuns (maxim)64.71sTimp de răspuns (total)64.71s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)17.20sTimp de răspuns (maxim)17.44sTimp de răspuns (total)34.40s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)6.00sTimp de răspuns (maxim)6.14sTimp de răspuns (total)12.01s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.06sTimp de răspuns (maxim)4.06sTimp de răspuns (total)4.06s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.36sTimp de răspuns (maxim)4.35sTimp de răspuns (total)6.72s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.19sTimp de răspuns (maxim)8.19sTimp de răspuns (total)8.19s
Total teste: 17Teste greșite: 5Rată de trecere pe încercare: 72.6%Teste instabile: 1…Tokenuri de ieșire: 35,174Tokenuri de raționament: 24,687Timp de răspuns: medie 10.09s · total 90.85s · maxim 46.35s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.35sTimp de răspuns (maxim)46.35sTimp de răspuns (total)46.35s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.90sTimp de răspuns (maxim)13.90sTimp de răspuns (total)13.90s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.94sTimp de răspuns (maxim)4.94sTimp de răspuns (total)4.94s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.61sTimp de răspuns (maxim)2.61sTimp de răspuns (total)2.61s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.80sTimp de răspuns (maxim)5.22sTimp de răspuns (total)9.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.48sTimp de răspuns (maxim)7.48sTimp de răspuns (total)7.48s
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 64.7%Teste instabile: 0…Tokenuri de ieșire: 663Tokenuri de raționament: 39,001Timp de răspuns: medie 13.71s · total 233.06s · maxim 158.78s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.11sTimp de răspuns (maxim)3.43sTimp de răspuns (total)8.43s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.29sTimp de răspuns (maxim)19.29sTimp de răspuns (total)19.29s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.29sTimp de răspuns (maxim)2.62sTimp de răspuns (total)4.58s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.07sTimp de răspuns (maxim)11.07sTimp de răspuns (total)11.07s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 3Timp de răspuns (mediu)8.54sTimp de răspuns (maxim)24.21sTimp de răspuns (total)145.26s…
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 72.6%Teste instabile: 2…Tokenuri de ieșire: 1,487Tokenuri de raționament: 87,922Timp de răspuns: medie 8.54s · total 145.26s · maxim 24.21s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.44sTimp de răspuns (total)12.65s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.93sTimp de răspuns (maxim)20.93sTimp de răspuns (total)20.93s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.01sTimp de răspuns (maxim)4.27sTimp de răspuns (total)8.02s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)21.33sTimp de răspuns (maxim)24.21sTimp de răspuns (total)64.00s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.78sTimp de răspuns (maxim)5.78sTimp de răspuns (total)5.78s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.85sTimp de răspuns (maxim)4.53sTimp de răspuns (total)11.55s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.39sTimp de răspuns (maxim)12.39sTimp de răspuns (total)12.39s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 3Timp de răspuns (mediu)26.78sTimp de răspuns (maxim)170.45sTimp de răspuns (total)294.58s…
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 70.6%Teste instabile: 2…Tokenuri de ieșire: 71,904Tokenuri de raționament: 155,607Timp de răspuns: medie 26.78s · total 294.58s · maxim 170.45s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.56sTimp de răspuns (maxim)32.30sTimp de răspuns (total)40.68s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)29.57sTimp de răspuns (maxim)29.57sTimp de răspuns (total)29.57s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.01sTimp de răspuns (maxim)15.01sTimp de răspuns (total)15.01s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)170.45sTimp de răspuns (maxim)170.45sTimp de răspuns (total)170.45s
Inteligență generală
: 5.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.54sTimp de răspuns (maxim)6.54sTimp de răspuns (total)6.54s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)11.91sTimp de răspuns (total)11.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.29sTimp de răspuns (maxim)3.39sTimp de răspuns (total)21.95s…
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 68.6%Teste instabile: 1…Tokenuri de ieșire: 4,721Tokenuri de raționament: 0Timp de răspuns: medie 1.29s · total 21.95s · maxim 3.39s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.20sTimp de răspuns (maxim)3.20sTimp de răspuns (total)3.20s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.22sTimp de răspuns (maxim)1.33sTimp de răspuns (total)2.44s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)942msTimp de răspuns (maxim)1.12sTimp de răspuns (total)2.83s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)741msTimp de răspuns (maxim)741msTimp de răspuns (total)741ms
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.13sTimp de răspuns (maxim)1.14sTimp de răspuns (total)2.27s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)972msTimp de răspuns (maxim)1.13sTimp de răspuns (total)2.92s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.39sTimp de răspuns (maxim)3.39sTimp de răspuns (total)3.39s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.72sTimp de răspuns (maxim)38.52sTimp de răspuns (total)114.20s…
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 74.5%Teste instabile: 3…Tokenuri de ieșire: 16,001Tokenuri de raționament: 0Timp de răspuns: medie 6.72s · total 114.20s · maxim 38.52s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.40sTimp de răspuns (maxim)4.78sTimp de răspuns (total)13.59s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.12sTimp de răspuns (maxim)9.12sTimp de răspuns (total)9.12s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.05sTimp de răspuns (maxim)3.33sTimp de răspuns (total)6.10s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)17.78sTimp de răspuns (maxim)38.52sTimp de răspuns (total)53.33s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.20sTimp de răspuns (maxim)3.20sTimp de răspuns (total)3.20s
Respectarea instrucțiunilor
: 7.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.46sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.92s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.42sTimp de răspuns (maxim)5.04sTimp de răspuns (total)13.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.68sTimp de răspuns (maxim)4.68sTimp de răspuns (total)4.68s
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 70.6%Teste instabile: 2…Tokenuri de ieșire: 11,959Tokenuri de raționament: 111,534Timp de răspuns: medie 24.30s · total 267.31s · maxim 96.01s
Trucuri anti-AI
: 8.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)15.85sTimp de răspuns (maxim)20.83sTimp de răspuns (total)47.55s
Combinat
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)75.68sTimp de răspuns (maxim)75.68sTimp de răspuns (total)75.68s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)96.01sTimp de răspuns (maxim)96.01sTimp de răspuns (total)96.01s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.20sTimp de răspuns (maxim)4.20sTimp de răspuns (total)4.20s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)7.37sTimp de răspuns (total)8.55s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.77sTimp de răspuns (maxim)5.26sTimp de răspuns (total)7.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)27.78sTimp de răspuns (maxim)27.78sTimp de răspuns (total)27.78s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.68sTimp de răspuns (maxim)18.33sTimp de răspuns (total)96.58s…
Total teste: 17Teste greșite: 7Rată de trecere pe încercare: 66.7%Teste instabile: 3…Tokenuri de ieșire: 19,348Tokenuri de raționament: 0Timp de răspuns: medie 5.68s · total 96.58s · maxim 18.33s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.21sTimp de răspuns (maxim)2.52sTimp de răspuns (total)4.42s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)13.01sTimp de răspuns (maxim)18.33sTimp de răspuns (total)39.04s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.99sTimp de răspuns (maxim)1.99sTimp de răspuns (total)1.99s
Respectarea instrucțiunilor
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.29sTimp de răspuns (maxim)4.18sTimp de răspuns (total)6.59s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.93sTimp de răspuns (maxim)3.05sTimp de răspuns (total)8.78s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.36sTimp de răspuns (maxim)8.36sTimp de răspuns (total)8.36s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 4Răspuns greșit: 2Timp de răspuns (mediu)20.87sTimp de răspuns (maxim)83.40sTimp de răspuns (total)208.73s…
Total teste: 17Teste greșite: 6Rată de trecere pe încercare: 68.6%Teste instabile: 2…Tokenuri de ieșire: 26,343Tokenuri de raționament: 17,434Timp de răspuns: medie 20.87s · total 208.73s · maxim 83.40s
Trucuri anti-AI
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Timp de răspuns (mediu)7.45sTimp de răspuns (maxim)11.88sTimp de răspuns (total)14.90s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)76.66sTimp de răspuns (maxim)76.66sTimp de răspuns (total)76.66s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.37sTimp de răspuns (maxim)7.37sTimp de răspuns (total)7.37s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.04sTimp de răspuns (maxim)5.04sTimp de răspuns (total)5.04s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)2.43sTimp de răspuns (total)2.43s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.60sTimp de răspuns (maxim)4.66sTimp de răspuns (total)9.20s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.73sTimp de răspuns (maxim)9.73sTimp de răspuns (total)9.73s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)11.08sTimp de răspuns (maxim)94.06sTimp de răspuns (total)188.39s…
Total teste: 17Teste greșite: 7Rată de trecere pe încercare: 66.7%Teste instabile: 2…Tokenuri de ieșire: 2,474Tokenuri de raționament: 54,516Timp de răspuns: medie 11.08s · total 188.39s · maxim 94.06s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.52sTimp de răspuns (maxim)7.74sTimp de răspuns (total)18.10s
Combinat
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.13sTimp de răspuns (maxim)24.13sTimp de răspuns (total)24.13s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.54sTimp de răspuns (maxim)3.33sTimp de răspuns (total)5.08s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)38.18sTimp de răspuns (maxim)94.06sTimp de răspuns (total)114.53s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.15sTimp de răspuns (maxim)4.15sTimp de răspuns (total)4.15s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.88sTimp de răspuns (maxim)2.61sTimp de răspuns (total)3.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.71sTimp de răspuns (maxim)7.71sTimp de răspuns (total)7.71s
Total teste: 17Teste greșite: 7Rată de trecere pe încercare: 64.7%Teste instabile: 2…Tokenuri de ieșire: 1,971Tokenuri de raționament: 58,624Timp de răspuns: medie 60.58s · total 848.16s · maxim 262.83s
Trucuri anti-AI
: 6.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)74.75sTimp de răspuns (maxim)182.10sTimp de răspuns (total)298.98s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)262.83sTimp de răspuns (maxim)262.83sTimp de răspuns (total)262.83s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.27sTimp de răspuns (maxim)27.52sTimp de răspuns (total)48.54s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 3Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)36.65sTimp de răspuns (maxim)36.65sTimp de răspuns (total)36.65s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.47sTimp de răspuns (maxim)19.46sTimp de răspuns (total)34.93s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)25.85sTimp de răspuns (maxim)32.95sTimp de răspuns (total)77.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)88.68sTimp de răspuns (maxim)88.68sTimp de răspuns (total)88.68s
Total teste: 17Teste greșite: 7Rată de trecere pe încercare: 70.6%Teste instabile: 4…Tokenuri de ieșire: 2,238Tokenuri de raționament: 16,811Timp de răspuns: medie 13.93s · total 139.29s · maxim 77.80s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.06sTimp de răspuns (maxim)14.06sTimp de răspuns (total)14.06s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.15sTimp de răspuns (maxim)3.15sTimp de răspuns (total)3.15s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)77.80sTimp de răspuns (maxim)77.80sTimp de răspuns (total)77.80s
Inteligență generală
: 3.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.32sTimp de răspuns (maxim)4.32sTimp de răspuns (total)4.32s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.12sTimp de răspuns (maxim)3.12sTimp de răspuns (total)3.12s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.47sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.94s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)10.30sTimp de răspuns (maxim)10.30sTimp de răspuns (total)10.30s
Total teste: 17Teste greșite: 8Rată de trecere pe încercare: 78.4%Teste instabile: 7…Tokenuri de ieșire: 5,864Tokenuri de raționament: 175,683Timp de răspuns: medie 42.48s · total 722.12s · maxim 106.00s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.13sTimp de răspuns (maxim)34.96sTimp de răspuns (total)84.53s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)75.34sTimp de răspuns (maxim)75.34sTimp de răspuns (total)75.34s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)59.33sTimp de răspuns (maxim)97.12sTimp de răspuns (total)118.65s
Specific domeniului
: 4.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)88.34sTimp de răspuns (maxim)106.00sTimp de răspuns (total)265.01s
Inteligență generală
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)30.30sTimp de răspuns (maxim)30.30sTimp de răspuns (total)30.30s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.45sTimp de răspuns (maxim)43.36sTimp de răspuns (total)48.89s
Rezolvare de puzzle-uri
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)31.58sTimp de răspuns (maxim)60.18sTimp de răspuns (total)94.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.65sTimp de răspuns (maxim)4.65sTimp de răspuns (total)4.65s
Total teste: 17Teste greșite: 7Rată de trecere pe încercare: 62.8%Teste instabile: 1…Tokenuri de ieșire: 6,910Tokenuri de raționament: 0Timp de răspuns: medie 5.12s · total 51.16s · maxim 23.84s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.84sTimp de răspuns (maxim)23.84sTimp de răspuns (total)23.84s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.43sTimp de răspuns (maxim)3.43sTimp de răspuns (total)3.43s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)3.54sTimp de răspuns (total)3.54s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.56sTimp de răspuns (maxim)2.56sTimp de răspuns (total)2.56s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.96sTimp de răspuns (maxim)1.96sTimp de răspuns (total)1.96s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)2.92sTimp de răspuns (maxim)3.33sTimp de răspuns (total)5.84s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.11sTimp de răspuns (maxim)4.11sTimp de răspuns (total)4.11s
Total teste: 17Teste greșite: 8Rată de trecere pe încercare: 72.6%Teste instabile: 6…Tokenuri de ieșire: 40,907Tokenuri de raționament: 75,121Timp de răspuns: medie 64.59s · total 645.93s · maxim 137.29s
Trucuri anti-AI
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Răspuns greșit: 1Timp de răspuns (mediu)51.38sTimp de răspuns (maxim)85.28sTimp de răspuns (total)102.75s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)71.37sTimp de răspuns (maxim)71.37sTimp de răspuns (total)71.37s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)49.78sTimp de răspuns (maxim)49.78sTimp de răspuns (total)49.78s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)137.29sTimp de răspuns (maxim)137.29sTimp de răspuns (total)137.29s
Inteligență generală
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)69.73sTimp de răspuns (maxim)69.73sTimp de răspuns (total)69.73s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)92.47sTimp de răspuns (maxim)92.47sTimp de răspuns (total)92.47s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.74sTimp de răspuns (maxim)31.74sTimp de răspuns (total)31.74s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 5Răspuns greșit: 4Timp de răspuns (mediu)15.66sTimp de răspuns (maxim)102.91sTimp de răspuns (total)266.14s…
Total teste: 17Teste greșite: 9Rată de trecere pe încercare: 68.6%Teste instabile: 6…Tokenuri de ieșire: 1,708Tokenuri de raționament: 58,019Timp de răspuns: medie 15.66s · total 266.14s · maxim 102.91s
Trucuri anti-AI
: 8.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.05sTimp de răspuns (maxim)6.69sTimp de răspuns (total)16.20s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.81sTimp de răspuns (maxim)17.81sTimp de răspuns (total)17.81s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)3.39sTimp de răspuns (total)4.87s
Specific domeniului
: 4.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)65.31sTimp de răspuns (maxim)102.91sTimp de răspuns (total)195.92s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.72sTimp de răspuns (maxim)3.72sTimp de răspuns (total)3.72s
Rezolvare de puzzle-uri
: 6.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)4.33sTimp de răspuns (maxim)7.27sTimp de răspuns (total)13.00s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)9.62sTimp de răspuns (maxim)9.62sTimp de răspuns (total)9.62s
Total teste: 17Teste greșite: 9Rată de trecere pe încercare: 68.6%Teste instabile: 6…Tokenuri de ieșire: 4,724Tokenuri de raționament: 17,921Timp de răspuns: medie 10.33s · total 175.60s · maxim 30.53s
Trucuri anti-AI
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)4.75sTimp de răspuns (maxim)7.62sTimp de răspuns (total)19.00s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)30.53sTimp de răspuns (maxim)30.53sTimp de răspuns (total)30.53s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.16sTimp de răspuns (maxim)26.55sTimp de răspuns (total)46.33s
Inteligență generală
: 7.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.44sTimp de răspuns (maxim)6.44sTimp de răspuns (total)6.44s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.18sTimp de răspuns (maxim)4.46sTimp de răspuns (total)8.36s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.33sTimp de răspuns (maxim)17.33sTimp de răspuns (total)17.33s
Total teste: 17Teste greșite: 8Rată de trecere pe încercare: 66.7%Teste instabile: 5…Tokenuri de ieșire: 1,189Tokenuri de raționament: 84,595Timp de răspuns: medie 23.91s · total 239.09s · maxim 121.79s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.81sTimp de răspuns (maxim)5.65sTimp de răspuns (total)7.62s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.64sTimp de răspuns (maxim)37.64sTimp de răspuns (total)37.64s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.63sTimp de răspuns (maxim)6.63sTimp de răspuns (total)6.63s
Specific domeniului
: 5.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)121.79sTimp de răspuns (maxim)121.79sTimp de răspuns (total)121.79s
Inteligență generală
: 4.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.25sTimp de răspuns (maxim)16.25sTimp de răspuns (total)16.25s
Apelare instrumente
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)27.71sTimp de răspuns (maxim)27.71sTimp de răspuns (total)27.71s
Total teste: 17Teste greșite: 8Rată de trecere pe încercare: 58.8%Teste instabile: 3…Tokenuri de ieșire: 11,947Tokenuri de raționament: 29,768Timp de răspuns: medie 19.06s · total 305.04s · maxim 87.80s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.08sTimp de răspuns (maxim)22.30sTimp de răspuns (total)40.30s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)87.80sTimp de răspuns (maxim)87.80sTimp de răspuns (total)87.80s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)18.16sTimp de răspuns (maxim)20.65sTimp de răspuns (total)36.33s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)16.19sTimp de răspuns (maxim)21.56sTimp de răspuns (total)32.39s
Inteligență generală
: 3.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.86sTimp de răspuns (maxim)27.86sTimp de răspuns (total)27.86s
Respectarea instrucțiunilor
: 7.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)7.72sTimp de răspuns (maxim)11.23sTimp de răspuns (total)15.45s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)39.75sTimp de răspuns (maxim)39.75sTimp de răspuns (total)39.75s
Total teste: 17Teste greșite: 9Rată de trecere pe încercare: 58.8%Teste instabile: 3…Tokenuri de ieșire: 5,896Tokenuri de raționament: 49,322Timp de răspuns: medie 24.02s · total 408.39s · maxim 88.15s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)88.15sTimp de răspuns (maxim)88.15sTimp de răspuns (total)88.15s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.58sTimp de răspuns (maxim)13.87sTimp de răspuns (total)25.16s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)44.63sTimp de răspuns (maxim)82.55sTimp de răspuns (total)133.89s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)13.50sTimp de răspuns (maxim)13.50sTimp de răspuns (total)13.50s
Respectarea instrucțiunilor
: 8.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)15.66sTimp de răspuns (maxim)21.80sTimp de răspuns (total)31.32s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)18.64sTimp de răspuns (maxim)18.64sTimp de răspuns (total)18.64s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 8Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)6.65sTimp de răspuns (total)27.60s…
Total teste: 17Teste greșite: 8Rată de trecere pe încercare: 54.9%Teste instabile: 1…Tokenuri de ieșire: 2,018Tokenuri de raționament: 0Timp de răspuns: medie 2.51s · total 27.60s · maxim 6.65s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)2.74sTimp de răspuns (total)3.82s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.65sTimp de răspuns (maxim)6.65sTimp de răspuns (total)6.65s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.89sTimp de răspuns (maxim)1.89sTimp de răspuns (total)1.89s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.17sTimp de răspuns (maxim)1.44sTimp de răspuns (total)2.33s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.26sTimp de răspuns (maxim)2.26sTimp de răspuns (total)2.26s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.67sTimp de răspuns (maxim)1.67sTimp de răspuns (total)1.67s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.82sTimp de răspuns (maxim)3.52sTimp de răspuns (total)5.65s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.33sTimp de răspuns (maxim)3.33sTimp de răspuns (total)3.33s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 8Timp de răspuns (mediu)3.77sTimp de răspuns (maxim)11.07sTimp de răspuns (total)37.66s…
Total teste: 17Teste greșite: 8Rată de trecere pe încercare: 52.9%Teste instabile: 0…Tokenuri de ieșire: 1,551Tokenuri de raționament: 0Timp de răspuns: medie 3.77s · total 37.66s · maxim 11.07s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)2.37sTimp de răspuns (maxim)3.39sTimp de răspuns (total)4.75s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.98sTimp de răspuns (maxim)4.98sTimp de răspuns (total)4.98s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.78sTimp de răspuns (maxim)5.78sTimp de răspuns (total)5.78s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)2.24sTimp de răspuns (maxim)2.24sTimp de răspuns (total)2.24s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.27sTimp de răspuns (maxim)3.27sTimp de răspuns (total)3.27s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.48sTimp de răspuns (maxim)1.48sTimp de răspuns (total)1.48s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.05sTimp de răspuns (maxim)2.08sTimp de răspuns (total)4.10s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.07sTimp de răspuns (maxim)11.07sTimp de răspuns (total)11.07s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 7Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)2.01sTimp de răspuns (maxim)6.81sTimp de răspuns (total)34.09s…
Total teste: 17Teste greșite: 9Rată de trecere pe încercare: 47.1%Teste instabile: 0…Tokenuri de ieșire: 469Tokenuri de raționament: 0Timp de răspuns: medie 2.01s · total 34.09s · maxim 6.81s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.10sTimp de răspuns (maxim)2.08sTimp de răspuns (total)4.39s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.47sTimp de răspuns (maxim)2.47sTimp de răspuns (total)2.47s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.69sTimp de răspuns (maxim)2.46sTimp de răspuns (total)3.38s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.14sTimp de răspuns (maxim)1.63sTimp de răspuns (total)3.41s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.19sTimp de răspuns (total)1.19s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.18sTimp de răspuns (maxim)6.81sTimp de răspuns (total)8.36s
Rezolvare de puzzle-uri
: 8.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.71sTimp de răspuns (maxim)5.96sTimp de răspuns (total)8.14s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.76sTimp de răspuns (maxim)2.76sTimp de răspuns (total)2.76s
Total teste: 17Teste greșite: 10Rată de trecere pe încercare: 51.0%Teste instabile: 3…Tokenuri de ieșire: 7,831Tokenuri de raționament: 0Timp de răspuns: medie 12.35s · total 209.94s · maxim 115.89s
Combinat
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)115.89sTimp de răspuns (maxim)115.89sTimp de răspuns (total)115.89s
Parsare și extragere de date
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.42sTimp de răspuns (maxim)16.20sTimp de răspuns (total)18.84s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.61sTimp de răspuns (maxim)1.77sTimp de răspuns (total)4.83s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.52sTimp de răspuns (maxim)1.99sTimp de răspuns (total)3.04s
Rezolvare de puzzle-uri
: 8.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.37sTimp de răspuns (maxim)10.78sTimp de răspuns (total)22.10s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.85sTimp de răspuns (maxim)11.85sTimp de răspuns (total)11.85s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 6Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)2.25sTimp de răspuns (maxim)14.63sTimp de răspuns (total)35.99s…
Total teste: 17Teste greșite: 10Rată de trecere pe încercare: 51.0%Teste instabile: 3…Tokenuri de ieșire: 3,723Tokenuri de raționament: 46,120Timp de răspuns: medie 2.25s · total 35.99s · maxim 14.63s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.28sTimp de răspuns (maxim)3.28sTimp de răspuns (total)3.28s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.11sTimp de răspuns (maxim)1.47sTimp de răspuns (total)2.21s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.48sTimp de răspuns (maxim)14.63sTimp de răspuns (total)19.43s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)821msTimp de răspuns (maxim)821msTimp de răspuns (total)821ms
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.07sTimp de răspuns (total)1.07s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.89sTimp de răspuns (maxim)1.89sTimp de răspuns (total)1.89s
Total teste: 17Teste greșite: 10Rată de trecere pe încercare: 58.8%Teste instabile: 7…Tokenuri de ieșire: 4,500Tokenuri de raționament: 143,296Timp de răspuns: medie 44.47s · total 444.74s · maxim 204.02s
Trucuri anti-AI
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)25.50sTimp de răspuns (maxim)37.73sTimp de răspuns (total)51.00s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)65.96sTimp de răspuns (maxim)65.96sTimp de răspuns (total)65.96s
Parsare și extragere de date
: 3.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)21.42sTimp de răspuns (maxim)21.42sTimp de răspuns (total)21.42s
Specific domeniului
: 5.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)204.02sTimp de răspuns (maxim)204.02sTimp de răspuns (total)204.02s
Inteligență generală
: 4.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)17.51sTimp de răspuns (maxim)17.51sTimp de răspuns (total)17.51s
Respectarea instrucțiunilor
: 8.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.90sTimp de răspuns (maxim)11.90sTimp de răspuns (total)11.90s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)33.30sTimp de răspuns (maxim)33.30sTimp de răspuns (total)33.30s
Total teste: 17Teste greșite: 11Rată de trecere pe încercare: 54.9%Teste instabile: 6…Tokenuri de ieșire: 298,948Tokenuri de raționament: 296,529Timp de răspuns: medie 8.64s · total 129.64s · maxim 35.28s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.54sTimp de răspuns (maxim)7.51sTimp de răspuns (total)11.08s
Inteligență generală
: 5.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.40sTimp de răspuns (maxim)6.40sTimp de răspuns (total)6.40s
Rezolvare de puzzle-uri
: 7.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.01sTimp de răspuns (maxim)5.49sTimp de răspuns (total)15.03s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.36sTimp de răspuns (maxim)13.73sTimp de răspuns (total)57.15s…
Total teste: 17Teste greșite: 10Rată de trecere pe încercare: 43.1%Teste instabile: 1…Tokenuri de ieșire: 3,777Tokenuri de raționament: 0Timp de răspuns: medie 3.36s · total 57.15s · maxim 13.73s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.32sTimp de răspuns (maxim)3.89sTimp de răspuns (total)5.30s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.22sTimp de răspuns (maxim)6.22sTimp de răspuns (total)6.22s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.57sTimp de răspuns (maxim)1.83sTimp de răspuns (total)3.14s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)905msTimp de răspuns (maxim)1.10sTimp de răspuns (total)2.71s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)803msTimp de răspuns (maxim)803msTimp de răspuns (total)803ms
Respectarea instrucțiunilor
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)8.81sTimp de răspuns (maxim)13.73sTimp de răspuns (total)17.61s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.67sTimp de răspuns (maxim)3.67sTimp de răspuns (total)3.67s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 6Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)15.05sTimp de răspuns (maxim)50.92sTimp de răspuns (total)150.55s…
Total teste: 17Teste greșite: 10Rată de trecere pe încercare: 51.0%Teste instabile: 5…Tokenuri de ieșire: 13,265Tokenuri de raționament: 34,330Timp de răspuns: medie 15.05s · total 150.55s · maxim 50.92s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.18sTimp de răspuns (maxim)31.18sTimp de răspuns (total)31.18s
Parsare și extragere de date
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.98sTimp de răspuns (maxim)1.98sTimp de răspuns (total)1.98s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)50.92sTimp de răspuns (maxim)50.92sTimp de răspuns (total)50.92s
Inteligență generală
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)7.90sTimp de răspuns (maxim)7.90sTimp de răspuns (total)7.90s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.63sTimp de răspuns (maxim)7.63sTimp de răspuns (total)7.63s
Apelare instrumente
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.91sTimp de răspuns (maxim)6.91sTimp de răspuns (total)6.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Timp de răspuns (mediu)2.40sTimp de răspuns (maxim)6.70sTimp de răspuns (total)40.85s…
Total teste: 17Teste greșite: 10Rată de trecere pe încercare: 52.9%Teste instabile: 5…Tokenuri de ieșire: 2,749Tokenuri de raționament: 0Timp de răspuns: medie 2.40s · total 40.85s · maxim 6.70s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)6.70sTimp de răspuns (total)9.73s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.59sTimp de răspuns (maxim)6.59sTimp de răspuns (total)6.59s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.82sTimp de răspuns (maxim)1.97sTimp de răspuns (total)3.63s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.33sTimp de răspuns (maxim)1.53sTimp de răspuns (total)4.00s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.45sTimp de răspuns (maxim)3.45sTimp de răspuns (total)3.45s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.09sTimp de răspuns (total)2.12s
Rezolvare de puzzle-uri
: 5.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.46sTimp de răspuns (maxim)4.23sTimp de răspuns (total)7.37s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.94sTimp de răspuns (maxim)3.94sTimp de răspuns (total)3.94s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)888msTimp de răspuns (maxim)4.39sTimp de răspuns (total)15.10s…
Total teste: 17Teste greșite: 11Rată de trecere pe încercare: 41.2%Teste instabile: 2…Tokenuri de ieșire: 1,273Tokenuri de raționament: 0Timp de răspuns: medie 888ms · total 15.10s · maxim 4.39s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)582msTimp de răspuns (maxim)844msTimp de răspuns (total)2.33s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.39sTimp de răspuns (maxim)4.39sTimp de răspuns (total)4.39s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)652msTimp de răspuns (maxim)660msTimp de răspuns (total)1.30s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)495msTimp de răspuns (maxim)642msTimp de răspuns (total)1.49s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)615msTimp de răspuns (maxim)615msTimp de răspuns (total)615ms
Respectarea instrucțiunilor
: 8.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)672msTimp de răspuns (maxim)785msTimp de răspuns (total)1.34s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)1.91sTimp de răspuns (total)1.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)3.89sTimp de răspuns (maxim)47.43sTimp de răspuns (total)66.07s…
Total teste: 17Teste greșite: 11Rată de trecere pe încercare: 47.1%Teste instabile: 3…Tokenuri de ieșire: 3,761Tokenuri de raționament: 0Timp de răspuns: medie 3.89s · total 66.07s · maxim 47.43s
Trucuri anti-AI
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.43sTimp de răspuns (maxim)4.39sTimp de răspuns (total)5.71s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)47.43sTimp de răspuns (maxim)47.43sTimp de răspuns (total)47.43s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.16sTimp de răspuns (maxim)1.42sTimp de răspuns (total)2.33s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)485msTimp de răspuns (maxim)549msTimp de răspuns (total)1.45s
Inteligență generală
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.19sTimp de răspuns (total)1.19s
Respectarea instrucțiunilor
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)809msTimp de răspuns (maxim)983msTimp de răspuns (total)1.62s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.30sTimp de răspuns (maxim)2.30sTimp de răspuns (total)2.30s
Total teste: 17Teste greșite: 12Rată de trecere pe încercare: 60.8%Teste instabile: 10…Tokenuri de ieșire: 107,044Tokenuri de raționament: 206,422Timp de răspuns: medie 39.65s · total 396.47s · maxim 237.27s
Combinat
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)60.39sTimp de răspuns (maxim)60.39sTimp de răspuns (total)60.39s
Parsare și extragere de date
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.48sTimp de răspuns (maxim)7.48sTimp de răspuns (total)7.48s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)237.27sTimp de răspuns (maxim)237.27sTimp de răspuns (total)237.27s
Inteligență generală
: 3.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.63sTimp de răspuns (maxim)6.63sTimp de răspuns (total)6.63s
Rezolvare de puzzle-uri
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)11.54sTimp de răspuns (maxim)17.37sTimp de răspuns (total)23.08s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.35sTimp de răspuns (maxim)15.35sTimp de răspuns (total)15.35s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)4.58sTimp de răspuns (maxim)15.17sTimp de răspuns (total)77.92s…
Total teste: 17Teste greșite: 11Rată de trecere pe încercare: 49.0%Teste instabile: 4…Tokenuri de ieșire: 2,278Tokenuri de raționament: 0Timp de răspuns: medie 4.58s · total 77.92s · maxim 15.17s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)3.81sTimp de răspuns (maxim)6.85sTimp de răspuns (total)15.23s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)15.17sTimp de răspuns (maxim)15.17sTimp de răspuns (total)15.17s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.49sTimp de răspuns (maxim)14.02sTimp de răspuns (total)16.98s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.33sTimp de răspuns (maxim)2.94sTimp de răspuns (total)6.99s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.71sTimp de răspuns (maxim)2.71sTimp de răspuns (total)2.71s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.82sTimp de răspuns (maxim)2.92sTimp de răspuns (total)5.65s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.02sTimp de răspuns (maxim)6.02sTimp de răspuns (total)6.02s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.71sTimp de răspuns (maxim)46.00sTimp de răspuns (total)63.06s…
Total teste: 17Teste greșite: 11Rată de trecere pe încercare: 37.3%Teste instabile: 1…Tokenuri de ieșire: 2,682Tokenuri de raționament: 0Timp de răspuns: medie 3.71s · total 63.06s · maxim 46.00s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.59sTimp de răspuns (maxim)3.60sTimp de răspuns (total)6.38s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)46.00sTimp de răspuns (maxim)46.00sTimp de răspuns (total)46.00s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.01sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.02s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)465msTimp de răspuns (maxim)492msTimp de răspuns (total)1.39s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.12sTimp de răspuns (maxim)1.12sTimp de răspuns (total)1.12s
Respectarea instrucțiunilor
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)585msTimp de răspuns (maxim)715msTimp de răspuns (total)1.17s
Rezolvare de puzzle-uri
: 5.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)982msTimp de răspuns (maxim)1.36sTimp de răspuns (total)2.95s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.04sTimp de răspuns (maxim)2.04sTimp de răspuns (total)2.04s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)2.31sTimp de răspuns (maxim)6.58sTimp de răspuns (total)39.25s…
Total teste: 17Teste greșite: 11Rată de trecere pe încercare: 45.1%Teste instabile: 3…Tokenuri de ieșire: 1,721Tokenuri de raționament: 0Timp de răspuns: medie 2.31s · total 39.25s · maxim 6.58s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.80sTimp de răspuns (maxim)2.62sTimp de răspuns (total)7.19s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.58sTimp de răspuns (maxim)6.58sTimp de răspuns (total)6.58s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.42sTimp de răspuns (total)2.78s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.78sTimp de răspuns (maxim)2.49sTimp de răspuns (total)5.34s
Inteligență generală
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.44sTimp de răspuns (maxim)2.44sTimp de răspuns (total)2.44s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.95sTimp de răspuns (total)5.02s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.39sTimp de răspuns (maxim)4.39sTimp de răspuns (total)4.39s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.43sTimp de răspuns (maxim)2.89sTimp de răspuns (total)24.27s…
Total teste: 17Teste greșite: 11Rată de trecere pe încercare: 39.2%Teste instabile: 2…Tokenuri de ieșire: 1,837Tokenuri de raționament: 0Timp de răspuns: medie 1.43s · total 24.27s · maxim 2.89s
Trucuri anti-AI
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.21sTimp de răspuns (maxim)2.58sTimp de răspuns (total)4.85s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.89sTimp de răspuns (maxim)2.89sTimp de răspuns (total)2.89s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.04sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.08s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.54sTimp de răspuns (total)3.22s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.78sTimp de răspuns (maxim)1.78sTimp de răspuns (total)1.78s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.07sTimp de răspuns (maxim)1.17sTimp de răspuns (total)2.15s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.75sTimp de răspuns (maxim)2.75sTimp de răspuns (total)2.75s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.70sTimp de răspuns (maxim)9.39sTimp de răspuns (total)28.82s…
Total teste: 17Teste greșite: 12Rată de trecere pe încercare: 35.3%Teste instabile: 2…Tokenuri de ieșire: 3,164Tokenuri de raționament: 0Timp de răspuns: medie 1.70s · total 28.82s · maxim 9.39s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)788msTimp de răspuns (maxim)1.34sTimp de răspuns (total)3.15s
Combinat
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.39sTimp de răspuns (maxim)9.39sTimp de răspuns (total)9.39s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.43sTimp de răspuns (maxim)1.45sTimp de răspuns (total)2.86s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)540msTimp de răspuns (maxim)649msTimp de răspuns (total)1.62s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.51sTimp de răspuns (total)2.51s
Respectarea instrucțiunilor
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)815msTimp de răspuns (maxim)973msTimp de răspuns (total)1.63s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)3.54sTimp de răspuns (total)3.54s
Total teste: 17Teste greșite: 12Rată de trecere pe încercare: 49.0%Teste instabile: 6…Tokenuri de ieșire: 12,288Tokenuri de raționament: 28,112Timp de răspuns: medie 4.18s · total 71.03s · maxim 25.25s
Trucuri anti-AI
: 5.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)2.67sTimp de răspuns (maxim)5.03sTimp de răspuns (total)10.66s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)25.25sTimp de răspuns (maxim)25.25sTimp de răspuns (total)25.25s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)1.23sTimp de răspuns (maxim)1.96sTimp de răspuns (total)2.46s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Răspuns greșit: 1Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)13.72sTimp de răspuns (total)18.34s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.05sTimp de răspuns (maxim)2.05sTimp de răspuns (total)2.05s
Respectarea instrucțiunilor
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.38sTimp de răspuns (maxim)1.61sTimp de răspuns (total)2.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.50sTimp de răspuns (maxim)3.50sTimp de răspuns (total)3.50s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)2.89sTimp de răspuns (maxim)8.21sTimp de răspuns (total)49.05s…
Total teste: 17Teste greșite: 11Rată de trecere pe încercare: 37.3%Teste instabile: 1…Tokenuri de ieșire: 1,270Tokenuri de raționament: 0Timp de răspuns: medie 2.89s · total 49.05s · maxim 8.21s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)2.84sTimp de răspuns (maxim)4.15sTimp de răspuns (total)11.35s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.89sTimp de răspuns (maxim)4.89sTimp de răspuns (total)4.89s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.47sTimp de răspuns (maxim)2.48sTimp de răspuns (total)4.95s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.97sTimp de răspuns (maxim)2.65sTimp de răspuns (total)5.92s
Inteligență generală
: 4.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.18sTimp de răspuns (maxim)2.18sTimp de răspuns (total)2.18s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.13sTimp de răspuns (maxim)2.53sTimp de răspuns (total)4.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.21sTimp de răspuns (maxim)8.21sTimp de răspuns (total)8.21s
Total teste: 17Teste greșite: 12Rată de trecere pe încercare: 39.2%Teste instabile: 3…Tokenuri de ieșire: 1,863Tokenuri de raționament: 0Timp de răspuns: medie 3.13s · total 31.33s · maxim 7.05s
Trucuri anti-AI
: 5.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)5.51sTimp de răspuns (maxim)6.59sTimp de răspuns (total)11.02s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)3.22sTimp de răspuns (maxim)3.22sTimp de răspuns (total)3.22s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.82sTimp de răspuns (maxim)4.82sTimp de răspuns (total)4.82s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)744msTimp de răspuns (maxim)744msTimp de răspuns (total)744ms
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.59sTimp de răspuns (maxim)1.59sTimp de răspuns (total)1.59s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)888msTimp de răspuns (maxim)888msTimp de răspuns (total)888ms
Apelare instrumente
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.05sTimp de răspuns (maxim)7.05sTimp de răspuns (total)7.05s
Total teste: 17Teste greșite: 13Rată de trecere pe încercare: 31.4%Teste instabile: 2…Tokenuri de ieșire: 1,517Tokenuri de raționament: 0Timp de răspuns: medie 1.19s · total 20.22s · maxim 6.48s
Trucuri anti-AI
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)597msTimp de răspuns (maxim)866msTimp de răspuns (total)2.39s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)6.48sTimp de răspuns (maxim)6.48sTimp de răspuns (total)6.48s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)601msTimp de răspuns (maxim)634msTimp de răspuns (total)1.20s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)611msTimp de răspuns (maxim)616msTimp de răspuns (total)1.83s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)541msTimp de răspuns (maxim)541msTimp de răspuns (total)541ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.79sTimp de răspuns (maxim)4.79sTimp de răspuns (total)4.79s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 12Timp de răspuns (mediu)10.83sTimp de răspuns (maxim)42.13sTimp de răspuns (total)108.27s…
Total teste: 17Teste greșite: 12Rată de trecere pe încercare: 37.3%Teste instabile: 3…Tokenuri de ieșire: 2,010Tokenuri de raționament: 0Timp de răspuns: medie 10.83s · total 108.27s · maxim 42.13s
Trucuri anti-AI
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)6.24sTimp de răspuns (maxim)11.38sTimp de răspuns (total)12.48s
Combinat
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)19.16sTimp de răspuns (maxim)19.16sTimp de răspuns (total)19.16s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)42.13sTimp de răspuns (maxim)42.13sTimp de răspuns (total)42.13s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)4.38sTimp de răspuns (maxim)4.38sTimp de răspuns (total)4.38s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.00sTimp de răspuns (maxim)4.00sTimp de răspuns (total)4.00s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.67sTimp de răspuns (maxim)2.67sTimp de răspuns (total)2.67s
Rezolvare de puzzle-uri
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)4.73sTimp de răspuns (maxim)7.81sTimp de răspuns (total)9.45s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.99sTimp de răspuns (maxim)13.99sTimp de răspuns (total)13.99s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)3.04sTimp de răspuns (maxim)8.91sTimp de răspuns (total)51.75s…
Total teste: 17Teste greșite: 12Rată de trecere pe încercare: 31.4%Teste instabile: 1…Tokenuri de ieșire: 1,843Tokenuri de raționament: 0Timp de răspuns: medie 3.04s · total 51.75s · maxim 8.91s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)3.02sTimp de răspuns (maxim)8.17sTimp de răspuns (total)12.07s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)8.91sTimp de răspuns (maxim)8.91sTimp de răspuns (total)8.91s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.26sTimp de răspuns (maxim)4.66sTimp de răspuns (total)6.52s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)877msTimp de răspuns (maxim)894msTimp de răspuns (total)2.63s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Rezolvare de puzzle-uri
: 5.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)3.30sTimp de răspuns (maxim)4.81sTimp de răspuns (total)9.91s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.67sTimp de răspuns (maxim)6.67sTimp de răspuns (total)6.67s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)629msTimp de răspuns (maxim)1.72sTimp de răspuns (total)10.70s…
Total teste: 17Teste greșite: 12Rată de trecere pe încercare: 33.3%Teste instabile: 1…Tokenuri de ieșire: 1,624Tokenuri de raționament: 0Timp de răspuns: medie 629ms · total 10.70s · maxim 1.72s
Trucuri anti-AI
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)395msTimp de răspuns (maxim)769msTimp de răspuns (total)1.58s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.72sTimp de răspuns (maxim)1.72sTimp de răspuns (total)1.72s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)822msTimp de răspuns (maxim)1.08sTimp de răspuns (total)1.64s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)367msTimp de răspuns (maxim)388msTimp de răspuns (total)1.10s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)729msTimp de răspuns (maxim)729msTimp de răspuns (total)729ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)380msTimp de răspuns (maxim)380msTimp de răspuns (total)759ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.40sTimp de răspuns (maxim)1.40sTimp de răspuns (total)1.40s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)8.86sTimp de răspuns (maxim)24.97sTimp de răspuns (total)150.70s…
Total teste: 17Teste greșite: 13Rată de trecere pe încercare: 35.3%Teste instabile: 3…Tokenuri de ieșire: 4,225Tokenuri de raționament: 0Timp de răspuns: medie 8.86s · total 150.70s · maxim 24.97s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)7.43sTimp de răspuns (maxim)16.69sTimp de răspuns (total)29.72s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)19.98sTimp de răspuns (maxim)19.98sTimp de răspuns (total)19.98s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.92sTimp de răspuns (maxim)13.23sTimp de răspuns (total)15.84s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.23sTimp de răspuns (maxim)14.38sTimp de răspuns (total)18.70s
Inteligență generală
: 4.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)24.97sTimp de răspuns (maxim)24.97sTimp de răspuns (total)24.97s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.00sTimp de răspuns (maxim)16.00sTimp de răspuns (total)16.00s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 12Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.94sTimp de răspuns (maxim)7.58sTimp de răspuns (total)19.44s…
Total teste: 17Teste greșite: 13Rată de trecere pe încercare: 23.5%Teste instabile: 0…Tokenuri de ieșire: 1,600Tokenuri de raționament: 0Timp de răspuns: medie 1.94s · total 19.44s · maxim 7.58s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.34sTimp de răspuns (maxim)1.83sTimp de răspuns (total)2.67s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.58sTimp de răspuns (maxim)7.58sTimp de răspuns (total)7.58s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)637msTimp de răspuns (maxim)637msTimp de răspuns (total)637ms
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)909msTimp de răspuns (maxim)909msTimp de răspuns (total)909ms
Rezolvare de puzzle-uri
: 3.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.54sTimp de răspuns (total)2.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.51sTimp de răspuns (total)2.51s
Total teste: 17Teste greșite: 14Rată de trecere pe încercare: 49.0%Teste instabile: 10…Tokenuri de ieșire: 4,517Tokenuri de raționament: 47,612Timp de răspuns: medie 27.32s · total 437.10s · maxim 117.04s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)41.03sTimp de răspuns (maxim)41.03sTimp de răspuns (total)41.03s
Parsare și extragere de date
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)21.95sTimp de răspuns (maxim)24.88sTimp de răspuns (total)43.89s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)19.00sTimp de răspuns (maxim)21.63sTimp de răspuns (total)38.01s
Inteligență generală
: 3.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)38.70sTimp de răspuns (maxim)38.70sTimp de răspuns (total)38.70s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.05sTimp de răspuns (maxim)12.05sTimp de răspuns (total)12.05s
Total teste: 17Teste greșite: 13Rată de trecere pe încercare: 23.5%Teste instabile: 0…Tokenuri de ieșire: 3,032Tokenuri de raționament: 0Timp de răspuns: medie 10.82s · total 118.99s · maxim 45.14s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)45.14sTimp de răspuns (maxim)45.14sTimp de răspuns (total)45.14s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.32sTimp de răspuns (maxim)1.32sTimp de răspuns (total)1.32s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)962msTimp de răspuns (maxim)962msTimp de răspuns (total)962ms
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.34sTimp de răspuns (maxim)1.34sTimp de răspuns (total)1.34s
Respectarea instrucțiunilor
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.71sTimp de răspuns (maxim)14.65sTimp de răspuns (total)15.42s
Rezolvare de puzzle-uri
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)22.86sTimp de răspuns (maxim)42.58sTimp de răspuns (total)45.73s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.47sTimp de răspuns (maxim)2.47sTimp de răspuns (total)2.47s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 12Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)592msTimp de răspuns (maxim)1.27sTimp de răspuns (total)10.07s…
Total teste: 17Teste greșite: 13Rată de trecere pe încercare: 29.4%Teste instabile: 2…Tokenuri de ieșire: 1,315Tokenuri de raționament: 0Timp de răspuns: medie 592ms · total 10.07s · maxim 1.27s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)483msTimp de răspuns (maxim)716msTimp de răspuns (total)1.93s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)606msTimp de răspuns (maxim)606msTimp de răspuns (total)606ms
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)667msTimp de răspuns (maxim)819msTimp de răspuns (total)1.33s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)534msTimp de răspuns (maxim)733msTimp de răspuns (total)1.60s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)628msTimp de răspuns (maxim)628msTimp de răspuns (total)628ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)551msTimp de răspuns (maxim)622msTimp de răspuns (total)1.10s
Rezolvare de puzzle-uri
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)533msTimp de răspuns (maxim)637msTimp de răspuns (total)1.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)1.17sTimp de răspuns (maxim)2.52sTimp de răspuns (total)19.82s…
Total teste: 17Teste greșite: 13Rată de trecere pe încercare: 31.4%Teste instabile: 3…Tokenuri de ieșire: 2,085Tokenuri de raționament: 0Timp de răspuns: medie 1.17s · total 19.82s · maxim 2.52s
Trucuri anti-AI
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)929msTimp de răspuns (maxim)1.55sTimp de răspuns (total)3.72s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.52sTimp de răspuns (maxim)2.52sTimp de răspuns (total)2.52s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.58sTimp de răspuns (total)2.61s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)937msTimp de răspuns (maxim)1.25sTimp de răspuns (total)2.81s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.82sTimp de răspuns (maxim)1.82sTimp de răspuns (total)1.82s
Respectarea instrucțiunilor
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)728msTimp de răspuns (maxim)731msTimp de răspuns (total)1.46s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.32sTimp de răspuns (maxim)2.32sTimp de răspuns (total)2.32s
Total teste: 17Teste greșite: 13Rată de trecere pe încercare: 23.5%Teste instabile: 0…Tokenuri de ieșire: 2,945Tokenuri de raționament: 0Timp de răspuns: medie 1.22s · total 20.74s · maxim 5.91s
Trucuri anti-AI
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.71sTimp de răspuns (maxim)3.79sTimp de răspuns (total)6.84s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)5.91sTimp de răspuns (maxim)5.91sTimp de răspuns (total)5.91s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)847msTimp de răspuns (maxim)1.09sTimp de răspuns (total)1.69s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)464msTimp de răspuns (maxim)622msTimp de răspuns (total)1.39s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)552msTimp de răspuns (maxim)552msTimp de răspuns (total)552ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)514msTimp de răspuns (maxim)582msTimp de răspuns (total)1.03s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 5Timp de răspuns (mediu)11.57sTimp de răspuns (maxim)81.80sTimp de răspuns (total)127.32s…
Total teste: 17Teste greșite: 14Rată de trecere pe încercare: 25.5%Teste instabile: 2…Tokenuri de ieșire: 2,941Tokenuri de raționament: 0Timp de răspuns: medie 11.57s · total 127.32s · maxim 81.80s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)4.28sTimp de răspuns (total)4.28s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)81.80sTimp de răspuns (maxim)81.80sTimp de răspuns (total)81.80s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)638msTimp de răspuns (maxim)638msTimp de răspuns (total)638ms
Inteligență generală
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.39sTimp de răspuns (total)1.39s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.64sTimp de răspuns (maxim)2.64sTimp de răspuns (total)2.64s
Total teste: 17Teste greșite: 13Rată de trecere pe încercare: 39.2%Teste instabile: 7…Tokenuri de ieșire: 38,719Tokenuri de raționament: 65,465Timp de răspuns: medie 33.44s · total 334.39s · maxim 174.55s
Combinat
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)65.57sTimp de răspuns (maxim)65.57sTimp de răspuns (total)65.57s
Parsare și extragere de date
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)1.51sTimp de răspuns (maxim)1.51sTimp de răspuns (total)1.51s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Fără răspuns: 1Timp de răspuns (mediu)174.55sTimp de răspuns (maxim)174.55sTimp de răspuns (total)174.55s
Inteligență generală
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)18.14sTimp de răspuns (maxim)18.14sTimp de răspuns (total)18.14s
Respectarea instrucțiunilor
: 6.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.97sTimp de răspuns (maxim)2.97sTimp de răspuns (total)2.97s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.95sTimp de răspuns (maxim)15.95sTimp de răspuns (total)15.95s
Total teste: 17Teste greșite: 14Rată de trecere pe încercare: 35.3%Teste instabile: 6…Tokenuri de ieșire: 18,141Tokenuri de raționament: 141,204Timp de răspuns: medie 69.21s · total 968.99s · maxim 226.38s
Trucuri anti-AI
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)34.44sTimp de răspuns (maxim)57.86sTimp de răspuns (total)103.31s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 3Timp de răspuns (mediu)137.75sTimp de răspuns (maxim)202.61sTimp de răspuns (total)413.24s
Inteligență generală
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)226.38sTimp de răspuns (maxim)226.38sTimp de răspuns (total)226.38s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)17.15sTimp de răspuns (maxim)28.54sTimp de răspuns (total)34.29s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.31sTimp de răspuns (maxim)4.31sTimp de răspuns (total)4.31s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 12Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.76sTimp de răspuns (maxim)5.51sTimp de răspuns (total)17.56s…
Total teste: 17Teste greșite: 14Rată de trecere pe încercare: 23.5%Teste instabile: 2…Tokenuri de ieșire: 1,154Tokenuri de raționament: 0Timp de răspuns: medie 1.76s · total 17.56s · maxim 5.51s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.33sTimp de răspuns (maxim)3.33sTimp de răspuns (total)3.33s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)943msTimp de răspuns (maxim)943msTimp de răspuns (total)943ms
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.06sTimp de răspuns (total)1.06s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.08sTimp de răspuns (maxim)1.08sTimp de răspuns (total)1.08s
Respectarea instrucțiunilor
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)923msTimp de răspuns (maxim)923msTimp de răspuns (total)923ms
Rezolvare de puzzle-uri
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.28sTimp de răspuns (maxim)1.36sTimp de răspuns (total)2.56s
Apelare instrumente
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.51sTimp de răspuns (maxim)5.51sTimp de răspuns (total)5.51s
Total teste: 17Teste greșite: 14Rată de trecere pe încercare: 27.5%Teste instabile: 4…Tokenuri de ieșire: 67,796Tokenuri de raționament: 0Timp de răspuns: medie 2.79s · total 36.29s · maxim 19.68s
Trucuri anti-AI
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)2.73sTimp de răspuns (total)4.76s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.87sTimp de răspuns (maxim)2.87sTimp de răspuns (total)2.87s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)564msTimp de răspuns (maxim)564msTimp de răspuns (total)564ms
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.67sTimp de răspuns (maxim)1.67sTimp de răspuns (total)1.67s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)857msTimp de răspuns (maxim)955msTimp de răspuns (total)1.71s
Rezolvare de puzzle-uri
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.38sTimp de răspuns (maxim)1.74sTimp de răspuns (total)2.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.28sTimp de răspuns (maxim)2.28sTimp de răspuns (total)2.28s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 12Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)3.84sTimp de răspuns (total)23.70s…
Total teste: 17Teste greșite: 15Rată de trecere pe încercare: 29.4%Teste instabile: 6…Tokenuri de ieșire: 2,185Tokenuri de raționament: 0Timp de răspuns: medie 1.39s · total 23.70s · maxim 3.84s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.18sTimp de răspuns (maxim)1.81sTimp de răspuns (total)4.70s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.84sTimp de răspuns (maxim)3.84sTimp de răspuns (total)3.84s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.11sTimp de răspuns (maxim)1.25sTimp de răspuns (total)2.23s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)926msTimp de răspuns (maxim)959msTimp de răspuns (total)2.78s
Inteligență generală
: 3.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.31sTimp de răspuns (maxim)1.31sTimp de răspuns (total)1.31s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.40sTimp de răspuns (maxim)3.40sTimp de răspuns (total)3.40s
Total teste: 16Teste greșite: 15Rată de trecere pe încercare: 14.6%Teste instabile: 2…Tokenuri de ieșire: 1,185Tokenuri de raționament: 0Timp de răspuns: medie 811ms · total 11.35s · maxim 2.88s
Trucuri anti-AI
: 3.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)471msTimp de răspuns (maxim)872msTimp de răspuns (total)1.41s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)714msTimp de răspuns (maxim)987msTimp de răspuns (total)1.43s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Răspuns greșit: 1Timp de răspuns (mediu)287msTimp de răspuns (maxim)334msTimp de răspuns (total)860ms
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)395msTimp de răspuns (maxim)395msTimp de răspuns (total)395ms
Respectarea instrucțiunilor
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.09sTimp de răspuns (maxim)1.90sTimp de răspuns (total)2.18s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms