Total teste: 18Teste greșite: 13Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 33.3%Teste instabile: 2…Tokenuri de ieșire: 4,444Tokenuri de raționament: 0Timp de răspuns: medie 29.39s · total 529.10s · maxim 111.96s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)20.18sTimp de răspuns (maxim)26.54sTimp de răspuns (total)80.73s
Programare
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)24.04sTimp de răspuns (maxim)24.04sTimp de răspuns (total)24.04s
Combinat
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)111.96sTimp de răspuns (maxim)111.96sTimp de răspuns (total)111.96s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.79sTimp de răspuns (maxim)23.85sTimp de răspuns (total)47.57s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)19.73sTimp de răspuns (maxim)27.66sTimp de răspuns (total)59.18s
Inteligență generală
: 4.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)23.74sTimp de răspuns (maxim)23.74sTimp de răspuns (total)23.74s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)17.54sTimp de răspuns (maxim)18.51sTimp de răspuns (total)35.08s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)77.93sTimp de răspuns (maxim)77.93sTimp de răspuns (total)77.93s
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 29.6%Teste instabile: 2…Tokenuri de ieșire: 1,591Tokenuri de raționament: 0Timp de răspuns: medie 1.19s · total 21.37s · maxim 6.48s
Trucuri anti-AI
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)597msTimp de răspuns (maxim)866msTimp de răspuns (total)2.39s
Programare
: 5.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.14sTimp de răspuns (maxim)1.14sTimp de răspuns (total)1.14s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)6.48sTimp de răspuns (maxim)6.48sTimp de răspuns (total)6.48s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)601msTimp de răspuns (maxim)634msTimp de răspuns (total)1.20s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)611msTimp de răspuns (maxim)616msTimp de răspuns (total)1.83s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)541msTimp de răspuns (maxim)541msTimp de răspuns (total)541ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.79sTimp de răspuns (maxim)4.79sTimp de răspuns (total)4.79s
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 51.9%Teste instabile: 10…Tokenuri de ieșire: 4,984Tokenuri de raționament: 62,787Timp de răspuns: medie 31.08s · total 528.37s · maxim 117.04s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)91.27sTimp de răspuns (maxim)91.27sTimp de răspuns (total)91.27s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)41.03sTimp de răspuns (maxim)41.03sTimp de răspuns (total)41.03s
Parsare și extragere de date
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)21.95sTimp de răspuns (maxim)24.88sTimp de răspuns (total)43.89s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)19.00sTimp de răspuns (maxim)21.63sTimp de răspuns (total)38.01s
Inteligență generală
: 3.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)38.70sTimp de răspuns (maxim)38.70sTimp de răspuns (total)38.70s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.05sTimp de răspuns (maxim)12.05sTimp de răspuns (total)12.05s
Total teste: 18Teste greșite: 13Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 29.6%Teste instabile: 1…Tokenuri de ieșire: 2,596Tokenuri de raționament: 0Timp de răspuns: medie 1.27s · total 22.82s · maxim 3.70s
Trucuri anti-AI
: 6.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)2.04sTimp de răspuns (total)4.75s
Programare
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.30sTimp de răspuns (total)1.30s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.70sTimp de răspuns (maxim)3.70sTimp de răspuns (total)3.70s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)979msTimp de răspuns (maxim)1.02sTimp de răspuns (total)1.96s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)925msTimp de răspuns (maxim)1.16sTimp de răspuns (total)2.77s
Inteligență generală
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)920msTimp de răspuns (maxim)920msTimp de răspuns (total)920ms
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)987msTimp de răspuns (maxim)1.13sTimp de răspuns (total)1.97s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)2.83sTimp de răspuns (maxim)2.83sTimp de răspuns (total)2.83s
Total teste: 18Teste greșite: 13Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 29.6%Teste instabile: 1…Tokenuri de ieșire: 1,967Tokenuri de raționament: 0Timp de răspuns: medie 1.11s · total 20.02s · maxim 6.04s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)501msTimp de răspuns (maxim)839msTimp de răspuns (total)2.01s
Programare
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.22sTimp de răspuns (maxim)1.22sTimp de răspuns (total)1.22s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)6.04sTimp de răspuns (maxim)6.04sTimp de răspuns (total)6.04s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)522msTimp de răspuns (maxim)537msTimp de răspuns (total)1.04s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)659msTimp de răspuns (maxim)659msTimp de răspuns (total)659ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.63sTimp de răspuns (maxim)4.63sTimp de răspuns (total)4.63s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 11Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)665msTimp de răspuns (maxim)1.72sTimp de răspuns (total)11.97s…
Total teste: 18Teste greșite: 13Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 31.5%Teste instabile: 1…Tokenuri de ieșire: 2,207Tokenuri de raționament: 0Timp de răspuns: medie 665ms · total 11.97s · maxim 1.72s
Trucuri anti-AI
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)395msTimp de răspuns (maxim)769msTimp de răspuns (total)1.58s
Programare
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.28sTimp de răspuns (maxim)1.28sTimp de răspuns (total)1.28s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.72sTimp de răspuns (maxim)1.72sTimp de răspuns (total)1.72s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)822msTimp de răspuns (maxim)1.08sTimp de răspuns (total)1.64s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)367msTimp de răspuns (maxim)388msTimp de răspuns (total)1.10s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)729msTimp de răspuns (maxim)729msTimp de răspuns (total)729ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)380msTimp de răspuns (maxim)380msTimp de răspuns (total)759ms
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.40sTimp de răspuns (maxim)1.40sTimp de răspuns (total)1.40s
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 38.9%Teste instabile: 5…Tokenuri de ieșire: 44,652Tokenuri de raționament: 0Timp de răspuns: medie 11.96s · total 179.34s · maxim 68.97s
Programare
: 4.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)9.57sTimp de răspuns (maxim)9.57sTimp de răspuns (total)9.57s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)7.12sTimp de răspuns (maxim)7.12sTimp de răspuns (total)7.12s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)34.98sTimp de răspuns (maxim)68.97sTimp de răspuns (total)104.94s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.83sTimp de răspuns (maxim)2.83sTimp de răspuns (total)2.83s
Respectarea instrucțiunilor
: 8.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.10sTimp de răspuns (maxim)5.85sTimp de răspuns (total)10.21s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Total teste: 18Teste greșite: 13Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 31.5%Teste instabile: 1…Tokenuri de ieșire: 2,573Tokenuri de raționament: 0Timp de răspuns: medie 1.23s · total 22.16s · maxim 3.81s
Programare
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.39sTimp de răspuns (total)1.39s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.81sTimp de răspuns (maxim)3.81sTimp de răspuns (total)3.81s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.04sTimp de răspuns (maxim)1.05sTimp de răspuns (total)2.08s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)927msTimp de răspuns (maxim)1.17sTimp de răspuns (total)2.78s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)854msTimp de răspuns (maxim)854msTimp de răspuns (total)854ms
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.03sTimp de răspuns (maxim)1.17sTimp de răspuns (total)2.07s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)2.79sTimp de răspuns (maxim)2.79sTimp de răspuns (total)2.79s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)1.17sTimp de răspuns (maxim)2.52sTimp de răspuns (total)21.01s…
Total teste: 18Teste greșite: 13Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 35.2%Teste instabile: 3…Tokenuri de ieșire: 2,418Tokenuri de raționament: 0Timp de răspuns: medie 1.17s · total 21.01s · maxim 2.52s
Trucuri anti-AI
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)929msTimp de răspuns (maxim)1.55sTimp de răspuns (total)3.72s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.19sTimp de răspuns (total)1.19s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.52sTimp de răspuns (maxim)2.52sTimp de răspuns (total)2.52s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.58sTimp de răspuns (total)2.61s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)937msTimp de răspuns (maxim)1.25sTimp de răspuns (total)2.81s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.82sTimp de răspuns (maxim)1.82sTimp de răspuns (total)1.82s
Respectarea instrucțiunilor
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)728msTimp de răspuns (maxim)731msTimp de răspuns (total)1.46s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.32sTimp de răspuns (maxim)2.32sTimp de răspuns (total)2.32s
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 25.9%Teste instabile: 1…Tokenuri de ieșire: 3,617Tokenuri de raționament: 0Timp de răspuns: medie 10.18s · total 122.13s · maxim 45.14s
Programare
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.14sTimp de răspuns (maxim)3.14sTimp de răspuns (total)3.14s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)45.14sTimp de răspuns (maxim)45.14sTimp de răspuns (total)45.14s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.32sTimp de răspuns (maxim)1.32sTimp de răspuns (total)1.32s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)962msTimp de răspuns (maxim)962msTimp de răspuns (total)962ms
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.34sTimp de răspuns (maxim)1.34sTimp de răspuns (total)1.34s
Respectarea instrucțiunilor
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.71sTimp de răspuns (maxim)14.65sTimp de răspuns (total)15.42s
Rezolvare de puzzle-uri
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)22.86sTimp de răspuns (maxim)42.58sTimp de răspuns (total)45.73s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.47sTimp de răspuns (maxim)2.47sTimp de răspuns (total)2.47s
Total teste: 18Teste greșite: 13Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 27.8%Teste instabile: 0…Tokenuri de ieșire: 2,177Tokenuri de raționament: 0Timp de răspuns: medie 1.05s · total 18.94s · maxim 2.43s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)842msTimp de răspuns (maxim)1.47sTimp de răspuns (total)3.37s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.95sTimp de răspuns (maxim)1.95sTimp de răspuns (total)1.95s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.36sTimp de răspuns (maxim)2.36sTimp de răspuns (total)2.36s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)1.01sTimp de răspuns (maxim)1.18sTimp de răspuns (total)2.03s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)756msTimp de răspuns (maxim)877msTimp de răspuns (total)2.27s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)841msTimp de răspuns (maxim)841msTimp de răspuns (total)841ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)751msTimp de răspuns (maxim)821msTimp de răspuns (total)1.50s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)2.43sTimp de răspuns (total)2.43s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 4Timp de răspuns (mediu)8.54sTimp de răspuns (maxim)24.97sTimp de răspuns (total)153.69s…
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 35.2%Teste instabile: 4…Tokenuri de ieșire: 4,760Tokenuri de raționament: 0Timp de răspuns: medie 8.54s · total 153.69s · maxim 24.97s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)7.43sTimp de răspuns (maxim)16.69sTimp de răspuns (total)29.72s
Programare
: 3.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.99sTimp de răspuns (maxim)2.99sTimp de răspuns (total)2.99s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)19.98sTimp de răspuns (maxim)19.98sTimp de răspuns (total)19.98s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.92sTimp de răspuns (maxim)13.23sTimp de răspuns (total)15.84s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.23sTimp de răspuns (maxim)14.38sTimp de răspuns (total)18.70s
Inteligență generală
: 4.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)24.97sTimp de răspuns (maxim)24.97sTimp de răspuns (total)24.97s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.00sTimp de răspuns (maxim)16.00sTimp de răspuns (total)16.00s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.00sTimp de răspuns (maxim)7.58sTimp de răspuns (total)21.99s…
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 22.2%Teste instabile: 0…Tokenuri de ieșire: 1,947Tokenuri de raționament: 0Timp de răspuns: medie 2.00s · total 21.99s · maxim 7.58s
Trucuri anti-AI
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.34sTimp de răspuns (maxim)1.83sTimp de răspuns (total)2.67s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.55sTimp de răspuns (maxim)2.55sTimp de răspuns (total)2.55s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.58sTimp de răspuns (maxim)7.58sTimp de răspuns (total)7.58s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)637msTimp de răspuns (maxim)637msTimp de răspuns (total)637ms
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)909msTimp de răspuns (maxim)909msTimp de răspuns (total)909ms
Rezolvare de puzzle-uri
: 3.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)1.54sTimp de răspuns (total)2.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.51sTimp de răspuns (total)2.51s
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 24.1%Teste instabile: 1…Tokenuri de ieșire: 3,951Tokenuri de raționament: 0Timp de răspuns: medie 1.47s · total 26.43s · maxim 5.91s
Trucuri anti-AI
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.71sTimp de răspuns (maxim)3.79sTimp de răspuns (total)6.84s
Programare
: 5.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.69sTimp de răspuns (maxim)5.69sTimp de răspuns (total)5.69s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)5.91sTimp de răspuns (maxim)5.91sTimp de răspuns (total)5.91s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)847msTimp de răspuns (maxim)1.09sTimp de răspuns (total)1.69s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)464msTimp de răspuns (maxim)622msTimp de răspuns (total)1.39s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)552msTimp de răspuns (maxim)552msTimp de răspuns (total)552ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)514msTimp de răspuns (maxim)582msTimp de răspuns (total)1.03s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)613msTimp de răspuns (maxim)1.27sTimp de răspuns (total)11.04s…
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 27.8%Teste instabile: 2…Tokenuri de ieșire: 1,625Tokenuri de raționament: 0Timp de răspuns: medie 613ms · total 11.04s · maxim 1.27s
Trucuri anti-AI
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)483msTimp de răspuns (maxim)716msTimp de răspuns (total)1.93s
Programare
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)969msTimp de răspuns (maxim)969msTimp de răspuns (total)969ms
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)606msTimp de răspuns (maxim)606msTimp de răspuns (total)606ms
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)667msTimp de răspuns (maxim)819msTimp de răspuns (total)1.33s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)534msTimp de răspuns (maxim)733msTimp de răspuns (total)1.60s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)628msTimp de răspuns (maxim)628msTimp de răspuns (total)628ms
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)551msTimp de răspuns (maxim)622msTimp de răspuns (total)1.10s
Rezolvare de puzzle-uri
: 3.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)533msTimp de răspuns (maxim)637msTimp de răspuns (total)1.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.27sTimp de răspuns (maxim)1.27sTimp de răspuns (total)1.27s
Total teste: 18Teste greșite: 15Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 27.8%Teste instabile: 3…Tokenuri de ieșire: 3,241Tokenuri de raționament: 0Timp de răspuns: medie 10.75s · total 129.01s · maxim 81.80s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)1.69sTimp de răspuns (maxim)1.69sTimp de răspuns (total)1.69s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)4.28sTimp de răspuns (total)4.28s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)81.80sTimp de răspuns (maxim)81.80sTimp de răspuns (total)81.80s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)638msTimp de răspuns (maxim)638msTimp de răspuns (total)638ms
Inteligență generală
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.39sTimp de răspuns (total)1.39s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.64sTimp de răspuns (maxim)2.64sTimp de răspuns (total)2.64s
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 27.8%Teste instabile: 2…Tokenuri de ieșire: 2,639Tokenuri de raționament: 0Timp de răspuns: medie 13.56s · total 230.55s · maxim 35.84s
Programare
: 2.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.56sTimp de răspuns (maxim)4.56sTimp de răspuns (total)4.56s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)35.84sTimp de răspuns (maxim)35.84sTimp de răspuns (total)35.84s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)2.85sTimp de răspuns (maxim)2.85sTimp de răspuns (total)2.85s
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Eroare API: 1Timp de răspuns (mediu)17.61sTimp de răspuns (maxim)25.68sTimp de răspuns (total)52.82s
Inteligență generală
: 4.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.07sTimp de răspuns (maxim)16.07sTimp de răspuns (total)16.07s
Respectarea instrucțiunilor
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)12.98sTimp de răspuns (maxim)23.51sTimp de răspuns (total)25.95s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)33.76sTimp de răspuns (maxim)33.76sTimp de răspuns (total)33.76s
Total teste: 18Teste greșite: 14Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 38.9%Teste instabile: 8…Tokenuri de ieșire: 39,688Tokenuri de raționament: 72,401Timp de răspuns: medie 32.33s · total 355.65s · maxim 174.55s
Programare
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)21.26sTimp de răspuns (maxim)21.26sTimp de răspuns (total)21.26s
Combinat
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)65.57sTimp de răspuns (maxim)65.57sTimp de răspuns (total)65.57s
Parsare și extragere de date
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)1.51sTimp de răspuns (maxim)1.51sTimp de răspuns (total)1.51s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Fără răspuns: 1Timp de răspuns (mediu)174.55sTimp de răspuns (maxim)174.55sTimp de răspuns (total)174.55s
Inteligență generală
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)18.14sTimp de răspuns (maxim)18.14sTimp de răspuns (total)18.14s
Respectarea instrucțiunilor
: 6.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.97sTimp de răspuns (maxim)2.97sTimp de răspuns (total)2.97s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.95sTimp de răspuns (maxim)15.95sTimp de răspuns (total)15.95s
Total teste: 18Teste greșite: 15Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 27.8%Teste instabile: 5…Tokenuri de ieșire: 68,522Tokenuri de raționament: 0Timp de răspuns: medie 2.79s · total 39.08s · maxim 19.68s
Trucuri anti-AI
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)2.73sTimp de răspuns (total)4.76s
Programare
: 6.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.79sTimp de răspuns (maxim)2.79sTimp de răspuns (total)2.79s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.87sTimp de răspuns (maxim)2.87sTimp de răspuns (total)2.87s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)564msTimp de răspuns (maxim)564msTimp de răspuns (total)564ms
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.67sTimp de răspuns (maxim)1.67sTimp de răspuns (total)1.67s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)857msTimp de răspuns (maxim)955msTimp de răspuns (total)1.71s
Rezolvare de puzzle-uri
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.38sTimp de răspuns (maxim)1.74sTimp de răspuns (total)2.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.28sTimp de răspuns (maxim)2.28sTimp de răspuns (total)2.28s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.76sTimp de răspuns (maxim)5.51sTimp de răspuns (total)19.35s…
Total teste: 18Teste greșite: 15Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 24.1%Teste instabile: 3…Tokenuri de ieșire: 1,721Tokenuri de raționament: 0Timp de răspuns: medie 1.76s · total 19.35s · maxim 5.51s
Programare
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.79sTimp de răspuns (maxim)1.79sTimp de răspuns (total)1.79s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.33sTimp de răspuns (maxim)3.33sTimp de răspuns (total)3.33s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)943msTimp de răspuns (maxim)943msTimp de răspuns (total)943ms
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.06sTimp de răspuns (total)1.06s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.08sTimp de răspuns (maxim)1.08sTimp de răspuns (total)1.08s
Respectarea instrucțiunilor
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)923msTimp de răspuns (maxim)923msTimp de răspuns (total)923ms
Rezolvare de puzzle-uri
: 3.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.28sTimp de răspuns (maxim)1.36sTimp de răspuns (total)2.56s
Apelare instrumente
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.51sTimp de răspuns (maxim)5.51sTimp de răspuns (total)5.51s
Total teste: 18Teste greșite: 15Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 16.7%Teste instabile: 0…Tokenuri de ieșire: 2,434Tokenuri de raționament: 0Timp de răspuns: medie 8.79s · total 158.19s · maxim 25.72s
Trucuri anti-AI
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)6.55sTimp de răspuns (maxim)9.41sTimp de răspuns (total)26.19s
Programare
: 5.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.57sTimp de răspuns (maxim)10.57sTimp de răspuns (total)10.57s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)23.53sTimp de răspuns (maxim)23.53sTimp de răspuns (total)23.53s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.37sTimp de răspuns (maxim)1.37sTimp de răspuns (total)2.73s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)1.04sTimp de răspuns (maxim)1.08sTimp de răspuns (total)3.11s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)20.34sTimp de răspuns (maxim)20.34sTimp de răspuns (total)20.34s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.36sTimp de răspuns (maxim)9.81sTimp de răspuns (total)10.73s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)25.72sTimp de răspuns (maxim)25.72sTimp de răspuns (total)25.72s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)1.40sTimp de răspuns (maxim)3.84sTimp de răspuns (total)25.14s…
Total teste: 18Teste greșite: 16Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 31.5%Teste instabile: 7…Tokenuri de ieșire: 2,762Tokenuri de raționament: 0Timp de răspuns: medie 1.40s · total 25.14s · maxim 3.84s
Trucuri anti-AI
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)1.18sTimp de răspuns (maxim)1.81sTimp de răspuns (total)4.70s
Programare
: 7.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.43sTimp de răspuns (maxim)1.43sTimp de răspuns (total)1.43s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.84sTimp de răspuns (maxim)3.84sTimp de răspuns (total)3.84s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.11sTimp de răspuns (maxim)1.25sTimp de răspuns (total)2.23s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)926msTimp de răspuns (maxim)959msTimp de răspuns (total)2.78s
Inteligență generală
: 3.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.31sTimp de răspuns (maxim)1.31sTimp de răspuns (total)1.31s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.40sTimp de răspuns (maxim)3.40sTimp de răspuns (total)3.40s
Total teste: 18Teste greșite: 15Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 33.3%Teste instabile: 6…Tokenuri de ieșire: 24,291Tokenuri de raționament: 172,597Timp de răspuns: medie 73.64s · total 1104.60s · maxim 226.38s
Trucuri anti-AI
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)34.44sTimp de răspuns (maxim)57.86sTimp de răspuns (total)103.31s
Programare
: 2.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)135.61sTimp de răspuns (maxim)135.61sTimp de răspuns (total)135.61s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Specific domeniului
: 3.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 3Timp de răspuns (mediu)137.75sTimp de răspuns (maxim)202.61sTimp de răspuns (total)413.24s
Inteligență generală
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)226.38sTimp de răspuns (maxim)226.38sTimp de răspuns (total)226.38s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)17.15sTimp de răspuns (maxim)28.54sTimp de răspuns (total)34.29s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.31sTimp de răspuns (maxim)4.31sTimp de răspuns (total)4.31s
Total teste: 16Teste greșite: 15Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 14.6%Teste instabile: 2…Tokenuri de ieșire: 1,185Tokenuri de raționament: 0Timp de răspuns: medie 811ms · total 11.35s · maxim 2.88s
Trucuri anti-AI
: 3.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)471msTimp de răspuns (maxim)872msTimp de răspuns (total)1.41s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)714msTimp de răspuns (maxim)987msTimp de răspuns (total)1.43s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Răspuns greșit: 1Timp de răspuns (mediu)287msTimp de răspuns (maxim)334msTimp de răspuns (total)860ms
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)395msTimp de răspuns (maxim)395msTimp de răspuns (total)395ms
Respectarea instrucțiunilor
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)1.09sTimp de răspuns (maxim)1.90sTimp de răspuns (total)2.18s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms…
Total teste: 1Teste greșite: 1Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 0.0%Teste instabile: 0…Tokenuri de ieșire: 0Tokenuri de raționament: 0Timp de răspuns: medie 0ms · total 0ms · maxim 0ms
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms