Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.11sTimp de răspuns (maxim)82.37sTimp de răspuns (total)217.93s…
Total teste: 18Teste greșite: 0Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 100.0%Teste instabile: 0…Tokenuri de ieșire: 655Tokenuri de raționament: 33,749Timp de răspuns: medie 12.11s · total 217.93s · maxim 82.37s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.26sTimp de răspuns (maxim)5.01sTimp de răspuns (total)13.04s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)82.37sTimp de răspuns (maxim)82.37sTimp de răspuns (total)82.37s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.58sTimp de răspuns (maxim)23.58sTimp de răspuns (total)23.58s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.62sTimp de răspuns (maxim)8.37sTimp de răspuns (total)15.24s
Specific domeniului
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.81sTimp de răspuns (maxim)32.44sTimp de răspuns (total)44.43s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.34sTimp de răspuns (maxim)6.34sTimp de răspuns (total)6.34s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.30sTimp de răspuns (maxim)5.19sTimp de răspuns (total)8.59s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.86sTimp de răspuns (maxim)7.59sTimp de răspuns (total)14.57s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.78sTimp de răspuns (maxim)9.78sTimp de răspuns (total)9.78s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)15.96sTimp de răspuns (maxim)40.61sTimp de răspuns (total)175.52s…
Total teste: 18Teste greșite: 1Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 94.4%Teste instabile: 0…Tokenuri de ieșire: 1,932Tokenuri de raționament: 40,542Timp de răspuns: medie 15.96s · total 175.52s · maxim 40.61s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.90sTimp de răspuns (maxim)9.52sTimp de răspuns (total)15.80s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.88sTimp de răspuns (maxim)19.88sTimp de răspuns (total)19.88s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)40.61sTimp de răspuns (maxim)40.61sTimp de răspuns (total)40.61s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.72sTimp de răspuns (maxim)7.72sTimp de răspuns (total)7.72s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)32.73sTimp de răspuns (maxim)32.73sTimp de răspuns (total)32.73s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.77sTimp de răspuns (maxim)11.77sTimp de răspuns (total)11.77s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.56sTimp de răspuns (maxim)9.56sTimp de răspuns (total)9.56s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.15sTimp de răspuns (maxim)8.49sTimp de răspuns (total)14.30s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.15sTimp de răspuns (maxim)23.15sTimp de răspuns (total)23.15s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)3.53sTimp de răspuns (maxim)21.45sTimp de răspuns (total)60.03s…
Total teste: 18Teste greșite: 2Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 88.9%Teste instabile: 0…Tokenuri de ieșire: 5,375Tokenuri de raționament: 1,341Timp de răspuns: medie 3.53s · total 60.03s · maxim 21.45s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.85sTimp de răspuns (maxim)2.71sTimp de răspuns (total)7.38s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.41sTimp de răspuns (maxim)6.41sTimp de răspuns (total)6.41s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.45sTimp de răspuns (maxim)21.45sTimp de răspuns (total)21.45s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.37sTimp de răspuns (maxim)3.30sTimp de răspuns (total)4.74s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)1.17sTimp de răspuns (maxim)1.40sTimp de răspuns (total)2.35s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.87sTimp de răspuns (maxim)2.87sTimp de răspuns (total)2.87s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.57sTimp de răspuns (maxim)1.66sTimp de răspuns (total)3.14s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.51sTimp de răspuns (maxim)2.89sTimp de răspuns (total)7.54s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.17sTimp de răspuns (maxim)4.17sTimp de răspuns (total)4.17s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)3.13sTimp de răspuns (maxim)18.27sTimp de răspuns (total)56.33s…
Total teste: 18Teste greșite: 2Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 88.9%Teste instabile: 0…Tokenuri de ieșire: 6,326Tokenuri de raționament: 0Timp de răspuns: medie 3.13s · total 56.33s · maxim 18.27s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.12sTimp de răspuns (maxim)3.75sTimp de răspuns (total)8.50s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.84sTimp de răspuns (maxim)2.84sTimp de răspuns (total)2.84s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)18.27sTimp de răspuns (maxim)18.27sTimp de răspuns (total)18.27s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.15sTimp de răspuns (maxim)2.33sTimp de răspuns (total)4.29s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)1.40sTimp de răspuns (total)3.58s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.47sTimp de răspuns (maxim)3.47sTimp de răspuns (total)3.47s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.46sTimp de răspuns (maxim)1.68sTimp de răspuns (total)2.91s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.58sTimp de răspuns (maxim)4.07sTimp de răspuns (total)7.73s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.74sTimp de răspuns (maxim)4.74sTimp de răspuns (total)4.74s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)32.75sTimp de răspuns (maxim)332.10sTimp de răspuns (total)589.59s…
Total teste: 18Teste greșite: 3Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 87.0%Teste instabile: 2…Tokenuri de ieșire: 1,920Tokenuri de raționament: 89,632Timp de răspuns: medie 32.75s · total 589.59s · maxim 332.10s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.66sTimp de răspuns (maxim)6.74sTimp de răspuns (total)18.65s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.09sTimp de răspuns (maxim)9.09sTimp de răspuns (total)9.09s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.29sTimp de răspuns (maxim)19.29sTimp de răspuns (total)19.29s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.18sTimp de răspuns (maxim)4.35sTimp de răspuns (total)8.36s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)164.14sTimp de răspuns (maxim)332.10sTimp de răspuns (total)492.41s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.16sTimp de răspuns (maxim)4.16sTimp de răspuns (total)4.16s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.36sTimp de răspuns (maxim)3.46sTimp de răspuns (total)6.73s
Rezolvare de puzzle-uri
: 8.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.78sTimp de răspuns (maxim)10.54sTimp de răspuns (total)20.33s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.57sTimp de răspuns (maxim)10.57sTimp de răspuns (total)10.57s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)6.01sTimp de răspuns (maxim)14.72sTimp de răspuns (total)108.12s…
Total teste: 18Teste greșite: 3Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 85.2%Teste instabile: 1…Tokenuri de ieșire: 2,018Tokenuri de raționament: 23,273Timp de răspuns: medie 6.01s · total 108.12s · maxim 14.72s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.48sTimp de răspuns (maxim)4.31sTimp de răspuns (total)13.94s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.94sTimp de răspuns (maxim)6.94sTimp de răspuns (total)6.94s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.27sTimp de răspuns (maxim)3.27sTimp de răspuns (total)3.27s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.40sTimp de răspuns (maxim)14.72sTimp de răspuns (total)18.80s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)8.05sTimp de răspuns (maxim)14.40sTimp de răspuns (total)24.15s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.68sTimp de răspuns (maxim)3.68sTimp de răspuns (total)3.68s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.02sTimp de răspuns (maxim)7.35sTimp de răspuns (total)14.03s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)10.27sTimp de răspuns (total)18.32s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.99sTimp de răspuns (maxim)4.99sTimp de răspuns (total)4.99s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)30.37sTimp de răspuns (maxim)168.71sTimp de răspuns (total)546.72s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 83.3%Teste instabile: 3…Tokenuri de ieșire: 3,257Tokenuri de raționament: 52,042Timp de răspuns: medie 30.37s · total 546.72s · maxim 168.71s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)17.99sTimp de răspuns (maxim)48.33sTimp de răspuns (total)71.98s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)74.49sTimp de răspuns (maxim)74.49sTimp de răspuns (total)74.49s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.67sTimp de răspuns (maxim)37.67sTimp de răspuns (total)37.67s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.07sTimp de răspuns (maxim)12.19sTimp de răspuns (total)18.14s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)88.74sTimp de răspuns (maxim)168.71sTimp de răspuns (total)266.21s
Inteligență generală
: 6.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)18.25sTimp de răspuns (maxim)18.25sTimp de răspuns (total)18.25s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.26sTimp de răspuns (maxim)9.02sTimp de răspuns (total)14.52s
Rezolvare de puzzle-uri
: 9.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.03sTimp de răspuns (maxim)13.85sTimp de răspuns (total)33.09s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.38sTimp de răspuns (maxim)12.38sTimp de răspuns (total)12.38s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)15.38sTimp de răspuns (maxim)100.93sTimp de răspuns (total)276.91s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 83.3%Teste instabile: 3…Tokenuri de ieșire: 2,279Tokenuri de raționament: 35,179Timp de răspuns: medie 15.38s · total 276.91s · maxim 100.93s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.16sTimp de răspuns (maxim)6.68sTimp de răspuns (total)16.63s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.95sTimp de răspuns (maxim)8.95sTimp de răspuns (total)8.95s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.56sTimp de răspuns (maxim)19.56sTimp de răspuns (total)19.56s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.07sTimp de răspuns (maxim)3.59sTimp de răspuns (total)6.15s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)64.31sTimp de răspuns (maxim)100.93sTimp de răspuns (total)192.94s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.87sTimp de răspuns (maxim)4.87sTimp de răspuns (total)4.87s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.04sTimp de răspuns (maxim)3.44sTimp de răspuns (total)6.07s
Rezolvare de puzzle-uri
: 9.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.12sTimp de răspuns (maxim)8.73sTimp de răspuns (total)15.37s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.37sTimp de răspuns (maxim)6.37sTimp de răspuns (total)6.37s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 2Timp de răspuns (mediu)46.56sTimp de răspuns (maxim)120.91sTimp de răspuns (total)512.20s…
Total teste: 18Teste greșite: 4Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 83.3%Teste instabile: 2…Tokenuri de ieșire: 2,121Tokenuri de raționament: 111,889Timp de răspuns: medie 46.56s · total 512.20s · maxim 120.91s
Trucuri anti-AI
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)45.78sTimp de răspuns (maxim)81.20sTimp de răspuns (total)91.57s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)120.91sTimp de răspuns (maxim)120.91sTimp de răspuns (total)120.91s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.85sTimp de răspuns (maxim)46.85sTimp de răspuns (total)46.85s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.91sTimp de răspuns (maxim)46.91sTimp de răspuns (total)46.91s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)17.50sTimp de răspuns (maxim)17.50sTimp de răspuns (total)17.50s
Inteligență generală
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)79.86sTimp de răspuns (maxim)79.86sTimp de răspuns (total)79.86s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.93sTimp de răspuns (maxim)31.93sTimp de răspuns (total)31.93s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.57sTimp de răspuns (maxim)49.12sTimp de răspuns (total)69.13s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)7.54sTimp de răspuns (total)7.54s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 81.5%Teste instabile: 3…Tokenuri de ieșire: 238,920Tokenuri de raționament: 0Timp de răspuns: medie 55.19s · total 938.23s · maxim 149.94s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)32.69sTimp de răspuns (maxim)85.41sTimp de răspuns (total)130.78s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)99.76sTimp de răspuns (maxim)99.76sTimp de răspuns (total)99.76s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)113.09sTimp de răspuns (maxim)113.09sTimp de răspuns (total)113.09s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)12.11sTimp de răspuns (maxim)12.11sTimp de răspuns (total)12.11s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)109.04sTimp de răspuns (maxim)149.94sTimp de răspuns (total)327.11s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.31sTimp de răspuns (maxim)24.31sTimp de răspuns (total)24.31s
Respectarea instrucțiunilor
: 8.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)34.02sTimp de răspuns (maxim)41.83sTimp de răspuns (total)68.04s
Rezolvare de puzzle-uri
: 9.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)28.07sTimp de răspuns (maxim)45.06sTimp de răspuns (total)84.21s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)78.83sTimp de răspuns (maxim)78.83sTimp de răspuns (total)78.83s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)13.94sTimp de răspuns (maxim)43.55sTimp de răspuns (total)237.01s…
Total teste: 17Teste greșite: 4Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 76.5%Teste instabile: 0…Tokenuri de ieșire: 1,756Tokenuri de raționament: 77,213Timp de răspuns: medie 13.94s · total 237.01s · maxim 43.55s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.90sTimp de răspuns (maxim)19.37sTimp de răspuns (total)39.60s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.95sTimp de răspuns (maxim)34.95sTimp de răspuns (total)34.95s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.95sTimp de răspuns (maxim)15.40sTimp de răspuns (total)29.90s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)22.08sTimp de răspuns (maxim)43.55sTimp de răspuns (total)66.23s
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.05sTimp de răspuns (maxim)27.05sTimp de răspuns (total)27.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)11.67sTimp de răspuns (total)15.07s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)7.52sTimp de răspuns (total)18.34s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.87sTimp de răspuns (maxim)5.87sTimp de răspuns (total)5.87s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 81.5%Teste instabile: 3…Tokenuri de ieșire: 2,500Tokenuri de raționament: 242,500Timp de răspuns: medie 53.03s · total 954.46s · maxim 163.96s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)19.75sTimp de răspuns (maxim)49.95sTimp de răspuns (total)79.01s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)70.35sTimp de răspuns (maxim)70.35sTimp de răspuns (total)70.35s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)163.96sTimp de răspuns (maxim)163.96sTimp de răspuns (total)163.96s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)30.26sTimp de răspuns (maxim)32.03sTimp de răspuns (total)60.52s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)79.53sTimp de răspuns (maxim)95.52sTimp de răspuns (total)238.59s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)101.41sTimp de răspuns (maxim)101.41sTimp de răspuns (total)101.41s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.66sTimp de răspuns (maxim)32.25sTimp de răspuns (total)39.32s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)64.61sTimp de răspuns (maxim)123.57sTimp de răspuns (total)193.84s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.45sTimp de răspuns (maxim)7.45sTimp de răspuns (total)7.45s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)68.83sTimp de răspuns (maxim)280.52sTimp de răspuns (total)1101.32s…
Total teste: 16Teste greșite: 4Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 77.1%Teste instabile: 1…Tokenuri de ieșire: 1,283Tokenuri de raționament: 1,533,310Timp de răspuns: medie 68.83s · total 1101.32s · maxim 280.52s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)43.87sTimp de răspuns (maxim)121.88sTimp de răspuns (total)131.62s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)280.52sTimp de răspuns (maxim)280.52sTimp de răspuns (total)280.52s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.16sTimp de răspuns (maxim)8.54sTimp de răspuns (total)14.31s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)127.58sTimp de răspuns (maxim)133.93sTimp de răspuns (total)382.74s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.25sTimp de răspuns (maxim)5.25sTimp de răspuns (total)5.25s
Respectarea instrucțiunilor
: 7.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)70.07sTimp de răspuns (maxim)136.53sTimp de răspuns (total)140.14s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)46.33sTimp de răspuns (maxim)134.22sTimp de răspuns (total)139.00s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.73sTimp de răspuns (maxim)7.73sTimp de răspuns (total)7.73s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Eroare API: 1Timp de răspuns (mediu)9.06sTimp de răspuns (maxim)26.24sTimp de răspuns (total)90.58s…
Total teste: 18Teste greșite: 4Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 77.8%Teste instabile: 0…Tokenuri de ieșire: 1,508Tokenuri de raționament: 10,084Timp de răspuns: medie 9.06s · total 90.58s · maxim 26.24s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.99sTimp de răspuns (maxim)26.24sTimp de răspuns (total)29.99s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.37sTimp de răspuns (maxim)10.37sTimp de răspuns (total)10.37s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.84sTimp de răspuns (maxim)10.84sTimp de răspuns (total)10.84s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)7.01sTimp de răspuns (maxim)7.01sTimp de răspuns (total)7.01s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.34sTimp de răspuns (maxim)9.34sTimp de răspuns (total)9.34s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.26sTimp de răspuns (maxim)3.26sTimp de răspuns (total)3.26s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.91sTimp de răspuns (maxim)4.23sTimp de răspuns (total)7.81s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 85.2%Teste instabile: 4…Tokenuri de ieșire: 20,163Tokenuri de raționament: 58,337Timp de răspuns: medie 23.34s · total 233.40s · maxim 79.09s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.66sTimp de răspuns (maxim)25.06sTimp de răspuns (total)47.32s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)79.09sTimp de răspuns (maxim)79.09sTimp de răspuns (total)79.09s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.96sTimp de răspuns (maxim)28.96sTimp de răspuns (total)28.96s
Parsare și extragere de date
: 7.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)8.90sTimp de răspuns (maxim)8.90sTimp de răspuns (total)8.90s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)14.69sTimp de răspuns (maxim)14.69sTimp de răspuns (total)14.69s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.25sTimp de răspuns (maxim)7.25sTimp de răspuns (total)7.25s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.64sTimp de răspuns (maxim)16.34sTimp de răspuns (total)31.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.93sTimp de răspuns (maxim)15.93sTimp de răspuns (total)15.93s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 79.6%Teste instabile: 2…Tokenuri de ieșire: 12,734Tokenuri de raționament: 27,950Timp de răspuns: medie 24.88s · total 398.13s · maxim 70.97s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.89sTimp de răspuns (maxim)26.66sTimp de răspuns (total)51.55s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)70.97sTimp de răspuns (maxim)70.97sTimp de răspuns (total)70.97s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)21.11sTimp de răspuns (maxim)21.94sTimp de răspuns (total)42.21s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)38.48sTimp de răspuns (maxim)68.92sTimp de răspuns (total)115.43s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.57sTimp de răspuns (maxim)9.57sTimp de răspuns (total)9.57s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.76sTimp de răspuns (maxim)17.53sTimp de răspuns (total)25.52s
Rezolvare de puzzle-uri
: 8.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.63sTimp de răspuns (maxim)61.08sTimp de răspuns (total)82.89s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.12sTimp de răspuns (maxim)95.48sTimp de răspuns (total)218.12s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 75.9%Teste instabile: 1…Tokenuri de ieșire: 1,898Tokenuri de raționament: 122,273Timp de răspuns: medie 12.12s · total 218.12s · maxim 95.48s
Trucuri anti-AI
: 8.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)6.30sTimp de răspuns (maxim)15.56sTimp de răspuns (total)25.21s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.23sTimp de răspuns (maxim)16.23sTimp de răspuns (total)16.23s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.44sTimp de răspuns (maxim)28.44sTimp de răspuns (total)28.44s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.06sTimp de răspuns (maxim)5.06sTimp de răspuns (total)8.11s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)37.34sTimp de răspuns (maxim)95.48sTimp de răspuns (total)112.01s
Inteligență generală
: 4.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.86sTimp de răspuns (maxim)4.86sTimp de răspuns (total)4.86s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.62sTimp de răspuns (maxim)2.78sTimp de răspuns (total)5.24s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.94sTimp de răspuns (maxim)6.33sTimp de răspuns (total)11.83s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.20sTimp de răspuns (maxim)6.20sTimp de răspuns (total)6.20s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)18.63sTimp de răspuns (maxim)100.41sTimp de răspuns (total)335.26s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 79.6%Teste instabile: 3…Tokenuri de ieșire: 2,169Tokenuri de raționament: 48,732Timp de răspuns: medie 18.63s · total 335.26s · maxim 100.41s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.11sTimp de răspuns (maxim)6.42sTimp de răspuns (total)16.42s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.03sTimp de răspuns (maxim)13.03sTimp de răspuns (total)13.03s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.57sTimp de răspuns (maxim)20.57sTimp de răspuns (total)20.57s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.32sTimp de răspuns (maxim)5.40sTimp de răspuns (total)10.64s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)74.27sTimp de răspuns (maxim)100.41sTimp de răspuns (total)222.80s
Inteligență generală
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.92sTimp de răspuns (maxim)4.92sTimp de răspuns (total)4.92s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.11sTimp de răspuns (maxim)3.68sTimp de răspuns (total)6.22s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)9.13sTimp de răspuns (maxim)18.14sTimp de răspuns (total)27.39s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.28sTimp de răspuns (maxim)13.28sTimp de răspuns (total)13.28s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.74sTimp de răspuns (maxim)14.93sTimp de răspuns (total)67.31s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 72.2%Teste instabile: 0…Tokenuri de ieșire: 2,168Tokenuri de raționament: 29,030Timp de răspuns: medie 3.74s · total 67.31s · maxim 14.93s
Trucuri anti-AI
: 9.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.33sTimp de răspuns (maxim)3.89sTimp de răspuns (total)9.30s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.34sTimp de răspuns (maxim)4.34sTimp de răspuns (total)4.34s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.93sTimp de răspuns (maxim)14.93sTimp de răspuns (total)14.93s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.29sTimp de răspuns (maxim)2.31sTimp de răspuns (total)4.59s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)4.21sTimp de răspuns (maxim)5.86sTimp de răspuns (total)12.62s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.16sTimp de răspuns (total)3.16s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)1.93sTimp de răspuns (total)3.82s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.58sTimp de răspuns (maxim)4.41sTimp de răspuns (total)10.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.80sTimp de răspuns (maxim)3.80sTimp de răspuns (total)3.80s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)71.21sTimp de răspuns (maxim)351.99sTimp de răspuns (total)1281.73s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 74.1%Teste instabile: 1…Tokenuri de ieșire: 671Tokenuri de raționament: 39,383Timp de răspuns: medie 71.21s · total 1281.73s · maxim 351.99s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)26.93sTimp de răspuns (maxim)61.35sTimp de răspuns (total)107.71s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)93.00sTimp de răspuns (maxim)93.00sTimp de răspuns (total)93.00s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)71.08sTimp de răspuns (maxim)71.08sTimp de răspuns (total)71.08s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)63.00sTimp de răspuns (maxim)102.80sTimp de răspuns (total)126.00s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)202.56sTimp de răspuns (maxim)351.99sTimp de răspuns (total)607.68s
Inteligență generală
: 5.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)26.96sTimp de răspuns (maxim)26.96sTimp de răspuns (total)26.96s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.60sTimp de răspuns (maxim)20.03sTimp de răspuns (total)29.20s
Rezolvare de puzzle-uri
: 7.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)69.69sTimp de răspuns (maxim)92.65sTimp de răspuns (total)209.06s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.05sTimp de răspuns (maxim)11.05sTimp de răspuns (total)11.05s
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 77.8%Teste instabile: 5…Tokenuri de ieșire: 12,197Tokenuri de raționament: 38,933Timp de răspuns: medie 17.67s · total 317.98s · maxim 194.23s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.82sTimp de răspuns (maxim)7.69sTimp de răspuns (total)19.26s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.26sTimp de răspuns (maxim)12.26sTimp de răspuns (total)12.26s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.88sTimp de răspuns (maxim)13.88sTimp de răspuns (total)13.88s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.19sTimp de răspuns (maxim)6.42sTimp de răspuns (total)12.38s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)71.07sTimp de răspuns (maxim)194.23sTimp de răspuns (total)213.22s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.05sTimp de răspuns (maxim)10.05sTimp de răspuns (total)10.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.38sTimp de răspuns (maxim)5.70sTimp de răspuns (total)10.77s
Rezolvare de puzzle-uri
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.44sTimp de răspuns (maxim)7.26sTimp de răspuns (total)16.32s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.84sTimp de răspuns (maxim)9.84sTimp de răspuns (total)9.84s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp expirat: 2Timp de răspuns (mediu)31.38sTimp de răspuns (maxim)119.29sTimp de răspuns (total)564.84s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 79.6%Teste instabile: 3…Tokenuri de ieșire: 17,635Tokenuri de raționament: 162,668Timp de răspuns: medie 31.38s · total 564.84s · maxim 119.29s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.75sTimp de răspuns (maxim)18.03sTimp de răspuns (total)39.01s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)70.98sTimp de răspuns (maxim)70.98sTimp de răspuns (total)70.98s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)107.79sTimp de răspuns (maxim)107.79sTimp de răspuns (total)107.79s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.41sTimp de răspuns (maxim)29.79sTimp de răspuns (total)46.83s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)63.40sTimp de răspuns (maxim)119.29sTimp de răspuns (total)190.20s
Inteligență generală
: 3.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)34.11sTimp de răspuns (maxim)34.11sTimp de răspuns (total)34.11s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.88sTimp de răspuns (maxim)15.44sTimp de răspuns (total)19.76s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.18sTimp de răspuns (maxim)31.99sTimp de răspuns (total)51.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.60sTimp de răspuns (maxim)4.60sTimp de răspuns (total)4.60s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 74.1%Teste instabile: 1…Tokenuri de ieșire: 1,763Tokenuri de raționament: 83,782Timp de răspuns: medie 15.27s · total 259.55s · maxim 43.55s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.90sTimp de răspuns (maxim)19.37sTimp de răspuns (total)39.60s
Programare
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.95sTimp de răspuns (maxim)34.95sTimp de răspuns (total)34.95s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.95sTimp de răspuns (maxim)15.40sTimp de răspuns (total)29.90s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)29.59sTimp de răspuns (maxim)43.55sTimp de răspuns (total)88.77s
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.05sTimp de răspuns (maxim)27.05sTimp de răspuns (total)27.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)11.67sTimp de răspuns (total)15.07s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)7.52sTimp de răspuns (total)18.34s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.87sTimp de răspuns (maxim)5.87sTimp de răspuns (total)5.87s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 75.9%Teste instabile: 1…Tokenuri de ieșire: 65,778Tokenuri de raționament: 0Timp de răspuns: medie 23.98s · total 407.72s · maxim 78.74s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.61sTimp de răspuns (maxim)38.50sTimp de răspuns (total)66.46s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)27.94sTimp de răspuns (maxim)27.94sTimp de răspuns (total)27.94s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)78.74sTimp de răspuns (maxim)78.74sTimp de răspuns (total)78.74s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)5.85sTimp de răspuns (maxim)5.85sTimp de răspuns (total)5.85s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)40.44sTimp de răspuns (maxim)46.32sTimp de răspuns (total)121.31s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.44sTimp de răspuns (maxim)16.44sTimp de răspuns (total)16.44s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.98sTimp de răspuns (maxim)22.24sTimp de răspuns (total)31.97s
Rezolvare de puzzle-uri
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)13.73sTimp de răspuns (maxim)25.82sTimp de răspuns (total)41.19s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.84sTimp de răspuns (maxim)17.84sTimp de răspuns (total)17.84s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Timp de răspuns (mediu)1.65sTimp de răspuns (maxim)3.56sTimp de răspuns (total)18.20s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 77.8%Teste instabile: 2…Tokenuri de ieșire: 1,840Tokenuri de raționament: 0Timp de răspuns: medie 1.65s · total 18.20s · maxim 3.56s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.25sTimp de răspuns (maxim)1.59sTimp de răspuns (total)2.49s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.59sTimp de răspuns (maxim)1.59sTimp de răspuns (total)1.59s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.56sTimp de răspuns (maxim)3.56sTimp de răspuns (total)3.56s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.41sTimp de răspuns (maxim)1.41sTimp de răspuns (total)1.41s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)963msTimp de răspuns (maxim)963msTimp de răspuns (total)963ms
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.13sTimp de răspuns (maxim)1.13sTimp de răspuns (total)1.13s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.58sTimp de răspuns (maxim)1.58sTimp de răspuns (total)1.58s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.06sTimp de răspuns (maxim)1.06sTimp de răspuns (total)2.12s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.35sTimp de răspuns (maxim)3.35sTimp de răspuns (total)3.35s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.22sTimp de răspuns (maxim)11.91sTimp de răspuns (total)58.00s…
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 72.2%Teste instabile: 0…Tokenuri de ieșire: 2,247Tokenuri de raționament: 8,058Timp de răspuns: medie 3.22s · total 58.00s · maxim 11.91s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.12sTimp de răspuns (maxim)3.18sTimp de răspuns (total)8.50s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.20sTimp de răspuns (maxim)2.20sTimp de răspuns (total)2.20s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)11.91sTimp de răspuns (total)11.91s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.00sTimp de răspuns (maxim)3.74sTimp de răspuns (total)5.99s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)2.36sTimp de răspuns (maxim)3.51sTimp de răspuns (total)7.07s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.54sTimp de răspuns (maxim)1.54sTimp de răspuns (total)1.54s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.49sTimp de răspuns (maxim)1.66sTimp de răspuns (total)2.99s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.76sTimp de răspuns (maxim)5.08sTimp de răspuns (total)8.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.54sTimp de răspuns (maxim)9.54sTimp de răspuns (total)9.54s
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 75.9%Teste instabile: 3…Tokenuri de ieșire: 2,735Tokenuri de raționament: 52,571Timp de răspuns: medie 16.17s · total 291.09s · maxim 84.22s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.95sTimp de răspuns (maxim)5.12sTimp de răspuns (total)11.80s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)32.58sTimp de răspuns (maxim)32.58sTimp de răspuns (total)32.58s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)53.36sTimp de răspuns (maxim)53.36sTimp de răspuns (total)53.36s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)18.81sTimp de răspuns (maxim)20.29sTimp de răspuns (total)37.61s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Timp de răspuns (mediu)37.87sTimp de răspuns (maxim)84.22sTimp de răspuns (total)113.60s
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.27sTimp de răspuns (maxim)4.27sTimp de răspuns (total)4.27s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.77sTimp de răspuns (maxim)3.21sTimp de răspuns (total)5.54s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.87sTimp de răspuns (maxim)16.87sTimp de răspuns (total)16.87s
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 77.8%Teste instabile: 3…Tokenuri de ieșire: 2,360Tokenuri de raționament: 38,320Timp de răspuns: medie 12.27s · total 208.56s · maxim 64.71s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.06sTimp de răspuns (maxim)4.70sTimp de răspuns (total)12.23s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)52.12sTimp de răspuns (maxim)52.12sTimp de răspuns (total)52.12s
Combinat
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)64.71sTimp de răspuns (maxim)64.71sTimp de răspuns (total)64.71s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)17.20sTimp de răspuns (maxim)17.44sTimp de răspuns (total)34.40s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)6.00sTimp de răspuns (maxim)6.14sTimp de răspuns (total)12.01s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.06sTimp de răspuns (maxim)4.06sTimp de răspuns (total)4.06s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.36sTimp de răspuns (maxim)4.35sTimp de răspuns (total)6.72s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.19sTimp de răspuns (maxim)8.19sTimp de răspuns (total)8.19s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 74.1%Teste instabile: 1…Tokenuri de ieșire: 65,057Tokenuri de raționament: 0Timp de răspuns: medie 14.63s · total 248.72s · maxim 46.04s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.59sTimp de răspuns (maxim)10.20sTimp de răspuns (total)26.37s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.37sTimp de răspuns (maxim)31.37sTimp de răspuns (total)31.37s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.04sTimp de răspuns (maxim)46.04sTimp de răspuns (total)46.04s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)5.25sTimp de răspuns (maxim)5.25sTimp de răspuns (total)5.25s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)22.30sTimp de răspuns (maxim)30.51sTimp de răspuns (total)66.90s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.84sTimp de răspuns (maxim)16.84sTimp de răspuns (total)16.84s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.16sTimp de răspuns (maxim)7.72sTimp de răspuns (total)12.31s
Rezolvare de puzzle-uri
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)9.55sTimp de răspuns (maxim)14.35sTimp de răspuns (total)28.64s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.02sTimp de răspuns (maxim)15.02sTimp de răspuns (total)15.02s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 75.9%Teste instabile: 2…Tokenuri de ieșire: 15,928Tokenuri de raționament: 44,631Timp de răspuns: medie 25.03s · total 425.48s · maxim 147.47s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.20sTimp de răspuns (maxim)9.64sTimp de răspuns (total)24.78s
Programare
: 2.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)147.47sTimp de răspuns (maxim)147.47sTimp de răspuns (total)147.47s
Combinat
: 9.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)73.55sTimp de răspuns (maxim)73.55sTimp de răspuns (total)73.55s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.51sTimp de răspuns (maxim)20.57sTimp de răspuns (total)33.02s
Specific domeniului
: 2.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)23.62sTimp de răspuns (maxim)27.00sTimp de răspuns (total)47.23s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)29.76sTimp de răspuns (maxim)29.76sTimp de răspuns (total)29.76s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.54sTimp de răspuns (maxim)21.25sTimp de răspuns (total)35.08s
Rezolvare de puzzle-uri
: 7.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)8.52sTimp de răspuns (maxim)12.73sTimp de răspuns (total)25.56s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.01sTimp de răspuns (maxim)9.01sTimp de răspuns (total)9.01s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 3Timp de răspuns (mediu)9.81sTimp de răspuns (maxim)31.36sTimp de răspuns (total)176.62s…
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 74.1%Teste instabile: 2…Tokenuri de ieșire: 1,568Tokenuri de raționament: 91,909Timp de răspuns: medie 9.81s · total 176.62s · maxim 31.36s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.44sTimp de răspuns (total)12.65s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.36sTimp de răspuns (maxim)31.36sTimp de răspuns (total)31.36s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.93sTimp de răspuns (maxim)20.93sTimp de răspuns (total)20.93s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.01sTimp de răspuns (maxim)4.27sTimp de răspuns (total)8.02s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)21.33sTimp de răspuns (maxim)24.21sTimp de răspuns (total)64.00s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.78sTimp de răspuns (maxim)5.78sTimp de răspuns (total)5.78s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.85sTimp de răspuns (maxim)4.53sTimp de răspuns (total)11.55s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.39sTimp de răspuns (maxim)12.39sTimp de răspuns (total)12.39s
Total teste: 18Teste greșite: 5Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 74.1%Teste instabile: 1…Tokenuri de ieșire: 42,068Tokenuri de raționament: 26,784Timp de răspuns: medie 12.66s · total 126.62s · maxim 46.35s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)35.76sTimp de răspuns (maxim)35.76sTimp de răspuns (total)35.76s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.35sTimp de răspuns (maxim)46.35sTimp de răspuns (total)46.35s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.90sTimp de răspuns (maxim)13.90sTimp de răspuns (total)13.90s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.94sTimp de răspuns (maxim)4.94sTimp de răspuns (total)4.94s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.61sTimp de răspuns (maxim)2.61sTimp de răspuns (total)2.61s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.80sTimp de răspuns (maxim)5.22sTimp de răspuns (total)9.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.48sTimp de răspuns (maxim)7.48sTimp de răspuns (total)7.48s
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 79.6%Teste instabile: 4…Tokenuri de ieșire: 7,554Tokenuri de raționament: 45,588Timp de răspuns: medie 43.49s · total 782.73s · maxim 180.92s
Trucuri anti-AI
: 8.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)30.72sTimp de răspuns (maxim)44.23sTimp de răspuns (total)122.88s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)180.92sTimp de răspuns (maxim)180.92sTimp de răspuns (total)180.92s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)93.11sTimp de răspuns (maxim)93.11sTimp de răspuns (total)93.11s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)36.09sTimp de răspuns (maxim)39.12sTimp de răspuns (total)72.18s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)21.78sTimp de răspuns (maxim)30.66sTimp de răspuns (total)65.35s
Inteligență generală
: 5.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)31.30sTimp de răspuns (maxim)31.30sTimp de răspuns (total)31.30s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)35.78sTimp de răspuns (maxim)47.30sTimp de răspuns (total)71.56s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)36.87sTimp de răspuns (maxim)59.22sTimp de răspuns (total)110.62s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.81sTimp de răspuns (maxim)34.81sTimp de răspuns (total)34.81s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.84sTimp de răspuns (maxim)38.52sTimp de răspuns (total)123.17s…
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 75.9%Teste instabile: 3…Tokenuri de ieșire: 17,346Tokenuri de raționament: 0Timp de răspuns: medie 6.84s · total 123.17s · maxim 38.52s
Trucuri anti-AI
: 8.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.40sTimp de răspuns (maxim)4.78sTimp de răspuns (total)13.59s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.97sTimp de răspuns (maxim)8.97sTimp de răspuns (total)8.97s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.12sTimp de răspuns (maxim)9.12sTimp de răspuns (total)9.12s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.05sTimp de răspuns (maxim)3.33sTimp de răspuns (total)6.10s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)17.78sTimp de răspuns (maxim)38.52sTimp de răspuns (total)53.33s
Inteligență generală
: 4.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.20sTimp de răspuns (maxim)3.20sTimp de răspuns (total)3.20s
Respectarea instrucțiunilor
: 7.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.46sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.92s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.42sTimp de răspuns (maxim)5.04sTimp de răspuns (total)13.27s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.68sTimp de răspuns (maxim)4.68sTimp de răspuns (total)4.68s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)1.30sTimp de răspuns (maxim)3.39sTimp de răspuns (total)23.42s…
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 70.4%Teste instabile: 1…Tokenuri de ieșire: 5,361Tokenuri de raționament: 0Timp de răspuns: medie 1.30s · total 23.42s · maxim 3.39s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.47sTimp de răspuns (maxim)1.47sTimp de răspuns (total)1.47s
Combinat
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.20sTimp de răspuns (maxim)3.20sTimp de răspuns (total)3.20s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.22sTimp de răspuns (maxim)1.33sTimp de răspuns (total)2.44s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)942msTimp de răspuns (maxim)1.12sTimp de răspuns (total)2.83s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)741msTimp de răspuns (maxim)741msTimp de răspuns (total)741ms
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.13sTimp de răspuns (maxim)1.14sTimp de răspuns (total)2.27s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)972msTimp de răspuns (maxim)1.13sTimp de răspuns (total)2.92s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.39sTimp de răspuns (maxim)3.39sTimp de răspuns (total)3.39s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 3Timp de răspuns (mediu)26.78sTimp de răspuns (maxim)170.45sTimp de răspuns (total)294.58s…
Total teste: 17Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 70.6%Teste instabile: 2…Tokenuri de ieșire: 71,904Tokenuri de raționament: 155,607Timp de răspuns: medie 26.78s · total 294.58s · maxim 170.45s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.56sTimp de răspuns (maxim)32.30sTimp de răspuns (total)40.68s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)29.57sTimp de răspuns (maxim)29.57sTimp de răspuns (total)29.57s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.01sTimp de răspuns (maxim)15.01sTimp de răspuns (total)15.01s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)170.45sTimp de răspuns (maxim)170.45sTimp de răspuns (total)170.45s
Inteligență generală
: 5.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.54sTimp de răspuns (maxim)6.54sTimp de răspuns (total)6.54s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.91sTimp de răspuns (maxim)11.91sTimp de răspuns (total)11.91s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)47.47sTimp de răspuns (maxim)255.28sTimp de răspuns (total)854.45s…
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 79.6%Teste instabile: 5…Tokenuri de ieșire: 1,757Tokenuri de raționament: 55,907Timp de răspuns: medie 47.47s · total 854.45s · maxim 255.28s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)28.51sTimp de răspuns (maxim)39.73sTimp de răspuns (total)114.05s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)62.48sTimp de răspuns (maxim)62.48sTimp de răspuns (total)62.48s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)76.57sTimp de răspuns (maxim)76.57sTimp de răspuns (total)76.57s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)28.03sTimp de răspuns (maxim)30.49sTimp de răspuns (total)56.07s
Specific domeniului
: 4.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)112.69sTimp de răspuns (maxim)255.28sTimp de răspuns (total)338.07s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)25.15sTimp de răspuns (maxim)25.15sTimp de răspuns (total)25.15s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.36sTimp de răspuns (maxim)19.53sTimp de răspuns (total)30.73s
Rezolvare de puzzle-uri
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)25.53sTimp de răspuns (maxim)32.37sTimp de răspuns (total)76.60s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)74.73sTimp de răspuns (maxim)74.73sTimp de răspuns (total)74.73s
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 77.8%Teste instabile: 6…Tokenuri de ieșire: 2,351Tokenuri de raționament: 58,941Timp de răspuns: medie 14.96s · total 269.32s · maxim 67.08s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.78sTimp de răspuns (maxim)13.78sTimp de răspuns (total)13.78s
Combinat
: 6.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)15.06sTimp de răspuns (maxim)15.06sTimp de răspuns (total)15.06s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.60sTimp de răspuns (maxim)9.92sTimp de răspuns (total)19.19s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)38.15sTimp de răspuns (maxim)67.08sTimp de răspuns (total)114.45s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.09sTimp de răspuns (maxim)11.09sTimp de răspuns (total)11.09s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.74sTimp de răspuns (maxim)5.23sTimp de răspuns (total)7.47s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)10.91sTimp de răspuns (maxim)18.97sTimp de răspuns (total)32.74s
Apelare instrumente
: 7.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)12.53sTimp de răspuns (maxim)12.53sTimp de răspuns (total)12.53s
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 81.5%Teste instabile: 6…Tokenuri de ieșire: 2,073Tokenuri de raționament: 191,899Timp de răspuns: medie 66.72s · total 1201.03s · maxim 234.29s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)59.11sTimp de răspuns (maxim)168.31sTimp de răspuns (total)236.44s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)45.75sTimp de răspuns (maxim)45.75sTimp de răspuns (total)45.75s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.78sTimp de răspuns (maxim)17.78sTimp de răspuns (total)17.78s
Parsare și extragere de date
: 7.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)56.99sTimp de răspuns (maxim)80.14sTimp de răspuns (total)113.98s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)146.50sTimp de răspuns (maxim)234.29sTimp de răspuns (total)439.49s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)40.05sTimp de răspuns (maxim)40.05sTimp de răspuns (total)40.05s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)63.49sTimp de răspuns (maxim)111.61sTimp de răspuns (total)126.98s
Rezolvare de puzzle-uri
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Timp de răspuns (mediu)56.74sTimp de răspuns (maxim)115.01sTimp de răspuns (total)170.23s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)10.33sTimp de răspuns (maxim)10.33sTimp de răspuns (total)10.33s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp expirat: 2Eroare API: 1Timp de răspuns (mediu)24.13sTimp de răspuns (maxim)118.52sTimp de răspuns (total)410.25s…
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 75.9%Teste instabile: 3…Tokenuri de ieșire: 8,005Tokenuri de raționament: 49,090Timp de răspuns: medie 24.13s · total 410.25s · maxim 118.52s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.31sTimp de răspuns (maxim)14.20sTimp de răspuns (total)33.24s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)118.52sTimp de răspuns (maxim)118.52sTimp de răspuns (total)118.52s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)43.11sTimp de răspuns (maxim)43.11sTimp de răspuns (total)43.11s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.33sTimp de răspuns (maxim)9.40sTimp de răspuns (total)18.66s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)29.77sTimp de răspuns (maxim)32.22sTimp de răspuns (total)89.30s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.95sTimp de răspuns (maxim)20.95sTimp de răspuns (total)20.95s
Respectarea instrucțiunilor
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.47sTimp de răspuns (maxim)10.16sTimp de răspuns (total)14.94s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)23.85sTimp de răspuns (maxim)33.09sTimp de răspuns (total)71.54s
Apelare instrumente
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 74.1%Teste instabile: 3…Tokenuri de ieșire: 2,840Tokenuri de raționament: 116,242Timp de răspuns: medie 13.71s · total 246.73s · maxim 86.93s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.98sTimp de răspuns (maxim)3.76sTimp de răspuns (total)7.92s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.48sTimp de răspuns (maxim)31.48sTimp de răspuns (total)31.48s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.86sTimp de răspuns (maxim)16.86sTimp de răspuns (total)16.86s
Inteligență generală
: 3.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.55sTimp de răspuns (maxim)1.55sTimp de răspuns (total)1.55s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.80sTimp de răspuns (maxim)1.81sTimp de răspuns (total)3.60s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)20.60sTimp de răspuns (maxim)57.93sTimp de răspuns (total)61.79s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.29sTimp de răspuns (maxim)7.29sTimp de răspuns (total)7.29s
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 74.1%Teste instabile: 4…Tokenuri de ieșire: 80,759Tokenuri de raționament: 179,814Timp de răspuns: medie 45.20s · total 768.37s · maxim 215.85s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)106.96sTimp de răspuns (maxim)106.96sTimp de răspuns (total)106.96s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)40.96sTimp de răspuns (maxim)40.96sTimp de răspuns (total)40.96s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.38sTimp de răspuns (maxim)22.88sTimp de răspuns (total)40.76s
Specific domeniului
: 5.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Timp de răspuns (mediu)202.38sTimp de răspuns (maxim)215.85sTimp de răspuns (total)404.76s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.83sTimp de răspuns (maxim)17.83sTimp de răspuns (total)17.83s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.53sTimp de răspuns (maxim)19.15sTimp de răspuns (total)25.06s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.92sTimp de răspuns (maxim)8.92sTimp de răspuns (total)8.92s
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 61.1%Teste instabile: 0…Tokenuri de ieșire: 928Tokenuri de raționament: 72,661Timp de răspuns: medie 16.76s · total 301.61s · maxim 158.78s
Trucuri anti-AI
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.11sTimp de răspuns (maxim)3.43sTimp de răspuns (total)8.43s
Programare
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)68.55sTimp de răspuns (maxim)68.55sTimp de răspuns (total)68.55s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)19.29sTimp de răspuns (maxim)19.29sTimp de răspuns (total)19.29s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.29sTimp de răspuns (maxim)2.62sTimp de răspuns (total)4.58s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.86sTimp de răspuns (maxim)2.86sTimp de răspuns (total)2.86s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.07sTimp de răspuns (maxim)11.07sTimp de răspuns (total)11.07s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.88sTimp de răspuns (maxim)18.33sTimp de răspuns (total)105.90s…
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 68.5%Teste instabile: 3…Tokenuri de ieșire: 20,784Tokenuri de raționament: 0Timp de răspuns: medie 5.88s · total 105.90s · maxim 18.33s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.32sTimp de răspuns (maxim)9.32sTimp de răspuns (total)9.32s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.21sTimp de răspuns (maxim)2.52sTimp de răspuns (total)4.42s
Specific domeniului
: 3.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)13.01sTimp de răspuns (maxim)18.33sTimp de răspuns (total)39.04s
Inteligență generală
: 4.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.99sTimp de răspuns (maxim)1.99sTimp de răspuns (total)1.99s
Respectarea instrucțiunilor
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.29sTimp de răspuns (maxim)4.18sTimp de răspuns (total)6.59s
Rezolvare de puzzle-uri
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.93sTimp de răspuns (maxim)3.05sTimp de răspuns (total)8.78s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.36sTimp de răspuns (maxim)8.36sTimp de răspuns (total)8.36s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 4Răspuns greșit: 2Timp de răspuns (mediu)21.08sTimp de răspuns (maxim)83.40sTimp de răspuns (total)231.84s…
Total teste: 18Teste greșite: 6Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 70.4%Teste instabile: 2…Tokenuri de ieșire: 29,829Tokenuri de raționament: 18,938Timp de răspuns: medie 21.08s · total 231.84s · maxim 83.40s
Trucuri anti-AI
: 6.4 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 2Timp de răspuns (mediu)7.45sTimp de răspuns (maxim)11.88sTimp de răspuns (total)14.90s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.11sTimp de răspuns (maxim)23.11sTimp de răspuns (total)23.11s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)76.66sTimp de răspuns (maxim)76.66sTimp de răspuns (total)76.66s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.37sTimp de răspuns (maxim)7.37sTimp de răspuns (total)7.37s
Inteligență generală
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.04sTimp de răspuns (maxim)5.04sTimp de răspuns (total)5.04s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.43sTimp de răspuns (maxim)2.43sTimp de răspuns (total)2.43s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.60sTimp de răspuns (maxim)4.66sTimp de răspuns (total)9.20s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.73sTimp de răspuns (maxim)9.73sTimp de răspuns (total)9.73s
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 3Timp de răspuns (mediu)11.21sTimp de răspuns (maxim)94.06sTimp de răspuns (total)201.80s…
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 68.5%Teste instabile: 2…Tokenuri de ieșire: 2,946Tokenuri de raționament: 58,132Timp de răspuns: medie 11.21s · total 201.80s · maxim 94.06s
Trucuri anti-AI
: 8.3 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.52sTimp de răspuns (maxim)7.74sTimp de răspuns (total)18.10s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.41sTimp de răspuns (maxim)13.41sTimp de răspuns (total)13.41s
Combinat
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.13sTimp de răspuns (maxim)24.13sTimp de răspuns (total)24.13s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.54sTimp de răspuns (maxim)3.33sTimp de răspuns (total)5.08s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)38.18sTimp de răspuns (maxim)94.06sTimp de răspuns (total)114.53s
Inteligență generală
: 4.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.15sTimp de răspuns (maxim)4.15sTimp de răspuns (total)4.15s
Respectarea instrucțiunilor
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.88sTimp de răspuns (maxim)2.61sTimp de răspuns (total)3.75s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.71sTimp de răspuns (maxim)7.71sTimp de răspuns (total)7.71s
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 66.7%Teste instabile: 2…Tokenuri de ieșire: 2,419Tokenuri de raționament: 79,238Timp de răspuns: medie 69.70s · total 1045.47s · maxim 262.83s
Trucuri anti-AI
: 6.6 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)74.75sTimp de răspuns (maxim)182.10sTimp de răspuns (total)298.98s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)197.31sTimp de răspuns (maxim)197.31sTimp de răspuns (total)197.31s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)262.83sTimp de răspuns (maxim)262.83sTimp de răspuns (total)262.83s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)24.27sTimp de răspuns (maxim)27.52sTimp de răspuns (total)48.54s
Specific domeniului
: 3.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 3Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Inteligență generală
: 5.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)36.65sTimp de răspuns (maxim)36.65sTimp de răspuns (total)36.65s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)17.47sTimp de răspuns (maxim)19.46sTimp de răspuns (total)34.93s
Rezolvare de puzzle-uri
: 8.2 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)25.85sTimp de răspuns (maxim)32.95sTimp de răspuns (total)77.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)88.68sTimp de răspuns (maxim)88.68sTimp de răspuns (total)88.68s
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 72.2%Teste instabile: 4…Tokenuri de ieșire: 2,705Tokenuri de raționament: 18,977Timp de răspuns: medie 14.04s · total 154.41s · maxim 77.80s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.12sTimp de răspuns (maxim)15.12sTimp de răspuns (total)15.12s
Combinat
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.06sTimp de răspuns (maxim)14.06sTimp de răspuns (total)14.06s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.15sTimp de răspuns (maxim)3.15sTimp de răspuns (total)3.15s
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)77.80sTimp de răspuns (maxim)77.80sTimp de răspuns (total)77.80s
Inteligență generală
: 3.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.32sTimp de răspuns (maxim)4.32sTimp de răspuns (total)4.32s
Respectarea instrucțiunilor
: 9.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.12sTimp de răspuns (maxim)3.12sTimp de răspuns (total)3.12s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.47sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.94s
Apelare instrumente
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)10.30sTimp de răspuns (maxim)10.30sTimp de răspuns (total)10.30s
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 70.4%Teste instabile: 3…Tokenuri de ieșire: 12,387Tokenuri de raționament: 115,182Timp de răspuns: medie 23.36s · total 280.34s · maxim 96.01s
Trucuri anti-AI
: 8.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)15.85sTimp de răspuns (maxim)20.83sTimp de răspuns (total)47.55s
Programare
: 4.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)13.03sTimp de răspuns (maxim)13.03sTimp de răspuns (total)13.03s
Combinat
: 9.8 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)75.68sTimp de răspuns (maxim)75.68sTimp de răspuns (total)75.68s
Parsare și extragere de date
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0ms
Specific domeniului
: 5.9 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)96.01sTimp de răspuns (maxim)96.01sTimp de răspuns (total)96.01s
Inteligență generală
: 4.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.20sTimp de răspuns (maxim)4.20sTimp de răspuns (total)4.20s
Respectarea instrucțiunilor
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)7.37sTimp de răspuns (total)8.55s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.77sTimp de răspuns (maxim)5.26sTimp de răspuns (total)7.55s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)27.78sTimp de răspuns (maxim)27.78sTimp de răspuns (total)27.78s
Total teste: 18Teste greșite: 7Fiabilitate: N/DTelemetria de fiabilitate este indisponibilă sau incompletă pentru acest model.Rată de trecere pe încercare: 64.8%Teste instabile: 1…Tokenuri de ieșire: 7,433Tokenuri de raționament: 0Timp de răspuns: medie 4.98s · total 54.83s · maxim 23.84s
Programare
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.67sTimp de răspuns (maxim)3.67sTimp de răspuns (total)3.67s
Combinat
: 9.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)23.84sTimp de răspuns (maxim)23.84sTimp de răspuns (total)23.84s
Parsare și extragere de date
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.43sTimp de răspuns (maxim)3.43sTimp de răspuns (total)3.43s
Specific domeniului
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.54sTimp de răspuns (maxim)3.54sTimp de răspuns (total)3.54s
Inteligență generală
: 6.1 Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.56sTimp de răspuns (maxim)2.56sTimp de răspuns (total)2.56s
Respectarea instrucțiunilor
: 6.5 Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.96sTimp de răspuns (maxim)1.96sTimp de răspuns (total)1.96s
Rezolvare de puzzle-uri
: 7.7 Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Timp de răspuns (mediu)2.92sTimp de răspuns (maxim)3.33sTimp de răspuns (total)5.84s
Apelare instrumente
: 10.0 Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.11sTimp de răspuns (maxim)4.11sTimp de răspuns (total)4.11s