89Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
90Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
78Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Cost per rezultat
6.533Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
4.418Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
3.057Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
Cost total
$0.784Cost total…
$0.531Cost total…
$0.306Cost total…
Teste corecte
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (medie)21.06sTimp de răspuns (maxim)100.41sTimp de răspuns (total)315.95sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (medie)17.37sTimp de răspuns (maxim)100.93sTimp de răspuns (total)260.52sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Fără răspuns: 1Timp expirat: 1Răspuns greșit: 1Timp de răspuns (medie)16.71sTimp de răspuns (maxim)77.80sTimp de răspuns (total)133.69sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
86.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
88.9%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
80.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
4Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Tokenuri de ieșire
1,611Tokenuri de ieșire…
1,577Tokenuri de ieșire…
2,058Tokenuri de ieșire…
Tokenuri de raționament
46,321Tokenuri de raționament…
33,017Tokenuri de raționament…
16,542Tokenuri de raționament…
Top modele după scor
Scor vs cost total
Defalcare pe categorii
Trucuri anti-AI
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.4
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)5.02sTimp de răspuns (maxim)6.42sTimp de răspuns (total)15.06sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
216Tokenuri de ieșire…
1,466Tokenuri de raționament…
OpenAI: GPT-5.3-Codex
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)4.69sTimp de răspuns (maxim)6.68sTimp de răspuns (total)14.06sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
216Tokenuri de ieșire…
1,421Tokenuri de raționament…
OpenAI: GPT-5.2
70Scor mediu pe toate testele de benchmark.…
73Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
77.8%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (medie)14.34sTimp de răspuns (maxim)14.34sTimp de răspuns (total)14.34sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
549Tokenuri de ieșire…
2,002Tokenuri de raționament…
Combinat
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.4
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)20.57sTimp de răspuns (maxim)20.57sTimp de răspuns (total)20.57sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
301Tokenuri de ieșire…
3,543Tokenuri de raționament…
OpenAI: GPT-5.3-Codex
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)19.56sTimp de răspuns (maxim)19.56sTimp de răspuns (total)19.56sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
364Tokenuri de ieșire…
2,731Tokenuri de raționament…
OpenAI: GPT-5.2
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)14.06sTimp de răspuns (maxim)14.06sTimp de răspuns (total)14.06sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
291Tokenuri de ieșire…
1,757Tokenuri de raționament…
Parsare și extragere de date
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.4
99Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)5.32sTimp de răspuns (maxim)5.40sTimp de răspuns (total)10.64sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
234Tokenuri de ieșire…
804Tokenuri de raționament…
OpenAI: GPT-5.3-Codex
99Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)3.07sTimp de răspuns (maxim)3.59sTimp de răspuns (total)6.15sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
234Tokenuri de ieșire…
728Tokenuri de raționament…
OpenAI: GPT-5.2
99Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)3.15sTimp de răspuns (maxim)3.15sTimp de răspuns (total)3.15sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
234Tokenuri de ieșire…
420Tokenuri de raționament…
Specific domeniului
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.4
40Scor mediu pe toate testele de benchmark.…
72Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
44.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (medie)74.27sTimp de răspuns (maxim)100.41sTimp de răspuns (total)222.80sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
61Tokenuri de ieșire…
34,748Tokenuri de raționament…
OpenAI: GPT-5.3-Codex
40Scor mediu pe toate testele de benchmark.…
72Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
55.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (medie)64.31sTimp de răspuns (maxim)100.93sTimp de răspuns (total)192.94sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
64Tokenuri de ieșire…
25,308Tokenuri de raționament…
OpenAI: GPT-5.2
40Scor mediu pe toate testele de benchmark.…
72Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
55.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (medie)77.80sTimp de răspuns (maxim)77.80sTimp de răspuns (total)77.80sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
42Tokenuri de ieșire…
10,342Tokenuri de raționament…
Respectarea instrucțiunilor
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.4
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)3.11sTimp de răspuns (maxim)3.68sTimp de răspuns (total)6.22sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
93Tokenuri de ieșire…
897Tokenuri de raționament…
OpenAI: GPT-5.3-Codex
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)3.04sTimp de răspuns (maxim)3.44sTimp de răspuns (total)6.07sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
93Tokenuri de ieșire…
693Tokenuri de raționament…
OpenAI: GPT-5.2
95Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)3.12sTimp de răspuns (maxim)3.12sTimp de răspuns (total)3.12sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
94Tokenuri de ieșire…
614Tokenuri de raționament…
Puzzle Solving
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.4
70Scor mediu pe toate testele de benchmark.…
72Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
88.9%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (medie)9.13sTimp de răspuns (maxim)18.14sTimp de răspuns (total)27.39sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
442Tokenuri de ieșire…
3,832Tokenuri de raționament…
OpenAI: GPT-5.3-Codex
93Scor mediu pe toate testele de benchmark.…
79Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
88.9%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (medie)5.12sTimp de răspuns (maxim)8.73sTimp de răspuns (total)15.37sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
352Tokenuri de ieșire…
1,644Tokenuri de raționament…
OpenAI: GPT-5.2
70Scor mediu pe toate testele de benchmark.…
73Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
77.8%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (medie)5.47sTimp de răspuns (maxim)6.45sTimp de răspuns (total)10.94sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
609Tokenuri de ieșire…
938Tokenuri de raționament…
Apelare instrumente
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.4
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)13.28sTimp de răspuns (maxim)13.28sTimp de răspuns (total)13.28sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
264Tokenuri de ieșire…
1,031Tokenuri de raționament…
OpenAI: GPT-5.3-Codex
100Scor mediu pe toate testele de benchmark.…
100Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (medie)6.37sTimp de răspuns (maxim)6.37sTimp de răspuns (total)6.37sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
254Tokenuri de ieșire…
492Tokenuri de raționament…
OpenAI: GPT-5.2
100Scor mediu pe toate testele de benchmark.…
16Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (medie)10.30sTimp de răspuns (maxim)10.30sTimp de răspuns (total)10.30sUn test este considerat trecut complet doar dacă toate rulările lui trec.…