Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)5.96sTimp de răspuns (maxim)18.33sTimp de răspuns (total)95.30sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Eroare API: 1Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)25.33sTimp de răspuns (maxim)96.01sTimp de răspuns (total)253.33sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Consistență
8.5Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
9.5Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Cost per rezultat
3.163Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
0.316Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
Cost total
$0.317Cost total…
$0.035Cost total…
Rată de trecere pe încercare
70.8%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
72.9%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
3Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
common.totalRuns
48 (16 x 3)common.totalRuns…
48 (16 x 3)common.totalRuns…
Tokenuri de ieșire
19,272Tokenuri de ieșire…
11,613Tokenuri de ieșire…
Tokenuri de raționament
0Tokenuri de raționament…
106,714Tokenuri de raționament…
Timp de răspuns (mediu)
5.96sTimp de răspuns (mediu)…
25.33sTimp de răspuns (mediu)…
Timp de răspuns (maxim)
18.33sTimp de răspuns (maxim)…
96.01sTimp de răspuns (maxim)…
Timp de răspuns (total)
95.30sTimp de răspuns (total)…
253.33sTimp de răspuns (total)…
Top modele după scor
Scor vs cost total
Timp de răspuns (mediu)
Scor mediu vs Timp de răspuns (mediu)
Defalcare pe categorii
Trucuri anti-AI
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.3 Chat
7.3Scor mediu pe toate testele de benchmark.…
7.5Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
77.8%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.72sTimp de răspuns (maxim)7.35sTimp de răspuns (total)14.17sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.72sTimp de răspuns (mediu)…
3,091Tokenuri de ieșire…
0Tokenuri de raționament…
Xiaomi: MiMo-V2-Flash
9.7Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)16.79sTimp de răspuns (maxim)20.83sTimp de răspuns (total)33.57sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
16.79sTimp de răspuns (mediu)…
1,328Tokenuri de ieșire…
18,739Tokenuri de raționament…
Combinat
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.3 Chat
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.96sTimp de răspuns (maxim)11.96sTimp de răspuns (total)11.96sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
11.96sTimp de răspuns (mediu)…
2,614Tokenuri de ieșire…
0Tokenuri de raționament…
Xiaomi: MiMo-V2-Flash
9.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)75.68sTimp de răspuns (maxim)75.68sTimp de răspuns (total)75.68sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
75.68sTimp de răspuns (mediu)…
442Tokenuri de ieșire…
26,859Tokenuri de raționament…
Parsare și extragere de date
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.3 Chat
9.9Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.21sTimp de răspuns (maxim)2.52sTimp de răspuns (total)4.42sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
2.21sTimp de răspuns (mediu)…
942Tokenuri de ieșire…
0Tokenuri de raționament…
Xiaomi: MiMo-V2-Flash
5.5Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
0msTimp de răspuns (mediu)…
153Tokenuri de ieșire…
0Tokenuri de raționament…
Specific domeniului
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.3 Chat
10.0Scor mediu pe toate testele de benchmark.…
4.4Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)13.01sTimp de răspuns (maxim)18.33sTimp de răspuns (total)39.04sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
13.01sTimp de răspuns (mediu)…
8,264Tokenuri de ieșire…
0Tokenuri de raționament…
Xiaomi: MiMo-V2-Flash
4.0Scor mediu pe toate testele de benchmark.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
55.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)96.01sTimp de răspuns (maxim)96.01sTimp de răspuns (total)96.01sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
96.01sTimp de răspuns (mediu)…
8,374Tokenuri de ieșire…
42,461Tokenuri de raționament…
Inteligență generală
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.3 Chat
4.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.99sTimp de răspuns (maxim)1.99sTimp de răspuns (total)1.99sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
1.99sTimp de răspuns (mediu)…
319Tokenuri de ieșire…
0Tokenuri de raționament…
Xiaomi: MiMo-V2-Flash
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.20sTimp de răspuns (maxim)4.20sTimp de răspuns (total)4.20sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.20sTimp de răspuns (mediu)…
87Tokenuri de ieșire…
488Tokenuri de raționament…
Respectarea instrucțiunilor
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.3 Chat
9.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.29sTimp de răspuns (maxim)4.18sTimp de răspuns (total)6.59sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.29sTimp de răspuns (mediu)…
1,455Tokenuri de ieșire…
0Tokenuri de raționament…
Xiaomi: MiMo-V2-Flash
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)7.37sTimp de răspuns (total)8.55sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.28sTimp de răspuns (mediu)…
75Tokenuri de ieșire…
3,504Tokenuri de raționament…
Puzzle Solving
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.3 Chat
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.93sTimp de răspuns (maxim)3.05sTimp de răspuns (total)8.78sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
2.93sTimp de răspuns (mediu)…
1,726Tokenuri de ieșire…
0Tokenuri de raționament…
Xiaomi: MiMo-V2-Flash
7.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.77sTimp de răspuns (maxim)5.26sTimp de răspuns (total)7.55sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.77sTimp de răspuns (mediu)…
833Tokenuri de ieșire…
1,948Tokenuri de raționament…
Apelare instrumente
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de ieșire
Tokenuri de raționament
OpenAI: GPT-5.3 Chat
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)8.36sTimp de răspuns (maxim)8.36sTimp de răspuns (total)8.36sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
8.36sTimp de răspuns (mediu)…
861Tokenuri de ieșire…
0Tokenuri de raționament…
Xiaomi: MiMo-V2-Flash
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)27.78sTimp de răspuns (maxim)27.78sTimp de răspuns (total)27.78sUn test este considerat trecut complet doar dacă toate rulările lui trec.…