10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
9.8Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
Consistență
8.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
8.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Teste corecte
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 5Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)36.79sTimp de răspuns (maxim)168.71sTimp de răspuns (total)735.86sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 3Răspuns greșit: 3Fără răspuns: 1Timp de răspuns (mediu)61.96sTimp de răspuns (maxim)149.23sTimp de răspuns (total)1115.31sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
75.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
74.1%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
3Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
4Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Rulări totale
60Rulări totale…
54Rulări totale…
Cost per rezultat
1.170Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
18.579Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
75.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)17.99sTimp de răspuns (maxim)48.33sTimp de răspuns (total)71.98sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
17.99sTimp de răspuns (mediu)…
996Tokenuri de ieșire…
7,142Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
9.4Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.16sTimp de răspuns (maxim)140.53sTimp de răspuns (total)148.65sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
9.7Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)107.65sTimp de răspuns (maxim)140.81sTimp de răspuns (total)215.30sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
107.65sTimp de răspuns (mediu)…
452Tokenuri de ieșire…
20,524Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)137.63sTimp de răspuns (maxim)137.63sTimp de răspuns (total)137.63sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.67sTimp de răspuns (maxim)37.67sTimp de răspuns (total)37.67sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
37.67sTimp de răspuns (mediu)…
506Tokenuri de ieșire…
4,299Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)149.23sTimp de răspuns (maxim)149.23sTimp de răspuns (total)149.23sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.07sTimp de răspuns (maxim)12.19sTimp de răspuns (total)18.14sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
9.07sTimp de răspuns (mediu)…
246Tokenuri de ieșire…
1,742Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.49sTimp de răspuns (maxim)4.96sTimp de răspuns (total)8.98sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
55.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)88.74sTimp de răspuns (maxim)168.71sTimp de răspuns (total)266.21sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
88.74sTimp de răspuns (mediu)…
15Tokenuri de ieșire…
23,897Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.6Scor mediu pe toate testele de benchmark.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
22.2%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)139.90sTimp de răspuns (maxim)141.40sTimp de răspuns (total)419.69sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.6Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)18.25sTimp de răspuns (maxim)18.25sTimp de răspuns (total)18.25sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
18.25sTimp de răspuns (mediu)…
304Tokenuri de ieșire…
1,620Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.0Scor mediu pe toate testele de benchmark.…
2.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)45.69sTimp de răspuns (maxim)45.69sTimp de răspuns (total)45.69sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.26sTimp de răspuns (maxim)9.02sTimp de răspuns (total)14.52sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.26sTimp de răspuns (mediu)…
71Tokenuri de ieșire…
1,480Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
7.3Scor mediu pe toate testele de benchmark.…
5.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
83.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)23.26sTimp de răspuns (maxim)43.87sTimp de răspuns (total)46.51sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
88.9%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)11.03sTimp de răspuns (maxim)13.85sTimp de răspuns (total)33.09sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
11.03sTimp de răspuns (mediu)…
461Tokenuri de ieșire…
3,532Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.7Scor mediu pe toate testele de benchmark.…
6.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
44.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)50.83sTimp de răspuns (maxim)144.85sTimp de răspuns (total)152.49sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.38sTimp de răspuns (maxim)12.38sTimp de răspuns (total)12.38sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
12.38sTimp de răspuns (mediu)…
222Tokenuri de ieșire…
1,011Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.44sTimp de răspuns (maxim)6.44sTimp de răspuns (total)6.44sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)48.32sTimp de răspuns (maxim)48.32sTimp de răspuns (total)48.32sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
48.32sTimp de răspuns (mediu)…
9Tokenuri de ieșire…
2,040Tokenuri de raționament…
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.