Grok 4.20 BetaGrok 4.20 BetanoneModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.Lansare: 2026-03-12
Scor
8.5Scor mediu pe toate testele de benchmark.…
5.3Scor mediu pe toate testele de benchmark.…
Rang
#14
#104
Fiabilitate
N/DScorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
N/DScorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
Consistență
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
9.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Teste corecte
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)13.94sTimp de răspuns (maxim)43.55sTimp de răspuns (total)237.01sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Nu a urmat instrucțiunile: 3Apel de instrument invalid: 1Timp de răspuns (mediu)1.19sTimp de răspuns (maxim)6.48sTimp de răspuns (total)21.37sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
76.5%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
29.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Rulări totale
49Rulări totale…
52Rulări totale…
Cost per rezultat
0.000Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
2.255Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.90sTimp de răspuns (maxim)19.37sTimp de răspuns (total)39.60sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
9.90sTimp de răspuns (mediu)…
207Tokenuri de ieșire…
7,557Tokenuri de raționament…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
4.0Scor mediu pe toate testele de benchmark.…
8.4Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
16.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp de răspuns (mediu)597msTimp de răspuns (maxim)866msTimp de răspuns (total)2.39sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.95sTimp de răspuns (maxim)34.95sTimp de răspuns (total)34.95sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
34.95sTimp de răspuns (mediu)…
452Tokenuri de ieșire…
13,073Tokenuri de raționament…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)6.48sTimp de răspuns (maxim)6.48sTimp de răspuns (total)6.48sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.95sTimp de răspuns (maxim)15.40sTimp de răspuns (total)29.90sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
14.95sTimp de răspuns (mediu)…
270Tokenuri de ieșire…
10,706Tokenuri de raționament…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)601msTimp de răspuns (maxim)634msTimp de răspuns (total)1.20sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)22.08sTimp de răspuns (maxim)43.55sTimp de răspuns (total)66.23sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
22.08sTimp de răspuns (mediu)…
49Tokenuri de ieșire…
26,895Tokenuri de raționament…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)611msTimp de răspuns (maxim)616msTimp de răspuns (total)1.83sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)27.05sTimp de răspuns (maxim)27.05sTimp de răspuns (total)27.05sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
27.05sTimp de răspuns (mediu)…
111Tokenuri de ieșire…
5,232Tokenuri de raționament…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)541msTimp de răspuns (maxim)541msTimp de răspuns (total)541msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)11.67sTimp de răspuns (total)15.07sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.54sTimp de răspuns (mediu)…
102Tokenuri de ieșire…
5,552Tokenuri de raționament…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
4.8Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)687msTimp de răspuns (maxim)952msTimp de răspuns (total)1.37sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.11sTimp de răspuns (maxim)7.52sTimp de răspuns (total)18.34sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
6.11sTimp de răspuns (mediu)…
298Tokenuri de ieșire…
6,868Tokenuri de raționament…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.9Scor mediu pe toate testele de benchmark.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
55.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)541msTimp de răspuns (maxim)677msTimp de răspuns (total)1.62sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.87sTimp de răspuns (maxim)5.87sTimp de răspuns (total)5.87sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.87sTimp de răspuns (mediu)…
267Tokenuri de ieșire…
1,330Tokenuri de raționament…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.79sTimp de răspuns (maxim)4.79sTimp de răspuns (total)4.79sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.5Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.14sTimp de răspuns (maxim)1.14sTimp de răspuns (total)1.14sUn test este considerat trecut complet doar dacă toate rulările lui trec.…