Comparație benchmark Grok 4.20 Beta vs Grok 4.20 Multi Agent Beta vs Grok 4.1 Fast vs Gemini 3 Flash PreviewGemini 3 Flash Preview conduce la Scor cu 9.6. Grok 4.1 Fast conduce la Fiabilitate cu 10.0. Grok 4.1 Fast are cel mai mic Cost total, $0.069. Grok 4.20 Multi Agent Beta are cel mai rapid timp de răspuns, 9.69s.
Model recomandat: Gemini 3 Flash Preview - Are cel mai bun scor aici (9.6) și costă de aproximativ 3.2x mai puțin decât celelalte modele din această comparație.
Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-12
Metrică
Grok 4.20 BetaGrok 4.20 BetamediumModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.Lansare: 2026-03-12
N/DScorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
N/DScorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
Consistență
9.5Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
7.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
7.3Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
9.7Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Teste corecte
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)9.75sTimp de răspuns (maxim)31.36sTimp de răspuns (total)175.48sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 4Răspuns greșit: 4Fără răspuns: 1Timp expirat: 1Timp de răspuns (mediu)23.85sTimp de răspuns (maxim)121.79sTimp de răspuns (total)286.16sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)18.64sTimp de răspuns (maxim)117.26sTimp de răspuns (total)391.35sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
81.5%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
59.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
61.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
98.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
5Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
6Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Rulări totale
52Rulări totale…
52Rulări totale…
57Rulări totale…
63Rulări totale…
Cost per rezultat
4.505Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
62.923Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
0.642Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
3.335Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
Cost total
$0.750Cost total (preț curent)…
$5.599Cost total (preț curent)…
$0.069Cost total (preț curent)…
$0.667Cost total (preț curent)…
Preț de intrare
$5.805 / 1MPreț de intrare…
$4.235 / 1MPreț de intrare…
$0.484 / 1MPreț de intrare…
$0.500 / 1MPreț de intrare…
Preț de ieșire
$5.805 / 1MPreț de ieșire…
$4.235 / 1MPreț de ieșire…
$0.484 / 1MPreț de ieșire…
$3.000 / 1MPreț de ieșire…
Total tokenuri de intrare
35,955Total tokenuri de intrare…
721,952Total tokenuri de intrare…
42,845Total tokenuri de intrare…
37,017Total tokenuri de intrare…
Tokenuri de ieșire
1,647Tokenuri de ieșire…
294,668Tokenuri de ieșire…
2,006Tokenuri de ieșire…
2,006Tokenuri de ieșire…
Tokenuri de raționament
91,565Tokenuri de raționament…
305,374Tokenuri de raționament…
96,334Tokenuri de raționament…
214,153Tokenuri de raționament…
Timp de răspuns (mediu)
9.75sTimp de răspuns (mediu)…
9.69sTimp de răspuns (mediu)…
23.85sTimp de răspuns (mediu)…
18.64sTimp de răspuns (mediu)…
Timp de răspuns (maxim)
31.36sTimp de răspuns (maxim)…
35.28sTimp de răspuns (maxim)…
121.79sTimp de răspuns (maxim)…
117.26sTimp de răspuns (maxim)…
Timp de răspuns (total)
175.48sTimp de răspuns (total)…
155.07sTimp de răspuns (total)…
286.16sTimp de răspuns (total)…
391.35sTimp de răspuns (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#8 Grok 4.20 Beta
medium
Cost
$0.034
Time
91.0s
Tokens
13,523 tok
#57 Grok 4.20 Multi Agent Beta
medium
Cost
$0.261
Time
123.4s
Tokens
199,344 tok
#105 Grok 4.1 Fast
medium
Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)
Cost
$0.000
Time
0.1s
Tokens
0 tok
#2 Gemini 3 Flash Preview
medium
Cost
$0.010
Time
17.9s
Tokens
3,236 tok
Scor
-
Cost
-
Time
-
Tokens
-
Top modele după scor
Scor vs cost total
Timp de răspuns (mediu)
Scor vs Timp de răspuns (mediu)
Total tokenuri de ieșire
Scor vs Total tokenuri de ieșire
Defalcare pe categorii
Trucuri anti-AI
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
8.7Scor mediu pe toate testele de benchmark.…
7.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
91.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.44sTimp de răspuns (total)12.65sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.16sTimp de răspuns (mediu)…
2,010Total tokenuri de intrare…
268Tokenuri de ieșire…
7,583Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
6.9Scor mediu pe toate testele de benchmark.…
5.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
75.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Răspuns greșit: 1Timp de răspuns (mediu)3.46sTimp de răspuns (maxim)4.38sTimp de răspuns (total)13.86sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.46sTimp de răspuns (mediu)…
90,925Total tokenuri de intrare…
33,706Tokenuri de ieșire…
33,077Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
8.7Scor mediu pe toate testele de benchmark.…
7.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
91.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)3.81sTimp de răspuns (maxim)5.65sTimp de răspuns (total)7.62sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.88sTimp de răspuns (maxim)5.73sTimp de răspuns (total)15.53sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.88sTimp de răspuns (mediu)…
494Total tokenuri de intrare…
330Tokenuri de ieșire…
3,216Tokenuri de raționament…
Programare
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.36sTimp de răspuns (maxim)31.36sTimp de răspuns (total)31.36sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
31.36sTimp de răspuns (mediu)…
360Total tokenuri de intrare…
81Tokenuri de ieșire…
3,987Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)27.11sTimp de răspuns (maxim)27.11sTimp de răspuns (total)27.11sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
27.11sTimp de răspuns (mediu)…
13,212Total tokenuri de intrare…
86Tokenuri de ieșire…
13,141Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
2.3Scor mediu pe toate testele de benchmark.…
1.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)23.58sTimp de răspuns (maxim)23.58sTimp de răspuns (total)23.58sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.6Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
88.9%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)84.40sTimp de răspuns (maxim)117.26sTimp de răspuns (total)253.21sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
84.40sTimp de răspuns (mediu)…
8,122Total tokenuri de intrare…
462Tokenuri de ieșire…
161,084Tokenuri de raționament…
Combinat
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)20.93sTimp de răspuns (maxim)20.93sTimp de răspuns (total)20.93sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
20.93sTimp de răspuns (mediu)…
12,909Total tokenuri de intrare…
227Tokenuri de ieșire…
12,212Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
0msTimp de răspuns (mediu)…
0Total tokenuri de intrare…
0Tokenuri de ieșire…
0Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)37.64sTimp de răspuns (maxim)37.64sTimp de răspuns (total)37.64sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)22.42sTimp de răspuns (maxim)22.42sTimp de răspuns (total)22.42sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
22.42sTimp de răspuns (mediu)…
12,873Total tokenuri de intrare…
351Tokenuri de ieșire…
10,485Tokenuri de raționament…
Parsare și extragere de date
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.01sTimp de răspuns (maxim)4.27sTimp de răspuns (total)8.02sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.01sTimp de răspuns (mediu)…
7,761Total tokenuri de intrare…
180Tokenuri de ieșire…
5,281Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.54sTimp de răspuns (maxim)7.51sTimp de răspuns (total)11.08sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.54sTimp de răspuns (mediu)…
97,232Total tokenuri de intrare…
25,306Tokenuri de ieșire…
25,051Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.63sTimp de răspuns (maxim)6.63sTimp de răspuns (total)6.63sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.43sTimp de răspuns (maxim)6.18sTimp de răspuns (total)10.86sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.43sTimp de răspuns (mediu)…
7,548Total tokenuri de intrare…
279Tokenuri de ieșire…
4,893Tokenuri de raționament…
Specific domeniului
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.3Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)21.33sTimp de răspuns (maxim)24.21sTimp de răspuns (total)64.00sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
21.33sTimp de răspuns (mediu)…
1,764Total tokenuri de intrare…
251Tokenuri de ieșire…
40,255Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
2.9Scor mediu pe toate testele de benchmark.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
11.1%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Formatare suplimentară: 1Timp de răspuns (mediu)24.67sTimp de răspuns (maxim)35.28sTimp de răspuns (total)74.02sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
24.67sTimp de răspuns (mediu)…
328,253Total tokenuri de intrare…
164,609Tokenuri de ieșire…
163,647Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.8Scor mediu pe toate testele de benchmark.…
4.4Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)121.79sTimp de răspuns (maxim)121.79sTimp de răspuns (total)121.79sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)15.27sTimp de răspuns (maxim)34.09sTimp de răspuns (total)45.80sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
15.27sTimp de răspuns (mediu)…
633Total tokenuri de intrare…
12Tokenuri de ieșire…
21,684Tokenuri de raționament…
Inteligență generală
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.78sTimp de răspuns (maxim)5.78sTimp de răspuns (total)5.78sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.78sTimp de răspuns (mediu)…
825Total tokenuri de intrare…
72Tokenuri de ieșire…
3,440Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.8Scor mediu pe toate testele de benchmark.…
2.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)6.40sTimp de răspuns (maxim)6.40sTimp de răspuns (total)6.40sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
6.40sTimp de răspuns (mediu)…
41,387Total tokenuri de intrare…
15,848Tokenuri de ieșire…
15,746Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
4.2Scor mediu pe toate testele de benchmark.…
9.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)16.25sTimp de răspuns (maxim)16.25sTimp de răspuns (total)16.25sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.19sTimp de răspuns (maxim)5.19sTimp de răspuns (total)5.19sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.19sTimp de răspuns (mediu)…
486Total tokenuri de intrare…
72Tokenuri de ieșire…
1,905Tokenuri de raționament…
Respectarea instrucțiunilor
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
9.8Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.89sTimp de răspuns (maxim)5.89sTimp de răspuns (total)9.78sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.89sTimp de răspuns (mediu)…
1,362Total tokenuri de intrare…
57Tokenuri de ieșire…
7,123Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
9.8Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.52sTimp de răspuns (maxim)3.80sTimp de răspuns (total)7.04sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.52sTimp de răspuns (mediu)…
43,923Total tokenuri de intrare…
19,752Tokenuri de ieșire…
19,617Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
6.5Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)4.63sTimp de răspuns (maxim)4.63sTimp de răspuns (total)4.63sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.04sTimp de răspuns (maxim)4.70sTimp de răspuns (total)8.08sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.04sTimp de răspuns (mediu)…
615Total tokenuri de intrare…
72Tokenuri de ieșire…
2,709Tokenuri de raționament…
Rezolvare de puzzle-uri
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.52sTimp de răspuns (maxim)4.53sTimp de răspuns (total)10.57sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.52sTimp de răspuns (mediu)…
1,689Total tokenuri de intrare…
328Tokenuri de ieșire…
6,300Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
6.7Scor mediu pe toate testele de benchmark.…
7.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
55.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)5.19sTimp de răspuns (maxim)5.49sTimp de răspuns (total)15.57sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.19sTimp de răspuns (mediu)…
107,020Total tokenuri de intrare…
35,361Tokenuri de ieșire…
35,095Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.3Scor mediu pe toate testele de benchmark.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
44.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)7.40sTimp de răspuns (maxim)7.79sTimp de răspuns (total)14.81sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.05sTimp de răspuns (maxim)5.64sTimp de răspuns (total)12.15sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.05sTimp de răspuns (mediu)…
558Total tokenuri de intrare…
183Tokenuri de ieșire…
4,365Tokenuri de raționament…
Apelare instrumente
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.39sTimp de răspuns (maxim)12.39sTimp de răspuns (total)12.39sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
12.39sTimp de răspuns (mediu)…
7,275Total tokenuri de intrare…
183Tokenuri de ieșire…
5,384Tokenuri de raționament…
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
0msTimp de răspuns (mediu)…
0Total tokenuri de intrare…
0Tokenuri de ieșire…
0Tokenuri de raționament…
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
2.8Scor mediu pe toate testele de benchmark.…
1.6Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)27.71sTimp de răspuns (maxim)27.71sTimp de răspuns (total)27.71sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)12.60sTimp de răspuns (maxim)12.60sTimp de răspuns (total)12.60sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
12.60sTimp de răspuns (mediu)…
5,532Total tokenuri de intrare…
234Tokenuri de ieșire…
1,487Tokenuri de raționament…
Cultură generală
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Grok 4.20 BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
-
-
-
-
-
-
-
-
-
Grok 4.20 Multi Agent BetaModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
-
-
-
-
-
-
-
-
-
Grok 4.1 FastModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)25.52sTimp de răspuns (maxim)25.52sTimp de răspuns (total)25.52sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.50sTimp de răspuns (maxim)5.50sTimp de răspuns (total)5.50sUn test este considerat trecut complet doar dacă toate rulările lui trec.…