Benchmarkvergelijking Grok 4.20 Beta vs Grok 4.20 Multi Agent Beta vs Grok 4.1 Fast vs Gemini 3 Flash PreviewGemini 3 Flash Preview leidt op Score met 9.6. Grok 4.1 Fast leidt op Betrouwbaarheid met 10.0. Grok 4.1 Fast heeft de laagste Totale kosten met $0.069. Grok 4.20 Multi Agent Beta is het snelst met 9.69s.
Aanbevolen model: Gemini 3 Flash Preview - Het heeft hier de beste score (9.6) en kost ongeveer 3.2x minder dan de andere modellen in deze vergelijking.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-06-12
Metriek
Grok 4.20 BetaGrok 4.20 BetamediumGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.Releasedatum: 2026-03-12
n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
Consistentie
9.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
7.3Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
9.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Responstijd (gem.)9.75sResponstijd (max)31.36sResponstijd (totaal)175.48sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)18.64sResponstijd (max)117.26sResponstijd (totaal)391.35sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
81.5%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
59.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
61.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
98.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
5Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
6Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
52Totaal runsโฆ
52Totaal runsโฆ
57Totaal runsโฆ
63Totaal runsโฆ
Kosten per resultaat
4.505Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
62.923Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
0.642Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
3.335Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.750Totale kosten (huidige prijs)โฆ
$5.599Totale kosten (huidige prijs)โฆ
$0.069Totale kosten (huidige prijs)โฆ
$0.667Totale kosten (huidige prijs)โฆ
Invoerprijs
$5.805 / 1MInvoerprijsโฆ
$4.235 / 1MInvoerprijsโฆ
$0.484 / 1MInvoerprijsโฆ
$0.500 / 1MInvoerprijsโฆ
Uitvoerprijs
$5.805 / 1MUitvoerprijsโฆ
$4.235 / 1MUitvoerprijsโฆ
$0.484 / 1MUitvoerprijsโฆ
$3.000 / 1MUitvoerprijsโฆ
Totaal aantal invoer-tokens
35,955Totaal aantal invoer-tokensโฆ
721,952Totaal aantal invoer-tokensโฆ
42,845Totaal aantal invoer-tokensโฆ
37,017Totaal aantal invoer-tokensโฆ
Uitvoer-tokens
1,647Uitvoer-tokensโฆ
294,668Uitvoer-tokensโฆ
2,006Uitvoer-tokensโฆ
2,006Uitvoer-tokensโฆ
Redeneer-tokens
91,565Redeneer-tokensโฆ
305,374Redeneer-tokensโฆ
96,334Redeneer-tokensโฆ
214,153Redeneer-tokensโฆ
Responstijd (gem.)
9.75sResponstijd (gem.)โฆ
9.69sResponstijd (gem.)โฆ
23.85sResponstijd (gem.)โฆ
18.64sResponstijd (gem.)โฆ
Responstijd (max)
31.36sResponstijd (max)โฆ
35.28sResponstijd (max)โฆ
121.79sResponstijd (max)โฆ
117.26sResponstijd (max)โฆ
Responstijd (totaal)
175.48sResponstijd (totaal)โฆ
155.07sResponstijd (totaal)โฆ
286.16sResponstijd (totaal)โฆ
391.35sResponstijd (totaal)โฆ
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#8 Grok 4.20 Beta
medium
Cost
$0.034
Time
91.0s
Tokens
13,523 tok
#57 Grok 4.20 Multi Agent Beta
medium
Cost
$0.261
Time
123.4s
Tokens
199,344 tok
#105 Grok 4.1 Fast
medium
Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)
Cost
$0.000
Time
0.1s
Tokens
0 tok
#2 Gemini 3 Flash Preview
medium
Cost
$0.010
Time
17.9s
Tokens
3,236 tok
Score
-
Cost
-
Time
-
Tokens
-
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Score vs Responstijd (gem.)
Totaal aantal uitvoer-tokens
Score vs Totaal aantal uitvoer-tokens
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.7Gemiddelde score over alle benchmarktests.โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.16sResponstijd (max)3.44sResponstijd (totaal)12.65sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.16sResponstijd (gem.)โฆ
2,010Totaal aantal invoer-tokensโฆ
268Uitvoer-tokensโฆ
7,583Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
6.9Gemiddelde score over alle benchmarktests.โฆ
5.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
75.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Verkeerd antwoord: 1Responstijd (gem.)3.46sResponstijd (max)4.38sResponstijd (totaal)13.86sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.46sResponstijd (gem.)โฆ
90,925Totaal aantal invoer-tokensโฆ
33,706Uitvoer-tokensโฆ
33,077Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.7Gemiddelde score over alle benchmarktests.โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.81sResponstijd (max)5.65sResponstijd (totaal)7.62sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.88sResponstijd (max)5.73sResponstijd (totaal)15.53sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.88sResponstijd (gem.)โฆ
494Totaal aantal invoer-tokensโฆ
330Uitvoer-tokensโฆ
3,216Redeneer-tokensโฆ
Programmeren
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.36sResponstijd (max)31.36sResponstijd (totaal)31.36sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
31.36sResponstijd (gem.)โฆ
360Totaal aantal invoer-tokensโฆ
81Uitvoer-tokensโฆ
3,987Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)27.11sResponstijd (max)27.11sResponstijd (totaal)27.11sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
27.11sResponstijd (gem.)โฆ
13,212Totaal aantal invoer-tokensโฆ
86Uitvoer-tokensโฆ
13,141Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
2.3Gemiddelde score over alle benchmarktests.โฆ
1.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)23.58sResponstijd (max)23.58sResponstijd (totaal)23.58sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)84.40sResponstijd (max)117.26sResponstijd (totaal)253.21sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
84.40sResponstijd (gem.)โฆ
8,122Totaal aantal invoer-tokensโฆ
462Uitvoer-tokensโฆ
161,084Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.93sResponstijd (max)20.93sResponstijd (totaal)20.93sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
20.93sResponstijd (gem.)โฆ
12,909Totaal aantal invoer-tokensโฆ
227Uitvoer-tokensโฆ
12,212Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
0msResponstijd (gem.)โฆ
0Totaal aantal invoer-tokensโฆ
0Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)37.64sResponstijd (max)37.64sResponstijd (totaal)37.64sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)22.42sResponstijd (max)22.42sResponstijd (totaal)22.42sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
22.42sResponstijd (gem.)โฆ
12,873Totaal aantal invoer-tokensโฆ
351Uitvoer-tokensโฆ
10,485Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.01sResponstijd (max)4.27sResponstijd (totaal)8.02sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.01sResponstijd (gem.)โฆ
7,761Totaal aantal invoer-tokensโฆ
180Uitvoer-tokensโฆ
5,281Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.54sResponstijd (max)7.51sResponstijd (totaal)11.08sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.54sResponstijd (gem.)โฆ
97,232Totaal aantal invoer-tokensโฆ
25,306Uitvoer-tokensโฆ
25,051Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.63sResponstijd (max)6.63sResponstijd (totaal)6.63sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.43sResponstijd (max)6.18sResponstijd (totaal)10.86sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.43sResponstijd (gem.)โฆ
7,548Totaal aantal invoer-tokensโฆ
279Uitvoer-tokensโฆ
4,893Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.3Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)21.33sResponstijd (max)24.21sResponstijd (totaal)64.00sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
21.33sResponstijd (gem.)โฆ
1,764Totaal aantal invoer-tokensโฆ
251Uitvoer-tokensโฆ
40,255Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
2.9Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
11.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Extra opmaak: 1Responstijd (gem.)24.67sResponstijd (max)35.28sResponstijd (totaal)74.02sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
24.67sResponstijd (gem.)โฆ
328,253Totaal aantal invoer-tokensโฆ
164,609Uitvoer-tokensโฆ
163,647Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.8Gemiddelde score over alle benchmarktests.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)121.79sResponstijd (max)121.79sResponstijd (totaal)121.79sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.27sResponstijd (max)34.09sResponstijd (totaal)45.80sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
15.27sResponstijd (gem.)โฆ
633Totaal aantal invoer-tokensโฆ
12Uitvoer-tokensโฆ
21,684Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.78sResponstijd (max)5.78sResponstijd (totaal)5.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.78sResponstijd (gem.)โฆ
825Totaal aantal invoer-tokensโฆ
72Uitvoer-tokensโฆ
3,440Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.8Gemiddelde score over alle benchmarktests.โฆ
2.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)6.40sResponstijd (max)6.40sResponstijd (totaal)6.40sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
6.40sResponstijd (gem.)โฆ
41,387Totaal aantal invoer-tokensโฆ
15,848Uitvoer-tokensโฆ
15,746Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
4.2Gemiddelde score over alle benchmarktests.โฆ
9.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)16.25sResponstijd (max)16.25sResponstijd (totaal)16.25sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.19sResponstijd (max)5.19sResponstijd (totaal)5.19sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.19sResponstijd (gem.)โฆ
486Totaal aantal invoer-tokensโฆ
72Uitvoer-tokensโฆ
1,905Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
9.8Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.89sResponstijd (max)5.89sResponstijd (totaal)9.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.89sResponstijd (gem.)โฆ
1,362Totaal aantal invoer-tokensโฆ
57Uitvoer-tokensโฆ
7,123Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
9.8Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.52sResponstijd (max)3.80sResponstijd (totaal)7.04sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.52sResponstijd (gem.)โฆ
43,923Totaal aantal invoer-tokensโฆ
19,752Uitvoer-tokensโฆ
19,617Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
6.5Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.63sResponstijd (max)4.63sResponstijd (totaal)4.63sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.04sResponstijd (max)4.70sResponstijd (totaal)8.08sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.04sResponstijd (gem.)โฆ
615Totaal aantal invoer-tokensโฆ
72Uitvoer-tokensโฆ
2,709Redeneer-tokensโฆ
Puzzeloplossing
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.52sResponstijd (max)4.53sResponstijd (totaal)10.57sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.52sResponstijd (gem.)โฆ
1,689Totaal aantal invoer-tokensโฆ
328Uitvoer-tokensโฆ
6,300Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
6.7Gemiddelde score over alle benchmarktests.โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)5.19sResponstijd (max)5.49sResponstijd (totaal)15.57sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.19sResponstijd (gem.)โฆ
107,020Totaal aantal invoer-tokensโฆ
35,361Uitvoer-tokensโฆ
35,095Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.3Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)7.40sResponstijd (max)7.79sResponstijd (totaal)14.81sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.05sResponstijd (max)5.64sResponstijd (totaal)12.15sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.05sResponstijd (gem.)โฆ
558Totaal aantal invoer-tokensโฆ
183Uitvoer-tokensโฆ
4,365Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)12.39sResponstijd (max)12.39sResponstijd (totaal)12.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
12.39sResponstijd (gem.)โฆ
7,275Totaal aantal invoer-tokensโฆ
183Uitvoer-tokensโฆ
5,384Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
0msResponstijd (gem.)โฆ
0Totaal aantal invoer-tokensโฆ
0Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
2.8Gemiddelde score over alle benchmarktests.โฆ
1.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)27.71sResponstijd (max)27.71sResponstijd (totaal)27.71sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.60sResponstijd (max)12.60sResponstijd (totaal)12.60sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
12.60sResponstijd (gem.)โฆ
5,532Totaal aantal invoer-tokensโฆ
234Uitvoer-tokensโฆ
1,487Redeneer-tokensโฆ
Algemene kennis
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Invoer-tokens
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
-
-
-
-
-
-
-
-
-
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
-
-
-
-
-
-
-
-
-
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)25.52sResponstijd (max)25.52sResponstijd (totaal)25.52sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.50sResponstijd (max)5.50sResponstijd (totaal)5.50sEen test is alleen volledig geslaagd als alle runs slagen.โฆ