Benchmarkvergelijking Grok 4.20 vs Grok 4.20 Beta vs Grok 4.3Grok 4.3 leidt op Score met 7.7. Grok 4.20 leidt op Betrouwbaarheid met 10.0. Grok 4.20 heeft de laagste Totale kosten met $0.609. Grok 4.20 Beta is het snelst met 9.75s.
Aanbevolen model: Grok 4.20 Beta - Het biedt de beste totale afweging: concurrerende score (6.8), snellere respons dan de andere modellen in deze vergelijking en evenwichtige kosten.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-06-17
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
Consistentie
8.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
8.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
8.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 6Instructies niet gevolgd: 2Extra opmaak: 1Responstijd (gem.)27.68sResponstijd (max)199.66sResponstijd (totaal)581.26sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Responstijd (gem.)9.75sResponstijd (max)31.36sResponstijd (totaal)175.48sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 2Extra opmaak: 1Responstijd (gem.)47.51sResponstijd (max)216.69sResponstijd (totaal)997.68sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
63.5%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
69.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
71.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
3Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
4Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
63Totaal runsโฆ
52Totaal runsโฆ
63Totaal runsโฆ
Kosten per resultaat
8.309Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
4.505Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
4.724Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.609Totale kosten (huidige prijs)โฆ
$0.750Totale kosten (huidige prijs)โฆ
$0.614Totale kosten (huidige prijs)โฆ
Invoerprijs
$1.250 / 1MInvoerprijsโฆ
$5.805 / 1MInvoerprijsโฆ
$1.250 / 1MInvoerprijsโฆ
Uitvoerprijs
$2.500 / 1MUitvoerprijsโฆ
$5.805 / 1MUitvoerprijsโฆ
$2.500 / 1MUitvoerprijsโฆ
Totaal aantal invoer-tokens
44,433Totaal aantal invoer-tokensโฆ
35,955Totaal aantal invoer-tokensโฆ
44,472Totaal aantal invoer-tokensโฆ
Uitvoer-tokens
1,819Uitvoer-tokensโฆ
1,647Uitvoer-tokensโฆ
1,981Uitvoer-tokensโฆ
Redeneer-tokens
219,524Redeneer-tokensโฆ
91,565Redeneer-tokensโฆ
221,382Redeneer-tokensโฆ
Responstijd (gem.)
27.68sResponstijd (gem.)โฆ
9.75sResponstijd (gem.)โฆ
47.51sResponstijd (gem.)โฆ
Responstijd (max)
199.66sResponstijd (max)โฆ
31.36sResponstijd (max)โฆ
216.69sResponstijd (max)โฆ
Responstijd (totaal)
581.26sResponstijd (totaal)โฆ
175.48sResponstijd (totaal)โฆ
997.68sResponstijd (totaal)โฆ
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.95sResponstijd (max)5.68sResponstijd (totaal)15.80sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.95sResponstijd (gem.)โฆ
2,010Totaal aantal invoer-tokensโฆ
287Uitvoer-tokensโฆ
8,312Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.7Gemiddelde score over alle benchmarktests.โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.16sResponstijd (max)3.44sResponstijd (totaal)12.65sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.83sResponstijd (max)11.20sResponstijd (totaal)35.31sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
6.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)109.93sResponstijd (max)199.66sResponstijd (totaal)329.79sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
109.93sResponstijd (gem.)โฆ
8,307Totaal aantal invoer-tokensโฆ
268Uitvoer-tokensโฆ
103,150Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.3Gemiddelde score over alle benchmarktests.โฆ
3.3Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.36sResponstijd (max)31.36sResponstijd (totaal)31.36sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Verkeerd antwoord: 1Responstijd (gem.)41.23sResponstijd (max)64.81sResponstijd (totaal)123.69sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.40sResponstijd (max)17.40sResponstijd (totaal)17.40sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
17.40sResponstijd (gem.)โฆ
12,909Totaal aantal invoer-tokensโฆ
232Uitvoer-tokensโฆ
9,556Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.93sResponstijd (max)20.93sResponstijd (totaal)20.93sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)63.99sResponstijd (max)63.99sResponstijd (totaal)63.99sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.17sResponstijd (max)5.02sResponstijd (totaal)8.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.17sResponstijd (gem.)โฆ
7,761Totaal aantal invoer-tokensโฆ
180Uitvoer-tokensโฆ
5,333Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.01sResponstijd (max)4.27sResponstijd (totaal)8.02sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.97sResponstijd (max)26.99sResponstijd (totaal)37.93sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Verkeerd antwoord: 1Responstijd (gem.)27.03sResponstijd (max)29.87sResponstijd (totaal)81.10sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
27.03sResponstijd (gem.)โฆ
1,764Totaal aantal invoer-tokensโฆ
375Uitvoer-tokensโฆ
49,339Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.3Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)21.33sResponstijd (max)24.21sResponstijd (totaal)64.00sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)181.74sResponstijd (max)216.69sResponstijd (totaal)545.21sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)24.48sResponstijd (max)24.48sResponstijd (totaal)24.48sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
24.48sResponstijd (gem.)โฆ
825Totaal aantal invoer-tokensโฆ
65Uitvoer-tokensโฆ
6,440Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.78sResponstijd (max)5.78sResponstijd (totaal)5.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)24.70sResponstijd (max)24.70sResponstijd (totaal)24.70sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.26sResponstijd (max)4.46sResponstijd (totaal)8.52sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.26sResponstijd (gem.)โฆ
1,362Totaal aantal invoer-tokensโฆ
57Uitvoer-tokensโฆ
6,419Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
9.8Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.89sResponstijd (max)5.89sResponstijd (totaal)9.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.58sResponstijd (max)31.48sResponstijd (totaal)37.15sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.22sResponstijd (max)11.63sResponstijd (totaal)18.66sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
6.22sResponstijd (gem.)โฆ
1,689Totaal aantal invoer-tokensโฆ
149Uitvoer-tokensโฆ
7,913Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.52sResponstijd (max)4.53sResponstijd (totaal)10.57sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)22.52sResponstijd (max)51.75sResponstijd (totaal)67.57sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)13.68sResponstijd (max)13.68sResponstijd (totaal)13.68sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
13.68sResponstijd (gem.)โฆ
7,275Totaal aantal invoer-tokensโฆ
197Uitvoer-tokensโฆ
6,620Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)12.39sResponstijd (max)12.39sResponstijd (totaal)12.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.66sResponstijd (max)17.66sResponstijd (totaal)17.66sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)63.48sResponstijd (max)63.48sResponstijd (totaal)63.48sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
63.48sResponstijd (gem.)โฆ
531Totaal aantal invoer-tokensโฆ
9Uitvoer-tokensโฆ
16,442Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
0.0Gemiddelde score over alle benchmarktests.โฆ
0.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)44.47sResponstijd (max)44.47sResponstijd (totaal)44.47sEen test is alleen volledig geslaagd als alle runs slagen.โฆ