n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
Consistentie
7.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
9.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
8.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 2Responstijd (gem.)9.81sResponstijd (max)31.36sResponstijd (totaal)176.62sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Verkeerd antwoord: 2Responstijd (gem.)48.63sResponstijd (max)216.69sResponstijd (totaal)875.27sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
79.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
81.5%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
5Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
3Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
54Totaal runsโฆ
52Totaal runsโฆ
54Totaal runsโฆ
Kosten per resultaat
8.252Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
4.864Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
3.974Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.36sResponstijd (max)4.08sResponstijd (totaal)13.42sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.36sResponstijd (gem.)โฆ
280Uitvoer-tokensโฆ
8,476Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.7Gemiddelde score over alle benchmarktests.โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.16sResponstijd (max)3.44sResponstijd (totaal)12.65sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.83sResponstijd (max)11.20sResponstijd (totaal)35.31sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)24.33sResponstijd (max)24.33sResponstijd (totaal)24.33sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
24.33sResponstijd (gem.)โฆ
250Uitvoer-tokensโฆ
12,804Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.36sResponstijd (max)31.36sResponstijd (totaal)31.36sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)45.72sResponstijd (max)45.72sResponstijd (totaal)45.72sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.40sResponstijd (max)17.40sResponstijd (totaal)17.40sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
17.40sResponstijd (gem.)โฆ
232Uitvoer-tokensโฆ
9,556Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.93sResponstijd (max)20.93sResponstijd (totaal)20.93sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)63.99sResponstijd (max)63.99sResponstijd (totaal)63.99sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.17sResponstijd (max)5.02sResponstijd (totaal)8.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.17sResponstijd (gem.)โฆ
180Uitvoer-tokensโฆ
5,333Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.01sResponstijd (max)4.27sResponstijd (totaal)8.02sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.97sResponstijd (max)26.99sResponstijd (totaal)37.93sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Verkeerd antwoord: 1Responstijd (gem.)27.03sResponstijd (max)29.87sResponstijd (totaal)81.10sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
27.03sResponstijd (gem.)โฆ
375Uitvoer-tokensโฆ
49,339Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.3Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)21.33sResponstijd (max)24.21sResponstijd (totaal)64.00sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)181.74sResponstijd (max)216.69sResponstijd (totaal)545.21sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)7.09sResponstijd (max)7.09sResponstijd (totaal)7.09sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.09sResponstijd (gem.)โฆ
47Uitvoer-tokensโฆ
4,252Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.78sResponstijd (max)5.78sResponstijd (totaal)5.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)24.70sResponstijd (max)24.70sResponstijd (totaal)24.70sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
6.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)4.42sResponstijd (max)4.46sResponstijd (totaal)8.84sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.42sResponstijd (gem.)โฆ
40Uitvoer-tokensโฆ
5,474Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
9.8Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.97sResponstijd (max)6.05sResponstijd (totaal)9.94sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.58sResponstijd (max)31.48sResponstijd (totaal)37.15sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Responstijd (gem.)3.89sResponstijd (max)4.90sResponstijd (totaal)11.67sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.89sResponstijd (gem.)โฆ
143Uitvoer-tokensโฆ
8,028Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.2Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.85sResponstijd (max)4.53sResponstijd (totaal)11.55sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Responstijd (gem.)22.53sResponstijd (max)51.75sResponstijd (totaal)67.59sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)13.68sResponstijd (max)13.68sResponstijd (totaal)13.68sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
13.68sResponstijd (gem.)โฆ
197Uitvoer-tokensโฆ
6,620Redeneer-tokensโฆ
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)12.39sResponstijd (max)12.39sResponstijd (totaal)12.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.66sResponstijd (max)17.66sResponstijd (totaal)17.66sEen test is alleen volledig geslaagd als alle runs slagen.โฆ