n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
n.v.t.Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vรณรณr succesvolle calls; geregistreerde fouten verlagen de score.โฆ
Consistentie
9.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
7.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Verkeerd antwoord: 3Responstijd (gem.)9.81sResponstijd (max)31.36sResponstijd (totaal)176.62sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.11sResponstijd (max)82.37sResponstijd (totaal)217.93sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
74.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
57.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
64.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
6Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
6Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
52Totaal runsโฆ
52Totaal runsโฆ
54Totaal runsโฆ
18Totaal runsโฆ
Kosten per resultaat
5.269Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
72.473Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
0.613Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
0.600Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.633Totale kostenโฆ
$5.074Totale kostenโฆ
$0.056Totale kostenโฆ
$0.108Totale kostenโฆ
Invoerprijs
$0.000 / 1MInvoerprijsโฆ
$0.000 / 1MInvoerprijsโฆ
$0.200 / 1MInvoerprijsโฆ
$0.500 / 1MInvoerprijsโฆ
Uitvoerprijs
$0.000 / 1MUitvoerprijsโฆ
$0.000 / 1MUitvoerprijsโฆ
$0.500 / 1MUitvoerprijsโฆ
$3.000 / 1MUitvoerprijsโฆ
Uitvoer-tokens
1,568Uitvoer-tokensโฆ
299,034Uitvoer-tokensโฆ
2,010Uitvoer-tokensโฆ
655Uitvoer-tokensโฆ
Redeneer-tokens
91,909Redeneer-tokensโฆ
309,670Redeneer-tokensโฆ
91,298Redeneer-tokensโฆ
33,749Redeneer-tokensโฆ
Responstijd (gem.)
9.81sResponstijd (gem.)โฆ
9.80sResponstijd (gem.)โฆ
23.88sResponstijd (gem.)โฆ
12.11sResponstijd (gem.)โฆ
Responstijd (max)
31.36sResponstijd (max)โฆ
35.28sResponstijd (max)โฆ
121.79sResponstijd (max)โฆ
82.37sResponstijd (max)โฆ
Responstijd (totaal)
176.62sResponstijd (totaal)โฆ
156.75sResponstijd (totaal)โฆ
262.66sResponstijd (totaal)โฆ
217.93sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Score vs Responstijd (gem.)
Totaal aantal uitvoer-tokens
Score vs Totaal aantal uitvoer-tokens
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.7Gemiddelde score over alle benchmarktests.โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.16sResponstijd (max)3.44sResponstijd (totaal)12.65sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.16sResponstijd (gem.)โฆ
268Uitvoer-tokensโฆ
7,583Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
6.9Gemiddelde score over alle benchmarktests.โฆ
5.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
75.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Verkeerd antwoord: 1Responstijd (gem.)3.46sResponstijd (max)4.38sResponstijd (totaal)13.86sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.81sResponstijd (max)5.65sResponstijd (totaal)7.62sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)5.01sResponstijd (totaal)13.04sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.26sResponstijd (gem.)โฆ
110Uitvoer-tokensโฆ
1,076Redeneer-tokensโฆ
Programmeren
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.36sResponstijd (max)31.36sResponstijd (totaal)31.36sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
31.36sResponstijd (gem.)โฆ
81Uitvoer-tokensโฆ
3,987Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)27.11sResponstijd (max)27.11sResponstijd (totaal)27.11sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)23.58sResponstijd (max)23.58sResponstijd (totaal)23.58sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)82.37sResponstijd (max)82.37sResponstijd (totaal)82.37sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
82.37sResponstijd (gem.)โฆ
144Uitvoer-tokensโฆ
16,257Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.93sResponstijd (max)20.93sResponstijd (totaal)20.93sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
20.93sResponstijd (gem.)โฆ
227Uitvoer-tokensโฆ
12,212Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)37.64sResponstijd (max)37.64sResponstijd (totaal)37.64sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.58sResponstijd (max)23.58sResponstijd (totaal)23.58sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
23.58sResponstijd (gem.)โฆ
117Uitvoer-tokensโฆ
3,495Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.01sResponstijd (max)4.27sResponstijd (totaal)8.02sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.01sResponstijd (gem.)โฆ
180Uitvoer-tokensโฆ
5,281Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.54sResponstijd (max)7.51sResponstijd (totaal)11.08sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.63sResponstijd (max)6.63sResponstijd (totaal)6.63sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.62sResponstijd (max)8.37sResponstijd (totaal)15.24sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.62sResponstijd (gem.)โฆ
93Uitvoer-tokensโฆ
2,197Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.3Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)21.33sResponstijd (max)24.21sResponstijd (totaal)64.00sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
21.33sResponstijd (gem.)โฆ
251Uitvoer-tokensโฆ
40,255Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
2.9Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
11.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Extra opmaak: 1Responstijd (gem.)24.67sResponstijd (max)35.28sResponstijd (totaal)74.02sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)121.79sResponstijd (max)121.79sResponstijd (totaal)121.79sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)14.81sResponstijd (max)32.44sResponstijd (totaal)44.43sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
14.81sResponstijd (gem.)โฆ
4Uitvoer-tokensโฆ
7,228Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.78sResponstijd (max)5.78sResponstijd (totaal)5.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.78sResponstijd (gem.)โฆ
72Uitvoer-tokensโฆ
3,440Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.8Gemiddelde score over alle benchmarktests.โฆ
2.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)6.40sResponstijd (max)6.40sResponstijd (totaal)6.40sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
9.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)16.25sResponstijd (max)16.25sResponstijd (totaal)16.25sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.34sResponstijd (max)6.34sResponstijd (totaal)6.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
6.34sResponstijd (gem.)โฆ
24Uitvoer-tokensโฆ
635Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.3Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.97sResponstijd (max)6.05sResponstijd (totaal)9.94sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.97sResponstijd (gem.)โฆ
57Uitvoer-tokensโฆ
7,107Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.3Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.63sResponstijd (max)5.46sResponstijd (totaal)9.26sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.30sResponstijd (max)5.30sResponstijd (totaal)5.30sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.30sResponstijd (max)5.19sResponstijd (totaal)8.59sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.30sResponstijd (gem.)โฆ
24Uitvoer-tokensโฆ
903Redeneer-tokensโฆ
Puzzeloplossing
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.2Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.85sResponstijd (max)4.53sResponstijd (totaal)11.55sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.85sResponstijd (gem.)โฆ
249Uitvoer-tokensโฆ
6,660Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
7.2Gemiddelde score over alle benchmarktests.โฆ
5.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Responstijd (gem.)5.01sResponstijd (max)5.49sResponstijd (totaal)15.03sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)8.08sResponstijd (max)8.38sResponstijd (totaal)16.17sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.86sResponstijd (max)7.59sResponstijd (totaal)14.57sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.86sResponstijd (gem.)โฆ
61Uitvoer-tokensโฆ
1,455Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Grok 4.20 BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)12.39sResponstijd (max)12.39sResponstijd (totaal)12.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
12.39sResponstijd (gem.)โฆ
183Uitvoer-tokensโฆ
5,384Redeneer-tokensโฆ
Grok 4.20 Multi Agent BetaGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)27.71sResponstijd (max)27.71sResponstijd (totaal)27.71sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.78sResponstijd (max)9.78sResponstijd (totaal)9.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ