Benchmarkvergelijking Gemini 3.5 Flash vs Grok Build 0.1: Gemini 3.5 Flash leidt in gemiddelde score met 9.8 vs 4.2. Grok Build 0.1 heeft lagere benchmarkkosten met $0.547 vs $1.115. Gemini 3.5 Flash is sneller met 8.84s vs 28.69s, met slagingspercentages van 96.8% vs 46.0%.
Aanbevolen model: Gemini 3.5 Flash - Het heeft hier de beste score (9.8) en reageert ongeveer 3.2x sneller dan Grok Build 0.1.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-07-02
Grok Build 0.1Grok Build 0.1noneGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.Releasedatum: 2026-05-21
Score
9.8Gemiddelde score over alle benchmarktests.…
4.2Gemiddelde score over alle benchmarktests.…
Rang
#1
#165
Betrouwbaarheid
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
Consistentie
9.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
7.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.84sResponstijd (max)34.82sResponstijd (totaal)185.57sEen test is alleen volledig geslaagd als alle runs slagen.…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 7API-fout: 3Instructies niet gevolgd: 2Responstijd (gem.)28.69sResponstijd (max)138.35sResponstijd (totaal)459.00sEen test is alleen volledig geslaagd als alle runs slagen.…
Slaagpercentage per poging
96.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
46.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
Instabiele tests
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
4Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Totaal runs
63Totaal runs…
57Totaal runs…
Kosten per resultaat
5.575Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
7.805Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
Totale kosten
$1.115Totale kosten (huidige prijs)…
$0.547Totale kosten (huidige prijs)…
Invoerprijs
$1.500 / 1MInvoerprijs…
$1.000 / 1MInvoerprijs…
Uitvoerprijs
$9.000 / 1MUitvoerprijs…
$2.000 / 1MUitvoerprijs…
Totaal aantal invoer-tokens
37,594Totaal aantal invoer-tokens…
11,793Totaal aantal invoer-tokens…
Uitvoer-tokens
1,975Uitvoer-tokens…
267,275Uitvoer-tokens…
Redeneer-tokens
115,638Redeneer-tokens…
0Redeneer-tokens…
Responstijd (gem.)
8.84sResponstijd (gem.)…
28.69sResponstijd (gem.)…
Responstijd (max)
34.82sResponstijd (max)…
138.35sResponstijd (max)…
Responstijd (totaal)
185.57sResponstijd (totaal)…
459.00sResponstijd (totaal)…
Generatie-showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#1 Gemini 3.5 Flash
high
Kosten
$0.208
Tijd
118.2s
Tokens
23,158 tok
#165 xAI: Grok Build 0.1
none
Er is nog geen showcase-resultaat gegenereerd voor dit model.
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.57sResponstijd (max)3.60sResponstijd (totaal)10.27sEen test is alleen volledig geslaagd als alle runs slagen.…
2.57sResponstijd (gem.)…
492Totaal aantal invoer-tokens…
174Uitvoer-tokens…
4,997Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.7Gemiddelde score over alle benchmarktests.…
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.30sResponstijd (max)9.80sResponstijd (totaal)25.20sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)22.96sResponstijd (max)34.82sResponstijd (totaal)68.88sEen test is alleen volledig geslaagd als alle runs slagen.…
22.96sResponstijd (gem.)…
8,118Totaal aantal invoer-tokens…
456Uitvoer-tokens…
47,129Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.3Gemiddelde score over alle benchmarktests.…
3.3Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)21.41sResponstijd (max)21.41sResponstijd (totaal)21.41sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)22.37sResponstijd (max)22.37sResponstijd (totaal)22.37sEen test is alleen volledig geslaagd als alle runs slagen.…
22.37sResponstijd (gem.)…
12,873Totaal aantal invoer-tokens…
351Uitvoer-tokens…
16,323Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.43sResponstijd (max)8.51sResponstijd (totaal)12.87sEen test is alleen volledig geslaagd als alle runs slagen.…
6.43sResponstijd (gem.)…
7,548Totaal aantal invoer-tokens…
279Uitvoer-tokens…
8,466Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.8Gemiddelde score over alle benchmarktests.…
5.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Verkeerd antwoord: 1Responstijd (gem.)9.33sResponstijd (max)9.33sResponstijd (totaal)9.33sEen test is alleen volledig geslaagd als alle runs slagen.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)14.09sResponstijd (max)22.00sResponstijd (totaal)42.27sEen test is alleen volledig geslaagd als alle runs slagen.…
14.09sResponstijd (gem.)…
633Totaal aantal invoer-tokens…
12Uitvoer-tokens…
24,721Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.6Gemiddelde score over alle benchmarktests.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
22.2%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)103.71sResponstijd (max)138.35sResponstijd (totaal)311.13sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.63sResponstijd (max)3.63sResponstijd (totaal)3.63sEen test is alleen volledig geslaagd als alle runs slagen.…
3.63sResponstijd (gem.)…
486Totaal aantal invoer-tokens…
115Uitvoer-tokens…
1,650Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
4.3Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)12.47sResponstijd (max)12.47sResponstijd (totaal)12.47sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.35sResponstijd (max)3.42sResponstijd (totaal)6.69sEen test is alleen volledig geslaagd als alle runs slagen.…
3.35sResponstijd (gem.)…
615Totaal aantal invoer-tokens…
70Uitvoer-tokens…
3,799Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
9.8Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.36sResponstijd (max)11.05sResponstijd (totaal)14.73sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.23sResponstijd (max)3.68sResponstijd (totaal)9.69sEen test is alleen volledig geslaagd als alle runs slagen.…
3.23sResponstijd (gem.)…
558Totaal aantal invoer-tokens…
241Uitvoer-tokens…
4,940Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
6.4Gemiddelde score over alle benchmarktests.…
7.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)9.55sResponstijd (max)18.18sResponstijd (totaal)28.65sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.96sResponstijd (max)4.96sResponstijd (totaal)4.96sEen test is alleen volledig geslaagd als alle runs slagen.…
4.96sResponstijd (gem.)…
6,115Totaal aantal invoer-tokens…
265Uitvoer-tokens…
1,608Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.94sResponstijd (max)3.94sResponstijd (totaal)3.94sEen test is alleen volledig geslaagd als alle runs slagen.…
3.94sResponstijd (gem.)…
156Totaal aantal invoer-tokens…
12Uitvoer-tokens…
2,005Redeneer-tokens…
Grok Build 0.1Gearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)36.09sResponstijd (max)36.09sResponstijd (totaal)36.09sEen test is alleen volledig geslaagd als alle runs slagen.…