Benchmarkvergelijking GPT-5.5 vs Grok 4.1 Fast: GPT-5.5 leidt in gemiddelde score met 9.3 vs 4.0. Grok 4.1 Fast heeft lagere benchmarkkosten met $0.008 vs $0.907. Grok 4.1 Fast is sneller met 1.62s vs 9.76s, met slagingspercentages van 85.7% vs 20.6%.
Aanbevolen model: GPT-5.5 - Het heeft de sterkste score in deze vergelijking (9.3) en de beste balans tussen kosten en responstijd over alle 2 modellen.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-07-02
Grok 4.1 FastGrok 4.1 FastnoneGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.Releasedatum: 2025-11-19
Score
9.3Gemiddelde score over alle benchmarktests.…
4.0Gemiddelde score over alle benchmarktests.…
Rang
#4
#166
Betrouwbaarheid
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
Consistentie
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)9.76sResponstijd (max)56.19sResponstijd (totaal)204.92sEen test is alleen volledig geslaagd als alle runs slagen.…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 13Instructies niet gevolgd: 3Responstijd (gem.)1.62sResponstijd (max)5.51sResponstijd (totaal)19.48sEen test is alleen volledig geslaagd als alle runs slagen.…
Slaagpercentage per poging
85.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
20.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
Instabiele tests
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
3Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Totaal runs
63Totaal runs…
57Totaal runs…
Kosten per resultaat
5.035Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
0.273Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
Totale kosten
$0.907Totale kosten (huidige prijs)…
$0.008Totale kosten (huidige prijs)…
Invoerprijs
$5.000 / 1MInvoerprijs…
$0.202 / 1MInvoerprijs…
Uitvoerprijs
$30.000 / 1MUitvoerprijs…
$0.202 / 1MUitvoerprijs…
Totaal aantal invoer-tokens
34,209Totaal aantal invoer-tokens…
36,608Totaal aantal invoer-tokens…
Uitvoer-tokens
2,046Uitvoer-tokens…
1,723Uitvoer-tokens…
Redeneer-tokens
22,460Redeneer-tokens…
0Redeneer-tokens…
Responstijd (gem.)
9.76sResponstijd (gem.)…
1.62sResponstijd (gem.)…
Responstijd (max)
56.19sResponstijd (max)…
5.51sResponstijd (max)…
Responstijd (totaal)
204.92sResponstijd (totaal)…
19.48sResponstijd (totaal)…
Generatie-showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#4 GPT-5.5
low
Kosten
$0.068
Tijd
37.0s
Tokens
2,339 tok
#166 Grok 4.1 Fast
none
Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.41sResponstijd (max)6.32sResponstijd (totaal)17.64sEen test is alleen volledig geslaagd als alle runs slagen.…
4.41sResponstijd (gem.)…
606Totaal aantal invoer-tokens…
238Uitvoer-tokens…
1,020Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.2Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Responstijd (gem.)1.07sResponstijd (max)1.73sResponstijd (totaal)2.15sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.04sResponstijd (max)21.06sResponstijd (totaal)45.11sEen test is alleen volledig geslaagd als alle runs slagen.…
15.04sResponstijd (gem.)…
7,302Totaal aantal invoer-tokens…
423Uitvoer-tokens…
6,402Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
1.8Gemiddelde score over alle benchmarktests.…
1.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
11.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.79sResponstijd (max)1.79sResponstijd (totaal)1.79sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.56sResponstijd (max)9.56sResponstijd (totaal)9.56sEen test is alleen volledig geslaagd als alle runs slagen.…
9.56sResponstijd (gem.)…
11,019Totaal aantal invoer-tokens…
303Uitvoer-tokens…
717Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.33sResponstijd (max)3.33sResponstijd (totaal)3.33sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.28sResponstijd (max)5.13sResponstijd (totaal)6.56sEen test is alleen volledig geslaagd als alle runs slagen.…
3.28sResponstijd (gem.)…
7,140Totaal aantal invoer-tokens…
228Uitvoer-tokens…
157Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)943msResponstijd (max)943msResponstijd (totaal)943msEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)28.05sResponstijd (max)56.19sResponstijd (totaal)84.16sEen test is alleen volledig geslaagd als alle runs slagen.…
28.05sResponstijd (gem.)…
723Totaal aantal invoer-tokens…
69Uitvoer-tokens…
11,609Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.9Gemiddelde score over alle benchmarktests.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.06sResponstijd (max)1.06sResponstijd (totaal)1.06sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.17sResponstijd (max)5.17sResponstijd (totaal)5.17sEen test is alleen volledig geslaagd als alle runs slagen.…
5.17sResponstijd (gem.)…
477Totaal aantal invoer-tokens…
133Uitvoer-tokens…
245Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
4.4Gemiddelde score over alle benchmarktests.…
9.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.08sResponstijd (max)1.08sResponstijd (totaal)1.08sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.74sResponstijd (max)3.99sResponstijd (totaal)7.48sEen test is alleen volledig geslaagd als alle runs slagen.…
3.74sResponstijd (gem.)…
660Totaal aantal invoer-tokens…
93Uitvoer-tokens…
415Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)685msResponstijd (max)685msResponstijd (totaal)685msEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.74sResponstijd (max)5.61sResponstijd (totaal)14.21sEen test is alleen volledig geslaagd als alle runs slagen.…
4.74sResponstijd (gem.)…
642Totaal aantal invoer-tokens…
279Uitvoer-tokens…
954Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.10sResponstijd (max)1.36sResponstijd (totaal)2.21sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.96sResponstijd (max)4.96sResponstijd (totaal)4.96sEen test is alleen volledig geslaagd als alle runs slagen.…
4.96sResponstijd (gem.)…
5,445Totaal aantal invoer-tokens…
250Uitvoer-tokens…
101Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
2.8Gemiddelde score over alle benchmarktests.…
1.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.51sResponstijd (max)5.51sResponstijd (totaal)5.51sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)10.06sResponstijd (max)10.06sResponstijd (totaal)10.06sEen test is alleen volledig geslaagd als alle runs slagen.…
10.06sResponstijd (gem.)…
195Totaal aantal invoer-tokens…
30Uitvoer-tokens…
840Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)731msResponstijd (max)731msResponstijd (totaal)731msEen test is alleen volledig geslaagd als alle runs slagen.…