Benchmarkvergelijking GPT-5.5 vs Step 3.7 Flash: GPT-5.5 leidt in gemiddelde score met 9.3 vs 8.5. Step 3.7 Flash heeft lagere benchmarkkosten met $0.376 vs $0.907. GPT-5.5 is sneller met 9.76s vs 20.35s, met slagingspercentages van 85.7% vs 73.0%.
Aanbevolen model: GPT-5.5 - Het heeft hier de beste score (9.3) en reageert ongeveer 2.1x sneller dan Step 3.7 Flash.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-06-12
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
9.9Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
Consistentie
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
9.3Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)9.76sResponstijd (max)56.19sResponstijd (totaal)204.92sEen test is alleen volledig geslaagd als alle runs slagen.…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 1Geen antwoord: 1Responstijd (gem.)20.35sResponstijd (max)113.98sResponstijd (totaal)427.42sEen test is alleen volledig geslaagd als alle runs slagen.…
Slaagpercentage per poging
85.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
73.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
Instabiele tests
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
2Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Totaal runs
63Totaal runs…
61Totaal runs…
Kosten per resultaat
5.035Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
2.686Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
Totale kosten
$0.907Totale kosten (huidige prijs)…
$0.376Totale kosten (huidige prijs)…
Invoerprijs
$5.000 / 1MInvoerprijs…
$0.200 / 1MInvoerprijs…
Uitvoerprijs
$30.000 / 1MUitvoerprijs…
$1.150 / 1MUitvoerprijs…
Totaal aantal invoer-tokens
34,209Totaal aantal invoer-tokens…
39,981Totaal aantal invoer-tokens…
Uitvoer-tokens
2,046Uitvoer-tokens…
319,958Uitvoer-tokens…
Redeneer-tokens
22,460Redeneer-tokens…
0Redeneer-tokens…
Responstijd (gem.)
9.76sResponstijd (gem.)…
20.35sResponstijd (gem.)…
Responstijd (max)
56.19sResponstijd (max)…
113.98sResponstijd (max)…
Responstijd (totaal)
204.92sResponstijd (totaal)…
427.42sResponstijd (totaal)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.41sResponstijd (max)6.32sResponstijd (totaal)17.64sEen test is alleen volledig geslaagd als alle runs slagen.…
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)9.65sResponstijd (max)35.08sResponstijd (totaal)38.62sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.04sResponstijd (max)21.06sResponstijd (totaal)45.11sEen test is alleen volledig geslaagd als alle runs slagen.…
7.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)27.42sResponstijd (max)60.98sResponstijd (totaal)82.26sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.56sResponstijd (max)9.56sResponstijd (totaal)9.56sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.06sResponstijd (max)9.06sResponstijd (totaal)9.06sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.28sResponstijd (max)5.13sResponstijd (totaal)6.56sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.75sResponstijd (max)3.35sResponstijd (totaal)5.49sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)28.05sResponstijd (max)56.19sResponstijd (totaal)84.16sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)48.27sResponstijd (max)97.10sResponstijd (totaal)144.81sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.17sResponstijd (max)5.17sResponstijd (totaal)5.17sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.85sResponstijd (max)6.85sResponstijd (totaal)6.85sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.74sResponstijd (max)3.99sResponstijd (totaal)7.48sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.83sResponstijd (max)2.21sResponstijd (totaal)3.65sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.74sResponstijd (max)5.61sResponstijd (totaal)14.21sEen test is alleen volledig geslaagd als alle runs slagen.…
9.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)6.19sResponstijd (max)12.51sResponstijd (totaal)18.56sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.96sResponstijd (max)4.96sResponstijd (totaal)4.96sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.16sResponstijd (max)4.16sResponstijd (totaal)4.16sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)10.06sResponstijd (max)10.06sResponstijd (totaal)10.06sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)113.98sResponstijd (max)113.98sResponstijd (totaal)113.98sEen test is alleen volledig geslaagd als alle runs slagen.…