Benchmarkvergelijking GPT-5.4 Mini vs Qwen3.7 Plus: Qwen3.7 Plus leidt in gemiddelde score met 8.2 vs 8.0. Qwen3.7 Plus heeft lagere benchmarkkosten met $0.177 vs $0.526. GPT-5.4 Mini is sneller met 22.34s vs 38.95s, met slagingspercentages van 73.0% vs 77.8%.
Aanbevolen model: Qwen3.7 Plus - Het heeft hier de beste score (8.2) en kost ongeveer 3.0x minder dan GPT-5.4 Mini.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-06-12
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
Consistentie
8.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
9.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 6Instructies niet gevolgd: 3Responstijd (gem.)22.34sResponstijd (max)138.75sResponstijd (totaal)469.20sEen test is alleen volledig geslaagd als alle runs slagen.…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Time-out: 1Responstijd (gem.)38.95sResponstijd (max)178.04sResponstijd (totaal)817.85sEen test is alleen volledig geslaagd als alle runs slagen.…
Slaagpercentage per poging
73.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
Instabiele tests
5Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
2Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Totaal runs
63Totaal runs…
63Totaal runs…
Kosten per resultaat
4.381Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
1.474Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
Totale kosten
$0.526Totale kosten (huidige prijs)…
$0.177Totale kosten (huidige prijs)…
Invoerprijs
$0.750 / 1MInvoerprijs…
$0.320 / 1MInvoerprijs…
Uitvoerprijs
$4.500 / 1MUitvoerprijs…
$1.280 / 1MUitvoerprijs…
Totaal aantal invoer-tokens
34,116Totaal aantal invoer-tokens…
40,939Totaal aantal invoer-tokens…
Uitvoer-tokens
2,181Uitvoer-tokens…
2,125Uitvoer-tokens…
Redeneer-tokens
108,937Redeneer-tokens…
125,754Redeneer-tokens…
Responstijd (gem.)
22.34sResponstijd (gem.)…
38.95sResponstijd (gem.)…
Responstijd (max)
138.75sResponstijd (max)…
178.04sResponstijd (max)…
Responstijd (totaal)
469.20sResponstijd (totaal)…
817.85sResponstijd (totaal)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.05sResponstijd (max)6.69sResponstijd (totaal)16.20sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.58sResponstijd (max)12.75sResponstijd (totaal)34.33sEen test is alleen volledig geslaagd als alle runs slagen.…
7.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)57.87sResponstijd (max)138.75sResponstijd (totaal)173.61sEen test is alleen volledig geslaagd als alle runs slagen.…
6.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)108.60sResponstijd (max)178.04sResponstijd (totaal)325.79sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.81sResponstijd (max)17.81sResponstijd (totaal)17.81sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)65.24sResponstijd (max)65.24sResponstijd (totaal)65.24sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.43sResponstijd (max)3.39sResponstijd (totaal)4.87sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)21.75sResponstijd (max)23.18sResponstijd (totaal)43.49sEen test is alleen volledig geslaagd als alle runs slagen.…
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
44.5%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
2Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)65.31sResponstijd (max)102.91sResponstijd (totaal)195.92sEen test is alleen volledig geslaagd als alle runs slagen.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
22.2%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)45.35sResponstijd (max)88.89sResponstijd (totaal)136.04sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.72sResponstijd (max)3.72sResponstijd (totaal)3.72sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)25.48sResponstijd (max)25.48sResponstijd (totaal)25.48sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.13sResponstijd (max)2.45sResponstijd (totaal)4.25sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)16.13sResponstijd (max)17.18sResponstijd (totaal)32.26sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.37sResponstijd (max)7.27sResponstijd (totaal)13.11sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)16.38sResponstijd (max)19.42sResponstijd (totaal)49.14sEen test is alleen volledig geslaagd als alle runs slagen.…
1.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)9.62sResponstijd (max)9.62sResponstijd (totaal)9.62sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.02sResponstijd (max)15.02sResponstijd (totaal)15.02sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)30.10sResponstijd (max)30.10sResponstijd (totaal)30.10sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)91.07sResponstijd (max)91.07sResponstijd (totaal)91.07sEen test is alleen volledig geslaagd als alle runs slagen.…