Benchmarkvergelijking Mistral Small 4 vs Qwen3.5-35B-A3B: Qwen3.5-35B-A3B leidt in gemiddelde score met 5.9 vs 5.1. Mistral Small 4 heeft lagere benchmarkkosten met $0.007 vs $0.012. Mistral Small 4 is sneller met 630ms vs 3.37s, met slagingspercentages van 27.0% vs 42.9%.
Aanbevolen model: Mistral Small 4 - De score blijft dicht bij de beste score hier (5.1 vs 5.9) en het kost ongeveer 1.6x minder dan Qwen3.5-35B-A3B.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-06-12
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
Consistentie
9.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
8.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 15Instructies niet gevolgd: 1Responstijd (gem.)630msResponstijd (max)1.72sResponstijd (totaal)13.22sEen test is alleen volledig geslaagd als alle runs slagen.…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 12Instructies niet gevolgd: 2Responstijd (gem.)3.37sResponstijd (max)47.43sResponstijd (totaal)70.75sEen test is alleen volledig geslaagd als alle runs slagen.…
Slaagpercentage per poging
27.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
42.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
Instabiele tests
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
3Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Totaal runs
63Totaal runs…
63Totaal runs…
Kosten per resultaat
0.139Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
0.230Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
Totale kosten
$0.007Totale kosten (huidige prijs)…
$0.012Totale kosten (huidige prijs)…
Invoerprijs
$0.150 / 1MInvoerprijs…
$0.140 / 1MInvoerprijs…
Uitvoerprijs
$0.600 / 1MUitvoerprijs…
$1.000 / 1MUitvoerprijs…
Totaal aantal invoer-tokens
37,309Totaal aantal invoer-tokens…
48,194Totaal aantal invoer-tokens…
Uitvoer-tokens
2,201Uitvoer-tokens…
4,343Uitvoer-tokens…
Redeneer-tokens
0Redeneer-tokens…
0Redeneer-tokens…
Responstijd (gem.)
630msResponstijd (gem.)…
3.37sResponstijd (gem.)…
Responstijd (max)
1.72sResponstijd (max)…
47.43sResponstijd (max)…
Responstijd (totaal)
13.22sResponstijd (totaal)…
70.75sResponstijd (totaal)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
16.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)395msResponstijd (max)769msResponstijd (totaal)1.58sEen test is alleen volledig geslaagd als alle runs slagen.…
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
16.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)1.43sResponstijd (max)4.39sResponstijd (totaal)5.71sEen test is alleen volledig geslaagd als alle runs slagen.…
9.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)901msResponstijd (max)1.28sResponstijd (totaal)2.70sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.39sResponstijd (max)2.67sResponstijd (totaal)4.18sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.72sResponstijd (max)1.72sResponstijd (totaal)1.72sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)47.43sResponstijd (max)47.43sResponstijd (totaal)47.43sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)822msResponstijd (max)1.08sResponstijd (totaal)1.64sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.16sResponstijd (max)1.42sResponstijd (totaal)2.33sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)367msResponstijd (max)388msResponstijd (totaal)1.10sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)485msResponstijd (max)549msResponstijd (totaal)1.45sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)729msResponstijd (max)729msResponstijd (totaal)729msEen test is alleen volledig geslaagd als alle runs slagen.…
3.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.19sResponstijd (max)1.19sResponstijd (totaal)1.19sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)380msResponstijd (max)380msResponstijd (totaal)759msEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)809msResponstijd (max)983msResponstijd (totaal)1.62sEen test is alleen volledig geslaagd als alle runs slagen.…
9.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)399msResponstijd (max)570msResponstijd (totaal)1.20sEen test is alleen volledig geslaagd als alle runs slagen.…
7.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
22.2%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)1.35sResponstijd (max)2.26sResponstijd (totaal)4.05sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.40sResponstijd (max)1.40sResponstijd (totaal)1.40sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.30sResponstijd (max)2.30sResponstijd (totaal)2.30sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)397msResponstijd (max)397msResponstijd (totaal)397msEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)493msResponstijd (max)493msResponstijd (totaal)493msEen test is alleen volledig geslaagd als alle runs slagen.…