10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
9.8Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
Consistentie
8.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
8.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 2Responstijd (gem.)36.79sResponstijd (max)168.71sResponstijd (totaal)735.86sEen test is alleen volledig geslaagd als alle runs slagen.…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Verkeerd antwoord: 3Geen antwoord: 1Responstijd (gem.)61.96sResponstijd (max)149.23sResponstijd (totaal)1115.31sEen test is alleen volledig geslaagd als alle runs slagen.…
Slaagpercentage per poging
75.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
74.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
Instabiele tests
3Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
4Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Totaal runs
60Totaal runs…
54Totaal runs…
Kosten per resultaat
1.170Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
18.579Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
75.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)17.99sResponstijd (max)48.33sResponstijd (totaal)71.98sEen test is alleen volledig geslaagd als alle runs slagen.…
17.99sResponstijd (gem.)…
996Uitvoer-tokens…
7,142Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
9.4Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)37.16sResponstijd (max)140.53sResponstijd (totaal)148.65sEen test is alleen volledig geslaagd als alle runs slagen.…
9.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)107.65sResponstijd (max)140.81sResponstijd (totaal)215.30sEen test is alleen volledig geslaagd als alle runs slagen.…
107.65sResponstijd (gem.)…
452Uitvoer-tokens…
20,524Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)137.63sResponstijd (max)137.63sResponstijd (totaal)137.63sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)37.67sResponstijd (max)37.67sResponstijd (totaal)37.67sEen test is alleen volledig geslaagd als alle runs slagen.…
37.67sResponstijd (gem.)…
506Uitvoer-tokens…
4,299Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)149.23sResponstijd (max)149.23sResponstijd (totaal)149.23sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.07sResponstijd (max)12.19sResponstijd (totaal)18.14sEen test is alleen volledig geslaagd als alle runs slagen.…
9.07sResponstijd (gem.)…
246Uitvoer-tokens…
1,742Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.49sResponstijd (max)4.96sResponstijd (totaal)8.98sEen test is alleen volledig geslaagd als alle runs slagen.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)88.74sResponstijd (max)168.71sResponstijd (totaal)266.21sEen test is alleen volledig geslaagd als alle runs slagen.…
88.74sResponstijd (gem.)…
15Uitvoer-tokens…
23,897Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.6Gemiddelde score over alle benchmarktests.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
22.2%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)139.90sResponstijd (max)141.40sResponstijd (totaal)419.69sEen test is alleen volledig geslaagd als alle runs slagen.…
3.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)18.25sResponstijd (max)18.25sResponstijd (totaal)18.25sEen test is alleen volledig geslaagd als alle runs slagen.…
18.25sResponstijd (gem.)…
304Uitvoer-tokens…
1,620Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.0Gemiddelde score over alle benchmarktests.…
2.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)45.69sResponstijd (max)45.69sResponstijd (totaal)45.69sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.26sResponstijd (max)9.02sResponstijd (totaal)14.52sEen test is alleen volledig geslaagd als alle runs slagen.…
7.26sResponstijd (gem.)…
71Uitvoer-tokens…
1,480Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
7.3Gemiddelde score over alle benchmarktests.…
5.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)23.26sResponstijd (max)43.87sResponstijd (totaal)46.51sEen test is alleen volledig geslaagd als alle runs slagen.…
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)11.03sResponstijd (max)13.85sResponstijd (totaal)33.09sEen test is alleen volledig geslaagd als alle runs slagen.…
11.03sResponstijd (gem.)…
461Uitvoer-tokens…
3,532Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.7Gemiddelde score over alle benchmarktests.…
6.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Responstijd (gem.)50.83sResponstijd (max)144.85sResponstijd (totaal)152.49sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.38sResponstijd (max)12.38sResponstijd (totaal)12.38sEen test is alleen volledig geslaagd als alle runs slagen.…
12.38sResponstijd (gem.)…
222Uitvoer-tokens…
1,011Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.44sResponstijd (max)6.44sResponstijd (totaal)6.44sEen test is alleen volledig geslaagd als alle runs slagen.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)48.32sResponstijd (max)48.32sResponstijd (totaal)48.32sEen test is alleen volledig geslaagd als alle runs slagen.…
48.32sResponstijd (gem.)…
9Uitvoer-tokens…
2,040Redeneer-tokens…
Gemini 3.1 Flash LiteGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.