9.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
8.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
0.191Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
6.601Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.012Totale kostenโฆ
$0.793Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 1Responstijd (gem.)923msResponstijd (max)4.39sResponstijd (totaal)14.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 2Responstijd (gem.)20.05sResponstijd (max)100.41sResponstijd (totaal)320.87sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
43.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
3Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
48 (16 x 3)Totaal runsโฆ
48 (16 x 3)Totaal runsโฆ
Uitvoer-tokens
1,270Uitvoer-tokensโฆ
1,756Uitvoer-tokensโฆ
Redeneer-tokens
0Redeneer-tokensโฆ
46,642Redeneer-tokensโฆ
Responstijd (gem.)
923msResponstijd (gem.)โฆ
20.05sResponstijd (gem.)โฆ
Responstijd (max)
4.39sResponstijd (max)โฆ
100.41sResponstijd (max)โฆ
Responstijd (totaal)
14.78sResponstijd (totaal)โฆ
320.87sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 2.5 Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)668msResponstijd (max)844msResponstijd (totaal)2.01sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
668msResponstijd (gem.)โฆ
99Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.4
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.02sResponstijd (max)6.42sResponstijd (totaal)15.06sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.02sResponstijd (gem.)โฆ
216Uitvoer-tokensโฆ
1,466Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 2.5 Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.39sResponstijd (max)4.39sResponstijd (totaal)4.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.39sResponstijd (gem.)โฆ
366Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.4
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.57sResponstijd (max)20.57sResponstijd (totaal)20.57sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
20.57sResponstijd (gem.)โฆ
301Uitvoer-tokensโฆ
3,543Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 2.5 Flash
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)652msResponstijd (max)660msResponstijd (totaal)1.30sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
652msResponstijd (gem.)โฆ
279Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.4
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.32sResponstijd (max)5.40sResponstijd (totaal)10.64sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.32sResponstijd (gem.)โฆ
234Uitvoer-tokensโฆ
804Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 2.5 Flash
4.0Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)495msResponstijd (max)642msResponstijd (totaal)1.49sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
495msResponstijd (gem.)โฆ
12Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.4
4.0Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)74.27sResponstijd (max)100.41sResponstijd (totaal)222.80sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
74.27sResponstijd (gem.)โฆ
61Uitvoer-tokensโฆ
34,748Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 2.5 Flash
5.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)615msResponstijd (max)615msResponstijd (totaal)615msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
615msResponstijd (gem.)โฆ
78Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.4
5.0Gemiddelde score over alle benchmarktests.โฆ
3.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.92sResponstijd (max)4.92sResponstijd (totaal)4.92sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.92sResponstijd (gem.)โฆ
145Uitvoer-tokensโฆ
321Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 2.5 Flash
9.0Gemiddelde score over alle benchmarktests.โฆ
6.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)672msResponstijd (max)785msResponstijd (totaal)1.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
672msResponstijd (gem.)โฆ
70Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.4
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.11sResponstijd (max)3.68sResponstijd (totaal)6.22sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.11sResponstijd (gem.)โฆ
93Uitvoer-tokensโฆ
897Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 2.5 Flash
4.7Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)576msResponstijd (max)700msResponstijd (totaal)1.73sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
576msResponstijd (gem.)โฆ
132Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.4
7.0Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)9.13sResponstijd (max)18.14sResponstijd (totaal)27.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
9.13sResponstijd (gem.)โฆ
442Uitvoer-tokensโฆ
3,832Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 2.5 Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.91sResponstijd (max)1.91sResponstijd (totaal)1.91sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.91sResponstijd (gem.)โฆ
234Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.4
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.28sResponstijd (max)13.28sResponstijd (totaal)13.28sEen test is alleen volledig geslaagd als alle runs slagen.โฆ