10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
9.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
1.477Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
2.440Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.192Totale kostenโฆ
$0.269Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)7.15sResponstijd (max)11.96sResponstijd (totaal)64.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)7.03sResponstijd (max)38.52sResponstijd (totaal)112.51sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
81.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
75.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
48 (16 x 3)Totaal runsโฆ
48 (16 x 3)Totaal runsโฆ
Uitvoer-tokens
1,502Uitvoer-tokensโฆ
15,845Uitvoer-tokensโฆ
Redeneer-tokens
9,706Redeneer-tokensโฆ
0Redeneer-tokensโฆ
Responstijd (gem.)
7.15sResponstijd (gem.)โฆ
7.03sResponstijd (gem.)โฆ
Responstijd (max)
11.96sResponstijd (max)โฆ
38.52sResponstijd (max)โฆ
Responstijd (totaal)
64.34sResponstijd (totaal)โฆ
112.51sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3 Pro Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.75sResponstijd (max)3.75sResponstijd (totaal)3.75sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.75sResponstijd (gem.)โฆ
143Uitvoer-tokensโฆ
1,107Redeneer-tokensโฆ
OpenAI: GPT-5.2 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.97sResponstijd (max)4.78sResponstijd (totaal)11.90sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.97sResponstijd (gem.)โฆ
1,651Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3 Pro Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)10.37sResponstijd (max)10.37sResponstijd (totaal)10.37sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.37sResponstijd (gem.)โฆ
351Uitvoer-tokensโฆ
952Redeneer-tokensโฆ
OpenAI: GPT-5.2 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.12sResponstijd (max)9.12sResponstijd (totaal)9.12sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
9.12sResponstijd (gem.)โฆ
1,243Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3 Pro Preview
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.84sResponstijd (max)10.84sResponstijd (totaal)10.84sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
10.84sResponstijd (gem.)โฆ
279Uitvoer-tokensโฆ
3,156Redeneer-tokensโฆ
OpenAI: GPT-5.2 Chat
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.05sResponstijd (max)3.33sResponstijd (totaal)6.10sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.05sResponstijd (gem.)โฆ
980Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3 Pro Preview
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)7.01sResponstijd (max)7.01sResponstijd (totaal)7.01sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.01sResponstijd (gem.)โฆ
15Uitvoer-tokensโฆ
1,195Redeneer-tokensโฆ
OpenAI: GPT-5.2 Chat
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)17.78sResponstijd (max)38.52sResponstijd (totaal)53.33sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
17.78sResponstijd (gem.)โฆ
7,810Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3 Pro Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.34sResponstijd (max)9.34sResponstijd (totaal)9.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
9.34sResponstijd (gem.)โฆ
78Uitvoer-tokensโฆ
374Redeneer-tokensโฆ
OpenAI: GPT-5.2 Chat
4.0Gemiddelde score over alle benchmarktests.โฆ
3.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.20sResponstijd (max)3.20sResponstijd (totaal)3.20sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.20sResponstijd (gem.)โฆ
335Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3 Pro Preview
9.5Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)3.26sResponstijd (totaal)3.26sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.26sResponstijd (gem.)โฆ
69Uitvoer-tokensโฆ
754Redeneer-tokensโฆ
OpenAI: GPT-5.2 Chat
6.0Gemiddelde score over alle benchmarktests.โฆ
6.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.46sResponstijd (max)6.45sResponstijd (totaal)10.92sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.46sResponstijd (gem.)โฆ
1,528Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3 Pro Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.91sResponstijd (max)4.23sResponstijd (totaal)7.81sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.91sResponstijd (gem.)โฆ
243Uitvoer-tokensโฆ
1,197Redeneer-tokensโฆ
OpenAI: GPT-5.2 Chat
7.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.42sResponstijd (max)5.04sResponstijd (totaal)13.27sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.42sResponstijd (gem.)โฆ
1,743Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3 Pro Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.96sResponstijd (max)11.96sResponstijd (totaal)11.96sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
11.96sResponstijd (gem.)โฆ
324Uitvoer-tokensโฆ
971Redeneer-tokensโฆ
OpenAI: GPT-5.2 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.68sResponstijd (max)4.68sResponstijd (totaal)4.68sEen test is alleen volledig geslaagd als alle runs slagen.โฆ