9.45Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
8.26Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
2.261Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
2.835Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
0.151Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.227Totale kostenโฆ
$0.256Totale kostenโฆ
$0.016Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Responstijd (gem.)7.16sResponstijd (max)38.52sResponstijd (totaal)100.19sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 2Responstijd (gem.)5.81sResponstijd (max)18.33sResponstijd (totaal)81.36sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Responstijd (gem.)2.88sResponstijd (max)9.54sResponstijd (totaal)40.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
73.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
73.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
71.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
3Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Uitvoer-tokens
14,267Uitvoer-tokensโฆ
16,339Uitvoer-tokensโฆ
1,317Uitvoer-tokensโฆ
Redeneer-tokens
0Redeneer-tokensโฆ
0Redeneer-tokensโฆ
6,126Redeneer-tokensโฆ
Topmodellen op score
Score vs totale kosten
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.2 Chat
10.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.97sResponstijd (max)4.78sResponstijd (totaal)11.90sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1,651Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
7.33Gemiddelde score over alle benchmarktests.โฆ
7.49Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.72sResponstijd (max)7.35sResponstijd (totaal)14.17sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3,091Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
7.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.18sResponstijd (max)3.18sResponstijd (totaal)6.53sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
456Uitvoer-tokensโฆ
1,224Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.2 Chat
9.88Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.05sResponstijd (max)3.33sResponstijd (totaal)6.10sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
980Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
9.88Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.21sResponstijd (max)2.52sResponstijd (totaal)4.42sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
942Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
9.88Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.00sResponstijd (max)3.74sResponstijd (totaal)5.99sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
291Uitvoer-tokensโฆ
696Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.2 Chat
4.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)17.78sResponstijd (max)38.52sResponstijd (totaal)53.33sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7,810Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
1.00Gemiddelde score over alle benchmarktests.โฆ
4.41Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)13.01sResponstijd (max)18.33sResponstijd (totaal)39.04sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
8,264Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
4.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)2.36sResponstijd (max)3.51sResponstijd (totaal)7.07sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
18Uitvoer-tokensโฆ
1,212Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.2 Chat
5.50Gemiddelde score over alle benchmarktests.โฆ
6.13Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.46sResponstijd (max)6.45sResponstijd (totaal)10.92sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1,528Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
8.50Gemiddelde score over alle benchmarktests.โฆ
9.99Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.29sResponstijd (max)4.18sResponstijd (totaal)6.59sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1,455Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
8.50Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.49sResponstijd (max)1.66sResponstijd (totaal)2.99sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
72Uitvoer-tokensโฆ
753Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.2 Chat
7.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.42sResponstijd (max)5.04sResponstijd (totaal)13.27sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1,743Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
10.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.93sResponstijd (max)3.05sResponstijd (totaal)8.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1,726Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
10.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.76sResponstijd (max)5.08sResponstijd (totaal)8.27sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
243Uitvoer-tokensโฆ
1,248Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.2 Chat
10.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.68sResponstijd (max)4.68sResponstijd (totaal)4.68sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
555Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
10.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.36sResponstijd (max)8.36sResponstijd (totaal)8.36sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
861Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
10.00Gemiddelde score over alle benchmarktests.โฆ
10.00Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.54sResponstijd (max)9.54sResponstijd (totaal)9.54sEen test is alleen volledig geslaagd als alle runs slagen.โฆ