89Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
90Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
78Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
6.533Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
4.418Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
3.057Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.784Totale kostenโฆ
$0.531Totale kostenโฆ
$0.306Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)21.06sResponstijd (max)100.41sResponstijd (totaal)315.95sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)17.37sResponstijd (max)100.93sResponstijd (totaal)260.52sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Geen antwoord: 1Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)16.71sResponstijd (max)77.80sResponstijd (totaal)133.69sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
86.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
80.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
4Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Uitvoer-tokens
1,611Uitvoer-tokensโฆ
1,577Uitvoer-tokensโฆ
2,058Uitvoer-tokensโฆ
Redeneer-tokens
46,321Redeneer-tokensโฆ
33,017Redeneer-tokensโฆ
16,542Redeneer-tokensโฆ
Topmodellen op score
Score vs totale kosten
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.4
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.02sResponstijd (max)6.42sResponstijd (totaal)15.06sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
216Uitvoer-tokensโฆ
1,466Redeneer-tokensโฆ
OpenAI: GPT-5.3-Codex
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.69sResponstijd (max)6.68sResponstijd (totaal)14.06sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
216Uitvoer-tokensโฆ
1,421Redeneer-tokensโฆ
OpenAI: GPT-5.2
70Gemiddelde score over alle benchmarktests.โฆ
73Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)14.34sResponstijd (max)14.34sResponstijd (totaal)14.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
549Uitvoer-tokensโฆ
2,002Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.4
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.57sResponstijd (max)20.57sResponstijd (totaal)20.57sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
301Uitvoer-tokensโฆ
3,543Redeneer-tokensโฆ
OpenAI: GPT-5.3-Codex
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)19.56sResponstijd (max)19.56sResponstijd (totaal)19.56sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
364Uitvoer-tokensโฆ
2,731Redeneer-tokensโฆ
OpenAI: GPT-5.2
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)14.06sResponstijd (max)14.06sResponstijd (totaal)14.06sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
291Uitvoer-tokensโฆ
1,757Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.4
99Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.32sResponstijd (max)5.40sResponstijd (totaal)10.64sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
234Uitvoer-tokensโฆ
804Redeneer-tokensโฆ
OpenAI: GPT-5.3-Codex
99Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.07sResponstijd (max)3.59sResponstijd (totaal)6.15sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
234Uitvoer-tokensโฆ
728Redeneer-tokensโฆ
OpenAI: GPT-5.2
99Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.15sResponstijd (max)3.15sResponstijd (totaal)3.15sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
234Uitvoer-tokensโฆ
420Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.4
40Gemiddelde score over alle benchmarktests.โฆ
72Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)74.27sResponstijd (max)100.41sResponstijd (totaal)222.80sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
61Uitvoer-tokensโฆ
34,748Redeneer-tokensโฆ
OpenAI: GPT-5.3-Codex
40Gemiddelde score over alle benchmarktests.โฆ
72Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)64.31sResponstijd (max)100.93sResponstijd (totaal)192.94sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
64Uitvoer-tokensโฆ
25,308Redeneer-tokensโฆ
OpenAI: GPT-5.2
40Gemiddelde score over alle benchmarktests.โฆ
72Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)77.80sResponstijd (max)77.80sResponstijd (totaal)77.80sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
42Uitvoer-tokensโฆ
10,342Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.4
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.11sResponstijd (max)3.68sResponstijd (totaal)6.22sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
93Uitvoer-tokensโฆ
897Redeneer-tokensโฆ
OpenAI: GPT-5.3-Codex
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.04sResponstijd (max)3.44sResponstijd (totaal)6.07sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
93Uitvoer-tokensโฆ
693Redeneer-tokensโฆ
OpenAI: GPT-5.2
95Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.12sResponstijd (max)3.12sResponstijd (totaal)3.12sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
94Uitvoer-tokensโฆ
614Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.4
70Gemiddelde score over alle benchmarktests.โฆ
72Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)9.13sResponstijd (max)18.14sResponstijd (totaal)27.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
442Uitvoer-tokensโฆ
3,832Redeneer-tokensโฆ
OpenAI: GPT-5.3-Codex
93Gemiddelde score over alle benchmarktests.โฆ
79Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.12sResponstijd (max)8.73sResponstijd (totaal)15.37sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
352Uitvoer-tokensโฆ
1,644Redeneer-tokensโฆ
OpenAI: GPT-5.2
70Gemiddelde score over alle benchmarktests.โฆ
73Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.47sResponstijd (max)6.45sResponstijd (totaal)10.94sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
609Uitvoer-tokensโฆ
938Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.4
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.28sResponstijd (max)13.28sResponstijd (totaal)13.28sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
264Uitvoer-tokensโฆ
1,031Redeneer-tokensโฆ
OpenAI: GPT-5.3-Codex
100Gemiddelde score over alle benchmarktests.โฆ
100Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.37sResponstijd (max)6.37sResponstijd (totaal)6.37sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
254Uitvoer-tokensโฆ
492Redeneer-tokensโฆ
OpenAI: GPT-5.2
100Gemiddelde score over alle benchmarktests.โฆ
16Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)10.30sResponstijd (max)10.30sResponstijd (totaal)10.30sEen test is alleen volledig geslaagd als alle runs slagen.โฆ