Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 4Verkeerd antwoord: 2Responstijd (gem.)25.08sResponstijd (max)83.40sResponstijd (totaal)200.67sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)6.22sResponstijd (max)18.33sResponstijd (totaal)93.31sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Consistentie
8.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
8.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
14.411Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
3.110Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$1.297Totale kostenโฆ
$0.311Totale kostenโฆ
Slaagpercentage per poging
64.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
75.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
3Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
common.totalRuns
45 (15 x 3)common.totalRunsโฆ
45 (15 x 3)common.totalRunsโฆ
Uitvoer-tokens
26,066Uitvoer-tokensโฆ
18,953Uitvoer-tokensโฆ
Redeneer-tokens
17,071Redeneer-tokensโฆ
0Redeneer-tokensโฆ
Responstijd (gem.)
25.08sResponstijd (gem.)โฆ
6.22sResponstijd (gem.)โฆ
Responstijd (max)
83.40sResponstijd (max)โฆ
18.33sResponstijd (max)โฆ
Responstijd (totaal)
200.67sResponstijd (totaal)โฆ
93.31sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
4.0Gemiddelde score over alle benchmarktests.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Responstijd (gem.)11.88sResponstijd (max)11.88sResponstijd (totaal)11.88sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
11.88sResponstijd (gem.)โฆ
897Uitvoer-tokensโฆ
1,000Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
7.3Gemiddelde score over alle benchmarktests.โฆ
7.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.72sResponstijd (max)7.35sResponstijd (totaal)14.17sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.72sResponstijd (gem.)โฆ
3,091Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)76.66sResponstijd (max)76.66sResponstijd (totaal)76.66sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
76.66sResponstijd (gem.)โฆ
8,178Uitvoer-tokensโฆ
5,194Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.96sResponstijd (max)11.96sResponstijd (totaal)11.96sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
11.96sResponstijd (gem.)โฆ
2,614Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.37sResponstijd (max)7.37sResponstijd (totaal)7.37sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.37sResponstijd (gem.)โฆ
691Uitvoer-tokensโฆ
757Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.21sResponstijd (max)2.52sResponstijd (totaal)4.42sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.21sResponstijd (gem.)โฆ
942Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Verkeerd antwoord: 1Responstijd (gem.)83.40sResponstijd (max)83.40sResponstijd (totaal)83.40sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
83.40sResponstijd (gem.)โฆ
14,642Uitvoer-tokensโฆ
8,687Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)13.01sResponstijd (max)18.33sResponstijd (totaal)39.04sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
13.01sResponstijd (gem.)โฆ
8,264Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.43sResponstijd (max)2.43sResponstijd (totaal)2.43sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.43sResponstijd (gem.)โฆ
266Uitvoer-tokensโฆ
467Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
9.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.29sResponstijd (max)4.18sResponstijd (totaal)6.59sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.29sResponstijd (gem.)โฆ
1,455Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
7.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.60sResponstijd (max)4.66sResponstijd (totaal)9.20sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.60sResponstijd (gem.)โฆ
531Uitvoer-tokensโฆ
637Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.93sResponstijd (max)3.05sResponstijd (totaal)8.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.93sResponstijd (gem.)โฆ
1,726Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.73sResponstijd (max)9.73sResponstijd (totaal)9.73sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
9.73sResponstijd (gem.)โฆ
861Uitvoer-tokensโฆ
329Redeneer-tokensโฆ
OpenAI: GPT-5.3 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.36sResponstijd (max)8.36sResponstijd (totaal)8.36sEen test is alleen volledig geslaagd als alle runs slagen.โฆ