8.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
7.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
3.163Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
0.720Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.317Totale kostenโฆ
$0.072Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 2Responstijd (gem.)5.96sResponstijd (max)18.33sResponstijd (totaal)95.30sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 3API-fout: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)70.81sResponstijd (max)234.29sResponstijd (totaal)1132.90sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
70.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
81.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
3Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
5Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
common.totalRuns
48 (16 x 3)common.totalRunsโฆ
48 (16 x 3)common.totalRunsโฆ
Uitvoer-tokens
19,272Uitvoer-tokensโฆ
1,807Uitvoer-tokensโฆ
Redeneer-tokens
0Redeneer-tokensโฆ
169,952Redeneer-tokensโฆ
Responstijd (gem.)
5.96sResponstijd (gem.)โฆ
70.81sResponstijd (gem.)โฆ
Responstijd (max)
18.33sResponstijd (max)โฆ
234.29sResponstijd (max)โฆ
Responstijd (totaal)
95.30sResponstijd (totaal)โฆ
1132.90sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.3 Chat
7.3Gemiddelde score over alle benchmarktests.โฆ
7.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.72sResponstijd (max)7.35sResponstijd (totaal)14.17sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.72sResponstijd (gem.)โฆ
3,091Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)71.35sResponstijd (max)168.31sResponstijd (totaal)214.06sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
71.35sResponstijd (gem.)โฆ
363Uitvoer-tokensโฆ
23,645Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.3 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.96sResponstijd (max)11.96sResponstijd (totaal)11.96sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
11.96sResponstijd (gem.)โฆ
2,614Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.78sResponstijd (max)17.78sResponstijd (totaal)17.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
17.78sResponstijd (gem.)โฆ
483Uitvoer-tokensโฆ
8,270Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.3 Chat
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.21sResponstijd (max)2.52sResponstijd (totaal)4.42sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.21sResponstijd (gem.)โฆ
942Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-Flash
5.5Gemiddelde score over alle benchmarktests.โฆ
5.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)56.99sResponstijd (max)80.14sResponstijd (totaal)113.98sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
56.99sResponstijd (gem.)โฆ
235Uitvoer-tokensโฆ
16,237Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.3 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)13.01sResponstijd (max)18.33sResponstijd (totaal)39.04sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
13.01sResponstijd (gem.)โฆ
8,264Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-Flash
4.0Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)146.50sResponstijd (max)234.29sResponstijd (totaal)439.49sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
146.50sResponstijd (gem.)โฆ
58Uitvoer-tokensโฆ
43,615Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.3 Chat
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.99sResponstijd (max)1.99sResponstijd (totaal)1.99sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.99sResponstijd (gem.)โฆ
319Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-Flash
5.0Gemiddelde score over alle benchmarktests.โฆ
3.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)40.05sResponstijd (max)40.05sResponstijd (totaal)40.05sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
40.05sResponstijd (gem.)โฆ
99Uitvoer-tokensโฆ
38,486Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.3 Chat
9.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.29sResponstijd (max)4.18sResponstijd (totaal)6.59sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.29sResponstijd (gem.)โฆ
1,455Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)63.49sResponstijd (max)111.61sResponstijd (totaal)126.98sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
63.49sResponstijd (gem.)โฆ
98Uitvoer-tokensโฆ
14,139Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.3 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.93sResponstijd (max)3.05sResponstijd (totaal)8.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.93sResponstijd (gem.)โฆ
1,726Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-Flash
4.0Gemiddelde score over alle benchmarktests.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Responstijd (gem.)56.74sResponstijd (max)115.01sResponstijd (totaal)170.23sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
56.74sResponstijd (gem.)โฆ
162Uitvoer-tokensโฆ
24,276Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
OpenAI: GPT-5.3 Chat
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.36sResponstijd (max)8.36sResponstijd (totaal)8.36sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
8.36sResponstijd (gem.)โฆ
861Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.33sResponstijd (max)10.33sResponstijd (totaal)10.33sEen test is alleen volledig geslaagd als alle runs slagen.โฆ