9.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
9.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
8.525Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
0.000Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$1.023Totale kostenโฆ
$0.000Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)11.23sResponstijd (max)46.35sResponstijd (totaal)89.84sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Verkeerd antwoord: 3Responstijd (gem.)29.10sResponstijd (max)170.45sResponstijd (totaal)290.96sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
77.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
68.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
48 (16 x 3)Totaal runsโฆ
48 (16 x 3)Totaal runsโฆ
Uitvoer-tokens
35,159Uitvoer-tokensโฆ
71,452Uitvoer-tokensโฆ
Redeneer-tokens
24,687Redeneer-tokensโฆ
155,147Redeneer-tokensโฆ
Responstijd (gem.)
11.23sResponstijd (gem.)โฆ
29.10sResponstijd (gem.)โฆ
Responstijd (max)
46.35sResponstijd (max)โฆ
170.45sResponstijd (max)โฆ
Responstijd (totaal)
89.84sResponstijd (totaal)โฆ
290.96sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Sonnet 4.6
7.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Responstijd (gem.)4.95sResponstijd (max)4.95sResponstijd (totaal)4.95sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.95sResponstijd (gem.)โฆ
1,031Uitvoer-tokensโฆ
1,093Redeneer-tokensโฆ
StepFun: Step 3.5 Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.54sResponstijd (max)32.30sResponstijd (totaal)37.07sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
18.54sResponstijd (gem.)โฆ
13,924Uitvoer-tokensโฆ
17,208Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Sonnet 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)46.35sResponstijd (max)46.35sResponstijd (totaal)46.35sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
46.35sResponstijd (gem.)โฆ
5,871Uitvoer-tokensโฆ
3,962Redeneer-tokensโฆ
StepFun: Step 3.5 Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)29.57sResponstijd (max)29.57sResponstijd (totaal)29.57sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
29.57sResponstijd (gem.)โฆ
1,176Uitvoer-tokensโฆ
12,984Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Sonnet 4.6
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.90sResponstijd (max)13.90sResponstijd (totaal)13.90sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
13.90sResponstijd (gem.)โฆ
649Uitvoer-tokensโฆ
742Redeneer-tokensโฆ
StepFun: Step 3.5 Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.01sResponstijd (max)15.01sResponstijd (totaal)15.01sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
15.01sResponstijd (gem.)โฆ
600Uitvoer-tokensโฆ
13,886Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Sonnet 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
11.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
0msResponstijd (gem.)โฆ
25,790Uitvoer-tokensโฆ
16,919Redeneer-tokensโฆ
StepFun: Step 3.5 Flash
4.0Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)170.45sResponstijd (max)170.45sResponstijd (totaal)170.45sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
170.45sResponstijd (gem.)โฆ
45,350Uitvoer-tokensโฆ
90,436Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Sonnet 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.94sResponstijd (max)4.94sResponstijd (totaal)4.94sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.94sResponstijd (gem.)โฆ
256Uitvoer-tokensโฆ
433Redeneer-tokensโฆ
StepFun: Step 3.5 Flash
6.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)6.54sResponstijd (max)6.54sResponstijd (totaal)6.54sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
6.54sResponstijd (gem.)โฆ
2,214Uitvoer-tokensโฆ
2,584Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Sonnet 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.61sResponstijd (max)2.61sResponstijd (totaal)2.61sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.61sResponstijd (gem.)โฆ
318Uitvoer-tokensโฆ
552Redeneer-tokensโฆ
StepFun: Step 3.5 Flash
9.0Gemiddelde score over alle benchmarktests.โฆ
6.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.98sResponstijd (max)4.98sResponstijd (totaal)4.98sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.98sResponstijd (gem.)โฆ
2,284Uitvoer-tokensโฆ
3,412Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Sonnet 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.80sResponstijd (max)5.22sResponstijd (totaal)9.60sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.80sResponstijd (gem.)โฆ
589Uitvoer-tokensโฆ
635Redeneer-tokensโฆ
StepFun: Step 3.5 Flash
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)7.72sResponstijd (max)10.60sResponstijd (totaal)15.44sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.72sResponstijd (gem.)โฆ
5,629Uitvoer-tokensโฆ
10,835Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Sonnet 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.48sResponstijd (max)7.48sResponstijd (totaal)7.48sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.48sResponstijd (gem.)โฆ
655Uitvoer-tokensโฆ
351Redeneer-tokensโฆ
StepFun: Step 3.5 Flash
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.91sResponstijd (max)11.91sResponstijd (totaal)11.91sEen test is alleen volledig geslaagd als alle runs slagen.โฆ