9.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
9.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
13.118Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
0.000Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$1.312Totale kostenโฆ
$0.000Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 4Verkeerd antwoord: 2Responstijd (gem.)22.86sResponstijd (max)83.40sResponstijd (totaal)205.71sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 2Responstijd (gem.)3.15sResponstijd (max)8.91sResponstijd (totaal)50.46sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
48Totaal runsโฆ
48Totaal runsโฆ
Uitvoer-tokens
26,254Uitvoer-tokensโฆ
1,837Uitvoer-tokensโฆ
Redeneer-tokens
17,363Redeneer-tokensโฆ
0Redeneer-tokensโฆ
Responstijd (gem.)
22.86sResponstijd (gem.)โฆ
3.15sResponstijd (gem.)โฆ
Responstijd (max)
83.40sResponstijd (max)โฆ
8.91sResponstijd (max)โฆ
Responstijd (totaal)
205.71sResponstijd (totaal)โฆ
50.46sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
4.0Gemiddelde score over alle benchmarktests.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Responstijd (gem.)11.88sResponstijd (max)11.88sResponstijd (totaal)11.88sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
11.88sResponstijd (gem.)โฆ
897Uitvoer-tokensโฆ
1,000Redeneer-tokensโฆ
Trinity Large Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)3.59sResponstijd (max)8.17sResponstijd (totaal)10.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.59sResponstijd (gem.)โฆ
587Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)76.66sResponstijd (max)76.66sResponstijd (totaal)76.66sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
76.66sResponstijd (gem.)โฆ
8,178Uitvoer-tokensโฆ
5,194Redeneer-tokensโฆ
Trinity Large Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.91sResponstijd (max)8.91sResponstijd (totaal)8.91sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
8.91sResponstijd (gem.)โฆ
294Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.37sResponstijd (max)7.37sResponstijd (totaal)7.37sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.37sResponstijd (gem.)โฆ
691Uitvoer-tokensโฆ
757Redeneer-tokensโฆ
Trinity Large Preview
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)4.66sResponstijd (totaal)6.52sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.26sResponstijd (gem.)โฆ
186Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Verkeerd antwoord: 1Responstijd (gem.)83.40sResponstijd (max)83.40sResponstijd (totaal)83.40sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
83.40sResponstijd (gem.)โฆ
14,642Uitvoer-tokensโฆ
8,687Redeneer-tokensโฆ
Trinity Large Preview
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)877msResponstijd (max)894msResponstijd (totaal)2.63sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
877msResponstijd (gem.)โฆ
25Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.04sResponstijd (max)5.04sResponstijd (totaal)5.04sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.04sResponstijd (gem.)โฆ
188Uitvoer-tokensโฆ
292Redeneer-tokensโฆ
Trinity Large Preview
3.0Gemiddelde score over alle benchmarktests.โฆ
9.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.86sResponstijd (max)2.86sResponstijd (totaal)2.86sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.86sResponstijd (gem.)โฆ
124Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.43sResponstijd (max)2.43sResponstijd (totaal)2.43sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.43sResponstijd (gem.)โฆ
266Uitvoer-tokensโฆ
467Redeneer-tokensโฆ
Trinity Large Preview
3.5Gemiddelde score over alle benchmarktests.โฆ
6.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
16.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.09sResponstijd (max)1.23sResponstijd (totaal)2.19sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.09sResponstijd (gem.)โฆ
63Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
7.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.60sResponstijd (max)4.66sResponstijd (totaal)9.20sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.60sResponstijd (gem.)โฆ
531Uitvoer-tokensโฆ
637Redeneer-tokensโฆ
Trinity Large Preview
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)3.30sResponstijd (max)4.81sResponstijd (totaal)9.91sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.30sResponstijd (gem.)โฆ
291Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Anthropic: Claude Opus 4.6
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.73sResponstijd (max)9.73sResponstijd (totaal)9.73sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
9.73sResponstijd (gem.)โฆ
861Uitvoer-tokensโฆ
329Redeneer-tokensโฆ
Trinity Large Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.67sResponstijd (max)6.67sResponstijd (totaal)6.67sEen test is alleen volledig geslaagd als alle runs slagen.โฆ