9.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
0.000Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
0.174Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.000Totale kostenโฆ
$0.007Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 2Responstijd (gem.)3.15sResponstijd (max)8.91sResponstijd (totaal)50.46sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 10Extra opmaak: 1Instructies niet gevolgd: 1Responstijd (gem.)11.68sResponstijd (max)45.14sResponstijd (totaal)116.76sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
25.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Totaal runs
48 (16 x 3)Totaal runsโฆ
48 (16 x 3)Totaal runsโฆ
Uitvoer-tokens
1,837Uitvoer-tokensโฆ
3,026Uitvoer-tokensโฆ
Redeneer-tokens
0Redeneer-tokensโฆ
0Redeneer-tokensโฆ
Responstijd (gem.)
3.15sResponstijd (gem.)โฆ
11.68sResponstijd (gem.)โฆ
Responstijd (max)
8.91sResponstijd (max)โฆ
45.14sResponstijd (max)โฆ
Responstijd (totaal)
50.46sResponstijd (totaal)โฆ
116.76sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Trinity Large Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)3.59sResponstijd (max)8.17sResponstijd (totaal)10.78sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.59sResponstijd (gem.)โฆ
587Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3 Coder Next
2.3Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)4.39sResponstijd (max)4.39sResponstijd (totaal)4.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
4.39sResponstijd (gem.)โฆ
1,315Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Trinity Large Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.91sResponstijd (max)8.91sResponstijd (totaal)8.91sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
8.91sResponstijd (gem.)โฆ
294Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3 Coder Next
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)45.14sResponstijd (max)45.14sResponstijd (totaal)45.14sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
45.14sResponstijd (gem.)โฆ
317Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Trinity Large Preview
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)4.66sResponstijd (totaal)6.52sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.26sResponstijd (gem.)โฆ
186Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3 Coder Next
5.4Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.32sResponstijd (max)1.32sResponstijd (totaal)1.32sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.32sResponstijd (gem.)โฆ
246Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Trinity Large Preview
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)877msResponstijd (max)894msResponstijd (totaal)2.63sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
877msResponstijd (gem.)โฆ
25Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3 Coder Next
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)962msResponstijd (max)962msResponstijd (totaal)962msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
962msResponstijd (gem.)โฆ
26Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Trinity Large Preview
3.0Gemiddelde score over alle benchmarktests.โฆ
9.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.86sResponstijd (max)2.86sResponstijd (totaal)2.86sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
2.86sResponstijd (gem.)โฆ
124Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3 Coder Next
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.34sResponstijd (max)1.34sResponstijd (totaal)1.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.34sResponstijd (gem.)โฆ
152Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Trinity Large Preview
3.5Gemiddelde score over alle benchmarktests.โฆ
6.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
16.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.09sResponstijd (max)1.23sResponstijd (totaal)2.19sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.09sResponstijd (gem.)โฆ
63Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3 Coder Next
4.5Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)7.71sResponstijd (max)14.65sResponstijd (totaal)15.42sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.71sResponstijd (gem.)โฆ
63Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Trinity Large Preview
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)3.30sResponstijd (max)4.81sResponstijd (totaal)9.91sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.30sResponstijd (gem.)โฆ
291Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3 Coder Next
1.3Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)22.86sResponstijd (max)42.58sResponstijd (totaal)45.73sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
22.86sResponstijd (gem.)โฆ
652Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Trinity Large Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.67sResponstijd (max)6.67sResponstijd (totaal)6.67sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
6.67sResponstijd (gem.)โฆ
267Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3 Coder Next
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.47sResponstijd (max)2.47sResponstijd (totaal)2.47sEen test is alleen volledig geslaagd als alle runs slagen.โฆ