9.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
9.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
0.280Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
19.243Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.028Totale kostenโฆ
$2.310Totale kostenโฆ
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 4Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)65.09sResponstijd (max)262.83sResponstijd (totaal)846.14sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Responstijd (gem.)68.83sResponstijd (max)280.52sResponstijd (totaal)1101.32sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Slaagpercentage per poging
68.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
77.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
common.totalRuns
48 (16 x 3)common.totalRunsโฆ
48 (16 x 3)common.totalRunsโฆ
Uitvoer-tokens
1,965Uitvoer-tokensโฆ
1,283Uitvoer-tokensโฆ
Redeneer-tokens
58,456Redeneer-tokensโฆ
1,533,310Redeneer-tokensโฆ
Responstijd (gem.)
65.09sResponstijd (gem.)โฆ
68.83sResponstijd (gem.)โฆ
Responstijd (max)
262.83sResponstijd (max)โฆ
280.52sResponstijd (max)โฆ
Responstijd (totaal)
846.14sResponstijd (totaal)โฆ
1101.32sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
ByteDance Seed: Seed-2.0-Mini
7.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)98.99sResponstijd (max)182.10sResponstijd (totaal)296.96sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
98.99sResponstijd (gem.)โฆ
354Uitvoer-tokensโฆ
9,352Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)43.87sResponstijd (max)121.88sResponstijd (totaal)131.62sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
43.87sResponstijd (gem.)โฆ
144Uitvoer-tokensโฆ
193,077Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
ByteDance Seed: Seed-2.0-Mini
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)262.83sResponstijd (max)262.83sResponstijd (totaal)262.83sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
262.83sResponstijd (gem.)โฆ
404Uitvoer-tokensโฆ
29,806Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)280.52sResponstijd (max)280.52sResponstijd (totaal)280.52sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
280.52sResponstijd (gem.)โฆ
335Uitvoer-tokensโฆ
380,440Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
ByteDance Seed: Seed-2.0-Mini
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.27sResponstijd (max)27.52sResponstijd (totaal)48.54sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
24.27sResponstijd (gem.)โฆ
246Uitvoer-tokensโฆ
2,743Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.16sResponstijd (max)8.54sResponstijd (totaal)14.31sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
7.16sResponstijd (gem.)โฆ
279Uitvoer-tokensโฆ
6,186Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
ByteDance Seed: Seed-2.0-Mini
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 3Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.โฆ
0msResponstijd (gem.)โฆ
0Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)127.58sResponstijd (max)133.93sResponstijd (totaal)382.74sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
127.58sResponstijd (gem.)โฆ
18Uitvoer-tokensโฆ
566,202Redeneer-tokensโฆ
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
ByteDance Seed: Seed-2.0-Mini
6.0Gemiddelde score over alle benchmarktests.โฆ
3.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)36.65sResponstijd (max)36.65sResponstijd (totaal)36.65sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
36.65sResponstijd (gem.)โฆ
213Uitvoer-tokensโฆ
4,210Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.25sResponstijd (max)5.25sResponstijd (totaal)5.25sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
5.25sResponstijd (gem.)โฆ
117Uitvoer-tokensโฆ
3,915Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
ByteDance Seed: Seed-2.0-Mini
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.47sResponstijd (max)19.46sResponstijd (totaal)34.93sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
17.47sResponstijd (gem.)โฆ
69Uitvoer-tokensโฆ
2,050Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
9.0Gemiddelde score over alle benchmarktests.โฆ
6.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)70.07sResponstijd (max)136.53sResponstijd (totaal)140.14sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
70.07sResponstijd (gem.)โฆ
69Uitvoer-tokensโฆ
190,053Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
ByteDance Seed: Seed-2.0-Mini
7.0Gemiddelde score over alle benchmarktests.โฆ
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
88.9%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)25.85sResponstijd (max)32.95sResponstijd (totaal)77.55sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
25.85sResponstijd (gem.)โฆ
457Uitvoer-tokensโฆ
5,060Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
7.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)46.33sResponstijd (max)134.22sResponstijd (totaal)139.00sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
46.33sResponstijd (gem.)โฆ
87Uitvoer-tokensโฆ
190,953Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
ByteDance Seed: Seed-2.0-Mini
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)88.68sResponstijd (max)88.68sResponstijd (totaal)88.68sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
88.68sResponstijd (gem.)โฆ
222Uitvoer-tokensโฆ
5,235Redeneer-tokensโฆ
Google: Gemini 3.1 Flash Lite Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.73sResponstijd (max)7.73sResponstijd (totaal)7.73sEen test is alleen volledig geslaagd als alle runs slagen.โฆ