Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)1.37sResponstijd (max)3.39sResponstijd (totaal)20.53sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 3Verkeerd antwoord: 2API-fout: 1Geen antwoord: 1Responstijd (gem.)44.84sResponstijd (max)106.00sResponstijd (totaal)672.55sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
Consistentie
9.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
6.7Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
Kosten per resultaat
0.142Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
4.189Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).โฆ
Totale kosten
$0.015Totale kostenโฆ
$0.336Totale kostenโฆ
Slaagpercentage per poging
71.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
80.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
Instabiele tests
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
6Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
common.totalRuns
45 (15 x 3)common.totalRunsโฆ
45 (15 x 3)common.totalRunsโฆ
Uitvoer-tokens
4,646Uitvoer-tokensโฆ
5,475Uitvoer-tokensโฆ
Redeneer-tokens
0Redeneer-tokensโฆ
165,513Redeneer-tokensโฆ
Responstijd (gem.)
1.37sResponstijd (gem.)โฆ
44.84sResponstijd (gem.)โฆ
Responstijd (max)
3.39sResponstijd (max)โฆ
106.00sResponstijd (max)โฆ
Responstijd (totaal)
20.53sResponstijd (totaal)โฆ
672.55sResponstijd (totaal)โฆ
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Gem. score vs Responstijd (gem.)
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3.1 Flash Lite Preview
6.0Gemiddelde score over alle benchmarktests.โฆ
7.8Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
55.6%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.16sResponstijd (max)1.47sResponstijd (totaal)3.49sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.16sResponstijd (gem.)โฆ
1,086Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-35B-A3B
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)21.75sResponstijd (max)34.96sResponstijd (totaal)65.26sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
21.75sResponstijd (gem.)โฆ
429Uitvoer-tokensโฆ
36,235Redeneer-tokensโฆ
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3.1 Flash Lite Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.20sResponstijd (max)3.20sResponstijd (totaal)3.20sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.20sResponstijd (gem.)โฆ
339Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-35B-A3B
10.0Gemiddelde score over alle benchmarktests.โฆ
1.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)75.34sResponstijd (max)75.34sResponstijd (totaal)75.34sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
75.34sResponstijd (gem.)โฆ
775Uitvoer-tokensโฆ
12,485Redeneer-tokensโฆ
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3.1 Flash Lite Preview
9.9Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.22sResponstijd (max)1.33sResponstijd (totaal)2.44sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.22sResponstijd (gem.)โฆ
399Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-35B-A3B
5.5Gemiddelde score over alle benchmarktests.โฆ
5.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
83.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
1Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)59.33sResponstijd (max)97.12sResponstijd (totaal)118.65sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
59.33sResponstijd (gem.)โฆ
235Uitvoer-tokensโฆ
19,493Redeneer-tokensโฆ
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3.1 Flash Lite Preview
4.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)942msResponstijd (max)1.12sResponstijd (totaal)2.83sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
942msResponstijd (gem.)โฆ
568Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-35B-A3B
10.0Gemiddelde score over alle benchmarktests.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
44.5%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Verkeerd antwoord: 1Responstijd (gem.)88.34sResponstijd (max)106.00sResponstijd (totaal)265.01sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
88.34sResponstijd (gem.)โฆ
41Uitvoer-tokensโฆ
46,368Redeneer-tokensโฆ
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3.1 Flash Lite Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.13sResponstijd (max)1.14sResponstijd (totaal)2.27sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
1.13sResponstijd (gem.)โฆ
574Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-35B-A3B
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.45sResponstijd (max)43.36sResponstijd (totaal)48.89sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
24.45sResponstijd (gem.)โฆ
97Uitvoer-tokensโฆ
17,361Redeneer-tokensโฆ
Puzzle Solving
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3.1 Flash Lite Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)972msResponstijd (max)1.13sResponstijd (totaal)2.92sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
972msResponstijd (gem.)โฆ
898Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-35B-A3B
4.0Gemiddelde score over alle benchmarktests.โฆ
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
77.8%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
2Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)31.58sResponstijd (max)60.18sResponstijd (totaal)94.75sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
31.58sResponstijd (gem.)โฆ
3,589Uitvoer-tokensโฆ
32,206Redeneer-tokensโฆ
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Google: Gemini 3.1 Flash Lite Preview
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.39sResponstijd (max)3.39sResponstijd (totaal)3.39sEen test is alleen volledig geslaagd als alle runs slagen.โฆ
3.39sResponstijd (gem.)โฆ
782Uitvoer-tokensโฆ
0Redeneer-tokensโฆ
Qwen: Qwen3.5-35B-A3B
10.0Gemiddelde score over alle benchmarktests.โฆ
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).โฆ
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.โฆ
0Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).โฆ
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.65sResponstijd (max)4.65sResponstijd (totaal)4.65sEen test is alleen volledig geslaagd als alle runs slagen.โฆ