Volg de beste SOTA AI-modellen met AI BENCHY's benchmark-leaderboard—een makkelijke manier om te zien welke modellen nu vooroplopen in score, redeneerkwaliteit, betrouwbaarheid en waarde. Sorteren op: Correcte tests ↓.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-03-06Geëvalueerde modellen: 55
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.36sResponstijd (max)50.16sResponstijd (totaal)111.21s…
Totaal tests: 16Foute tests: 0Slaagpercentage per poging: 100.0%Instabiele tests: 0…Uitvoer-tokens: 1,634Redeneer-tokens: 47,907Responstijd: gem. 12.36s · totaal 111.21s · max 50.16s
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.61sResponstijd (max)5.61sResponstijd (totaal)5.61s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)50.16sResponstijd (max)50.16sResponstijd (totaal)50.16s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.72sResponstijd (max)4.72sResponstijd (totaal)4.72s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)21.12sResponstijd (max)21.12sResponstijd (totaal)21.12s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.09sResponstijd (max)4.09sResponstijd (totaal)4.09s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.10sResponstijd (max)6.10sResponstijd (totaal)6.10s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.43sResponstijd (max)4.68sResponstijd (totaal)8.85s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.55sResponstijd (max)10.55sResponstijd (totaal)10.55s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)16.60sResponstijd (max)40.61sResponstijd (totaal)149.36s…
Totaal tests: 16Foute tests: 1Slaagpercentage per poging: 93.8%Instabiele tests: 0…Uitvoer-tokens: 1,521Redeneer-tokens: 35,656Responstijd: gem. 16.60s · totaal 149.36s · max 40.61s
Verkeerd antwoord: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.52sResponstijd (max)9.52sResponstijd (totaal)9.52s
Combined: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)40.61sResponstijd (max)40.61sResponstijd (totaal)40.61s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.72sResponstijd (max)7.72sResponstijd (totaal)7.72s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)32.73sResponstijd (max)32.73sResponstijd (totaal)32.73s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.77sResponstijd (max)11.77sResponstijd (totaal)11.77s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.56sResponstijd (max)9.56sResponstijd (totaal)9.56s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.15sResponstijd (max)8.49sResponstijd (totaal)14.30s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.15sResponstijd (max)23.15sResponstijd (totaal)23.15s
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Verkeerd antwoord: 1Responstijd (gem.)34.45sResponstijd (max)79.86sResponstijd (totaal)310.09s…
Totaal tests: 16Foute tests: 3Slaagpercentage per poging: 85.4%Instabiele tests: 1…Uitvoer-tokens: 1,735Redeneer-tokens: 77,212Responstijd: gem. 34.45s · totaal 310.09s · max 79.86s
Time-out: 2Verkeerd antwoord: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.37sResponstijd (max)10.37sResponstijd (totaal)10.37s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)46.85sResponstijd (max)46.85sResponstijd (totaal)46.85s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)46.91sResponstijd (max)46.91sResponstijd (totaal)46.91s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)17.50sResponstijd (max)17.50sResponstijd (totaal)17.50s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)79.86sResponstijd (max)79.86sResponstijd (totaal)79.86s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.93sResponstijd (max)31.93sResponstijd (totaal)31.93s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)34.57sResponstijd (max)49.12sResponstijd (totaal)69.13s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.54sResponstijd (max)7.54sResponstijd (totaal)7.54s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)6.11sResponstijd (max)14.72sResponstijd (totaal)97.74s…
Totaal tests: 16Foute tests: 3Slaagpercentage per poging: 83.3%Instabiele tests: 1…Uitvoer-tokens: 1,586Redeneer-tokens: 19,950Responstijd: gem. 6.11s · totaal 97.74s · max 14.72s
Verkeerd antwoord: 3
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.50sResponstijd (max)4.31sResponstijd (totaal)10.49s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.27sResponstijd (max)3.27sResponstijd (totaal)3.27s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.40sResponstijd (max)14.72sResponstijd (totaal)18.80s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)8.05sResponstijd (max)14.40sResponstijd (totaal)24.15s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.68sResponstijd (max)3.68sResponstijd (totaal)3.68s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.02sResponstijd (max)7.35sResponstijd (totaal)14.03s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.11sResponstijd (max)10.27sResponstijd (totaal)18.32s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.99sResponstijd (max)4.99sResponstijd (totaal)4.99s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)7.15sResponstijd (max)11.96sResponstijd (totaal)64.34s…
Totaal tests: 16Foute tests: 3Slaagpercentage per poging: 81.3%Instabiele tests: 0…Uitvoer-tokens: 1,502Redeneer-tokens: 9,706Responstijd: gem. 7.15s · totaal 64.34s · max 11.96s
Verkeerd antwoord: 3
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.75sResponstijd (max)3.75sResponstijd (totaal)3.75s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)10.37sResponstijd (max)10.37sResponstijd (totaal)10.37s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.84sResponstijd (max)10.84sResponstijd (totaal)10.84s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)7.01sResponstijd (max)7.01sResponstijd (totaal)7.01s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.34sResponstijd (max)9.34sResponstijd (totaal)9.34s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)3.26sResponstijd (totaal)3.26s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.91sResponstijd (max)4.23sResponstijd (totaal)7.81s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.96sResponstijd (max)11.96sResponstijd (totaal)11.96s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 2Responstijd (gem.)16.59sResponstijd (max)100.93sResponstijd (totaal)265.39s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 83.3%Instabiele tests: 2…Uitvoer-tokens: 1,764Redeneer-tokens: 33,348Responstijd: gem. 16.59s · totaal 265.39s · max 100.93s
Instructies niet gevolgd: 2Verkeerd antwoord: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.69sResponstijd (max)6.68sResponstijd (totaal)14.06s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)19.56sResponstijd (max)19.56sResponstijd (totaal)19.56s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.07sResponstijd (max)3.59sResponstijd (totaal)6.15s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)64.31sResponstijd (max)100.93sResponstijd (totaal)192.94s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.87sResponstijd (max)4.87sResponstijd (totaal)4.87s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.04sResponstijd (max)3.44sResponstijd (totaal)6.07s
Puzzle Solving: 9.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.12sResponstijd (max)8.73sResponstijd (totaal)15.37s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.37sResponstijd (max)6.37sResponstijd (totaal)6.37s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)52.13sResponstijd (max)163.96sResponstijd (totaal)834.16s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 81.3%Instabiele tests: 2…Uitvoer-tokens: 1,658Redeneer-tokens: 200,786Responstijd: gem. 52.13s · totaal 834.16s · max 163.96s
Instructies niet gevolgd: 2Time-out: 1Verkeerd antwoord: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.69sResponstijd (max)10.84sResponstijd (totaal)29.06s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)163.96sResponstijd (max)163.96sResponstijd (totaal)163.96s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)30.26sResponstijd (max)32.03sResponstijd (totaal)60.52s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)79.53sResponstijd (max)95.52sResponstijd (totaal)238.59s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)101.41sResponstijd (max)101.41sResponstijd (totaal)101.41s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)19.66sResponstijd (max)32.25sResponstijd (totaal)39.32s
Puzzle Solving: 8.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)64.61sResponstijd (max)123.57sResponstijd (totaal)193.84s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.45sResponstijd (max)7.45sResponstijd (totaal)7.45s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Responstijd (gem.)68.83sResponstijd (max)280.52sResponstijd (totaal)1101.32s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 77.1%Instabiele tests: 1…Uitvoer-tokens: 1,283Redeneer-tokens: 1,533,310Responstijd: gem. 68.83s · totaal 1101.32s · max 280.52s
Verkeerd antwoord: 3Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)43.87sResponstijd (max)121.88sResponstijd (totaal)131.62s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)280.52sResponstijd (max)280.52sResponstijd (totaal)280.52s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.16sResponstijd (max)8.54sResponstijd (totaal)14.31s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)127.58sResponstijd (max)133.93sResponstijd (totaal)382.74s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.25sResponstijd (max)5.25sResponstijd (totaal)5.25s
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)70.07sResponstijd (max)136.53sResponstijd (totaal)140.14s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)46.33sResponstijd (max)134.22sResponstijd (totaal)139.00s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.73sResponstijd (max)7.73sResponstijd (totaal)7.73s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 2Responstijd (gem.)20.05sResponstijd (max)100.41sResponstijd (totaal)320.87s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 83.3%Instabiele tests: 3…Uitvoer-tokens: 1,756Redeneer-tokens: 46,642Responstijd: gem. 20.05s · totaal 320.87s · max 100.41s
Instructies niet gevolgd: 2Verkeerd antwoord: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.02sResponstijd (max)6.42sResponstijd (totaal)15.06s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.57sResponstijd (max)20.57sResponstijd (totaal)20.57s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.32sResponstijd (max)5.40sResponstijd (totaal)10.64s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)74.27sResponstijd (max)100.41sResponstijd (totaal)222.80s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.92sResponstijd (max)4.92sResponstijd (totaal)4.92s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.11sResponstijd (max)3.68sResponstijd (totaal)6.22s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)9.13sResponstijd (max)18.14sResponstijd (totaal)27.39s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.28sResponstijd (max)13.28sResponstijd (totaal)13.28s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Time-out: 1Responstijd (gem.)29.74sResponstijd (max)119.29sResponstijd (totaal)475.83s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 79.2%Instabiele tests: 2…Uitvoer-tokens: 17,292Redeneer-tokens: 145,625Responstijd: gem. 29.74s · totaal 475.83s · max 119.29s
Verkeerd antwoord: 3Time-out: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.99sResponstijd (max)11.62sResponstijd (totaal)20.98s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)107.79sResponstijd (max)107.79sResponstijd (totaal)107.79s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.41sResponstijd (max)29.79sResponstijd (totaal)46.83s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)63.40sResponstijd (max)119.29sResponstijd (totaal)190.20s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)34.11sResponstijd (max)34.11sResponstijd (totaal)34.11s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.88sResponstijd (max)15.44sResponstijd (totaal)19.76s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.18sResponstijd (max)31.99sResponstijd (totaal)51.55s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.60sResponstijd (max)4.60sResponstijd (totaal)4.60s
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)11.23sResponstijd (max)46.35sResponstijd (totaal)89.84s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 77.1%Instabiele tests: 1…Uitvoer-tokens: 35,159Redeneer-tokens: 24,687Responstijd: gem. 11.23s · totaal 89.84s · max 46.35s
Extra opmaak: 2Time-out: 1Verkeerd antwoord: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Responstijd (gem.)4.95sResponstijd (max)4.95sResponstijd (totaal)4.95s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)46.35sResponstijd (max)46.35sResponstijd (totaal)46.35s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.90sResponstijd (max)13.90sResponstijd (totaal)13.90s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.94sResponstijd (max)4.94sResponstijd (totaal)4.94s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.61sResponstijd (max)2.61sResponstijd (totaal)2.61s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.80sResponstijd (max)5.22sResponstijd (totaal)9.60s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.48sResponstijd (max)7.48sResponstijd (totaal)7.48s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)3.83sResponstijd (max)14.93sResponstijd (totaal)61.25s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 68.8%Instabiele tests: 0…Uitvoer-tokens: 1,731Redeneer-tokens: 25,821Responstijd: gem. 3.83s · totaal 61.25s · max 14.93s
Verkeerd antwoord: 4Instructies niet gevolgd: 1
Anti-AI Tricks: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.53sResponstijd (max)3.89sResponstijd (totaal)7.58s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)14.93sResponstijd (max)14.93sResponstijd (totaal)14.93s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.29sResponstijd (max)2.31sResponstijd (totaal)4.59s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)4.21sResponstijd (max)5.86sResponstijd (totaal)12.62s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.16sResponstijd (max)3.16sResponstijd (totaal)3.16s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.91sResponstijd (max)1.93sResponstijd (totaal)3.82s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.58sResponstijd (max)4.41sResponstijd (totaal)10.75s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.80sResponstijd (max)3.80sResponstijd (totaal)3.80s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Geen antwoord: 1Time-out: 1Responstijd (gem.)16.16sResponstijd (max)28.96sResponstijd (totaal)129.26s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 83.3%Instabiele tests: 4…Uitvoer-tokens: 19,773Redeneer-tokens: 36,459Responstijd: gem. 16.16s · totaal 129.26s · max 28.96s
Verkeerd antwoord: 2Instructies niet gevolgd: 1Geen antwoord: 1Time-out: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)22.26sResponstijd (max)22.26sResponstijd (totaal)22.26s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)28.96sResponstijd (max)28.96sResponstijd (totaal)28.96s
Data parsing and extraction: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)8.90sResponstijd (max)8.90sResponstijd (totaal)8.90s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)14.69sResponstijd (max)14.69sResponstijd (totaal)14.69s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.25sResponstijd (max)7.25sResponstijd (totaal)7.25s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.64sResponstijd (max)16.34sResponstijd (totaal)31.27s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.93sResponstijd (max)15.93sResponstijd (totaal)15.93s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)7.03sResponstijd (max)38.52sResponstijd (totaal)112.51s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 75.0%Instabiele tests: 2…Uitvoer-tokens: 15,845Redeneer-tokens: 0Responstijd: gem. 7.03s · totaal 112.51s · max 38.52s
Verkeerd antwoord: 4Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.97sResponstijd (max)4.78sResponstijd (totaal)11.90s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.12sResponstijd (max)9.12sResponstijd (totaal)9.12s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.05sResponstijd (max)3.33sResponstijd (totaal)6.10s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)17.78sResponstijd (max)38.52sResponstijd (totaal)53.33s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.20sResponstijd (max)3.20sResponstijd (totaal)3.20s
Instructions following: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.46sResponstijd (max)6.45sResponstijd (totaal)10.92s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.42sResponstijd (max)5.04sResponstijd (totaal)13.27s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.68sResponstijd (max)4.68sResponstijd (totaal)4.68s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)12.35sResponstijd (max)95.48sResponstijd (totaal)197.62s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 72.9%Instabiele tests: 1…Uitvoer-tokens: 1,370Redeneer-tokens: 110,522Responstijd: gem. 12.35s · totaal 197.62s · max 95.48s
Verkeerd antwoord: 4Instructies niet gevolgd: 1
Anti-AI Tricks: 7.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.98sResponstijd (max)15.56sResponstijd (totaal)20.95s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)28.44sResponstijd (max)28.44sResponstijd (totaal)28.44s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.06sResponstijd (max)5.06sResponstijd (totaal)8.11s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)37.34sResponstijd (max)95.48sResponstijd (totaal)112.01s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.86sResponstijd (max)4.86sResponstijd (totaal)4.86s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.62sResponstijd (max)2.78sResponstijd (totaal)5.24s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.94sResponstijd (max)6.33sResponstijd (totaal)11.83s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.20sResponstijd (max)6.20sResponstijd (totaal)6.20s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)3.36sResponstijd (max)11.91sResponstijd (totaal)53.84s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 68.8%Instabiele tests: 0…Uitvoer-tokens: 1,611Redeneer-tokens: 7,272Responstijd: gem. 3.36s · totaal 53.84s · max 11.91s
Verkeerd antwoord: 4Instructies niet gevolgd: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.18sResponstijd (max)3.18sResponstijd (totaal)6.53s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)11.91sResponstijd (max)11.91sResponstijd (totaal)11.91s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.00sResponstijd (max)3.74sResponstijd (totaal)5.99s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)2.36sResponstijd (max)3.51sResponstijd (totaal)7.07s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.54sResponstijd (max)1.54sResponstijd (totaal)1.54s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.49sResponstijd (max)1.66sResponstijd (totaal)2.99s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.76sResponstijd (max)5.08sResponstijd (totaal)8.27s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.54sResponstijd (max)9.54sResponstijd (totaal)9.54s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Time-out: 1Responstijd (gem.)39.48sResponstijd (max)93.11sResponstijd (totaal)631.71s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 79.2%Instabiele tests: 3…Uitvoer-tokens: 7,392Redeneer-tokens: 39,089Responstijd: gem. 39.48s · totaal 631.71s · max 93.11s
Verkeerd antwoord: 3Instructies niet gevolgd: 1Time-out: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)33.39sResponstijd (max)44.23sResponstijd (totaal)100.18s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)93.11sResponstijd (max)93.11sResponstijd (totaal)93.11s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)36.09sResponstijd (max)39.12sResponstijd (totaal)72.18s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)39.32sResponstijd (max)79.03sResponstijd (totaal)117.95s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)31.30sResponstijd (max)31.30sResponstijd (totaal)31.30s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)35.78sResponstijd (max)47.30sResponstijd (totaal)71.56s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)36.87sResponstijd (max)59.22sResponstijd (totaal)110.62s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)34.81sResponstijd (max)34.81sResponstijd (totaal)34.81s
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 75.0%Instabiele tests: 2…Uitvoer-tokens: 1,411Redeneer-tokens: 0Responstijd: gem. 1.75s · totaal 15.71s · max 3.56s
Verkeerd antwoord: 5
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.59sResponstijd (max)1.59sResponstijd (totaal)1.59s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.56sResponstijd (max)3.56sResponstijd (totaal)3.56s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.41sResponstijd (max)1.41sResponstijd (totaal)1.41s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)963msResponstijd (max)963msResponstijd (totaal)963ms
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.13sResponstijd (max)1.13sResponstijd (totaal)1.13s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.58sResponstijd (max)1.58sResponstijd (totaal)1.58s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.06sResponstijd (max)1.06sResponstijd (totaal)2.12s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.35sResponstijd (max)3.35sResponstijd (totaal)3.35s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3API-fout: 1Instructies niet gevolgd: 1Responstijd (gem.)25.33sResponstijd (max)96.01sResponstijd (totaal)253.33s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 72.9%Instabiele tests: 1…Uitvoer-tokens: 11,613Redeneer-tokens: 106,714Responstijd: gem. 25.33s · totaal 253.33s · max 96.01s
Verkeerd antwoord: 3API-fout: 1Instructies niet gevolgd: 1
Anti-AI Tricks: 9.7Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)16.79sResponstijd (max)20.83sResponstijd (totaal)33.57s
Combined: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)75.68sResponstijd (max)75.68sResponstijd (totaal)75.68s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)96.01sResponstijd (max)96.01sResponstijd (totaal)96.01s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.20sResponstijd (max)4.20sResponstijd (totaal)4.20s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.28sResponstijd (max)7.37sResponstijd (totaal)8.55s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.77sResponstijd (max)5.26sResponstijd (totaal)7.55s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)27.78sResponstijd (max)27.78sResponstijd (totaal)27.78s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Verkeerd antwoord: 3Responstijd (gem.)29.10sResponstijd (max)170.45sResponstijd (totaal)290.96s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 68.8%Instabiele tests: 2…Uitvoer-tokens: 71,452Redeneer-tokens: 155,147Responstijd: gem. 29.10s · totaal 290.96s · max 170.45s
Instructies niet gevolgd: 3Verkeerd antwoord: 3
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.54sResponstijd (max)32.30sResponstijd (totaal)37.07s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)29.57sResponstijd (max)29.57sResponstijd (totaal)29.57s
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.01sResponstijd (max)15.01sResponstijd (totaal)15.01s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)170.45sResponstijd (max)170.45sResponstijd (totaal)170.45s
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)6.54sResponstijd (max)6.54sResponstijd (totaal)6.54s
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.98sResponstijd (max)4.98sResponstijd (totaal)4.98s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)7.72sResponstijd (max)10.60sResponstijd (totaal)15.44s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.91sResponstijd (max)11.91sResponstijd (totaal)11.91s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 2Responstijd (gem.)5.96sResponstijd (max)18.33sResponstijd (totaal)95.30s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 70.8%Instabiele tests: 3…Uitvoer-tokens: 19,272Redeneer-tokens: 0Responstijd: gem. 5.96s · totaal 95.30s · max 18.33s
Verkeerd antwoord: 4Instructies niet gevolgd: 2
Anti-AI Tricks: 7.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.72sResponstijd (max)7.35sResponstijd (totaal)14.17s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.96sResponstijd (max)11.96sResponstijd (totaal)11.96s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.21sResponstijd (max)2.52sResponstijd (totaal)4.42s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)13.01sResponstijd (max)18.33sResponstijd (totaal)39.04s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.99sResponstijd (max)1.99sResponstijd (totaal)1.99s
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.29sResponstijd (max)4.18sResponstijd (totaal)6.59s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.93sResponstijd (max)3.05sResponstijd (totaal)8.78s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.36sResponstijd (max)8.36sResponstijd (totaal)8.36s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 2Responstijd (gem.)1.33sResponstijd (max)3.39sResponstijd (totaal)21.27s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 66.7%Instabiele tests: 1…Uitvoer-tokens: 4,715Redeneer-tokens: 0Responstijd: gem. 1.33s · totaal 21.27s · max 3.39s
Verkeerd antwoord: 4Instructies niet gevolgd: 2
Anti-AI Tricks: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.16sResponstijd (max)1.47sResponstijd (totaal)3.49s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.20sResponstijd (max)3.20sResponstijd (totaal)3.20s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.22sResponstijd (max)1.33sResponstijd (totaal)2.44s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)942msResponstijd (max)1.12sResponstijd (totaal)2.83s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)741msResponstijd (max)741msResponstijd (totaal)741ms
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.13sResponstijd (max)1.14sResponstijd (totaal)2.27s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)972msResponstijd (max)1.13sResponstijd (totaal)2.92s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.39sResponstijd (max)3.39sResponstijd (totaal)3.39s
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 4Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)65.09sResponstijd (max)262.83sResponstijd (totaal)846.14s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 68.8%Instabiele tests: 2…Uitvoer-tokens: 1,965Redeneer-tokens: 58,456Responstijd: gem. 65.09s · totaal 846.14s · max 262.83s
Time-out: 4Instructies niet gevolgd: 1Verkeerd antwoord: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)98.99sResponstijd (max)182.10sResponstijd (totaal)296.96s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)262.83sResponstijd (max)262.83sResponstijd (totaal)262.83s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.27sResponstijd (max)27.52sResponstijd (totaal)48.54s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 3Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)36.65sResponstijd (max)36.65sResponstijd (totaal)36.65s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.47sResponstijd (max)19.46sResponstijd (totaal)34.93s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)25.85sResponstijd (max)32.95sResponstijd (totaal)77.55s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)88.68sResponstijd (max)88.68sResponstijd (totaal)88.68s
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 3API-fout: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)70.81sResponstijd (max)234.29sResponstijd (totaal)1132.90s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 81.3%Instabiele tests: 5…Uitvoer-tokens: 1,807Redeneer-tokens: 169,952Responstijd: gem. 70.81s · totaal 1132.90s · max 234.29s
Time-out: 3API-fout: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)71.35sResponstijd (max)168.31sResponstijd (totaal)214.06s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.78sResponstijd (max)17.78sResponstijd (totaal)17.78s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)56.99sResponstijd (max)80.14sResponstijd (totaal)113.98s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)146.50sResponstijd (max)234.29sResponstijd (totaal)439.49s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)40.05sResponstijd (max)40.05sResponstijd (totaal)40.05s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)63.49sResponstijd (max)111.61sResponstijd (totaal)126.98s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Responstijd (gem.)56.74sResponstijd (max)115.01sResponstijd (totaal)170.23s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.33sResponstijd (max)10.33sResponstijd (totaal)10.33s
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 3Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)5.57sResponstijd (max)23.84sResponstijd (totaal)50.12s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 66.7%Instabiele tests: 1…Uitvoer-tokens: 6,895Redeneer-tokens: 0Responstijd: gem. 5.57s · totaal 50.12s · max 23.84s
Extra opmaak: 3Verkeerd antwoord: 2Instructies niet gevolgd: 1
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Responstijd (gem.)4.83sResponstijd (max)4.83sResponstijd (totaal)4.83s
Combined: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.84sResponstijd (max)23.84sResponstijd (totaal)23.84s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.43sResponstijd (max)3.43sResponstijd (totaal)3.43s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.54sResponstijd (max)3.54sResponstijd (totaal)3.54s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.56sResponstijd (max)2.56sResponstijd (totaal)2.56s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.96sResponstijd (max)1.96sResponstijd (totaal)1.96s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Responstijd (gem.)2.92sResponstijd (max)3.33sResponstijd (totaal)5.84s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.11sResponstijd (max)4.11sResponstijd (totaal)4.11s
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 4Verkeerd antwoord: 2Responstijd (gem.)22.86sResponstijd (max)83.40sResponstijd (totaal)205.71s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 66.7%Instabiele tests: 2…Uitvoer-tokens: 26,254Redeneer-tokens: 17,363Responstijd: gem. 22.86s · totaal 205.71s · max 83.40s
Extra opmaak: 4Verkeerd antwoord: 2
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Responstijd (gem.)11.88sResponstijd (max)11.88sResponstijd (totaal)11.88s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)76.66sResponstijd (max)76.66sResponstijd (totaal)76.66s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.37sResponstijd (max)7.37sResponstijd (totaal)7.37s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Verkeerd antwoord: 1Responstijd (gem.)83.40sResponstijd (max)83.40sResponstijd (totaal)83.40s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.04sResponstijd (max)5.04sResponstijd (totaal)5.04s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.43sResponstijd (max)2.43sResponstijd (totaal)2.43s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.60sResponstijd (max)4.66sResponstijd (totaal)9.20s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.73sResponstijd (max)9.73sResponstijd (totaal)9.73s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Geen antwoord: 1Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)15.33sResponstijd (max)77.80sResponstijd (totaal)138.01s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 75.0%Instabiele tests: 4…Uitvoer-tokens: 2,220Redeneer-tokens: 16,811Responstijd: gem. 15.33s · totaal 138.01s · max 77.80s
Instructies niet gevolgd: 3Geen antwoord: 1Time-out: 1Verkeerd antwoord: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)14.34sResponstijd (max)14.34sResponstijd (totaal)14.34s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)14.06sResponstijd (max)14.06sResponstijd (totaal)14.06s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.15sResponstijd (max)3.15sResponstijd (totaal)3.15s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)77.80sResponstijd (max)77.80sResponstijd (totaal)77.80s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.32sResponstijd (max)4.32sResponstijd (totaal)4.32s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.12sResponstijd (max)3.12sResponstijd (totaal)3.12s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.47sResponstijd (max)6.45sResponstijd (totaal)10.94s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)10.30sResponstijd (max)10.30sResponstijd (totaal)10.30s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 2Geen antwoord: 1Time-out: 1Responstijd (gem.)69.83sResponstijd (max)137.29sResponstijd (totaal)628.45s…
Totaal tests: 16Foute tests: 7Slaagpercentage per poging: 72.9%Instabiele tests: 5…Uitvoer-tokens: 38,453Redeneer-tokens: 72,496Responstijd: gem. 69.83s · totaal 628.45s · max 137.29s
Verkeerd antwoord: 3Instructies niet gevolgd: 2Geen antwoord: 1Time-out: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)85.28sResponstijd (max)85.28sResponstijd (totaal)85.28s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)71.37sResponstijd (max)71.37sResponstijd (totaal)71.37s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)49.78sResponstijd (max)49.78sResponstijd (totaal)49.78s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)137.29sResponstijd (max)137.29sResponstijd (totaal)137.29s
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)69.73sResponstijd (max)69.73sResponstijd (totaal)69.73s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)92.47sResponstijd (max)92.47sResponstijd (totaal)92.47s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)45.40sResponstijd (max)82.75sResponstijd (totaal)90.79s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.74sResponstijd (max)31.74sResponstijd (totaal)31.74s
Totaal tests: 16Foute tests: 7Slaagpercentage per poging: 58.3%Instabiele tests: 1…Uitvoer-tokens: 2,015Redeneer-tokens: 0Responstijd: gem. 2.65s · totaal 26.52s · max 6.65s
Verkeerd antwoord: 7
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)2.74sResponstijd (max)2.74sResponstijd (totaal)2.74s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.65sResponstijd (max)6.65sResponstijd (totaal)6.65s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.89sResponstijd (max)1.89sResponstijd (totaal)1.89s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.17sResponstijd (max)1.44sResponstijd (totaal)2.33s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.26sResponstijd (max)2.26sResponstijd (totaal)2.26s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.67sResponstijd (max)1.67sResponstijd (totaal)1.67s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.82sResponstijd (max)3.52sResponstijd (totaal)5.65s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.33sResponstijd (max)3.33sResponstijd (totaal)3.33s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Verkeerd antwoord: 2Geen antwoord: 1Time-out: 1Responstijd (gem.)26.35sResponstijd (max)121.79sResponstijd (totaal)237.11s…
Totaal tests: 16Foute tests: 7Slaagpercentage per poging: 66.7%Instabiele tests: 4…Uitvoer-tokens: 1,183Redeneer-tokens: 83,875Responstijd: gem. 26.35s · totaal 237.11s · max 121.79s
Instructies niet gevolgd: 3Verkeerd antwoord: 2Geen antwoord: 1Time-out: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.65sResponstijd (max)5.65sResponstijd (totaal)5.65s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)37.64sResponstijd (max)37.64sResponstijd (totaal)37.64s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.63sResponstijd (max)6.63sResponstijd (totaal)6.63s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)121.79sResponstijd (max)121.79sResponstijd (totaal)121.79s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)16.25sResponstijd (max)16.25sResponstijd (totaal)16.25s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.30sResponstijd (max)5.30sResponstijd (totaal)5.30s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)8.08sResponstijd (max)8.38sResponstijd (totaal)16.17s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)27.71sResponstijd (max)27.71sResponstijd (totaal)27.71s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 7Responstijd (gem.)4.03sResponstijd (max)11.07sResponstijd (totaal)36.30s…
Totaal tests: 16Foute tests: 7Slaagpercentage per poging: 56.3%Instabiele tests: 0…Uitvoer-tokens: 1,548Redeneer-tokens: 0Responstijd: gem. 4.03s · totaal 36.30s · max 11.07s
Verkeerd antwoord: 7
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)3.39sResponstijd (max)3.39sResponstijd (totaal)3.39s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.98sResponstijd (max)4.98sResponstijd (totaal)4.98s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.78sResponstijd (max)5.78sResponstijd (totaal)5.78s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)2.24sResponstijd (max)2.24sResponstijd (totaal)2.24s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.27sResponstijd (max)3.27sResponstijd (totaal)3.27s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.48sResponstijd (max)1.48sResponstijd (totaal)1.48s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.05sResponstijd (max)2.08sResponstijd (totaal)4.10s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.07sResponstijd (max)11.07sResponstijd (totaal)11.07s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 4Verkeerd antwoord: 3Time-out: 1Responstijd (gem.)25.14sResponstijd (max)88.15sResponstijd (totaal)402.29s…
Totaal tests: 16Foute tests: 8Slaagpercentage per poging: 58.3%Instabiele tests: 2…Uitvoer-tokens: 5,826Redeneer-tokens: 48,768Responstijd: gem. 25.14s · totaal 402.29s · max 88.15s
Instructies niet gevolgd: 4Verkeerd antwoord: 3Time-out: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)16.45sResponstijd (max)26.00sResponstijd (totaal)49.36s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)88.15sResponstijd (max)88.15sResponstijd (totaal)88.15s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.58sResponstijd (max)13.87sResponstijd (totaal)25.16s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)44.63sResponstijd (max)82.55sResponstijd (totaal)133.89s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)13.50sResponstijd (max)13.50sResponstijd (totaal)13.50s
Instructions following: 7.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)15.66sResponstijd (max)21.80sResponstijd (totaal)31.32s
Puzzle Solving: 4.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)14.09sResponstijd (max)16.81sResponstijd (totaal)42.28s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.64sResponstijd (max)18.64sResponstijd (totaal)18.64s
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 4Verkeerd antwoord: 2API-fout: 1Geen antwoord: 1Responstijd (gem.)43.93sResponstijd (max)106.00sResponstijd (totaal)702.85s…
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)21.75sResponstijd (max)34.96sResponstijd (totaal)65.26s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)75.34sResponstijd (max)75.34sResponstijd (totaal)75.34s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)59.33sResponstijd (max)97.12sResponstijd (totaal)118.65s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Verkeerd antwoord: 1Responstijd (gem.)88.34sResponstijd (max)106.00sResponstijd (totaal)265.01s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)30.30sResponstijd (max)30.30sResponstijd (totaal)30.30s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.45sResponstijd (max)43.36sResponstijd (totaal)48.89s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)31.58sResponstijd (max)60.18sResponstijd (totaal)94.75s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.65sResponstijd (max)4.65sResponstijd (totaal)4.65s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 6Extra opmaak: 2invalid tool call: 1Responstijd (gem.)12.86sResponstijd (max)115.89sResponstijd (totaal)205.78s…
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Verkeerd antwoord: 1Responstijd (gem.)8.79sResponstijd (max)12.26sResponstijd (totaal)26.38s
Combined: 8.0Een test is alleen volledig geslaagd als alle runs slagen.invalid tool call: 1Responstijd (gem.)115.89sResponstijd (max)115.89sResponstijd (totaal)115.89s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)9.42sResponstijd (max)16.20sResponstijd (totaal)18.84s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.61sResponstijd (max)1.77sResponstijd (totaal)4.83s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.86sResponstijd (max)2.86sResponstijd (totaal)2.86s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.52sResponstijd (max)1.99sResponstijd (totaal)3.04s
Puzzle Solving: 7.7Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.37sResponstijd (max)10.78sResponstijd (totaal)22.10s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.85sResponstijd (max)11.85sResponstijd (totaal)11.85s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 3Time-out: 1Responstijd (gem.)47.94sResponstijd (max)204.02sResponstijd (totaal)431.47s…
Totaal tests: 16Foute tests: 9Slaagpercentage per poging: 60.4%Instabiele tests: 6…Uitvoer-tokens: 4,386Redeneer-tokens: 142,080Responstijd: gem. 47.94s · totaal 431.47s · max 204.02s
Verkeerd antwoord: 5Instructies niet gevolgd: 3Time-out: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)37.73sResponstijd (max)37.73sResponstijd (totaal)37.73s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)65.96sResponstijd (max)65.96sResponstijd (totaal)65.96s
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)21.42sResponstijd (max)21.42sResponstijd (totaal)21.42s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)204.02sResponstijd (max)204.02sResponstijd (totaal)204.02s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)17.51sResponstijd (max)17.51sResponstijd (totaal)17.51s
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)11.90sResponstijd (max)11.90sResponstijd (totaal)11.90s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)19.81sResponstijd (max)21.31sResponstijd (totaal)39.63s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)33.30sResponstijd (max)33.30sResponstijd (totaal)33.30s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 4Responstijd (gem.)2.36sResponstijd (max)14.63sResponstijd (totaal)35.39s…
Totaal tests: 16Foute tests: 9Slaagpercentage per poging: 54.2%Instabiele tests: 3…Uitvoer-tokens: 3,708Redeneer-tokens: 45,921Responstijd: gem. 2.36s · totaal 35.39s · max 14.63s
Verkeerd antwoord: 5Instructies niet gevolgd: 4
Anti-AI Tricks: 7.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.30sResponstijd (max)2.46sResponstijd (totaal)3.89s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.28sResponstijd (max)3.28sResponstijd (totaal)3.28s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.11sResponstijd (max)1.47sResponstijd (totaal)2.21s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)6.48sResponstijd (max)14.63sResponstijd (totaal)19.43s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)821msResponstijd (max)821msResponstijd (totaal)821ms
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.07sResponstijd (max)1.07sResponstijd (totaal)1.07s
Puzzle Solving: 1.7Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 1Responstijd (gem.)934msResponstijd (max)1.18sResponstijd (totaal)2.80s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.89sResponstijd (max)1.89sResponstijd (totaal)1.89s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 8Instructies niet gevolgd: 1Responstijd (gem.)3.54sResponstijd (max)13.73sResponstijd (totaal)56.70s…
Totaal tests: 16Foute tests: 9Slaagpercentage per poging: 45.8%Instabiele tests: 1…Uitvoer-tokens: 3,774Redeneer-tokens: 0Responstijd: gem. 3.54s · totaal 56.70s · max 13.73s
Verkeerd antwoord: 8Instructies niet gevolgd: 1
Anti-AI Tricks: 2.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.62sResponstijd (max)3.89sResponstijd (totaal)4.85s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.22sResponstijd (max)6.22sResponstijd (totaal)6.22s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.57sResponstijd (max)1.83sResponstijd (totaal)3.14s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)905msResponstijd (max)1.10sResponstijd (totaal)2.71s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)803msResponstijd (max)803msResponstijd (totaal)803ms
Instructions following: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.81sResponstijd (max)13.73sResponstijd (totaal)17.61s
Puzzle Solving: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)5.90sResponstijd (max)12.19sResponstijd (totaal)17.69s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.67sResponstijd (max)3.67sResponstijd (totaal)3.67s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 4Responstijd (gem.)16.65sResponstijd (max)50.92sResponstijd (totaal)149.88s…
Totaal tests: 16Foute tests: 9Slaagpercentage per poging: 54.2%Instabiele tests: 5…Uitvoer-tokens: 13,210Redeneer-tokens: 34,230Responstijd: gem. 16.65s · totaal 149.88s · max 50.92s
Verkeerd antwoord: 5Instructies niet gevolgd: 4
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)19.76sResponstijd (max)19.76sResponstijd (totaal)19.76s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.18sResponstijd (max)31.18sResponstijd (totaal)31.18s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.98sResponstijd (max)1.98sResponstijd (totaal)1.98s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)50.92sResponstijd (max)50.92sResponstijd (totaal)50.92s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)7.90sResponstijd (max)7.90sResponstijd (totaal)7.90s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.63sResponstijd (max)7.63sResponstijd (totaal)7.63s
Puzzle Solving: 1.7Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 1Responstijd (gem.)11.80sResponstijd (max)12.60sResponstijd (totaal)23.61s
Tool Calling: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.91sResponstijd (max)6.91sResponstijd (totaal)6.91s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 1Responstijd (gem.)923msResponstijd (max)4.39sResponstijd (totaal)14.78s…
Totaal tests: 16Foute tests: 10Slaagpercentage per poging: 43.8%Instabiele tests: 2…Uitvoer-tokens: 1,270Redeneer-tokens: 0Responstijd: gem. 923ms · totaal 14.78s · max 4.39s
Verkeerd antwoord: 9Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)668msResponstijd (max)844msResponstijd (totaal)2.01s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.39sResponstijd (max)4.39sResponstijd (totaal)4.39s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)652msResponstijd (max)660msResponstijd (totaal)1.30s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)495msResponstijd (max)642msResponstijd (totaal)1.49s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)615msResponstijd (max)615msResponstijd (totaal)615ms
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)672msResponstijd (max)785msResponstijd (totaal)1.34s
Puzzle Solving: 4.7Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)576msResponstijd (max)700msResponstijd (totaal)1.73s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.91sResponstijd (max)1.91sResponstijd (totaal)1.91s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 1Responstijd (gem.)3.72sResponstijd (max)46.00sResponstijd (totaal)59.46s…
Totaal tests: 16Foute tests: 10Slaagpercentage per poging: 39.6%Instabiele tests: 1…Uitvoer-tokens: 2,679Redeneer-tokens: 0Responstijd: gem. 3.72s · totaal 59.46s · max 46.00s
Verkeerd antwoord: 9Instructies niet gevolgd: 1
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)927msResponstijd (max)1.38sResponstijd (totaal)2.78s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)46.00sResponstijd (max)46.00sResponstijd (totaal)46.00s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.01sResponstijd (max)1.06sResponstijd (totaal)2.02s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)465msResponstijd (max)492msResponstijd (totaal)1.39s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.12sResponstijd (max)1.12sResponstijd (totaal)1.12s
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)585msResponstijd (max)715msResponstijd (totaal)1.17s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)982msResponstijd (max)1.36sResponstijd (totaal)2.95s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.04sResponstijd (max)2.04sResponstijd (totaal)2.04s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 8Instructies niet gevolgd: 2Responstijd (gem.)4.10sResponstijd (max)47.43sResponstijd (totaal)65.62s…
Totaal tests: 16Foute tests: 10Slaagpercentage per poging: 50.0%Instabiele tests: 3…Uitvoer-tokens: 3,756Redeneer-tokens: 0Responstijd: gem. 4.10s · totaal 65.62s · max 47.43s
Verkeerd antwoord: 8Instructies niet gevolgd: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.76sResponstijd (max)4.39sResponstijd (totaal)5.27s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)47.43sResponstijd (max)47.43sResponstijd (totaal)47.43s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.16sResponstijd (max)1.42sResponstijd (totaal)2.33s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)485msResponstijd (max)549msResponstijd (totaal)1.45s
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.19sResponstijd (max)1.19sResponstijd (totaal)1.19s
Instructions following: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)809msResponstijd (max)983msResponstijd (totaal)1.62s
Puzzle Solving: 1.7Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)1.34sResponstijd (max)2.25sResponstijd (totaal)4.03s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.30sResponstijd (max)2.30sResponstijd (totaal)2.30s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 1Responstijd (gem.)1.48sResponstijd (max)2.89sResponstijd (totaal)23.64s…
Totaal tests: 16Foute tests: 10Slaagpercentage per poging: 41.7%Instabiele tests: 2…Uitvoer-tokens: 1,819Redeneer-tokens: 0Responstijd: gem. 1.48s · totaal 23.64s · max 2.89s
Verkeerd antwoord: 9Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.41sResponstijd (max)2.58sResponstijd (totaal)4.23s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.89sResponstijd (max)2.89sResponstijd (totaal)2.89s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.04sResponstijd (max)1.06sResponstijd (totaal)2.08s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.07sResponstijd (max)1.54sResponstijd (totaal)3.22s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.78sResponstijd (max)1.78sResponstijd (totaal)1.78s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.07sResponstijd (max)1.17sResponstijd (totaal)2.15s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.52sResponstijd (max)1.82sResponstijd (totaal)4.56s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.75sResponstijd (max)2.75sResponstijd (totaal)2.75s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 2Responstijd (gem.)1.75sResponstijd (max)9.39sResponstijd (totaal)28.05s…
Totaal tests: 16Foute tests: 11Slaagpercentage per poging: 37.5%Instabiele tests: 2…Uitvoer-tokens: 3,161Redeneer-tokens: 0Responstijd: gem. 1.75s · totaal 28.05s · max 9.39s
Verkeerd antwoord: 9Instructies niet gevolgd: 2
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)796msResponstijd (max)1.34sResponstijd (totaal)2.39s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)9.39sResponstijd (max)9.39sResponstijd (totaal)9.39s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.43sResponstijd (max)1.45sResponstijd (totaal)2.86s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)540msResponstijd (max)649msResponstijd (totaal)1.62s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.51sResponstijd (max)2.51sResponstijd (totaal)2.51s
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)815msResponstijd (max)973msResponstijd (totaal)1.63s
Puzzle Solving: 6.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.37sResponstijd (max)2.23sResponstijd (totaal)4.12s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.54sResponstijd (max)3.54sResponstijd (totaal)3.54s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 3Time-out: 2invalid tool call: 1Responstijd (gem.)43.03sResponstijd (max)237.27sResponstijd (totaal)387.25s…
Totaal tests: 16Foute tests: 11Slaagpercentage per poging: 60.4%Instabiele tests: 9…Uitvoer-tokens: 107,044Redeneer-tokens: 206,190Responstijd: gem. 43.03s · totaal 387.25s · max 237.27s
Verkeerd antwoord: 5Instructies niet gevolgd: 3Time-out: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)32.42sResponstijd (max)32.42sResponstijd (totaal)32.42s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.invalid tool call: 1Responstijd (gem.)60.39sResponstijd (max)60.39sResponstijd (totaal)60.39s
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)7.48sResponstijd (max)7.48sResponstijd (totaal)7.48s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)237.27sResponstijd (max)237.27sResponstijd (totaal)237.27s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)6.63sResponstijd (max)6.63sResponstijd (totaal)6.63s
Instructions following: 8.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.64sResponstijd (max)4.64sResponstijd (totaal)4.64s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)11.54sResponstijd (max)17.37sResponstijd (totaal)23.08s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.35sResponstijd (max)15.35sResponstijd (totaal)15.35s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 2Responstijd (gem.)3.15sResponstijd (max)8.91sResponstijd (totaal)50.46s…
Totaal tests: 16Foute tests: 11Slaagpercentage per poging: 33.3%Instabiele tests: 1…Uitvoer-tokens: 1,837Redeneer-tokens: 0Responstijd: gem. 3.15s · totaal 50.46s · max 8.91s
Verkeerd antwoord: 9Instructies niet gevolgd: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)3.59sResponstijd (max)8.17sResponstijd (totaal)10.78s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.91sResponstijd (max)8.91sResponstijd (totaal)8.91s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)4.66sResponstijd (totaal)6.52s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)877msResponstijd (max)894msResponstijd (totaal)2.63s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.86sResponstijd (max)2.86sResponstijd (totaal)2.86s
Instructions following: 3.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.09sResponstijd (max)1.23sResponstijd (totaal)2.19s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)3.30sResponstijd (max)4.81sResponstijd (totaal)9.91s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.67sResponstijd (max)6.67sResponstijd (totaal)6.67s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 11Responstijd (gem.)11.91sResponstijd (max)42.13sResponstijd (totaal)107.16s…
Totaal tests: 16Foute tests: 11Slaagpercentage per poging: 39.6%Instabiele tests: 3…Uitvoer-tokens: 2,000Redeneer-tokens: 0Responstijd: gem. 11.91s · totaal 107.16s · max 42.13s
Verkeerd antwoord: 11
Anti-AI Tricks: 2.7Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)11.38sResponstijd (max)11.38sResponstijd (totaal)11.38s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)19.16sResponstijd (max)19.16sResponstijd (totaal)19.16s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)42.13sResponstijd (max)42.13sResponstijd (totaal)42.13s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)4.38sResponstijd (max)4.38sResponstijd (totaal)4.38s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.00sResponstijd (max)4.00sResponstijd (totaal)4.00s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.67sResponstijd (max)2.67sResponstijd (totaal)2.67s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)4.73sResponstijd (max)7.81sResponstijd (totaal)9.45s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.99sResponstijd (max)13.99sResponstijd (totaal)13.99s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 11Instructies niet gevolgd: 1Responstijd (gem.)2.07sResponstijd (max)7.58sResponstijd (totaal)18.60s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 25.0%Instabiele tests: 0…Uitvoer-tokens: 1,594Redeneer-tokens: 0Responstijd: gem. 2.07s · totaal 18.60s · max 7.58s
Verkeerd antwoord: 11Instructies niet gevolgd: 1
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.83sResponstijd (max)1.83sResponstijd (totaal)1.83s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.58sResponstijd (max)7.58sResponstijd (totaal)7.58s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.27sResponstijd (max)1.27sResponstijd (totaal)1.27s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)637msResponstijd (max)637msResponstijd (totaal)637ms
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)909msResponstijd (max)909msResponstijd (totaal)909ms
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.27sResponstijd (max)1.27sResponstijd (totaal)1.27s
Puzzle Solving: 2.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.30sResponstijd (max)1.54sResponstijd (totaal)2.60s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.51sResponstijd (max)2.51sResponstijd (totaal)2.51s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 10Extra opmaak: 1Instructies niet gevolgd: 1Responstijd (gem.)11.68sResponstijd (max)45.14sResponstijd (totaal)116.76s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 25.0%Instabiele tests: 0…Uitvoer-tokens: 3,026Redeneer-tokens: 0Responstijd: gem. 11.68s · totaal 116.76s · max 45.14s
Verkeerd antwoord: 10Extra opmaak: 1Instructies niet gevolgd: 1
Anti-AI Tricks: 2.3Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)4.39sResponstijd (max)4.39sResponstijd (totaal)4.39s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)45.14sResponstijd (max)45.14sResponstijd (totaal)45.14s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.32sResponstijd (max)1.32sResponstijd (totaal)1.32s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)962msResponstijd (max)962msResponstijd (totaal)962ms
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.34sResponstijd (max)1.34sResponstijd (totaal)1.34s
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)7.71sResponstijd (max)14.65sResponstijd (totaal)15.42s
Puzzle Solving: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)22.86sResponstijd (max)42.58sResponstijd (totaal)45.73s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.47sResponstijd (max)2.47sResponstijd (totaal)2.47s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 2invalid tool call: 1Responstijd (gem.)2.99sResponstijd (max)7.05sResponstijd (totaal)26.90s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 35.4%Instabiele tests: 3…Uitvoer-tokens: 1,855Redeneer-tokens: 0Responstijd: gem. 2.99s · totaal 26.90s · max 7.05s
Verkeerd antwoord: 9Instructies niet gevolgd: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)6.59sResponstijd (max)6.59sResponstijd (totaal)6.59s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.invalid tool call: 1Responstijd (gem.)3.22sResponstijd (max)3.22sResponstijd (totaal)3.22s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.82sResponstijd (max)4.82sResponstijd (totaal)4.82s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)744msResponstijd (max)744msResponstijd (totaal)744ms
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.59sResponstijd (max)1.59sResponstijd (totaal)1.59s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)888msResponstijd (max)888msResponstijd (totaal)888ms
Puzzle Solving: 3.7Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 1Responstijd (gem.)1.00sResponstijd (max)1.12sResponstijd (totaal)2.00s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.05sResponstijd (max)7.05sResponstijd (totaal)7.05s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 11Instructies niet gevolgd: 1Responstijd (gem.)596msResponstijd (max)1.27sResponstijd (totaal)9.54s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 31.3%Instabiele tests: 2…Uitvoer-tokens: 1,303Redeneer-tokens: 0Responstijd: gem. 596ms · totaal 9.54s · max 1.27s
Verkeerd antwoord: 11Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)466msResponstijd (max)716msResponstijd (totaal)1.40s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)606msResponstijd (max)606msResponstijd (totaal)606ms
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)667msResponstijd (max)819msResponstijd (totaal)1.33s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)534msResponstijd (max)733msResponstijd (totaal)1.60s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)628msResponstijd (max)628msResponstijd (totaal)628ms
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)551msResponstijd (max)622msResponstijd (totaal)1.10s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)533msResponstijd (max)637msResponstijd (totaal)1.60s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.27sResponstijd (max)1.27sResponstijd (totaal)1.27s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 7Instructies niet gevolgd: 2Geen antwoord: 2invalid tool call: 1Responstijd (gem.)36.84sResponstijd (max)174.55sResponstijd (totaal)331.58s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 41.7%Instabiele tests: 7…Uitvoer-tokens: 38,682Redeneer-tokens: 64,952Responstijd: gem. 36.84s · totaal 331.58s · max 174.55s
Verkeerd antwoord: 7Instructies niet gevolgd: 2Geen antwoord: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)27.09sResponstijd (max)27.09sResponstijd (totaal)27.09s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.invalid tool call: 1Responstijd (gem.)65.57sResponstijd (max)65.57sResponstijd (totaal)65.57s
Data parsing and extraction: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)1.51sResponstijd (max)1.51sResponstijd (totaal)1.51s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Geen antwoord: 1Responstijd (gem.)174.55sResponstijd (max)174.55sResponstijd (totaal)174.55s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)18.14sResponstijd (max)18.14sResponstijd (totaal)18.14s
Instructions following: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.97sResponstijd (max)2.97sResponstijd (totaal)2.97s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)12.90sResponstijd (max)22.33sResponstijd (totaal)25.80s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.95sResponstijd (max)15.95sResponstijd (totaal)15.95s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 8Instructies niet gevolgd: 5Responstijd (gem.)12.53sResponstijd (max)81.80sResponstijd (totaal)125.32s…
Totaal tests: 16Foute tests: 13Slaagpercentage per poging: 27.1%Instabiele tests: 2…Uitvoer-tokens: 2,935Redeneer-tokens: 0Responstijd: gem. 12.53s · totaal 125.32s · max 81.80s
Verkeerd antwoord: 8Instructies niet gevolgd: 5
Anti-AI Tricks: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)15.28sResponstijd (max)15.28sResponstijd (totaal)15.28s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.28sResponstijd (max)4.28sResponstijd (totaal)4.28s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)81.80sResponstijd (max)81.80sResponstijd (totaal)81.80s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)638msResponstijd (max)638msResponstijd (totaal)638ms
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.39sResponstijd (max)1.39sResponstijd (totaal)1.39s
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)7.34sResponstijd (max)13.67sResponstijd (totaal)14.68s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 1Responstijd (gem.)2.30sResponstijd (max)3.80sResponstijd (totaal)4.61s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.64sResponstijd (max)2.64sResponstijd (totaal)2.64s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 11Instructies niet gevolgd: 2Responstijd (gem.)1.90sResponstijd (max)5.51sResponstijd (totaal)17.14s…
Totaal tests: 16Foute tests: 13Slaagpercentage per poging: 25.0%Instabiele tests: 2…Uitvoer-tokens: 1,148Redeneer-tokens: 0Responstijd: gem. 1.90s · totaal 17.14s · max 5.51s
Verkeerd antwoord: 11Instructies niet gevolgd: 2
Anti-AI Tricks: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)1.73sResponstijd (max)1.73sResponstijd (totaal)1.73s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.33sResponstijd (max)3.33sResponstijd (totaal)3.33s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)943msResponstijd (max)943msResponstijd (totaal)943ms
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.06sResponstijd (max)1.06sResponstijd (totaal)1.06s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.08sResponstijd (max)1.08sResponstijd (totaal)1.08s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)923msResponstijd (max)923msResponstijd (totaal)923ms
Puzzle Solving: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.28sResponstijd (max)1.36sResponstijd (totaal)2.56s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.51sResponstijd (max)5.51sResponstijd (totaal)5.51s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 10API-fout: 1Extra opmaak: 1Instructies niet gevolgd: 1Responstijd (gem.)2.97sResponstijd (max)19.68sResponstijd (totaal)35.60s…
Totaal tests: 16Foute tests: 13Slaagpercentage per poging: 29.2%Instabiele tests: 4…Uitvoer-tokens: 67,790Redeneer-tokens: 0Responstijd: gem. 2.97s · totaal 35.60s · max 19.68s
Verkeerd antwoord: 10API-fout: 1Extra opmaak: 1Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.36sResponstijd (max)2.73sResponstijd (totaal)4.07s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.87sResponstijd (max)2.87sResponstijd (totaal)2.87s
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Extra opmaak: 1Responstijd (gem.)19.68sResponstijd (max)19.68sResponstijd (totaal)19.68s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)564msResponstijd (max)564msResponstijd (totaal)564ms
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.67sResponstijd (max)1.67sResponstijd (totaal)1.67s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)857msResponstijd (max)955msResponstijd (totaal)1.71s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.38sResponstijd (max)1.74sResponstijd (totaal)2.75s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.28sResponstijd (max)2.28sResponstijd (totaal)2.28s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9API-fout: 4Instructies niet gevolgd: 2Responstijd (gem.)811msResponstijd (max)2.88sResponstijd (totaal)11.35s…
Totaal tests: 16Foute tests: 15Slaagpercentage per poging: 14.6%Instabiele tests: 2…Uitvoer-tokens: 1,185Redeneer-tokens: 0Responstijd: gem. 811ms · totaal 11.35s · max 2.88s
Verkeerd antwoord: 9API-fout: 4Instructies niet gevolgd: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)471msResponstijd (max)872msResponstijd (totaal)1.41s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)714msResponstijd (max)987msResponstijd (totaal)1.43s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Verkeerd antwoord: 1Responstijd (gem.)287msResponstijd (max)334msResponstijd (totaal)860ms
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)395msResponstijd (max)395msResponstijd (totaal)395ms
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.09sResponstijd (max)1.90sResponstijd (totaal)2.18s
Puzzle Solving: 3.3Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.69sResponstijd (max)2.88sResponstijd (totaal)5.08s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms