Volg de beste SOTA AI-modellen met AI BENCHY's benchmark-leaderboard—een makkelijke manier om te zien welke modellen nu vooroplopen in score, redeneerkwaliteit, betrouwbaarheid en waarde. Sorteren op: Kosten per resultaat ↑.
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-03-06Geëvalueerde modellen: 55
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Verkeerd antwoord: 3Responstijd (gem.)29.10sResponstijd (max)170.45sResponstijd (totaal)290.96s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 68.8%Instabiele tests: 2…Uitvoer-tokens: 71,452Redeneer-tokens: 155,147Responstijd: gem. 29.10s · totaal 290.96s · max 170.45s
Instructies niet gevolgd: 3Verkeerd antwoord: 3
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.54sResponstijd (max)32.30sResponstijd (totaal)37.07s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)29.57sResponstijd (max)29.57sResponstijd (totaal)29.57s
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.01sResponstijd (max)15.01sResponstijd (totaal)15.01s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)170.45sResponstijd (max)170.45sResponstijd (totaal)170.45s
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)6.54sResponstijd (max)6.54sResponstijd (totaal)6.54s
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.98sResponstijd (max)4.98sResponstijd (totaal)4.98s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)7.72sResponstijd (max)10.60sResponstijd (totaal)15.44s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.91sResponstijd (max)11.91sResponstijd (totaal)11.91s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 2Responstijd (gem.)3.15sResponstijd (max)8.91sResponstijd (totaal)50.46s…
Totaal tests: 16Foute tests: 11Slaagpercentage per poging: 33.3%Instabiele tests: 1…Uitvoer-tokens: 1,837Redeneer-tokens: 0Responstijd: gem. 3.15s · totaal 50.46s · max 8.91s
Verkeerd antwoord: 9Instructies niet gevolgd: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)3.59sResponstijd (max)8.17sResponstijd (totaal)10.78s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.91sResponstijd (max)8.91sResponstijd (totaal)8.91s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)4.66sResponstijd (totaal)6.52s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)877msResponstijd (max)894msResponstijd (totaal)2.63s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.86sResponstijd (max)2.86sResponstijd (totaal)2.86s
Instructions following: 3.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.09sResponstijd (max)1.23sResponstijd (totaal)2.19s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)3.30sResponstijd (max)4.81sResponstijd (totaal)9.91s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.67sResponstijd (max)6.67sResponstijd (totaal)6.67s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9API-fout: 4Instructies niet gevolgd: 2Responstijd (gem.)811msResponstijd (max)2.88sResponstijd (totaal)11.35s…
Totaal tests: 16Foute tests: 15Slaagpercentage per poging: 14.6%Instabiele tests: 2…Uitvoer-tokens: 1,185Redeneer-tokens: 0Responstijd: gem. 811ms · totaal 11.35s · max 2.88s
Verkeerd antwoord: 9API-fout: 4Instructies niet gevolgd: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)471msResponstijd (max)872msResponstijd (totaal)1.41s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)714msResponstijd (max)987msResponstijd (totaal)1.43s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Verkeerd antwoord: 1Responstijd (gem.)287msResponstijd (max)334msResponstijd (totaal)860ms
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)395msResponstijd (max)395msResponstijd (totaal)395ms
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.09sResponstijd (max)1.90sResponstijd (totaal)2.18s
Puzzle Solving: 3.3Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.69sResponstijd (max)2.88sResponstijd (totaal)5.08s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 2invalid tool call: 1Responstijd (gem.)2.99sResponstijd (max)7.05sResponstijd (totaal)26.90s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 35.4%Instabiele tests: 3…Uitvoer-tokens: 1,855Redeneer-tokens: 0Responstijd: gem. 2.99s · totaal 26.90s · max 7.05s
Verkeerd antwoord: 9Instructies niet gevolgd: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)6.59sResponstijd (max)6.59sResponstijd (totaal)6.59s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.invalid tool call: 1Responstijd (gem.)3.22sResponstijd (max)3.22sResponstijd (totaal)3.22s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.82sResponstijd (max)4.82sResponstijd (totaal)4.82s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)744msResponstijd (max)744msResponstijd (totaal)744ms
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.59sResponstijd (max)1.59sResponstijd (totaal)1.59s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)888msResponstijd (max)888msResponstijd (totaal)888ms
Puzzle Solving: 3.7Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 1Responstijd (gem.)1.00sResponstijd (max)1.12sResponstijd (totaal)2.00s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.05sResponstijd (max)7.05sResponstijd (totaal)7.05s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 8Instructies niet gevolgd: 1Responstijd (gem.)3.54sResponstijd (max)13.73sResponstijd (totaal)56.70s…
Totaal tests: 16Foute tests: 9Slaagpercentage per poging: 45.8%Instabiele tests: 1…Uitvoer-tokens: 3,774Redeneer-tokens: 0Responstijd: gem. 3.54s · totaal 56.70s · max 13.73s
Verkeerd antwoord: 8Instructies niet gevolgd: 1
Anti-AI Tricks: 2.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.62sResponstijd (max)3.89sResponstijd (totaal)4.85s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.22sResponstijd (max)6.22sResponstijd (totaal)6.22s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.57sResponstijd (max)1.83sResponstijd (totaal)3.14s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)905msResponstijd (max)1.10sResponstijd (totaal)2.71s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)803msResponstijd (max)803msResponstijd (totaal)803ms
Instructions following: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.81sResponstijd (max)13.73sResponstijd (totaal)17.61s
Puzzle Solving: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)5.90sResponstijd (max)12.19sResponstijd (totaal)17.69s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.67sResponstijd (max)3.67sResponstijd (totaal)3.67s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 11Instructies niet gevolgd: 1Responstijd (gem.)2.07sResponstijd (max)7.58sResponstijd (totaal)18.60s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 25.0%Instabiele tests: 0…Uitvoer-tokens: 1,594Redeneer-tokens: 0Responstijd: gem. 2.07s · totaal 18.60s · max 7.58s
Verkeerd antwoord: 11Instructies niet gevolgd: 1
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.83sResponstijd (max)1.83sResponstijd (totaal)1.83s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.58sResponstijd (max)7.58sResponstijd (totaal)7.58s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.27sResponstijd (max)1.27sResponstijd (totaal)1.27s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)637msResponstijd (max)637msResponstijd (totaal)637ms
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)909msResponstijd (max)909msResponstijd (totaal)909ms
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.27sResponstijd (max)1.27sResponstijd (totaal)1.27s
Puzzle Solving: 2.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.30sResponstijd (max)1.54sResponstijd (totaal)2.60s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.51sResponstijd (max)2.51sResponstijd (totaal)2.51s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 4Responstijd (gem.)16.65sResponstijd (max)50.92sResponstijd (totaal)149.88s…
Totaal tests: 16Foute tests: 9Slaagpercentage per poging: 54.2%Instabiele tests: 5…Uitvoer-tokens: 13,210Redeneer-tokens: 34,230Responstijd: gem. 16.65s · totaal 149.88s · max 50.92s
Verkeerd antwoord: 5Instructies niet gevolgd: 4
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)19.76sResponstijd (max)19.76sResponstijd (totaal)19.76s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.18sResponstijd (max)31.18sResponstijd (totaal)31.18s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.98sResponstijd (max)1.98sResponstijd (totaal)1.98s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)50.92sResponstijd (max)50.92sResponstijd (totaal)50.92s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)7.90sResponstijd (max)7.90sResponstijd (totaal)7.90s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.63sResponstijd (max)7.63sResponstijd (totaal)7.63s
Puzzle Solving: 1.7Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 1Responstijd (gem.)11.80sResponstijd (max)12.60sResponstijd (totaal)23.61s
Tool Calling: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.91sResponstijd (max)6.91sResponstijd (totaal)6.91s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 2Responstijd (gem.)1.33sResponstijd (max)3.39sResponstijd (totaal)21.27s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 66.7%Instabiele tests: 1…Uitvoer-tokens: 4,715Redeneer-tokens: 0Responstijd: gem. 1.33s · totaal 21.27s · max 3.39s
Verkeerd antwoord: 4Instructies niet gevolgd: 2
Anti-AI Tricks: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.16sResponstijd (max)1.47sResponstijd (totaal)3.49s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.20sResponstijd (max)3.20sResponstijd (totaal)3.20s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.22sResponstijd (max)1.33sResponstijd (totaal)2.44s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)942msResponstijd (max)1.12sResponstijd (totaal)2.83s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)741msResponstijd (max)741msResponstijd (totaal)741ms
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.13sResponstijd (max)1.14sResponstijd (totaal)2.27s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)972msResponstijd (max)1.13sResponstijd (totaal)2.92s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.39sResponstijd (max)3.39sResponstijd (totaal)3.39s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 11Instructies niet gevolgd: 1Responstijd (gem.)596msResponstijd (max)1.27sResponstijd (totaal)9.54s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 31.3%Instabiele tests: 2…Uitvoer-tokens: 1,303Redeneer-tokens: 0Responstijd: gem. 596ms · totaal 9.54s · max 1.27s
Verkeerd antwoord: 11Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)466msResponstijd (max)716msResponstijd (totaal)1.40s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)606msResponstijd (max)606msResponstijd (totaal)606ms
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)667msResponstijd (max)819msResponstijd (totaal)1.33s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)534msResponstijd (max)733msResponstijd (totaal)1.60s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)628msResponstijd (max)628msResponstijd (totaal)628ms
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)551msResponstijd (max)622msResponstijd (totaal)1.10s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)533msResponstijd (max)637msResponstijd (totaal)1.60s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.27sResponstijd (max)1.27sResponstijd (totaal)1.27s
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 75.0%Instabiele tests: 2…Uitvoer-tokens: 1,411Redeneer-tokens: 0Responstijd: gem. 1.75s · totaal 15.71s · max 3.56s
Verkeerd antwoord: 5
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.59sResponstijd (max)1.59sResponstijd (totaal)1.59s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.56sResponstijd (max)3.56sResponstijd (totaal)3.56s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.41sResponstijd (max)1.41sResponstijd (totaal)1.41s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)963msResponstijd (max)963msResponstijd (totaal)963ms
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.13sResponstijd (max)1.13sResponstijd (totaal)1.13s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.58sResponstijd (max)1.58sResponstijd (totaal)1.58s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.06sResponstijd (max)1.06sResponstijd (totaal)2.12s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.35sResponstijd (max)3.35sResponstijd (totaal)3.35s
Totaal tests: 16Foute tests: 7Slaagpercentage per poging: 58.3%Instabiele tests: 1…Uitvoer-tokens: 2,015Redeneer-tokens: 0Responstijd: gem. 2.65s · totaal 26.52s · max 6.65s
Verkeerd antwoord: 7
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)2.74sResponstijd (max)2.74sResponstijd (totaal)2.74s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.65sResponstijd (max)6.65sResponstijd (totaal)6.65s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.89sResponstijd (max)1.89sResponstijd (totaal)1.89s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.17sResponstijd (max)1.44sResponstijd (totaal)2.33s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.26sResponstijd (max)2.26sResponstijd (totaal)2.26s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.67sResponstijd (max)1.67sResponstijd (totaal)1.67s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.82sResponstijd (max)3.52sResponstijd (totaal)5.65s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.33sResponstijd (max)3.33sResponstijd (totaal)3.33s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 10Extra opmaak: 1Instructies niet gevolgd: 1Responstijd (gem.)11.68sResponstijd (max)45.14sResponstijd (totaal)116.76s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 25.0%Instabiele tests: 0…Uitvoer-tokens: 3,026Redeneer-tokens: 0Responstijd: gem. 11.68s · totaal 116.76s · max 45.14s
Verkeerd antwoord: 10Extra opmaak: 1Instructies niet gevolgd: 1
Anti-AI Tricks: 2.3Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)4.39sResponstijd (max)4.39sResponstijd (totaal)4.39s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)45.14sResponstijd (max)45.14sResponstijd (totaal)45.14s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.32sResponstijd (max)1.32sResponstijd (totaal)1.32s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)962msResponstijd (max)962msResponstijd (totaal)962ms
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.34sResponstijd (max)1.34sResponstijd (totaal)1.34s
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)7.71sResponstijd (max)14.65sResponstijd (totaal)15.42s
Puzzle Solving: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)22.86sResponstijd (max)42.58sResponstijd (totaal)45.73s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.47sResponstijd (max)2.47sResponstijd (totaal)2.47s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)3.36sResponstijd (max)11.91sResponstijd (totaal)53.84s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 68.8%Instabiele tests: 0…Uitvoer-tokens: 1,611Redeneer-tokens: 7,272Responstijd: gem. 3.36s · totaal 53.84s · max 11.91s
Verkeerd antwoord: 4Instructies niet gevolgd: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.18sResponstijd (max)3.18sResponstijd (totaal)6.53s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)11.91sResponstijd (max)11.91sResponstijd (totaal)11.91s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.00sResponstijd (max)3.74sResponstijd (totaal)5.99s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)2.36sResponstijd (max)3.51sResponstijd (totaal)7.07s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.54sResponstijd (max)1.54sResponstijd (totaal)1.54s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.49sResponstijd (max)1.66sResponstijd (totaal)2.99s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.76sResponstijd (max)5.08sResponstijd (totaal)8.27s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.54sResponstijd (max)9.54sResponstijd (totaal)9.54s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 1Responstijd (gem.)923msResponstijd (max)4.39sResponstijd (totaal)14.78s…
Totaal tests: 16Foute tests: 10Slaagpercentage per poging: 43.8%Instabiele tests: 2…Uitvoer-tokens: 1,270Redeneer-tokens: 0Responstijd: gem. 923ms · totaal 14.78s · max 4.39s
Verkeerd antwoord: 9Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)668msResponstijd (max)844msResponstijd (totaal)2.01s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.39sResponstijd (max)4.39sResponstijd (totaal)4.39s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)652msResponstijd (max)660msResponstijd (totaal)1.30s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)495msResponstijd (max)642msResponstijd (totaal)1.49s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)615msResponstijd (max)615msResponstijd (totaal)615ms
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)672msResponstijd (max)785msResponstijd (totaal)1.34s
Puzzle Solving: 4.7Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)576msResponstijd (max)700msResponstijd (totaal)1.73s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.91sResponstijd (max)1.91sResponstijd (totaal)1.91s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 7Responstijd (gem.)4.03sResponstijd (max)11.07sResponstijd (totaal)36.30s…
Totaal tests: 16Foute tests: 7Slaagpercentage per poging: 56.3%Instabiele tests: 0…Uitvoer-tokens: 1,548Redeneer-tokens: 0Responstijd: gem. 4.03s · totaal 36.30s · max 11.07s
Verkeerd antwoord: 7
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)3.39sResponstijd (max)3.39sResponstijd (totaal)3.39s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.98sResponstijd (max)4.98sResponstijd (totaal)4.98s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.78sResponstijd (max)5.78sResponstijd (totaal)5.78s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)2.24sResponstijd (max)2.24sResponstijd (totaal)2.24s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.27sResponstijd (max)3.27sResponstijd (totaal)3.27s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.48sResponstijd (max)1.48sResponstijd (totaal)1.48s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.05sResponstijd (max)2.08sResponstijd (totaal)4.10s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.07sResponstijd (max)11.07sResponstijd (totaal)11.07s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 6Extra opmaak: 2invalid tool call: 1Responstijd (gem.)12.86sResponstijd (max)115.89sResponstijd (totaal)205.78s…
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Verkeerd antwoord: 1Responstijd (gem.)8.79sResponstijd (max)12.26sResponstijd (totaal)26.38s
Combined: 8.0Een test is alleen volledig geslaagd als alle runs slagen.invalid tool call: 1Responstijd (gem.)115.89sResponstijd (max)115.89sResponstijd (totaal)115.89s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)9.42sResponstijd (max)16.20sResponstijd (totaal)18.84s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.61sResponstijd (max)1.77sResponstijd (totaal)4.83s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.86sResponstijd (max)2.86sResponstijd (totaal)2.86s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.52sResponstijd (max)1.99sResponstijd (totaal)3.04s
Puzzle Solving: 7.7Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.37sResponstijd (max)10.78sResponstijd (totaal)22.10s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.85sResponstijd (max)11.85sResponstijd (totaal)11.85s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Time-out: 1Responstijd (gem.)39.48sResponstijd (max)93.11sResponstijd (totaal)631.71s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 79.2%Instabiele tests: 3…Uitvoer-tokens: 7,392Redeneer-tokens: 39,089Responstijd: gem. 39.48s · totaal 631.71s · max 93.11s
Verkeerd antwoord: 3Instructies niet gevolgd: 1Time-out: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)33.39sResponstijd (max)44.23sResponstijd (totaal)100.18s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)93.11sResponstijd (max)93.11sResponstijd (totaal)93.11s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)36.09sResponstijd (max)39.12sResponstijd (totaal)72.18s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)39.32sResponstijd (max)79.03sResponstijd (totaal)117.95s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)31.30sResponstijd (max)31.30sResponstijd (totaal)31.30s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)35.78sResponstijd (max)47.30sResponstijd (totaal)71.56s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)36.87sResponstijd (max)59.22sResponstijd (totaal)110.62s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)34.81sResponstijd (max)34.81sResponstijd (totaal)34.81s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 8Instructies niet gevolgd: 5Responstijd (gem.)12.53sResponstijd (max)81.80sResponstijd (totaal)125.32s…
Totaal tests: 16Foute tests: 13Slaagpercentage per poging: 27.1%Instabiele tests: 2…Uitvoer-tokens: 2,935Redeneer-tokens: 0Responstijd: gem. 12.53s · totaal 125.32s · max 81.80s
Verkeerd antwoord: 8Instructies niet gevolgd: 5
Anti-AI Tricks: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)15.28sResponstijd (max)15.28sResponstijd (totaal)15.28s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.28sResponstijd (max)4.28sResponstijd (totaal)4.28s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)81.80sResponstijd (max)81.80sResponstijd (totaal)81.80s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)638msResponstijd (max)638msResponstijd (totaal)638ms
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.39sResponstijd (max)1.39sResponstijd (totaal)1.39s
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)7.34sResponstijd (max)13.67sResponstijd (totaal)14.68s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 1Responstijd (gem.)2.30sResponstijd (max)3.80sResponstijd (totaal)4.61s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.64sResponstijd (max)2.64sResponstijd (totaal)2.64s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 8Instructies niet gevolgd: 2Responstijd (gem.)4.10sResponstijd (max)47.43sResponstijd (totaal)65.62s…
Totaal tests: 16Foute tests: 10Slaagpercentage per poging: 50.0%Instabiele tests: 3…Uitvoer-tokens: 3,756Redeneer-tokens: 0Responstijd: gem. 4.10s · totaal 65.62s · max 47.43s
Verkeerd antwoord: 8Instructies niet gevolgd: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.76sResponstijd (max)4.39sResponstijd (totaal)5.27s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)47.43sResponstijd (max)47.43sResponstijd (totaal)47.43s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.16sResponstijd (max)1.42sResponstijd (totaal)2.33s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)485msResponstijd (max)549msResponstijd (totaal)1.45s
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.19sResponstijd (max)1.19sResponstijd (totaal)1.19s
Instructions following: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)809msResponstijd (max)983msResponstijd (totaal)1.62s
Puzzle Solving: 1.7Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)1.34sResponstijd (max)2.25sResponstijd (totaal)4.03s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.30sResponstijd (max)2.30sResponstijd (totaal)2.30s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 11Instructies niet gevolgd: 2Responstijd (gem.)1.90sResponstijd (max)5.51sResponstijd (totaal)17.14s…
Totaal tests: 16Foute tests: 13Slaagpercentage per poging: 25.0%Instabiele tests: 2…Uitvoer-tokens: 1,148Redeneer-tokens: 0Responstijd: gem. 1.90s · totaal 17.14s · max 5.51s
Verkeerd antwoord: 11Instructies niet gevolgd: 2
Anti-AI Tricks: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)1.73sResponstijd (max)1.73sResponstijd (totaal)1.73s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.33sResponstijd (max)3.33sResponstijd (totaal)3.33s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)943msResponstijd (max)943msResponstijd (totaal)943ms
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.06sResponstijd (max)1.06sResponstijd (totaal)1.06s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.08sResponstijd (max)1.08sResponstijd (totaal)1.08s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)923msResponstijd (max)923msResponstijd (totaal)923ms
Puzzle Solving: 1.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.28sResponstijd (max)1.36sResponstijd (totaal)2.56s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.51sResponstijd (max)5.51sResponstijd (totaal)5.51s
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 4Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)65.09sResponstijd (max)262.83sResponstijd (totaal)846.14s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 68.8%Instabiele tests: 2…Uitvoer-tokens: 1,965Redeneer-tokens: 58,456Responstijd: gem. 65.09s · totaal 846.14s · max 262.83s
Time-out: 4Instructies niet gevolgd: 1Verkeerd antwoord: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)98.99sResponstijd (max)182.10sResponstijd (totaal)296.96s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)262.83sResponstijd (max)262.83sResponstijd (totaal)262.83s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.27sResponstijd (max)27.52sResponstijd (totaal)48.54s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 3Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)36.65sResponstijd (max)36.65sResponstijd (totaal)36.65s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.47sResponstijd (max)19.46sResponstijd (totaal)34.93s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)25.85sResponstijd (max)32.95sResponstijd (totaal)77.55s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)88.68sResponstijd (max)88.68sResponstijd (totaal)88.68s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 11Responstijd (gem.)11.91sResponstijd (max)42.13sResponstijd (totaal)107.16s…
Totaal tests: 16Foute tests: 11Slaagpercentage per poging: 39.6%Instabiele tests: 3…Uitvoer-tokens: 2,000Redeneer-tokens: 0Responstijd: gem. 11.91s · totaal 107.16s · max 42.13s
Verkeerd antwoord: 11
Anti-AI Tricks: 2.7Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)11.38sResponstijd (max)11.38sResponstijd (totaal)11.38s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)19.16sResponstijd (max)19.16sResponstijd (totaal)19.16s
Data parsing and extraction: 5.4Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)42.13sResponstijd (max)42.13sResponstijd (totaal)42.13s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)4.38sResponstijd (max)4.38sResponstijd (totaal)4.38s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.00sResponstijd (max)4.00sResponstijd (totaal)4.00s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.67sResponstijd (max)2.67sResponstijd (totaal)2.67s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)4.73sResponstijd (max)7.81sResponstijd (totaal)9.45s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.99sResponstijd (max)13.99sResponstijd (totaal)13.99s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 2Responstijd (gem.)1.75sResponstijd (max)9.39sResponstijd (totaal)28.05s…
Totaal tests: 16Foute tests: 11Slaagpercentage per poging: 37.5%Instabiele tests: 2…Uitvoer-tokens: 3,161Redeneer-tokens: 0Responstijd: gem. 1.75s · totaal 28.05s · max 9.39s
Verkeerd antwoord: 9Instructies niet gevolgd: 2
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)796msResponstijd (max)1.34sResponstijd (totaal)2.39s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)9.39sResponstijd (max)9.39sResponstijd (totaal)9.39s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.43sResponstijd (max)1.45sResponstijd (totaal)2.86s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)540msResponstijd (max)649msResponstijd (totaal)1.62s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.51sResponstijd (max)2.51sResponstijd (totaal)2.51s
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)815msResponstijd (max)973msResponstijd (totaal)1.63s
Puzzle Solving: 6.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.37sResponstijd (max)2.23sResponstijd (totaal)4.12s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.54sResponstijd (max)3.54sResponstijd (totaal)3.54s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3API-fout: 1Instructies niet gevolgd: 1Responstijd (gem.)25.33sResponstijd (max)96.01sResponstijd (totaal)253.33s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 72.9%Instabiele tests: 1…Uitvoer-tokens: 11,613Redeneer-tokens: 106,714Responstijd: gem. 25.33s · totaal 253.33s · max 96.01s
Verkeerd antwoord: 3API-fout: 1Instructies niet gevolgd: 1
Anti-AI Tricks: 9.7Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)16.79sResponstijd (max)20.83sResponstijd (totaal)33.57s
Combined: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)75.68sResponstijd (max)75.68sResponstijd (totaal)75.68s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)96.01sResponstijd (max)96.01sResponstijd (totaal)96.01s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.20sResponstijd (max)4.20sResponstijd (totaal)4.20s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.28sResponstijd (max)7.37sResponstijd (totaal)8.55s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.77sResponstijd (max)5.26sResponstijd (totaal)7.55s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)27.78sResponstijd (max)27.78sResponstijd (totaal)27.78s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 1Responstijd (gem.)3.72sResponstijd (max)46.00sResponstijd (totaal)59.46s…
Totaal tests: 16Foute tests: 10Slaagpercentage per poging: 39.6%Instabiele tests: 1…Uitvoer-tokens: 2,679Redeneer-tokens: 0Responstijd: gem. 3.72s · totaal 59.46s · max 46.00s
Verkeerd antwoord: 9Instructies niet gevolgd: 1
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)927msResponstijd (max)1.38sResponstijd (totaal)2.78s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)46.00sResponstijd (max)46.00sResponstijd (totaal)46.00s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.01sResponstijd (max)1.06sResponstijd (totaal)2.02s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)465msResponstijd (max)492msResponstijd (totaal)1.39s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.12sResponstijd (max)1.12sResponstijd (totaal)1.12s
Instructions following: 4.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)585msResponstijd (max)715msResponstijd (totaal)1.17s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)982msResponstijd (max)1.36sResponstijd (totaal)2.95s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.04sResponstijd (max)2.04sResponstijd (totaal)2.04s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)3.83sResponstijd (max)14.93sResponstijd (totaal)61.25s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 68.8%Instabiele tests: 0…Uitvoer-tokens: 1,731Redeneer-tokens: 25,821Responstijd: gem. 3.83s · totaal 61.25s · max 14.93s
Verkeerd antwoord: 4Instructies niet gevolgd: 1
Anti-AI Tricks: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.53sResponstijd (max)3.89sResponstijd (totaal)7.58s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)14.93sResponstijd (max)14.93sResponstijd (totaal)14.93s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.29sResponstijd (max)2.31sResponstijd (totaal)4.59s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)4.21sResponstijd (max)5.86sResponstijd (totaal)12.62s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.16sResponstijd (max)3.16sResponstijd (totaal)3.16s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.91sResponstijd (max)1.93sResponstijd (totaal)3.82s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.58sResponstijd (max)4.41sResponstijd (totaal)10.75s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.80sResponstijd (max)3.80sResponstijd (totaal)3.80s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Verkeerd antwoord: 2Geen antwoord: 1Time-out: 1Responstijd (gem.)26.35sResponstijd (max)121.79sResponstijd (totaal)237.11s…
Totaal tests: 16Foute tests: 7Slaagpercentage per poging: 66.7%Instabiele tests: 4…Uitvoer-tokens: 1,183Redeneer-tokens: 83,875Responstijd: gem. 26.35s · totaal 237.11s · max 121.79s
Instructies niet gevolgd: 3Verkeerd antwoord: 2Geen antwoord: 1Time-out: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.65sResponstijd (max)5.65sResponstijd (totaal)5.65s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)37.64sResponstijd (max)37.64sResponstijd (totaal)37.64s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.63sResponstijd (max)6.63sResponstijd (totaal)6.63s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)121.79sResponstijd (max)121.79sResponstijd (totaal)121.79s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)16.25sResponstijd (max)16.25sResponstijd (totaal)16.25s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.30sResponstijd (max)5.30sResponstijd (totaal)5.30s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)8.08sResponstijd (max)8.38sResponstijd (totaal)16.17s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)27.71sResponstijd (max)27.71sResponstijd (totaal)27.71s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)6.11sResponstijd (max)14.72sResponstijd (totaal)97.74s…
Totaal tests: 16Foute tests: 3Slaagpercentage per poging: 83.3%Instabiele tests: 1…Uitvoer-tokens: 1,586Redeneer-tokens: 19,950Responstijd: gem. 6.11s · totaal 97.74s · max 14.72s
Verkeerd antwoord: 3
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.50sResponstijd (max)4.31sResponstijd (totaal)10.49s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.27sResponstijd (max)3.27sResponstijd (totaal)3.27s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.40sResponstijd (max)14.72sResponstijd (totaal)18.80s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)8.05sResponstijd (max)14.40sResponstijd (totaal)24.15s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.68sResponstijd (max)3.68sResponstijd (totaal)3.68s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.02sResponstijd (max)7.35sResponstijd (totaal)14.03s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.11sResponstijd (max)10.27sResponstijd (totaal)18.32s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.99sResponstijd (max)4.99sResponstijd (totaal)4.99s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 4Responstijd (gem.)2.36sResponstijd (max)14.63sResponstijd (totaal)35.39s…
Totaal tests: 16Foute tests: 9Slaagpercentage per poging: 54.2%Instabiele tests: 3…Uitvoer-tokens: 3,708Redeneer-tokens: 45,921Responstijd: gem. 2.36s · totaal 35.39s · max 14.63s
Verkeerd antwoord: 5Instructies niet gevolgd: 4
Anti-AI Tricks: 7.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.30sResponstijd (max)2.46sResponstijd (totaal)3.89s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.28sResponstijd (max)3.28sResponstijd (totaal)3.28s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.11sResponstijd (max)1.47sResponstijd (totaal)2.21s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)6.48sResponstijd (max)14.63sResponstijd (totaal)19.43s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)821msResponstijd (max)821msResponstijd (totaal)821ms
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.07sResponstijd (max)1.07sResponstijd (totaal)1.07s
Puzzle Solving: 1.7Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 1Responstijd (gem.)934msResponstijd (max)1.18sResponstijd (totaal)2.80s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.89sResponstijd (max)1.89sResponstijd (totaal)1.89s
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 3API-fout: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)70.81sResponstijd (max)234.29sResponstijd (totaal)1132.90s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 81.3%Instabiele tests: 5…Uitvoer-tokens: 1,807Redeneer-tokens: 169,952Responstijd: gem. 70.81s · totaal 1132.90s · max 234.29s
Time-out: 3API-fout: 1Instructies niet gevolgd: 1Verkeerd antwoord: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)71.35sResponstijd (max)168.31sResponstijd (totaal)214.06s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.78sResponstijd (max)17.78sResponstijd (totaal)17.78s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)56.99sResponstijd (max)80.14sResponstijd (totaal)113.98s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)146.50sResponstijd (max)234.29sResponstijd (totaal)439.49s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)40.05sResponstijd (max)40.05sResponstijd (totaal)40.05s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)63.49sResponstijd (max)111.61sResponstijd (totaal)126.98s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Responstijd (gem.)56.74sResponstijd (max)115.01sResponstijd (totaal)170.23s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.33sResponstijd (max)10.33sResponstijd (totaal)10.33s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 10API-fout: 1Extra opmaak: 1Instructies niet gevolgd: 1Responstijd (gem.)2.97sResponstijd (max)19.68sResponstijd (totaal)35.60s…
Totaal tests: 16Foute tests: 13Slaagpercentage per poging: 29.2%Instabiele tests: 4…Uitvoer-tokens: 67,790Redeneer-tokens: 0Responstijd: gem. 2.97s · totaal 35.60s · max 19.68s
Verkeerd antwoord: 10API-fout: 1Extra opmaak: 1Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.36sResponstijd (max)2.73sResponstijd (totaal)4.07s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.87sResponstijd (max)2.87sResponstijd (totaal)2.87s
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Extra opmaak: 1Responstijd (gem.)19.68sResponstijd (max)19.68sResponstijd (totaal)19.68s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)564msResponstijd (max)564msResponstijd (totaal)564ms
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.67sResponstijd (max)1.67sResponstijd (totaal)1.67s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)857msResponstijd (max)955msResponstijd (totaal)1.71s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.38sResponstijd (max)1.74sResponstijd (totaal)2.75s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.28sResponstijd (max)2.28sResponstijd (totaal)2.28s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 3Time-out: 1Responstijd (gem.)47.94sResponstijd (max)204.02sResponstijd (totaal)431.47s…
Totaal tests: 16Foute tests: 9Slaagpercentage per poging: 60.4%Instabiele tests: 6…Uitvoer-tokens: 4,386Redeneer-tokens: 142,080Responstijd: gem. 47.94s · totaal 431.47s · max 204.02s
Verkeerd antwoord: 5Instructies niet gevolgd: 3Time-out: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)37.73sResponstijd (max)37.73sResponstijd (totaal)37.73s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)65.96sResponstijd (max)65.96sResponstijd (totaal)65.96s
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)21.42sResponstijd (max)21.42sResponstijd (totaal)21.42s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)204.02sResponstijd (max)204.02sResponstijd (totaal)204.02s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)17.51sResponstijd (max)17.51sResponstijd (totaal)17.51s
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)11.90sResponstijd (max)11.90sResponstijd (totaal)11.90s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)19.81sResponstijd (max)21.31sResponstijd (totaal)39.63s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)33.30sResponstijd (max)33.30sResponstijd (totaal)33.30s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Geen antwoord: 1Time-out: 1Responstijd (gem.)16.16sResponstijd (max)28.96sResponstijd (totaal)129.26s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 83.3%Instabiele tests: 4…Uitvoer-tokens: 19,773Redeneer-tokens: 36,459Responstijd: gem. 16.16s · totaal 129.26s · max 28.96s
Verkeerd antwoord: 2Instructies niet gevolgd: 1Geen antwoord: 1Time-out: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)22.26sResponstijd (max)22.26sResponstijd (totaal)22.26s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)28.96sResponstijd (max)28.96sResponstijd (totaal)28.96s
Data parsing and extraction: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)8.90sResponstijd (max)8.90sResponstijd (totaal)8.90s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)14.69sResponstijd (max)14.69sResponstijd (totaal)14.69s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.25sResponstijd (max)7.25sResponstijd (totaal)7.25s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.64sResponstijd (max)16.34sResponstijd (totaal)31.27s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.93sResponstijd (max)15.93sResponstijd (totaal)15.93s
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.36sResponstijd (max)50.16sResponstijd (totaal)111.21s…
Totaal tests: 16Foute tests: 0Slaagpercentage per poging: 100.0%Instabiele tests: 0…Uitvoer-tokens: 1,634Redeneer-tokens: 47,907Responstijd: gem. 12.36s · totaal 111.21s · max 50.16s
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.61sResponstijd (max)5.61sResponstijd (totaal)5.61s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)50.16sResponstijd (max)50.16sResponstijd (totaal)50.16s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.72sResponstijd (max)4.72sResponstijd (totaal)4.72s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)21.12sResponstijd (max)21.12sResponstijd (totaal)21.12s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.09sResponstijd (max)4.09sResponstijd (totaal)4.09s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.10sResponstijd (max)6.10sResponstijd (totaal)6.10s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.43sResponstijd (max)4.68sResponstijd (totaal)8.85s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.55sResponstijd (max)10.55sResponstijd (totaal)10.55s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 7Instructies niet gevolgd: 2Geen antwoord: 2invalid tool call: 1Responstijd (gem.)36.84sResponstijd (max)174.55sResponstijd (totaal)331.58s…
Totaal tests: 16Foute tests: 12Slaagpercentage per poging: 41.7%Instabiele tests: 7…Uitvoer-tokens: 38,682Redeneer-tokens: 64,952Responstijd: gem. 36.84s · totaal 331.58s · max 174.55s
Verkeerd antwoord: 7Instructies niet gevolgd: 2Geen antwoord: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)27.09sResponstijd (max)27.09sResponstijd (totaal)27.09s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.invalid tool call: 1Responstijd (gem.)65.57sResponstijd (max)65.57sResponstijd (totaal)65.57s
Data parsing and extraction: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)1.51sResponstijd (max)1.51sResponstijd (totaal)1.51s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Geen antwoord: 1Responstijd (gem.)174.55sResponstijd (max)174.55sResponstijd (totaal)174.55s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)18.14sResponstijd (max)18.14sResponstijd (totaal)18.14s
Instructions following: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.97sResponstijd (max)2.97sResponstijd (totaal)2.97s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)12.90sResponstijd (max)22.33sResponstijd (totaal)25.80s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.95sResponstijd (max)15.95sResponstijd (totaal)15.95s
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Verkeerd antwoord: 1Responstijd (gem.)34.45sResponstijd (max)79.86sResponstijd (totaal)310.09s…
Totaal tests: 16Foute tests: 3Slaagpercentage per poging: 85.4%Instabiele tests: 1…Uitvoer-tokens: 1,735Redeneer-tokens: 77,212Responstijd: gem. 34.45s · totaal 310.09s · max 79.86s
Time-out: 2Verkeerd antwoord: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.37sResponstijd (max)10.37sResponstijd (totaal)10.37s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)46.85sResponstijd (max)46.85sResponstijd (totaal)46.85s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)46.91sResponstijd (max)46.91sResponstijd (totaal)46.91s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)17.50sResponstijd (max)17.50sResponstijd (totaal)17.50s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)79.86sResponstijd (max)79.86sResponstijd (totaal)79.86s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.93sResponstijd (max)31.93sResponstijd (totaal)31.93s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)34.57sResponstijd (max)49.12sResponstijd (totaal)69.13s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.54sResponstijd (max)7.54sResponstijd (totaal)7.54s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 4Verkeerd antwoord: 3Time-out: 1Responstijd (gem.)25.14sResponstijd (max)88.15sResponstijd (totaal)402.29s…
Totaal tests: 16Foute tests: 8Slaagpercentage per poging: 58.3%Instabiele tests: 2…Uitvoer-tokens: 5,826Redeneer-tokens: 48,768Responstijd: gem. 25.14s · totaal 402.29s · max 88.15s
Instructies niet gevolgd: 4Verkeerd antwoord: 3Time-out: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)16.45sResponstijd (max)26.00sResponstijd (totaal)49.36s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)88.15sResponstijd (max)88.15sResponstijd (totaal)88.15s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.58sResponstijd (max)13.87sResponstijd (totaal)25.16s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)44.63sResponstijd (max)82.55sResponstijd (totaal)133.89s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)13.50sResponstijd (max)13.50sResponstijd (totaal)13.50s
Instructions following: 7.5Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)15.66sResponstijd (max)21.80sResponstijd (totaal)31.32s
Puzzle Solving: 4.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)14.09sResponstijd (max)16.81sResponstijd (totaal)42.28s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.64sResponstijd (max)18.64sResponstijd (totaal)18.64s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)7.15sResponstijd (max)11.96sResponstijd (totaal)64.34s…
Totaal tests: 16Foute tests: 3Slaagpercentage per poging: 81.3%Instabiele tests: 0…Uitvoer-tokens: 1,502Redeneer-tokens: 9,706Responstijd: gem. 7.15s · totaal 64.34s · max 11.96s
Verkeerd antwoord: 3
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.75sResponstijd (max)3.75sResponstijd (totaal)3.75s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)10.37sResponstijd (max)10.37sResponstijd (totaal)10.37s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.84sResponstijd (max)10.84sResponstijd (totaal)10.84s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)7.01sResponstijd (max)7.01sResponstijd (totaal)7.01s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.34sResponstijd (max)9.34sResponstijd (totaal)9.34s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)3.26sResponstijd (totaal)3.26s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.91sResponstijd (max)4.23sResponstijd (totaal)7.81s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.96sResponstijd (max)11.96sResponstijd (totaal)11.96s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Instructies niet gevolgd: 1Responstijd (gem.)1.48sResponstijd (max)2.89sResponstijd (totaal)23.64s…
Totaal tests: 16Foute tests: 10Slaagpercentage per poging: 41.7%Instabiele tests: 2…Uitvoer-tokens: 1,819Redeneer-tokens: 0Responstijd: gem. 1.48s · totaal 23.64s · max 2.89s
Verkeerd antwoord: 9Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.41sResponstijd (max)2.58sResponstijd (totaal)4.23s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.89sResponstijd (max)2.89sResponstijd (totaal)2.89s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.04sResponstijd (max)1.06sResponstijd (totaal)2.08s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.07sResponstijd (max)1.54sResponstijd (totaal)3.22s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.78sResponstijd (max)1.78sResponstijd (totaal)1.78s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.07sResponstijd (max)1.17sResponstijd (totaal)2.15s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)1.52sResponstijd (max)1.82sResponstijd (totaal)4.56s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.75sResponstijd (max)2.75sResponstijd (totaal)2.75s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 2Geen antwoord: 1Time-out: 1Responstijd (gem.)69.83sResponstijd (max)137.29sResponstijd (totaal)628.45s…
Totaal tests: 16Foute tests: 7Slaagpercentage per poging: 72.9%Instabiele tests: 5…Uitvoer-tokens: 38,453Redeneer-tokens: 72,496Responstijd: gem. 69.83s · totaal 628.45s · max 137.29s
Verkeerd antwoord: 3Instructies niet gevolgd: 2Geen antwoord: 1Time-out: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)85.28sResponstijd (max)85.28sResponstijd (totaal)85.28s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)71.37sResponstijd (max)71.37sResponstijd (totaal)71.37s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)49.78sResponstijd (max)49.78sResponstijd (totaal)49.78s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)137.29sResponstijd (max)137.29sResponstijd (totaal)137.29s
General Intelligence: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)69.73sResponstijd (max)69.73sResponstijd (totaal)69.73s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)92.47sResponstijd (max)92.47sResponstijd (totaal)92.47s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)45.40sResponstijd (max)82.75sResponstijd (totaal)90.79s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.74sResponstijd (max)31.74sResponstijd (totaal)31.74s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)7.03sResponstijd (max)38.52sResponstijd (totaal)112.51s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 75.0%Instabiele tests: 2…Uitvoer-tokens: 15,845Redeneer-tokens: 0Responstijd: gem. 7.03s · totaal 112.51s · max 38.52s
Verkeerd antwoord: 4Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.97sResponstijd (max)4.78sResponstijd (totaal)11.90s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.12sResponstijd (max)9.12sResponstijd (totaal)9.12s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.05sResponstijd (max)3.33sResponstijd (totaal)6.10s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)17.78sResponstijd (max)38.52sResponstijd (totaal)53.33s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.20sResponstijd (max)3.20sResponstijd (totaal)3.20s
Instructions following: 6.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.46sResponstijd (max)6.45sResponstijd (totaal)10.92s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.42sResponstijd (max)5.04sResponstijd (totaal)13.27s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.68sResponstijd (max)4.68sResponstijd (totaal)4.68s
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 3Verkeerd antwoord: 2Instructies niet gevolgd: 1Responstijd (gem.)5.57sResponstijd (max)23.84sResponstijd (totaal)50.12s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 66.7%Instabiele tests: 1…Uitvoer-tokens: 6,895Redeneer-tokens: 0Responstijd: gem. 5.57s · totaal 50.12s · max 23.84s
Extra opmaak: 3Verkeerd antwoord: 2Instructies niet gevolgd: 1
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Responstijd (gem.)4.83sResponstijd (max)4.83sResponstijd (totaal)4.83s
Combined: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.84sResponstijd (max)23.84sResponstijd (totaal)23.84s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.43sResponstijd (max)3.43sResponstijd (totaal)3.43s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.54sResponstijd (max)3.54sResponstijd (totaal)3.54s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.56sResponstijd (max)2.56sResponstijd (totaal)2.56s
Instructions following: 5.5Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.96sResponstijd (max)1.96sResponstijd (totaal)1.96s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Responstijd (gem.)2.92sResponstijd (max)3.33sResponstijd (totaal)5.84s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.11sResponstijd (max)4.11sResponstijd (totaal)4.11s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 1Responstijd (gem.)12.35sResponstijd (max)95.48sResponstijd (totaal)197.62s…
Totaal tests: 16Foute tests: 5Slaagpercentage per poging: 72.9%Instabiele tests: 1…Uitvoer-tokens: 1,370Redeneer-tokens: 110,522Responstijd: gem. 12.35s · totaal 197.62s · max 95.48s
Verkeerd antwoord: 4Instructies niet gevolgd: 1
Anti-AI Tricks: 7.3Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.98sResponstijd (max)15.56sResponstijd (totaal)20.95s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)28.44sResponstijd (max)28.44sResponstijd (totaal)28.44s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.06sResponstijd (max)5.06sResponstijd (totaal)8.11s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)37.34sResponstijd (max)95.48sResponstijd (totaal)112.01s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.86sResponstijd (max)4.86sResponstijd (totaal)4.86s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.62sResponstijd (max)2.78sResponstijd (totaal)5.24s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.94sResponstijd (max)6.33sResponstijd (totaal)11.83s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.20sResponstijd (max)6.20sResponstijd (totaal)6.20s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 3Geen antwoord: 1Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)15.33sResponstijd (max)77.80sResponstijd (totaal)138.01s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 75.0%Instabiele tests: 4…Uitvoer-tokens: 2,220Redeneer-tokens: 16,811Responstijd: gem. 15.33s · totaal 138.01s · max 77.80s
Instructies niet gevolgd: 3Geen antwoord: 1Time-out: 1Verkeerd antwoord: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)14.34sResponstijd (max)14.34sResponstijd (totaal)14.34s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)14.06sResponstijd (max)14.06sResponstijd (totaal)14.06s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.15sResponstijd (max)3.15sResponstijd (totaal)3.15s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)77.80sResponstijd (max)77.80sResponstijd (totaal)77.80s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.32sResponstijd (max)4.32sResponstijd (totaal)4.32s
Instructions following: 9.5Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.12sResponstijd (max)3.12sResponstijd (totaal)3.12s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.47sResponstijd (max)6.45sResponstijd (totaal)10.94s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)10.30sResponstijd (max)10.30sResponstijd (totaal)10.30s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Instructies niet gevolgd: 2Responstijd (gem.)5.96sResponstijd (max)18.33sResponstijd (totaal)95.30s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 70.8%Instabiele tests: 3…Uitvoer-tokens: 19,272Redeneer-tokens: 0Responstijd: gem. 5.96s · totaal 95.30s · max 18.33s
Verkeerd antwoord: 4Instructies niet gevolgd: 2
Anti-AI Tricks: 7.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.72sResponstijd (max)7.35sResponstijd (totaal)14.17s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.96sResponstijd (max)11.96sResponstijd (totaal)11.96s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.21sResponstijd (max)2.52sResponstijd (totaal)4.42s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)13.01sResponstijd (max)18.33sResponstijd (totaal)39.04s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)1.99sResponstijd (max)1.99sResponstijd (totaal)1.99s
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.29sResponstijd (max)4.18sResponstijd (totaal)6.59s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.93sResponstijd (max)3.05sResponstijd (totaal)8.78s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.36sResponstijd (max)8.36sResponstijd (totaal)8.36s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)16.60sResponstijd (max)40.61sResponstijd (totaal)149.36s…
Totaal tests: 16Foute tests: 1Slaagpercentage per poging: 93.8%Instabiele tests: 0…Uitvoer-tokens: 1,521Redeneer-tokens: 35,656Responstijd: gem. 16.60s · totaal 149.36s · max 40.61s
Verkeerd antwoord: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.52sResponstijd (max)9.52sResponstijd (totaal)9.52s
Combined: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)40.61sResponstijd (max)40.61sResponstijd (totaal)40.61s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.72sResponstijd (max)7.72sResponstijd (totaal)7.72s
Domain specific: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)32.73sResponstijd (max)32.73sResponstijd (totaal)32.73s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.77sResponstijd (max)11.77sResponstijd (totaal)11.77s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.56sResponstijd (max)9.56sResponstijd (totaal)9.56s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.15sResponstijd (max)8.49sResponstijd (totaal)14.30s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.15sResponstijd (max)23.15sResponstijd (totaal)23.15s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)52.13sResponstijd (max)163.96sResponstijd (totaal)834.16s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 81.3%Instabiele tests: 2…Uitvoer-tokens: 1,658Redeneer-tokens: 200,786Responstijd: gem. 52.13s · totaal 834.16s · max 163.96s
Instructies niet gevolgd: 2Time-out: 1Verkeerd antwoord: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.69sResponstijd (max)10.84sResponstijd (totaal)29.06s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)163.96sResponstijd (max)163.96sResponstijd (totaal)163.96s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)30.26sResponstijd (max)32.03sResponstijd (totaal)60.52s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)79.53sResponstijd (max)95.52sResponstijd (totaal)238.59s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)101.41sResponstijd (max)101.41sResponstijd (totaal)101.41s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)19.66sResponstijd (max)32.25sResponstijd (totaal)39.32s
Puzzle Solving: 8.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)64.61sResponstijd (max)123.57sResponstijd (totaal)193.84s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.45sResponstijd (max)7.45sResponstijd (totaal)7.45s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Time-out: 1Responstijd (gem.)29.74sResponstijd (max)119.29sResponstijd (totaal)475.83s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 79.2%Instabiele tests: 2…Uitvoer-tokens: 17,292Redeneer-tokens: 145,625Responstijd: gem. 29.74s · totaal 475.83s · max 119.29s
Verkeerd antwoord: 3Time-out: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.99sResponstijd (max)11.62sResponstijd (totaal)20.98s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)107.79sResponstijd (max)107.79sResponstijd (totaal)107.79s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.41sResponstijd (max)29.79sResponstijd (totaal)46.83s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)63.40sResponstijd (max)119.29sResponstijd (totaal)190.20s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)34.11sResponstijd (max)34.11sResponstijd (totaal)34.11s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.88sResponstijd (max)15.44sResponstijd (totaal)19.76s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.18sResponstijd (max)31.99sResponstijd (totaal)51.55s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.60sResponstijd (max)4.60sResponstijd (totaal)4.60s
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 4Verkeerd antwoord: 2API-fout: 1Geen antwoord: 1Responstijd (gem.)43.93sResponstijd (max)106.00sResponstijd (totaal)702.85s…
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)21.75sResponstijd (max)34.96sResponstijd (totaal)65.26s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)75.34sResponstijd (max)75.34sResponstijd (totaal)75.34s
Data parsing and extraction: 5.5Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)59.33sResponstijd (max)97.12sResponstijd (totaal)118.65s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Verkeerd antwoord: 1Responstijd (gem.)88.34sResponstijd (max)106.00sResponstijd (totaal)265.01s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)30.30sResponstijd (max)30.30sResponstijd (totaal)30.30s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.45sResponstijd (max)43.36sResponstijd (totaal)48.89s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)31.58sResponstijd (max)60.18sResponstijd (totaal)94.75s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.65sResponstijd (max)4.65sResponstijd (totaal)4.65s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 2Responstijd (gem.)16.59sResponstijd (max)100.93sResponstijd (totaal)265.39s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 83.3%Instabiele tests: 2…Uitvoer-tokens: 1,764Redeneer-tokens: 33,348Responstijd: gem. 16.59s · totaal 265.39s · max 100.93s
Instructies niet gevolgd: 2Verkeerd antwoord: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.69sResponstijd (max)6.68sResponstijd (totaal)14.06s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)19.56sResponstijd (max)19.56sResponstijd (totaal)19.56s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.07sResponstijd (max)3.59sResponstijd (totaal)6.15s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)64.31sResponstijd (max)100.93sResponstijd (totaal)192.94s
General Intelligence: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.87sResponstijd (max)4.87sResponstijd (totaal)4.87s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.04sResponstijd (max)3.44sResponstijd (totaal)6.07s
Puzzle Solving: 9.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.12sResponstijd (max)8.73sResponstijd (totaal)15.37s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.37sResponstijd (max)6.37sResponstijd (totaal)6.37s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 5Instructies niet gevolgd: 3Time-out: 2invalid tool call: 1Responstijd (gem.)43.03sResponstijd (max)237.27sResponstijd (totaal)387.25s…
Totaal tests: 16Foute tests: 11Slaagpercentage per poging: 60.4%Instabiele tests: 9…Uitvoer-tokens: 107,044Redeneer-tokens: 206,190Responstijd: gem. 43.03s · totaal 387.25s · max 237.27s
Verkeerd antwoord: 5Instructies niet gevolgd: 3Time-out: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)32.42sResponstijd (max)32.42sResponstijd (totaal)32.42s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.invalid tool call: 1Responstijd (gem.)60.39sResponstijd (max)60.39sResponstijd (totaal)60.39s
Data parsing and extraction: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)7.48sResponstijd (max)7.48sResponstijd (totaal)7.48s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)237.27sResponstijd (max)237.27sResponstijd (totaal)237.27s
General Intelligence: 3.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)6.63sResponstijd (max)6.63sResponstijd (totaal)6.63s
Instructions following: 8.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.64sResponstijd (max)4.64sResponstijd (totaal)4.64s
Puzzle Solving: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)11.54sResponstijd (max)17.37sResponstijd (totaal)23.08s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.35sResponstijd (max)15.35sResponstijd (totaal)15.35s
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Verkeerd antwoord: 2Responstijd (gem.)20.05sResponstijd (max)100.41sResponstijd (totaal)320.87s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 83.3%Instabiele tests: 3…Uitvoer-tokens: 1,756Redeneer-tokens: 46,642Responstijd: gem. 20.05s · totaal 320.87s · max 100.41s
Instructies niet gevolgd: 2Verkeerd antwoord: 2
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.02sResponstijd (max)6.42sResponstijd (totaal)15.06s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.57sResponstijd (max)20.57sResponstijd (totaal)20.57s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.32sResponstijd (max)5.40sResponstijd (totaal)10.64s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)74.27sResponstijd (max)100.41sResponstijd (totaal)222.80s
General Intelligence: 5.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)4.92sResponstijd (max)4.92sResponstijd (totaal)4.92s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.11sResponstijd (max)3.68sResponstijd (totaal)6.22s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)9.13sResponstijd (max)18.14sResponstijd (totaal)27.39s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.28sResponstijd (max)13.28sResponstijd (totaal)13.28s
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)11.23sResponstijd (max)46.35sResponstijd (totaal)89.84s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 77.1%Instabiele tests: 1…Uitvoer-tokens: 35,159Redeneer-tokens: 24,687Responstijd: gem. 11.23s · totaal 89.84s · max 46.35s
Extra opmaak: 2Time-out: 1Verkeerd antwoord: 1
Anti-AI Tricks: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Responstijd (gem.)4.95sResponstijd (max)4.95sResponstijd (totaal)4.95s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)46.35sResponstijd (max)46.35sResponstijd (totaal)46.35s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.90sResponstijd (max)13.90sResponstijd (totaal)13.90s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.94sResponstijd (max)4.94sResponstijd (totaal)4.94s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.61sResponstijd (max)2.61sResponstijd (totaal)2.61s
Puzzle Solving: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.80sResponstijd (max)5.22sResponstijd (totaal)9.60s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.48sResponstijd (max)7.48sResponstijd (totaal)7.48s
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 4Verkeerd antwoord: 2Responstijd (gem.)22.86sResponstijd (max)83.40sResponstijd (totaal)205.71s…
Totaal tests: 16Foute tests: 6Slaagpercentage per poging: 66.7%Instabiele tests: 2…Uitvoer-tokens: 26,254Redeneer-tokens: 17,363Responstijd: gem. 22.86s · totaal 205.71s · max 83.40s
Extra opmaak: 4Verkeerd antwoord: 2
Anti-AI Tricks: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Responstijd (gem.)11.88sResponstijd (max)11.88sResponstijd (totaal)11.88s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)76.66sResponstijd (max)76.66sResponstijd (totaal)76.66s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.37sResponstijd (max)7.37sResponstijd (totaal)7.37s
Domain specific: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Verkeerd antwoord: 1Responstijd (gem.)83.40sResponstijd (max)83.40sResponstijd (totaal)83.40s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.04sResponstijd (max)5.04sResponstijd (totaal)5.04s
Instructions following: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.43sResponstijd (max)2.43sResponstijd (totaal)2.43s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.60sResponstijd (max)4.66sResponstijd (totaal)9.20s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.73sResponstijd (max)9.73sResponstijd (totaal)9.73s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Instructies niet gevolgd: 1Responstijd (gem.)68.83sResponstijd (max)280.52sResponstijd (totaal)1101.32s…
Totaal tests: 16Foute tests: 4Slaagpercentage per poging: 77.1%Instabiele tests: 1…Uitvoer-tokens: 1,283Redeneer-tokens: 1,533,310Responstijd: gem. 68.83s · totaal 1101.32s · max 280.52s
Verkeerd antwoord: 3Instructies niet gevolgd: 1
Anti-AI Tricks: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)43.87sResponstijd (max)121.88sResponstijd (totaal)131.62s
Combined: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)280.52sResponstijd (max)280.52sResponstijd (totaal)280.52s
Data parsing and extraction: 9.9Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.16sResponstijd (max)8.54sResponstijd (totaal)14.31s
Domain specific: 4.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)127.58sResponstijd (max)133.93sResponstijd (totaal)382.74s
General Intelligence: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.25sResponstijd (max)5.25sResponstijd (totaal)5.25s
Instructions following: 9.0Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)70.07sResponstijd (max)136.53sResponstijd (totaal)140.14s
Puzzle Solving: 7.0Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)46.33sResponstijd (max)134.22sResponstijd (totaal)139.00s
Tool Calling: 10.0Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.73sResponstijd (max)7.73sResponstijd (totaal)7.73s