Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 51.9%Instabiele tests: 1…Uitvoer-tokens: 1,611Redeneer-tokens: 0Responstijd: gem. 23.34s · totaal 420.04s · max 109.46s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)33.40sResponstijd (max)33.40sResponstijd (totaal)33.40s
Gecombineerd
: 9.5 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)34.55sResponstijd (max)34.55sResponstijd (totaal)34.55s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)54.04sResponstijd (max)105.46sResponstijd (totaal)108.08s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)3.08sResponstijd (max)6.59sResponstijd (totaal)9.24s
Algemene intelligentie
: 4.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.06sResponstijd (max)6.06sResponstijd (totaal)6.06s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)9.47sResponstijd (max)13.43sResponstijd (totaal)18.95s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.47sResponstijd (max)6.47sResponstijd (totaal)6.47s
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 64.8%Instabiele tests: 6…Uitvoer-tokens: 2,010Redeneer-tokens: 91,298Responstijd: gem. 23.88s · totaal 262.66s · max 121.79s
Anti-AI-trucs
: 8.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.81sResponstijd (max)5.65sResponstijd (totaal)7.62s
Programmeren
: 2.3 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)23.58sResponstijd (max)23.58sResponstijd (totaal)23.58s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)37.64sResponstijd (max)37.64sResponstijd (totaal)37.64s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.63sResponstijd (max)6.63sResponstijd (totaal)6.63s
Domeinspecifiek
: 5.8 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)121.79sResponstijd (max)121.79sResponstijd (totaal)121.79s
Toolaanroepen
: 2.8 Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)27.71sResponstijd (max)27.71sResponstijd (totaal)27.71s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 9Responstijd (gem.)4.23sResponstijd (max)11.07sResponstijd (totaal)46.51s…
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 51.9%Instabiele tests: 1…Uitvoer-tokens: 1,959Redeneer-tokens: 0Responstijd: gem. 4.23s · totaal 46.51s · max 11.07s
Anti-AI-trucs
: 4.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)2.37sResponstijd (max)3.39sResponstijd (totaal)4.75s
Programmeren
: 5.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.84sResponstijd (max)8.84sResponstijd (totaal)8.84s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.98sResponstijd (max)4.98sResponstijd (totaal)4.98s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.78sResponstijd (max)5.78sResponstijd (totaal)5.78s
Domeinspecifiek
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)2.24sResponstijd (max)2.24sResponstijd (totaal)2.24s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.27sResponstijd (max)3.27sResponstijd (totaal)3.27s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.48sResponstijd (max)1.48sResponstijd (totaal)1.48s
Puzzeloplossing
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.05sResponstijd (max)2.08sResponstijd (totaal)4.10s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.07sResponstijd (max)11.07sResponstijd (totaal)11.07s
Totaal tests: 18Foute tests: 10Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 53.7%Instabiele tests: 3…Uitvoer-tokens: 3,972Redeneer-tokens: 48,333Responstijd: gem. 2.21s · totaal 37.51s · max 14.63s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.53sResponstijd (max)1.53sResponstijd (totaal)1.53s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.28sResponstijd (max)3.28sResponstijd (totaal)3.28s
Domeinspecifiek
: 2.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)6.48sResponstijd (max)14.63sResponstijd (totaal)19.43s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.07sResponstijd (max)1.07sResponstijd (totaal)1.07s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.89sResponstijd (max)1.89sResponstijd (totaal)1.89s
Totaal tests: 18Foute tests: 10Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 44.4%Instabiele tests: 0…Uitvoer-tokens: 868Redeneer-tokens: 0Responstijd: gem. 1.99s · totaal 35.81s · max 6.81s
Anti-AI-trucs
: 4.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.10sResponstijd (max)2.08sResponstijd (totaal)4.39s
Programmeren
: 6.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.72sResponstijd (max)1.72sResponstijd (totaal)1.72s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.47sResponstijd (max)2.47sResponstijd (totaal)2.47s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.69sResponstijd (max)2.46sResponstijd (totaal)3.38s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.14sResponstijd (max)1.63sResponstijd (totaal)3.41s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.18sResponstijd (max)6.81sResponstijd (totaal)8.36s
Puzzeloplossing
: 8.0 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)2.71sResponstijd (max)5.96sResponstijd (totaal)8.14s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.76sResponstijd (max)2.76sResponstijd (totaal)2.76s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 57.4%Instabiele tests: 6…Uitvoer-tokens: 299,034Redeneer-tokens: 309,670Responstijd: gem. 9.80s · totaal 156.75s · max 35.28s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)27.11sResponstijd (max)27.11sResponstijd (totaal)27.11s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.54sResponstijd (max)7.51sResponstijd (totaal)11.08s
Puzzeloplossing
: 7.2 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Responstijd (gem.)5.01sResponstijd (max)5.49sResponstijd (totaal)15.03s
Toolaanroepen
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 59.3%Instabiele tests: 8…Uitvoer-tokens: 4,980Redeneer-tokens: 156,288Responstijd: gem. 44.13s · totaal 485.47s · max 204.02s
Anti-AI-trucs
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)25.50sResponstijd (max)37.73sResponstijd (totaal)51.00s
Programmeren
: 6.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)40.73sResponstijd (max)40.73sResponstijd (totaal)40.73s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)65.96sResponstijd (max)65.96sResponstijd (totaal)65.96s
Domeinspecifiek
: 5.2 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)204.02sResponstijd (max)204.02sResponstijd (totaal)204.02s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)33.30sResponstijd (max)33.30sResponstijd (totaal)33.30s
Totaal tests: 18Foute tests: 10Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 44.4%Instabiele tests: 0…Uitvoer-tokens: 1,724Redeneer-tokens: 0Responstijd: gem. 3.10s · totaal 55.87s · max 6.51s
Anti-AI-trucs
: 4.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)3.13sResponstijd (max)5.90sResponstijd (totaal)12.50s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.30sResponstijd (max)5.30sResponstijd (totaal)5.30s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.51sResponstijd (max)6.51sResponstijd (totaal)6.51s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.81sResponstijd (max)5.69sResponstijd (totaal)7.62s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)2.09sResponstijd (max)2.39sResponstijd (totaal)6.26s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.97sResponstijd (max)2.43sResponstijd (totaal)3.93s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.86sResponstijd (max)4.86sResponstijd (totaal)4.86s
Totaal tests: 18Foute tests: 10Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 46.3%Instabiele tests: 1…Uitvoer-tokens: 4,266Redeneer-tokens: 0Responstijd: gem. 3.25s · totaal 58.44s · max 13.73s
Anti-AI-trucs
: 3.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)1.32sResponstijd (max)3.89sResponstijd (totaal)5.30s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.29sResponstijd (max)1.29sResponstijd (totaal)1.29s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.22sResponstijd (max)6.22sResponstijd (totaal)6.22s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.57sResponstijd (max)1.83sResponstijd (totaal)3.14s
Domeinspecifiek
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)905msResponstijd (max)1.10sResponstijd (totaal)2.71s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)803msResponstijd (max)803msResponstijd (totaal)803ms
Instructies opvolgen
: 6.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.81sResponstijd (max)13.73sResponstijd (totaal)17.61s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.67sResponstijd (max)3.67sResponstijd (totaal)3.67s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 48.2%Instabiele tests: 3…Uitvoer-tokens: 1,783Redeneer-tokens: 0Responstijd: gem. 6.59s · totaal 118.61s · max 57.10s
Anti-AI-trucs
: 8.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.28sResponstijd (max)2.09sResponstijd (totaal)5.13s
Programmeren
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)7.07sResponstijd (max)7.07sResponstijd (totaal)7.07s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)30.53sResponstijd (max)30.53sResponstijd (totaal)30.53s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.70sResponstijd (max)2.21sResponstijd (totaal)3.41s
Domeinspecifiek
: 3.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)2.49sResponstijd (max)4.23sResponstijd (totaal)7.48s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)57.10sResponstijd (max)57.10sResponstijd (totaal)57.10s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 10Responstijd (gem.)2.53sResponstijd (max)6.70sResponstijd (totaal)45.46s…
Totaal tests: 18Foute tests: 10Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 55.6%Instabiele tests: 5…Uitvoer-tokens: 3,129Redeneer-tokens: 0Responstijd: gem. 2.53s · totaal 45.46s · max 6.70s
Anti-AI-trucs
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)2.43sResponstijd (max)6.70sResponstijd (totaal)9.73s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.61sResponstijd (max)4.61sResponstijd (totaal)4.61s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.59sResponstijd (max)6.59sResponstijd (totaal)6.59s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.82sResponstijd (max)1.97sResponstijd (totaal)3.63s
Domeinspecifiek
: 3.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.33sResponstijd (max)1.53sResponstijd (totaal)4.00s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.45sResponstijd (max)3.45sResponstijd (totaal)3.45s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.06sResponstijd (max)1.09sResponstijd (totaal)2.12s
Puzzeloplossing
: 5.2 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)2.46sResponstijd (max)4.23sResponstijd (totaal)7.37s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.94sResponstijd (max)3.94sResponstijd (totaal)3.94s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 44.4%Instabiele tests: 2…Uitvoer-tokens: 1,726Redeneer-tokens: 0Responstijd: gem. 903ms · totaal 16.26s · max 4.39s
Anti-AI-trucs
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)582msResponstijd (max)844msResponstijd (totaal)2.33s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.16sResponstijd (max)1.16sResponstijd (totaal)1.16s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.39sResponstijd (max)4.39sResponstijd (totaal)4.39s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)652msResponstijd (max)660msResponstijd (totaal)1.30s
Domeinspecifiek
: 5.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)495msResponstijd (max)642msResponstijd (totaal)1.49s
Algemene intelligentie
: 5.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)615msResponstijd (max)615msResponstijd (totaal)615ms
Instructies opvolgen
: 8.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)672msResponstijd (max)785msResponstijd (totaal)1.34s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.91sResponstijd (max)1.91sResponstijd (totaal)1.91s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 50.0%Instabiele tests: 3…Uitvoer-tokens: 4,300Redeneer-tokens: 0Responstijd: gem. 3.82s · totaal 68.74s · max 47.43s
Anti-AI-trucs
: 3.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)1.43sResponstijd (max)4.39sResponstijd (totaal)5.71s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.67sResponstijd (max)2.67sResponstijd (totaal)2.67s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)47.43sResponstijd (max)47.43sResponstijd (totaal)47.43s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.16sResponstijd (max)1.42sResponstijd (totaal)2.33s
Domeinspecifiek
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)485msResponstijd (max)549msResponstijd (totaal)1.45s
Instructies opvolgen
: 6.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)809msResponstijd (max)983msResponstijd (totaal)1.62s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.30sResponstijd (max)2.30sResponstijd (totaal)2.30s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 46.3%Instabiele tests: 3…Uitvoer-tokens: 8,378Redeneer-tokens: 0Responstijd: gem. 12.07s · totaal 217.28s · max 115.89s
Programmeren
: 2.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.63sResponstijd (max)7.63sResponstijd (totaal)7.63s
Gecombineerd
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Ongeldige toolaanroep: 1Responstijd (gem.)115.89sResponstijd (max)115.89sResponstijd (totaal)115.89s
Domeinspecifiek
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.52sResponstijd (max)1.77sResponstijd (totaal)4.55s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.86sResponstijd (max)2.86sResponstijd (totaal)2.86s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.52sResponstijd (max)1.99sResponstijd (totaal)3.04s
Puzzeloplossing
: 8.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.37sResponstijd (max)10.78sResponstijd (totaal)22.10s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.85sResponstijd (max)11.85sResponstijd (totaal)11.85s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 48.2%Instabiele tests: 3…Uitvoer-tokens: 2,320Redeneer-tokens: 0Responstijd: gem. 2.39s · totaal 43.06s · max 6.58s
Anti-AI-trucs
: 3.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)1.80sResponstijd (max)2.62sResponstijd (totaal)7.19s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.82sResponstijd (max)3.82sResponstijd (totaal)3.82s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.58sResponstijd (max)6.58sResponstijd (totaal)6.58s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.39sResponstijd (max)1.42sResponstijd (totaal)2.78s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.78sResponstijd (max)2.49sResponstijd (totaal)5.34s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.51sResponstijd (max)2.95sResponstijd (totaal)5.02s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.39sResponstijd (max)4.39sResponstijd (totaal)4.39s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 42.6%Instabiele tests: 2…Uitvoer-tokens: 2,317Redeneer-tokens: 0Responstijd: gem. 1.51s · totaal 27.21s · max 2.95s
Anti-AI-trucs
: 3.2 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)1.21sResponstijd (max)2.58sResponstijd (totaal)4.85s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.95sResponstijd (max)2.95sResponstijd (totaal)2.95s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.89sResponstijd (max)2.89sResponstijd (totaal)2.89s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.04sResponstijd (max)1.06sResponstijd (totaal)2.08s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.07sResponstijd (max)1.54sResponstijd (totaal)3.22s
Algemene intelligentie
: 4.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.78sResponstijd (max)1.78sResponstijd (totaal)1.78s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.07sResponstijd (max)1.17sResponstijd (totaal)2.15s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.75sResponstijd (max)2.75sResponstijd (totaal)2.75s
Totaal tests: 18Foute tests: 12Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 38.9%Instabiele tests: 2…Uitvoer-tokens: 3,545Redeneer-tokens: 0Responstijd: gem. 1.74s · totaal 31.32s · max 9.39s
Anti-AI-trucs
: 4.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)788msResponstijd (max)1.34sResponstijd (totaal)3.15s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.51sResponstijd (max)2.51sResponstijd (totaal)2.51s
Gecombineerd
: 2.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)9.39sResponstijd (max)9.39sResponstijd (totaal)9.39s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.43sResponstijd (max)1.45sResponstijd (totaal)2.86s
Domeinspecifiek
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)540msResponstijd (max)649msResponstijd (totaal)1.62s
Instructies opvolgen
: 4.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)815msResponstijd (max)973msResponstijd (totaal)1.63s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.54sResponstijd (max)3.54sResponstijd (totaal)3.54s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 51.9%Instabiele tests: 6…Uitvoer-tokens: 13,493Redeneer-tokens: 36,879Responstijd: gem. 16.08s · totaal 176.88s · max 50.92s
Programmeren
: 4.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)26.33sResponstijd (max)26.33sResponstijd (totaal)26.33s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.18sResponstijd (max)31.18sResponstijd (totaal)31.18s
Domeinspecifiek
: 2.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)50.92sResponstijd (max)50.92sResponstijd (totaal)50.92s
Instructies opvolgen
: 9.9 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.63sResponstijd (max)7.63sResponstijd (totaal)7.63s
Toolaanroepen
: 9.8 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.91sResponstijd (max)6.91sResponstijd (totaal)6.91s
Totaal tests: 18Foute tests: 11Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 42.6%Instabiele tests: 2…Uitvoer-tokens: 2,973Redeneer-tokens: 0Responstijd: gem. 2.05s · totaal 36.93s · max 6.65s
Anti-AI-trucs
: 4.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.39sResponstijd (max)2.96sResponstijd (totaal)5.56s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.65sResponstijd (max)6.65sResponstijd (totaal)6.65s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.38sResponstijd (max)3.38sResponstijd (totaal)3.38s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.32sResponstijd (max)1.39sResponstijd (totaal)2.64s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.48sResponstijd (max)1.85sResponstijd (totaal)4.45s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.64sResponstijd (max)1.80sResponstijd (totaal)3.28s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.46sResponstijd (max)4.46sResponstijd (totaal)4.46s
Totaal tests: 18Foute tests: 12Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 46.3%Instabiele tests: 4…Uitvoer-tokens: 2,451Redeneer-tokens: 0Responstijd: gem. 1.51s · totaal 27.21s · max 3.54s
Anti-AI-trucs
: 2.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)1.29sResponstijd (max)2.83sResponstijd (totaal)5.18s
Programmeren
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.39sResponstijd (max)2.39sResponstijd (totaal)2.39s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.54sResponstijd (max)3.54sResponstijd (totaal)3.54s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.32sResponstijd (max)1.42sResponstijd (totaal)2.64s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)877msResponstijd (max)904msResponstijd (totaal)2.63s
Algemene intelligentie
: 4.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.53sResponstijd (max)1.53sResponstijd (totaal)1.53s
Instructies opvolgen
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.03sResponstijd (max)1.10sResponstijd (totaal)2.06s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.30sResponstijd (max)3.30sResponstijd (totaal)3.30s
Totaal tests: 18Foute tests: 12Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 38.9%Instabiele tests: 2…Uitvoer-tokens: 3,341Redeneer-tokens: 0Responstijd: gem. 3.69s · totaal 66.50s · max 46.00s
Anti-AI-trucs
: 4.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.59sResponstijd (max)3.60sResponstijd (totaal)6.38s
Programmeren
: 4.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.44sResponstijd (max)3.44sResponstijd (totaal)3.44s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)46.00sResponstijd (max)46.00sResponstijd (totaal)46.00s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.01sResponstijd (max)1.06sResponstijd (totaal)2.02s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)465msResponstijd (max)492msResponstijd (totaal)1.39s
Instructies opvolgen
: 4.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)585msResponstijd (max)715msResponstijd (totaal)1.17s
Puzzeloplossing
: 5.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)982msResponstijd (max)1.36sResponstijd (totaal)2.95s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.04sResponstijd (max)2.04sResponstijd (totaal)2.04s
Totaal tests: 18Foute tests: 13Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 57.4%Instabiele tests: 10…Uitvoer-tokens: 107,044Redeneer-tokens: 206,422Responstijd: gem. 39.65s · totaal 396.47s · max 237.27s
Programmeren
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Gecombineerd
: 4.5 Een test is alleen volledig geslaagd als alle runs slagen.Ongeldige toolaanroep: 1Responstijd (gem.)60.39sResponstijd (max)60.39sResponstijd (totaal)60.39s
Domeinspecifiek
: 2.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)237.27sResponstijd (max)237.27sResponstijd (totaal)237.27s
Puzzeloplossing
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)11.54sResponstijd (max)17.37sResponstijd (totaal)23.08s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.35sResponstijd (max)15.35sResponstijd (totaal)15.35s
Totaal tests: 18Foute tests: 12Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 46.3%Instabiele tests: 4…Uitvoer-tokens: 2,278Redeneer-tokens: 0Responstijd: gem. 4.58s · totaal 77.92s · max 15.17s
Anti-AI-trucs
: 3.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)3.81sResponstijd (max)6.85sResponstijd (totaal)15.23s
Programmeren
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)15.17sResponstijd (max)15.17sResponstijd (totaal)15.17s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.49sResponstijd (max)14.02sResponstijd (totaal)16.98s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)2.33sResponstijd (max)2.94sResponstijd (totaal)6.99s
Instructies opvolgen
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.82sResponstijd (max)2.92sResponstijd (totaal)5.65s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.02sResponstijd (max)6.02sResponstijd (totaal)6.02s
Totaal tests: 18Foute tests: 13Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 50.0%Instabiele tests: 7…Uitvoer-tokens: 15,084Redeneer-tokens: 39,408Responstijd: gem. 5.64s · totaal 101.52s · max 30.49s
Anti-AI-trucs
: 5.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)2.67sResponstijd (max)5.03sResponstijd (totaal)10.66s
Programmeren
: 6.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)30.49sResponstijd (max)30.49sResponstijd (totaal)30.49s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)25.25sResponstijd (max)25.25sResponstijd (totaal)25.25s
Gegevensparsering en extractie
: 7.3 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)1.23sResponstijd (max)1.96sResponstijd (totaal)2.46s
Instructies opvolgen
: 7.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.38sResponstijd (max)1.61sResponstijd (totaal)2.75s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.50sResponstijd (max)3.50sResponstijd (totaal)3.50s
Totaal tests: 18Foute tests: 13Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 37.0%Instabiele tests: 3…Uitvoer-tokens: 2,489Redeneer-tokens: 0Responstijd: gem. 3.35s · totaal 36.90s · max 7.05s
Anti-AI-trucs
: 5.2 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)5.51sResponstijd (max)6.59sResponstijd (totaal)11.02s
Programmeren
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.57sResponstijd (max)5.57sResponstijd (totaal)5.57s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Ongeldige toolaanroep: 1Responstijd (gem.)3.22sResponstijd (max)3.22sResponstijd (totaal)3.22s
Domeinspecifiek
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)744msResponstijd (max)744msResponstijd (totaal)744ms
Algemene intelligentie
: 4.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.59sResponstijd (max)1.59sResponstijd (totaal)1.59s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)888msResponstijd (max)888msResponstijd (totaal)888ms
Toolaanroepen
: 2.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.05sResponstijd (max)7.05sResponstijd (totaal)7.05s
Totaal tests: 18Foute tests: 13Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 37.0%Instabiele tests: 4…Uitvoer-tokens: 3,720Redeneer-tokens: 0Responstijd: gem. 4.33s · totaal 78.02s · max 32.57s
Anti-AI-trucs
: 4.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)2.11sResponstijd (max)3.94sResponstijd (totaal)8.46s
Programmeren
: 5.1 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)9.79sResponstijd (max)9.79sResponstijd (totaal)9.79s
Gecombineerd
: 2.8 Een test is alleen volledig geslaagd als alle runs slagen.Ongeldige toolaanroep: 1Responstijd (gem.)32.57sResponstijd (max)32.57sResponstijd (totaal)32.57s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.08sResponstijd (max)1.62sResponstijd (totaal)2.15s
Domeinspecifiek
: 2.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.99sResponstijd (max)3.99sResponstijd (totaal)5.98s
Algemene intelligentie
: 5.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)790msResponstijd (max)790msResponstijd (totaal)790ms
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.68sResponstijd (max)10.68sResponstijd (totaal)10.68s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 12Responstijd (gem.)13.37sResponstijd (max)42.13sResponstijd (totaal)147.05s…
Totaal tests: 18Foute tests: 12Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 40.7%Instabiele tests: 3…Uitvoer-tokens: 2,659Redeneer-tokens: 0Responstijd: gem. 13.37s · totaal 147.05s · max 42.13s
Anti-AI-trucs
: 3.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)6.24sResponstijd (max)11.38sResponstijd (totaal)12.48s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)38.78sResponstijd (max)38.78sResponstijd (totaal)38.78s
Gecombineerd
: 2.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)19.16sResponstijd (max)19.16sResponstijd (totaal)19.16s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)4.38sResponstijd (max)4.38sResponstijd (totaal)4.38s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.00sResponstijd (max)4.00sResponstijd (totaal)4.00s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.67sResponstijd (max)2.67sResponstijd (totaal)2.67s
Puzzeloplossing
: 3.1 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)4.73sResponstijd (max)7.81sResponstijd (totaal)9.45s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.99sResponstijd (max)13.99sResponstijd (totaal)13.99s
Totaal tests: 18Foute tests: 12Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 37.0%Instabiele tests: 2…Uitvoer-tokens: 1,775Redeneer-tokens: 0Responstijd: gem. 2.94s · totaal 52.98s · max 8.21s
Anti-AI-trucs
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)2.84sResponstijd (max)4.15sResponstijd (totaal)11.35s
Programmeren
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.93sResponstijd (max)3.93sResponstijd (totaal)3.93s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.89sResponstijd (max)4.89sResponstijd (totaal)4.89s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.47sResponstijd (max)2.48sResponstijd (totaal)4.95s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.97sResponstijd (max)2.65sResponstijd (totaal)5.92s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.13sResponstijd (max)2.53sResponstijd (totaal)4.27s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.21sResponstijd (max)8.21sResponstijd (totaal)8.21s
Totaal tests: 18Foute tests: 12Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 35.2%Instabiele tests: 1…Uitvoer-tokens: 3,338Redeneer-tokens: 0Responstijd: gem. 11.33s · totaal 203.88s · max 35.34s
Anti-AI-trucs
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)12.30sResponstijd (max)16.60sResponstijd (totaal)49.20s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.21sResponstijd (max)11.21sResponstijd (totaal)11.21s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Ongeldige toolaanroep: 1Responstijd (gem.)35.34sResponstijd (max)35.34sResponstijd (totaal)35.34s
Domeinspecifiek
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)4.94sResponstijd (max)7.65sResponstijd (totaal)14.81s
Instructies opvolgen
: 9.8 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.52sResponstijd (max)8.19sResponstijd (totaal)11.04s
Toolaanroepen
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Ongeldige toolaanroep: 1Responstijd (gem.)18.80sResponstijd (max)18.80sResponstijd (totaal)18.80s
Totaal tests: 18Foute tests: 13Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 29.6%Instabiele tests: 1…Uitvoer-tokens: 1,985Redeneer-tokens: 0Responstijd: gem. 5.07s · totaal 91.23s · max 39.47s
Anti-AI-trucs
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 4Responstijd (gem.)3.02sResponstijd (max)8.17sResponstijd (totaal)12.07s
Programmeren
: 6.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)39.47sResponstijd (max)39.47sResponstijd (totaal)39.47s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)8.91sResponstijd (max)8.91sResponstijd (totaal)8.91s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.26sResponstijd (max)4.66sResponstijd (totaal)6.52s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)877msResponstijd (max)894msResponstijd (totaal)2.63s
Puzzeloplossing
: 5.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)3.30sResponstijd (max)4.81sResponstijd (totaal)9.91s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.67sResponstijd (max)6.67sResponstijd (totaal)6.67s