Totaal tests: 18Foute tests: 6Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 74.1%Instabiele tests: 2…Uitvoer-tokens: 1,568Redeneer-tokens: 91,909Responstijd: gem. 9.81s · totaal 176.62s · max 31.36s
Anti-AI-trucs
: 8.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.16sResponstijd (max)3.44sResponstijd (totaal)12.65s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.36sResponstijd (max)31.36sResponstijd (totaal)31.36s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.93sResponstijd (max)20.93sResponstijd (totaal)20.93s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.01sResponstijd (max)4.27sResponstijd (totaal)8.02s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)21.33sResponstijd (max)24.21sResponstijd (totaal)64.00s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.78sResponstijd (max)5.78sResponstijd (totaal)5.78s
Puzzeloplossing
: 8.2 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)3.85sResponstijd (max)4.53sResponstijd (totaal)11.55s
Toolaanroepen
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)12.39sResponstijd (max)12.39sResponstijd (totaal)12.39s
Totaal tests: 18Foute tests: 5Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 74.1%Instabiele tests: 1…Uitvoer-tokens: 42,068Redeneer-tokens: 26,784Responstijd: gem. 12.66s · totaal 126.62s · max 46.35s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)35.76sResponstijd (max)35.76sResponstijd (totaal)35.76s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)46.35sResponstijd (max)46.35sResponstijd (totaal)46.35s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.90sResponstijd (max)13.90sResponstijd (totaal)13.90s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.94sResponstijd (max)4.94sResponstijd (totaal)4.94s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.61sResponstijd (max)2.61sResponstijd (totaal)2.61s
Puzzeloplossing
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.80sResponstijd (max)5.22sResponstijd (totaal)9.60s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.48sResponstijd (max)7.48sResponstijd (totaal)7.48s
Totaal tests: 18Foute tests: 6Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 79.6%Instabiele tests: 4…Uitvoer-tokens: 7,554Redeneer-tokens: 45,588Responstijd: gem. 43.49s · totaal 782.73s · max 180.92s
Anti-AI-trucs
: 8.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)30.72sResponstijd (max)44.23sResponstijd (totaal)122.88s
Programmeren
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)180.92sResponstijd (max)180.92sResponstijd (totaal)180.92s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)93.11sResponstijd (max)93.11sResponstijd (totaal)93.11s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)36.09sResponstijd (max)39.12sResponstijd (totaal)72.18s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)21.78sResponstijd (max)30.66sResponstijd (totaal)65.35s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)35.78sResponstijd (max)47.30sResponstijd (totaal)71.56s
Puzzeloplossing
: 8.2 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)36.87sResponstijd (max)59.22sResponstijd (totaal)110.62s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)34.81sResponstijd (max)34.81sResponstijd (totaal)34.81s
Totaal tests: 18Foute tests: 6Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 75.9%Instabiele tests: 3…Uitvoer-tokens: 17,346Redeneer-tokens: 0Responstijd: gem. 6.84s · totaal 123.17s · max 38.52s
Anti-AI-trucs
: 8.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.40sResponstijd (max)4.78sResponstijd (totaal)13.59s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.97sResponstijd (max)8.97sResponstijd (totaal)8.97s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.12sResponstijd (max)9.12sResponstijd (totaal)9.12s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.05sResponstijd (max)3.33sResponstijd (totaal)6.10s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)17.78sResponstijd (max)38.52sResponstijd (totaal)53.33s
Instructies opvolgen
: 7.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.46sResponstijd (max)6.45sResponstijd (totaal)10.92s
Puzzeloplossing
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.42sResponstijd (max)5.04sResponstijd (totaal)13.27s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.68sResponstijd (max)4.68sResponstijd (totaal)4.68s
Totaal tests: 18Foute tests: 6Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 70.4%Instabiele tests: 1…Uitvoer-tokens: 5,361Redeneer-tokens: 0Responstijd: gem. 1.30s · totaal 23.42s · max 3.39s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.47sResponstijd (max)1.47sResponstijd (totaal)1.47s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.20sResponstijd (max)3.20sResponstijd (totaal)3.20s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.22sResponstijd (max)1.33sResponstijd (totaal)2.44s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)942msResponstijd (max)1.12sResponstijd (totaal)2.83s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.13sResponstijd (max)1.14sResponstijd (totaal)2.27s
Puzzeloplossing
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)972msResponstijd (max)1.13sResponstijd (totaal)2.92s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.39sResponstijd (max)3.39sResponstijd (totaal)3.39s
Totaal tests: 17Foute tests: 6Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 70.6%Instabiele tests: 2…Uitvoer-tokens: 71,904Redeneer-tokens: 155,607Responstijd: gem. 26.78s · totaal 294.58s · max 170.45s
Anti-AI-trucs
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.56sResponstijd (max)32.30sResponstijd (totaal)40.68s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)29.57sResponstijd (max)29.57sResponstijd (totaal)29.57s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.01sResponstijd (max)15.01sResponstijd (totaal)15.01s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)170.45sResponstijd (max)170.45sResponstijd (totaal)170.45s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.91sResponstijd (max)11.91sResponstijd (totaal)11.91s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 79.6%Instabiele tests: 5…Uitvoer-tokens: 1,757Redeneer-tokens: 55,907Responstijd: gem. 47.47s · totaal 854.45s · max 255.28s
Anti-AI-trucs
: 8.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)28.51sResponstijd (max)39.73sResponstijd (totaal)114.05s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)62.48sResponstijd (max)62.48sResponstijd (totaal)62.48s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)76.57sResponstijd (max)76.57sResponstijd (totaal)76.57s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)28.03sResponstijd (max)30.49sResponstijd (totaal)56.07s
Domeinspecifiek
: 4.1 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)112.69sResponstijd (max)255.28sResponstijd (totaal)338.07s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.36sResponstijd (max)19.53sResponstijd (totaal)30.73s
Puzzeloplossing
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Responstijd (gem.)25.53sResponstijd (max)32.37sResponstijd (totaal)76.60s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)74.73sResponstijd (max)74.73sResponstijd (totaal)74.73s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 77.8%Instabiele tests: 6…Uitvoer-tokens: 2,351Redeneer-tokens: 58,941Responstijd: gem. 14.96s · totaal 269.32s · max 67.08s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.78sResponstijd (max)13.78sResponstijd (totaal)13.78s
Gecombineerd
: 6.9 Een test is alleen volledig geslaagd als alle runs slagen.Ongeldige toolaanroep: 1Responstijd (gem.)15.06sResponstijd (max)15.06sResponstijd (totaal)15.06s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.60sResponstijd (max)9.92sResponstijd (totaal)19.19s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)38.15sResponstijd (max)67.08sResponstijd (totaal)114.45s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.09sResponstijd (max)11.09sResponstijd (totaal)11.09s
Instructies opvolgen
: 9.9 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.74sResponstijd (max)5.23sResponstijd (totaal)7.47s
Puzzeloplossing
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)10.91sResponstijd (max)18.97sResponstijd (totaal)32.74s
Toolaanroepen
: 7.0 Een test is alleen volledig geslaagd als alle runs slagen.Ongeldige toolaanroep: 1Responstijd (gem.)12.53sResponstijd (max)12.53sResponstijd (totaal)12.53s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 81.5%Instabiele tests: 6…Uitvoer-tokens: 2,073Redeneer-tokens: 191,899Responstijd: gem. 66.72s · totaal 1201.03s · max 234.29s
Anti-AI-trucs
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)59.11sResponstijd (max)168.31sResponstijd (totaal)236.44s
Programmeren
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)45.75sResponstijd (max)45.75sResponstijd (totaal)45.75s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.78sResponstijd (max)17.78sResponstijd (totaal)17.78s
Gegevensparsering en extractie
: 7.3 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)56.99sResponstijd (max)80.14sResponstijd (totaal)113.98s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)146.50sResponstijd (max)234.29sResponstijd (totaal)439.49s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)63.49sResponstijd (max)111.61sResponstijd (totaal)126.98s
Puzzeloplossing
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Responstijd (gem.)56.74sResponstijd (max)115.01sResponstijd (totaal)170.23s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.33sResponstijd (max)10.33sResponstijd (totaal)10.33s
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Time-out: 2API-fout: 1Responstijd (gem.)24.13sResponstijd (max)118.52sResponstijd (totaal)410.25s…
Totaal tests: 18Foute tests: 6Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 75.9%Instabiele tests: 3…Uitvoer-tokens: 8,005Redeneer-tokens: 49,090Responstijd: gem. 24.13s · totaal 410.25s · max 118.52s
Anti-AI-trucs
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.31sResponstijd (max)14.20sResponstijd (totaal)33.24s
Programmeren
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)118.52sResponstijd (max)118.52sResponstijd (totaal)118.52s
Gecombineerd
: 9.5 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)43.11sResponstijd (max)43.11sResponstijd (totaal)43.11s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.33sResponstijd (max)9.40sResponstijd (totaal)18.66s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)29.77sResponstijd (max)32.22sResponstijd (totaal)89.30s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.95sResponstijd (max)20.95sResponstijd (totaal)20.95s
Instructies opvolgen
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)7.47sResponstijd (max)10.16sResponstijd (totaal)14.94s
Puzzeloplossing
: 8.2 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)23.85sResponstijd (max)33.09sResponstijd (totaal)71.54s
Toolaanroepen
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Totaal tests: 18Foute tests: 6Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 74.1%Instabiele tests: 3…Uitvoer-tokens: 2,840Redeneer-tokens: 116,242Responstijd: gem. 13.71s · totaal 246.73s · max 86.93s
Anti-AI-trucs
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.98sResponstijd (max)3.76sResponstijd (totaal)7.92s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.48sResponstijd (max)31.48sResponstijd (totaal)31.48s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)16.86sResponstijd (max)16.86sResponstijd (totaal)16.86s
Instructies opvolgen
: 9.9 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.80sResponstijd (max)1.81sResponstijd (totaal)3.60s
Puzzeloplossing
: 8.2 Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)20.60sResponstijd (max)57.93sResponstijd (totaal)61.79s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.29sResponstijd (max)7.29sResponstijd (totaal)7.29s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 74.1%Instabiele tests: 4…Uitvoer-tokens: 80,759Redeneer-tokens: 179,814Responstijd: gem. 45.20s · totaal 768.37s · max 215.85s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)106.96sResponstijd (max)106.96sResponstijd (totaal)106.96s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)40.96sResponstijd (max)40.96sResponstijd (totaal)40.96s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)20.38sResponstijd (max)22.88sResponstijd (totaal)40.76s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Responstijd (gem.)202.38sResponstijd (max)215.85sResponstijd (totaal)404.76s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.83sResponstijd (max)17.83sResponstijd (totaal)17.83s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.53sResponstijd (max)19.15sResponstijd (totaal)25.06s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.92sResponstijd (max)8.92sResponstijd (totaal)8.92s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 61.1%Instabiele tests: 0…Uitvoer-tokens: 928Redeneer-tokens: 72,661Responstijd: gem. 16.76s · totaal 301.61s · max 158.78s
Anti-AI-trucs
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.11sResponstijd (max)3.43sResponstijd (totaal)8.43s
Programmeren
: 4.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)68.55sResponstijd (max)68.55sResponstijd (totaal)68.55s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)19.29sResponstijd (max)19.29sResponstijd (totaal)19.29s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.29sResponstijd (max)2.62sResponstijd (totaal)4.58s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.86sResponstijd (max)2.86sResponstijd (totaal)2.86s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.07sResponstijd (max)11.07sResponstijd (totaal)11.07s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 68.5%Instabiele tests: 3…Uitvoer-tokens: 20,784Redeneer-tokens: 0Responstijd: gem. 5.88s · totaal 105.90s · max 18.33s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.32sResponstijd (max)9.32sResponstijd (totaal)9.32s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)11.96sResponstijd (max)11.96sResponstijd (totaal)11.96s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.21sResponstijd (max)2.52sResponstijd (totaal)4.42s
Domeinspecifiek
: 3.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)13.01sResponstijd (max)18.33sResponstijd (totaal)39.04s
Instructies opvolgen
: 8.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.29sResponstijd (max)4.18sResponstijd (totaal)6.59s
Puzzeloplossing
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.93sResponstijd (max)3.05sResponstijd (totaal)8.78s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)8.36sResponstijd (max)8.36sResponstijd (totaal)8.36s
Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 4Verkeerd antwoord: 2Responstijd (gem.)21.08sResponstijd (max)83.40sResponstijd (totaal)231.84s…
Totaal tests: 18Foute tests: 6Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 70.4%Instabiele tests: 2…Uitvoer-tokens: 29,829Redeneer-tokens: 18,938Responstijd: gem. 21.08s · totaal 231.84s · max 83.40s
Anti-AI-trucs
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 2Responstijd (gem.)7.45sResponstijd (max)11.88sResponstijd (totaal)14.90s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.11sResponstijd (max)23.11sResponstijd (totaal)23.11s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)76.66sResponstijd (max)76.66sResponstijd (totaal)76.66s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.37sResponstijd (max)7.37sResponstijd (totaal)7.37s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)5.04sResponstijd (max)5.04sResponstijd (totaal)5.04s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.43sResponstijd (max)2.43sResponstijd (totaal)2.43s
Puzzeloplossing
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.60sResponstijd (max)4.66sResponstijd (totaal)9.20s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)9.73sResponstijd (max)9.73sResponstijd (totaal)9.73s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 68.5%Instabiele tests: 2…Uitvoer-tokens: 2,946Redeneer-tokens: 58,132Responstijd: gem. 11.21s · totaal 201.80s · max 94.06s
Anti-AI-trucs
: 8.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.52sResponstijd (max)7.74sResponstijd (totaal)18.10s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)13.41sResponstijd (max)13.41sResponstijd (totaal)13.41s
Gecombineerd
: 9.8 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.13sResponstijd (max)24.13sResponstijd (totaal)24.13s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.54sResponstijd (max)3.33sResponstijd (totaal)5.08s
Domeinspecifiek
: 5.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)38.18sResponstijd (max)94.06sResponstijd (totaal)114.53s
Instructies opvolgen
: 9.8 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.88sResponstijd (max)2.61sResponstijd (totaal)3.75s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.71sResponstijd (max)7.71sResponstijd (totaal)7.71s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 66.7%Instabiele tests: 2…Uitvoer-tokens: 2,419Redeneer-tokens: 79,238Responstijd: gem. 69.70s · totaal 1045.47s · max 262.83s
Anti-AI-trucs
: 6.6 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)74.75sResponstijd (max)182.10sResponstijd (totaal)298.98s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)197.31sResponstijd (max)197.31sResponstijd (totaal)197.31s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)262.83sResponstijd (max)262.83sResponstijd (totaal)262.83s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.27sResponstijd (max)27.52sResponstijd (totaal)48.54s
Domeinspecifiek
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 3Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.47sResponstijd (max)19.46sResponstijd (totaal)34.93s
Puzzeloplossing
: 8.2 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)25.85sResponstijd (max)32.95sResponstijd (totaal)77.55s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)88.68sResponstijd (max)88.68sResponstijd (totaal)88.68s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 72.2%Instabiele tests: 4…Uitvoer-tokens: 2,705Redeneer-tokens: 18,977Responstijd: gem. 14.04s · totaal 154.41s · max 77.80s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.12sResponstijd (max)15.12sResponstijd (totaal)15.12s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)14.06sResponstijd (max)14.06sResponstijd (totaal)14.06s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.15sResponstijd (max)3.15sResponstijd (totaal)3.15s
Domeinspecifiek
: 5.9 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)77.80sResponstijd (max)77.80sResponstijd (totaal)77.80s
Instructies opvolgen
: 9.9 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.12sResponstijd (max)3.12sResponstijd (totaal)3.12s
Puzzeloplossing
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.47sResponstijd (max)6.45sResponstijd (totaal)10.94s
Toolaanroepen
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)10.30sResponstijd (max)10.30sResponstijd (totaal)10.30s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 70.4%Instabiele tests: 3…Uitvoer-tokens: 12,387Redeneer-tokens: 115,182Responstijd: gem. 23.36s · totaal 280.34s · max 96.01s
Anti-AI-trucs
: 8.1 Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Responstijd (gem.)15.85sResponstijd (max)20.83sResponstijd (totaal)47.55s
Programmeren
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)13.03sResponstijd (max)13.03sResponstijd (totaal)13.03s
Gecombineerd
: 9.8 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)75.68sResponstijd (max)75.68sResponstijd (totaal)75.68s
Gegevensparsering en extractie
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Domeinspecifiek
: 5.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)96.01sResponstijd (max)96.01sResponstijd (totaal)96.01s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.28sResponstijd (max)7.37sResponstijd (totaal)8.55s
Puzzeloplossing
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.77sResponstijd (max)5.26sResponstijd (totaal)7.55s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)27.78sResponstijd (max)27.78sResponstijd (totaal)27.78s
Totaal tests: 18Foute tests: 7Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 64.8%Instabiele tests: 1…Uitvoer-tokens: 7,433Redeneer-tokens: 0Responstijd: gem. 4.98s · totaal 54.83s · max 23.84s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.67sResponstijd (max)3.67sResponstijd (totaal)3.67s
Gecombineerd
: 9.5 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.84sResponstijd (max)23.84sResponstijd (totaal)23.84s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.43sResponstijd (max)3.43sResponstijd (totaal)3.43s
Domeinspecifiek
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.54sResponstijd (max)3.54sResponstijd (totaal)3.54s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.96sResponstijd (max)1.96sResponstijd (totaal)1.96s
Puzzeloplossing
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Extra opmaak: 1Responstijd (gem.)2.92sResponstijd (max)3.33sResponstijd (totaal)5.84s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.11sResponstijd (max)4.11sResponstijd (totaal)4.11s
Totaal tests: 18Foute tests: 8Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 79.6%Instabiele tests: 7…Uitvoer-tokens: 10,137Redeneer-tokens: 208,761Responstijd: gem. 44.51s · totaal 801.21s · max 106.00s
Anti-AI-trucs
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)21.13sResponstijd (max)34.96sResponstijd (totaal)84.53s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)79.09sResponstijd (max)79.09sResponstijd (totaal)79.09s
Gecombineerd
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)75.34sResponstijd (max)75.34sResponstijd (totaal)75.34s
Gegevensparsering en extractie
: 7.3 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)59.33sResponstijd (max)97.12sResponstijd (totaal)118.65s
Domeinspecifiek
: 4.1 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 2Verkeerd antwoord: 1Responstijd (gem.)88.34sResponstijd (max)106.00sResponstijd (totaal)265.01s
Algemene intelligentie
: 2.8 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)30.30sResponstijd (max)30.30sResponstijd (totaal)30.30s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)24.45sResponstijd (max)43.36sResponstijd (totaal)48.89s
Puzzeloplossing
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)31.58sResponstijd (max)60.18sResponstijd (totaal)94.75s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.65sResponstijd (max)4.65sResponstijd (totaal)4.65s
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 70.4%Instabiele tests: 6…Uitvoer-tokens: 2,131Redeneer-tokens: 59,567Responstijd: gem. 15.22s · totaal 273.90s · max 102.91s
Anti-AI-trucs
: 8.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)4.05sResponstijd (max)6.69sResponstijd (totaal)16.20s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)7.76sResponstijd (max)7.76sResponstijd (totaal)7.76s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.81sResponstijd (max)17.81sResponstijd (totaal)17.81s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.43sResponstijd (max)3.39sResponstijd (totaal)4.87s
Domeinspecifiek
: 4.1 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)65.31sResponstijd (max)102.91sResponstijd (totaal)195.92s
Puzzeloplossing
: 6.8 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Responstijd (gem.)4.33sResponstijd (max)7.27sResponstijd (totaal)13.00s
Toolaanroepen
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)9.62sResponstijd (max)9.62sResponstijd (totaal)9.62s
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 61.1%Instabiele tests: 3…Uitvoer-tokens: 6,379Redeneer-tokens: 53,482Responstijd: gem. 23.98s · totaal 431.56s · max 88.15s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.18sResponstijd (max)23.18sResponstijd (totaal)23.18s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)88.15sResponstijd (max)88.15sResponstijd (totaal)88.15s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)12.58sResponstijd (max)13.87sResponstijd (totaal)25.16s
Domeinspecifiek
: 3.6 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)44.63sResponstijd (max)82.55sResponstijd (totaal)133.89s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.64sResponstijd (max)18.64sResponstijd (totaal)18.64s
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 72.2%Instabiele tests: 7…Uitvoer-tokens: 42,176Redeneer-tokens: 84,870Responstijd: gem. 72.43s · totaal 796.70s · max 150.77s
Programmeren
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)150.77sResponstijd (max)150.77sResponstijd (totaal)150.77s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)71.37sResponstijd (max)71.37sResponstijd (totaal)71.37s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)49.78sResponstijd (max)49.78sResponstijd (totaal)49.78s
Domeinspecifiek
: 3.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)137.29sResponstijd (max)137.29sResponstijd (totaal)137.29s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)92.47sResponstijd (max)92.47sResponstijd (totaal)92.47s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)31.74sResponstijd (max)31.74sResponstijd (totaal)31.74s
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 66.7%Instabiele tests: 5…Uitvoer-tokens: 1,744Redeneer-tokens: 109,882Responstijd: gem. 10.33s · totaal 185.87s · max 29.87s
Anti-AI-trucs
: 8.2 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.36sResponstijd (max)4.08sResponstijd (totaal)13.42s
Programmeren
: 4.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)24.33sResponstijd (max)24.33sResponstijd (totaal)24.33s
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.40sResponstijd (max)17.40sResponstijd (totaal)17.40s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.17sResponstijd (max)5.02sResponstijd (totaal)8.34s
Instructies opvolgen
: 7.3 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)4.42sResponstijd (max)4.46sResponstijd (totaal)8.84s
Puzzeloplossing
: 6.4 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 2Responstijd (gem.)3.89sResponstijd (max)4.90sResponstijd (totaal)11.67s
Toolaanroepen
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)13.68sResponstijd (max)13.68sResponstijd (totaal)13.68s
Totaal tests: 18Foute tests: 8Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 55.6%Instabiele tests: 0…Uitvoer-tokens: 1,359Redeneer-tokens: 0Responstijd: gem. 4.02s · totaal 64.33s · max 26.13s
Anti-AI-trucs
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.85sResponstijd (max)4.45sResponstijd (totaal)7.40s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)26.13sResponstijd (max)26.13sResponstijd (totaal)26.13s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.25sResponstijd (max)3.02sResponstijd (totaal)4.51s
Domeinspecifiek
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.22sResponstijd (max)4.68sResponstijd (totaal)9.67s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.09sResponstijd (max)2.09sResponstijd (totaal)2.09s
Instructies opvolgen
: 6.5 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.84sResponstijd (max)4.45sResponstijd (totaal)5.68s
Toolaanroepen
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 53.7%Instabiele tests: 2…Uitvoer-tokens: 2,461Redeneer-tokens: 0Responstijd: gem. 2.60s · totaal 31.23s · max 6.65s
Anti-AI-trucs
: 4.8 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.91sResponstijd (max)2.74sResponstijd (totaal)3.82s
Programmeren
: 6.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.63sResponstijd (max)3.63sResponstijd (totaal)3.63s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)6.65sResponstijd (max)6.65sResponstijd (totaal)6.65s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.89sResponstijd (max)1.89sResponstijd (totaal)1.89s
Domeinspecifiek
: 5.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.17sResponstijd (max)1.44sResponstijd (totaal)2.33s
Algemene intelligentie
: 4.4 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.26sResponstijd (max)2.26sResponstijd (totaal)2.26s
Instructies opvolgen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.67sResponstijd (max)1.67sResponstijd (totaal)1.67s
Puzzeloplossing
: 7.7 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)2.82sResponstijd (max)3.52sResponstijd (totaal)5.65s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.33sResponstijd (max)3.33sResponstijd (totaal)3.33s
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 61.1%Instabiele tests: 4…Uitvoer-tokens: 1,910Redeneer-tokens: 0Responstijd: gem. 1.83s · totaal 32.86s · max 5.56s
Anti-AI-trucs
: 6.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)1.31sResponstijd (max)2.08sResponstijd (totaal)5.25s
Programmeren
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)2.05sResponstijd (max)2.05sResponstijd (totaal)2.05s
Gecombineerd
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)5.56sResponstijd (max)5.56sResponstijd (totaal)5.56s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)1.18sResponstijd (max)1.24sResponstijd (totaal)2.37s
Domeinspecifiek
: 2.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3Responstijd (gem.)1.31sResponstijd (max)1.39sResponstijd (totaal)3.92s
Algemene intelligentie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.41sResponstijd (max)3.41sResponstijd (totaal)3.41s
Instructies opvolgen
: 6.2 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)1.15sResponstijd (max)1.19sResponstijd (totaal)2.31s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)3.90sResponstijd (max)3.90sResponstijd (totaal)3.90s
Totaal tests: 18Foute tests: 10Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 64.8%Instabiele tests: 6…Uitvoer-tokens: 4,724Redeneer-tokens: 17,921Responstijd: gem. 10.33s · totaal 175.60s · max 30.53s
Anti-AI-trucs
: 7.3 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)4.75sResponstijd (max)7.62sResponstijd (totaal)19.00s
Programmeren
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Gecombineerd
: 4.7 Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Responstijd (gem.)30.53sResponstijd (max)30.53sResponstijd (totaal)30.53s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)23.16sResponstijd (max)26.55sResponstijd (totaal)46.33s
Instructies opvolgen
: 9.9 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)4.18sResponstijd (max)4.46sResponstijd (totaal)8.36s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)17.33sResponstijd (max)17.33sResponstijd (totaal)17.33s
Totaal tests: 18Foute tests: 9Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.Slaagpercentage per poging: 55.6%Instabiele tests: 3…Uitvoer-tokens: 11,947Redeneer-tokens: 29,768Responstijd: gem. 19.06s · totaal 305.04s · max 87.80s
Anti-AI-trucs
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)10.08sResponstijd (max)22.30sResponstijd (totaal)40.30s
Programmeren
: 3.0 Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0ms
Gecombineerd
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)87.80sResponstijd (max)87.80sResponstijd (totaal)87.80s
Gegevensparsering en extractie
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)18.16sResponstijd (max)20.65sResponstijd (totaal)36.33s
Domeinspecifiek
: 2.9 Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Time-out: 1Responstijd (gem.)16.19sResponstijd (max)21.56sResponstijd (totaal)32.39s
Toolaanroepen
: 10.0 Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)39.75sResponstijd (max)39.75sResponstijd (totaal)39.75s