AI BENCHY

Benchmarkmethodologie

Deze pagina legt onze benchmarkingaanpak op hoog niveau uit. Exacte prompts en interne beoordelingsdetails houden we privé om de testintegriteit te beschermen.

Hoe het werkt (hoog niveau)

Privétests: we publiceren geen exacte testinhoud, prompts of volledige beoordelingsdetails.
Herhaalde runs: elk model wordt meerdere keren uitgevoerd zodat resultaten stabiliteit tonen, niet één gelukkige poging.
Reasoning-modi: waar ondersteund beoordelen we modellen in meerdere reasoning-configuraties.
Uitvoering via OpenRouter: benchmarkverzoeken lopen via OpenRouter.
Betrouwbaarheid in de praktijk: time-outs, downtime en API-fouten tellen als mislukte pogingen.
Snelle dekking met evoluerende suite: omdat onze suite kleiner is, kunnen we nieuwe modellen snel testen en tests continu toevoegen of verwijderen.
Algemeen intelligentiesignaal: de score is niet gekoppeld aan één categorie. Het is een brede indicator van een praktische vraag: als je de AI iets vraagt, hoe groot is de kans op een correct antwoord?

We publiceren de methodologie op hoofdlijnen voor transparantie, terwijl gevoelige benchmarkdetails privé blijven.