AI BENCHY
Benchmarkmethodologie
Deze pagina legt onze benchmarkingaanpak op hoog niveau uit. Exacte prompts en interne beoordelingsdetails houden we privรฉ om de testintegriteit te beschermen.
Hoe het werkt (hoog niveau)
- Privรฉtests: we publiceren geen exacte testinhoud, prompts of volledige beoordelingsdetails.
- Herhaalde runs: elk model wordt meerdere keren uitgevoerd zodat resultaten stabiliteit tonen, niet รฉรฉn gelukkige poging.
- Reasoning-modi: waar ondersteund beoordelen we modellen in meerdere reasoning-configuraties.
- Uitvoering via OpenRouter: benchmarkverzoeken lopen via OpenRouter.
- Betrouwbaarheid in de praktijk: time-outs, downtime en API-fouten tellen als mislukte pogingen.
- Snelle dekking met evoluerende suite: omdat onze suite kleiner is, kunnen we nieuwe modellen snel testen en tests continu toevoegen of verwijderen.
- Algemeen intelligentiesignaal: de score is niet gekoppeld aan รฉรฉn categorie. Het is een brede indicator van een praktische vraag: als je de AI iets vraagt, hoe groot is de kans op een correct antwoord?
We publiceren de methodologie op hoofdlijnen voor transparantie, terwijl gevoelige benchmarkdetails privรฉ blijven.