AI BENCHY
Benchmarkmethodologie
Deze pagina legt onze benchmarkingaanpak op hoog niveau uit. Exacte prompts en interne beoordelingsdetails houden we privé om de testintegriteit te beschermen.
De tests
De vragen worden grotendeels vrij willekeurig gekozen, verspreid over verschillende taken en domeinen. Statistisch gezien zou een beter model gemiddeld beter moeten presteren dan een zwakker model op een willekeurige, niet bewust uitgekozen taak. Ik heb een achtergrond in competitief programmeren, dus nadenken over tests en randgevallen gaat voor mij vanzelf.
Dit is geen gestandaardiseerde "IQ"-waarde. De score heeft geen eenheid; het is gewoon een arbitraire waarde die laat zien hoe goed een model het doet op de volledige testsuite (correcte antwoorden + consistentie). Ik cherry-pick geen modellen en ik pas tests ook niet aan om een bepaald model tegemoet te komen. Als ik een nieuwe test bedenk, voeg ik die toe, test ik alle modellen opnieuw en herbereken ik de scores.
De vragen komen meestal voort uit simpele ideeën zoals: "Ik vraag me af of modellen het goed doen wanneer ze X, Y of Z moeten doen." Bijvoorbeeld: "Antwoord met de twee gelijke natuurlijke getallen, a en b, die samen een totaal van 2 geven. Antwoord exact in dit formaat: a,b". Sommige AI's kunnen het verkeerde antwoord geven, bijvoorbeeld "2,2". Andere volgen misschien de eis niet dat de getallen gelijk moeten zijn, bijvoorbeeld "0,2". Weer andere negeren misschien het uitvoerformaat, bijvoorbeeld "The answer is a = 1 and b = 1". En andere kunnen gewoon correct antwoorden met "1,1".
Sommige tests zijn complexer dan dit voorbeeld, maar je snapt het idee. Dit bevoordeelt geen enkel specifiek model, en deze vragen zijn over het algemeen erg gemakkelijk voor mensen. Het is niet mijn schuld als Claude iets als "**1**, **1**" produceert met markdown-opmaak, terwijl de meeste andere modellen het vereiste formaat wél correct volgen.
Hoe het werkt (hoog niveau)
- Privétests: we publiceren geen exacte testinhoud, prompts of volledige beoordelingsdetails.
- Herhaalde runs: elk model wordt meerdere keren uitgevoerd zodat resultaten stabiliteit tonen, niet één gelukkige poging.
- Reasoning-modi: waar ondersteund beoordelen we modellen in meerdere reasoning-configuraties.
- Uitvoering via OpenRouter: benchmarkverzoeken lopen via OpenRouter.
- Betrouwbaarheid in de praktijk: time-outs, downtime en API-fouten tellen als mislukte pogingen.
- Snelle dekking met evoluerende suite: omdat onze suite kleiner is, kunnen we nieuwe modellen snel testen en tests continu toevoegen of verwijderen.
- Algemeen intelligentiesignaal: de score is niet gekoppeld aan één categorie. Het is een brede indicator van een praktische vraag: als je de AI iets vraagt, hoe groot is de kans op een correct antwoord?
We publiceren de methodologie op hoofdlijnen voor transparantie, terwijl gevoelige benchmarkdetails privé blijven.