AI BENCHY
Méthodologie du benchmark
Cette page décrit notre approche de benchmarking à un niveau général. Nous gardons privés les prompts exacts et les détails internes de notation pour préserver l'intégrité des tests.
Les tests
Les questions sont choisies de manière assez aléatoire, à travers des tâches et des domaines différents. Statistiquement, un meilleur modèle devrait en moyenne mieux réussir qu'un modèle plus faible sur une tâche aléatoire et non choisie sur mesure. J'ai un background en programmation compétitive, donc réfléchir aux tests et aux cas limites me vient naturellement.
Ce n'est pas une valeur de "QI" standardisée. Le score n'a pas d'unité ; c'est simplement une valeur arbitraire qui montre à quel point un modèle se comporte bien sur l'ensemble de la suite de tests (bonnes réponses + consistance). Je ne sélectionne pas les modèles de manière opportuniste et je ne modifie pas les tests pour accommoder un modèle. Quand je pense à un nouveau test, je l'ajoute, je reteste tous les modèles et je recalcule les scores.
Les questions partent généralement d'idées simples du type : "Je me demande si les modèles se débrouillent bien quand on leur demande de faire X, Y ou Z". Par exemple : "Répondez avec les deux nombres naturels égaux a et b dont la somme vaut 2. Répondez exactement dans ce format : a,b". Certaines IA peuvent donner la mauvaise réponse, par exemple "2,2". D'autres peuvent ne pas respecter l'exigence selon laquelle les nombres doivent être égaux, par exemple "0,2". D'autres peuvent ignorer le format de sortie, par exemple "The answer is a = 1 and b = 1". Et d'autres peuvent tout simplement répondre correctement avec "1,1".
Certains tests sont plus complexes que celui-ci, mais vous voyez l'idée. Cela ne favorise aucun modèle en particulier, et ces questions sont généralement très faciles pour les humains. Ce n'est pas ma faute si Claude renvoie quelque chose comme "**1**, **1**", avec de la mise en valeur markdown, alors que la plupart des autres modèles respectent correctement le format demandé.
Fonctionnement (vue d'ensemble)
- Tests privés : nous ne publions pas le contenu exact des tests, les prompts ni les détails complets de notation.
- Exécutions répétées : chaque modèle est exécuté plusieurs fois pour mesurer la stabilité, pas un essai chanceux.
- Modes de raisonnement : lorsque c'est pris en charge, les modèles sont évalués avec plusieurs configurations de raisonnement.
- Exécution via OpenRouter : les requêtes de benchmark transitent par OpenRouter.
- Fiabilité réelle : les délais dépassés, indisponibilités et erreurs API sont comptés comme des échecs.
- Couverture rapide avec suite évolutive : notre suite est plus petite, ce qui permet de tester rapidement les nouveaux modèles et d'ajouter ou retirer des tests en continu.
- Signal d'intelligence général : le score n'est pas lié à une seule catégorie. Il répond à une question pratique : si vous demandez quelque chose à l'IA, quelle est la probabilité d'une réponse correcte ?
Nous publions la méthodologie à haut niveau pour la transparence tout en gardant privés les détails sensibles du benchmark.