AI BENCHY
Méthodologie du benchmark
Cette page décrit notre approche de benchmarking à un niveau général. Nous gardons privés les prompts exacts et les détails internes de notation pour préserver l'intégrité des tests.
Fonctionnement (vue d'ensemble)
- Tests privés : nous ne publions pas le contenu exact des tests, les prompts ni les détails complets de notation.
- Exécutions répétées : chaque modèle est exécuté plusieurs fois pour mesurer la stabilité, pas un essai chanceux.
- Modes de raisonnement : lorsque c'est pris en charge, les modèles sont évalués avec plusieurs configurations de raisonnement.
- Exécution via OpenRouter : les requêtes de benchmark transitent par OpenRouter.
- Fiabilité réelle : les délais dépassés, indisponibilités et erreurs API sont comptés comme des échecs.
- Couverture rapide avec suite évolutive : notre suite est plus petite, ce qui permet de tester rapidement les nouveaux modèles et d'ajouter ou retirer des tests en continu.
- Signal d'intelligence général : le score n'est pas lié à une seule catégorie. Il répond à une question pratique : si vous demandez quelque chose à l'IA, quelle est la probabilité d'une réponse correcte ?
Nous publions la méthodologie à haut niveau pour la transparence tout en gardant privés les détails sensibles du benchmark.