AI BENCHY

Méthodologie du benchmark

Cette page décrit notre approche de benchmarking à un niveau général. Nous gardons privés les prompts exacts et les détails internes de notation pour préserver l'intégrité des tests.

Fonctionnement (vue d'ensemble)

Tests privés : nous ne publions pas le contenu exact des tests, les prompts ni les détails complets de notation.
Exécutions répétées : chaque modèle est exécuté plusieurs fois pour mesurer la stabilité, pas un essai chanceux.
Modes de raisonnement : lorsque c'est pris en charge, les modèles sont évalués avec plusieurs configurations de raisonnement.
Exécution via OpenRouter : les requêtes de benchmark transitent par OpenRouter.
Fiabilité réelle : les délais dépassés, indisponibilités et erreurs API sont comptés comme des échecs.
Couverture rapide avec suite évolutive : notre suite est plus petite, ce qui permet de tester rapidement les nouveaux modèles et d'ajouter ou retirer des tests en continu.
Signal d'intelligence général : le score n'est pas lié à une seule catégorie. Il répond à une question pratique : si vous demandez quelque chose à l'IA, quelle est la probabilité d'une réponse correcte ?

Nous publions la méthodologie à haut niveau pour la transparence tout en gardant privés les détails sensibles du benchmark.