AI BENCHY
Comparer Graphiques Méthodologie
❤️ Made by XCS
Your ad here

AI BENCHY

Méthodologie du benchmark

Cette page décrit notre approche de benchmarking à un niveau général. Nous gardons privés les prompts exacts et les détails internes de notation pour préserver l'intégrité des tests.

Fonctionnement (vue d'ensemble)

  • Tests privés : nous ne publions pas le contenu exact des tests, les prompts ni les détails complets de notation.
  • Exécutions répétées : chaque modèle est exécuté plusieurs fois pour mesurer la stabilité, pas un essai chanceux.
  • Modes de raisonnement : lorsque c'est pris en charge, les modèles sont évalués avec plusieurs configurations de raisonnement.
  • Exécution via OpenRouter : les requêtes de benchmark transitent par OpenRouter.
  • Fiabilité réelle : les délais dépassés, indisponibilités et erreurs API sont comptés comme des échecs.
  • Couverture rapide avec suite évolutive : notre suite est plus petite, ce qui permet de tester rapidement les nouveaux modèles et d'ajouter ou retirer des tests en continu.
  • Signal d'intelligence général : le score n'est pas lié à une seule catégorie. Il répond à une question pratique : si vous demandez quelque chose à l'IA, quelle est la probabilité d'une réponse correcte ?

Nous publions la méthodologie à haut niveau pour la transparence tout en gardant privés les détails sensibles du benchmark.