8.9Score moyen sur l’ensemble des tests de benchmark.…
8.4Score moyen sur l’ensemble des tests de benchmark.…
Rang
#5
#10
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
N/DScore de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)3.04sTemps de réponse (max)18.27sTemps de réponse (total)57.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Erreur API: 1Temps de réponse (moy.)9.06sTemps de réponse (max)26.24sTemps de réponse (total)90.58sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
84.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
57Exécutions totales…
57Exécutions totales…
Coût par résultat
3.164Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
1.406Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.507Coût total…
$0.197Coût total…
Prix d'entrée
$5.000 / 1MPrix d'entrée…
$0.000 / 1MPrix d'entrée…
Prix de sortie
$25.000 / 1MPrix de sortie…
$0.000 / 1MPrix de sortie…
Jetons de sortie
6,329Jetons de sortie…
1,508Jetons de sortie…
Jetons de raisonnement
0Jetons de raisonnement…
10,084Jetons de raisonnement…
Temps de réponse (moy.)
3.04sTemps de réponse (moy.)…
9.06sTemps de réponse (moy.)…
Temps de réponse (max)
18.27sTemps de réponse (max)…
26.24sTemps de réponse (max)…
Temps de réponse (total)
57.79sTemps de réponse (total)…
90.58sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score vs Temps de réponse (moy.)
Total des jetons de sortie
Score vs Total des jetons de sortie
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
8.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
75.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.12sTemps de réponse (max)3.75sTemps de réponse (total)8.50sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)14.99sTemps de réponse (max)26.24sTemps de réponse (total)29.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
14.99sTemps de réponse (moy.)…
149Jetons de sortie…
1,485Jetons de raisonnement…
Programmation
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.84sTemps de réponse (max)2.84sTemps de réponse (total)2.84sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
0msTemps de réponse (moy.)…
0Jetons de sortie…
0Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
9.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)18.27sTemps de réponse (max)18.27sTemps de réponse (total)18.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)10.37sTemps de réponse (max)10.37sTemps de réponse (total)10.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.37sTemps de réponse (moy.)…
351Jetons de sortie…
952Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.15sTemps de réponse (max)2.33sTemps de réponse (total)4.29sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)10.84sTemps de réponse (max)10.84sTemps de réponse (total)10.84sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.84sTemps de réponse (moy.)…
279Jetons de sortie…
3,156Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.19sTemps de réponse (max)1.40sTemps de réponse (total)3.58sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)7.01sTemps de réponse (max)7.01sTemps de réponse (total)7.01sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.01sTemps de réponse (moy.)…
15Jetons de sortie…
1,195Jetons de raisonnement…
Intelligence générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.47sTemps de réponse (max)3.47sTemps de réponse (total)3.47sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.34sTemps de réponse (max)9.34sTemps de réponse (total)9.34sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.34sTemps de réponse (moy.)…
78Jetons de sortie…
374Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.46sTemps de réponse (max)1.68sTemps de réponse (total)2.91sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.26sTemps de réponse (max)3.26sTemps de réponse (total)3.26sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.26sTemps de réponse (moy.)…
69Jetons de sortie…
754Jetons de raisonnement…
Résolution d'énigmes
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.58sTemps de réponse (max)4.07sTemps de réponse (total)7.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.91sTemps de réponse (max)4.23sTemps de réponse (total)7.81sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.91sTemps de réponse (moy.)…
243Jetons de sortie…
1,197Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.74sTemps de réponse (max)4.74sTemps de réponse (total)4.74sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.96sTemps de réponse (max)11.96sTemps de réponse (total)11.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
11.96sTemps de réponse (moy.)…
324Jetons de sortie…
971Jetons de raisonnement…
Culture générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.46sTemps de réponse (max)1.46sTemps de réponse (total)1.46sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
0.0Score moyen sur l’ensemble des tests de benchmark.…
0.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…