6.4Score moyen sur l’ensemble des tests de benchmark.…
7.5Score moyen sur l’ensemble des tests de benchmark.…
Rang
#31
#20
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 4Mauvaise réponse: 2Temps de réponse (moy.)25.08sTemps de réponse (max)83.40sTemps de réponse (total)200.67sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 1Temps de réponse (moy.)6.22sTemps de réponse (max)18.33sTemps de réponse (total)93.31sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Cohérence
8.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
14.411Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
3.110Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$1.297Coût total…
$0.311Coût total…
Taux de réussite par tentative
64.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
75.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
3Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Jetons de sortie
26,066Jetons de sortie…
18,953Jetons de sortie…
Jetons de raisonnement
17,071Jetons de raisonnement…
0Jetons de raisonnement…
Temps de réponse (moy.)
25.08sTemps de réponse (moy.)…
6.22sTemps de réponse (moy.)…
Temps de réponse (max)
83.40sTemps de réponse (max)…
18.33sTemps de réponse (max)…
Temps de réponse (total)
200.67sTemps de réponse (total)…
93.31sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Anthropic: Claude Opus 4.6
4.0Score moyen sur l’ensemble des tests de benchmark.…
4.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 2Temps de réponse (moy.)11.88sTemps de réponse (max)11.88sTemps de réponse (total)11.88sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
11.88sTemps de réponse (moy.)…
897Jetons de sortie…
1,000Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
7.3Score moyen sur l’ensemble des tests de benchmark.…
7.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.72sTemps de réponse (max)7.35sTemps de réponse (total)14.17sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.72sTemps de réponse (moy.)…
3,091Jetons de sortie…
0Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Anthropic: Claude Opus 4.6
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)76.66sTemps de réponse (max)76.66sTemps de réponse (total)76.66sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
76.66sTemps de réponse (moy.)…
8,178Jetons de sortie…
5,194Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.96sTemps de réponse (max)11.96sTemps de réponse (total)11.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
11.96sTemps de réponse (moy.)…
2,614Jetons de sortie…
0Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Anthropic: Claude Opus 4.6
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.37sTemps de réponse (max)7.37sTemps de réponse (total)7.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.37sTemps de réponse (moy.)…
691Jetons de sortie…
757Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.21sTemps de réponse (max)2.52sTemps de réponse (total)4.42sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.21sTemps de réponse (moy.)…
942Jetons de sortie…
0Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Anthropic: Claude Opus 4.6
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 2Mauvaise réponse: 1Temps de réponse (moy.)83.40sTemps de réponse (max)83.40sTemps de réponse (total)83.40sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
83.40sTemps de réponse (moy.)…
14,642Jetons de sortie…
8,687Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
10.0Score moyen sur l’ensemble des tests de benchmark.…
4.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)13.01sTemps de réponse (max)18.33sTemps de réponse (total)39.04sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
13.01sTemps de réponse (moy.)…
8,264Jetons de sortie…
0Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Anthropic: Claude Opus 4.6
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.43sTemps de réponse (max)2.43sTemps de réponse (total)2.43sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.43sTemps de réponse (moy.)…
266Jetons de sortie…
467Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
9.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.29sTemps de réponse (max)4.18sTemps de réponse (total)6.59sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.29sTemps de réponse (moy.)…
1,455Jetons de sortie…
0Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Anthropic: Claude Opus 4.6
7.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.60sTemps de réponse (max)4.66sTemps de réponse (total)9.20sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.60sTemps de réponse (moy.)…
531Jetons de sortie…
637Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.93sTemps de réponse (max)3.05sTemps de réponse (total)8.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.93sTemps de réponse (moy.)…
1,726Jetons de sortie…
0Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Anthropic: Claude Opus 4.6
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.73sTemps de réponse (max)9.73sTemps de réponse (total)9.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.73sTemps de réponse (moy.)…
861Jetons de sortie…
329Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)8.36sTemps de réponse (max)8.36sTemps de réponse (total)8.36sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…