82Score moyen sur l’ensemble des tests de benchmark.…
87Score moyen sur l’ensemble des tests de benchmark.…
69Score moyen sur l’ensemble des tests de benchmark.…
Cohérence
89Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
90Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
78Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
6.533Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
4.418Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
3.057Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.784Coût total…
$0.531Coût total…
$0.306Coût total…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)21.06sTemps de réponse (max)100.41sTemps de réponse (total)315.95sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)17.37sTemps de réponse (max)100.93sTemps de réponse (total)260.52sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Aucune réponse: 1Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)16.71sTemps de réponse (max)77.80sTemps de réponse (total)133.69sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
86.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
80.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
4Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Jetons de sortie
1,611Jetons de sortie…
1,577Jetons de sortie…
2,058Jetons de sortie…
Jetons de raisonnement
46,321Jetons de raisonnement…
33,017Jetons de raisonnement…
16,542Jetons de raisonnement…
Meilleurs modèles par score
Score vs coût total
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.4
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.02sTemps de réponse (max)6.42sTemps de réponse (total)15.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
216Jetons de sortie…
1,466Jetons de raisonnement…
OpenAI: GPT-5.3-Codex
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.69sTemps de réponse (max)6.68sTemps de réponse (total)14.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
216Jetons de sortie…
1,421Jetons de raisonnement…
OpenAI: GPT-5.2
70Score moyen sur l’ensemble des tests de benchmark.…
73Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)14.34sTemps de réponse (max)14.34sTemps de réponse (total)14.34sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
549Jetons de sortie…
2,002Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.4
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)20.57sTemps de réponse (max)20.57sTemps de réponse (total)20.57sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
301Jetons de sortie…
3,543Jetons de raisonnement…
OpenAI: GPT-5.3-Codex
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)19.56sTemps de réponse (max)19.56sTemps de réponse (total)19.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
364Jetons de sortie…
2,731Jetons de raisonnement…
OpenAI: GPT-5.2
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)14.06sTemps de réponse (max)14.06sTemps de réponse (total)14.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
291Jetons de sortie…
1,757Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.4
99Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.32sTemps de réponse (max)5.40sTemps de réponse (total)10.64sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
234Jetons de sortie…
804Jetons de raisonnement…
OpenAI: GPT-5.3-Codex
99Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.07sTemps de réponse (max)3.59sTemps de réponse (total)6.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
234Jetons de sortie…
728Jetons de raisonnement…
OpenAI: GPT-5.2
99Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.15sTemps de réponse (max)3.15sTemps de réponse (total)3.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
234Jetons de sortie…
420Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.4
40Score moyen sur l’ensemble des tests de benchmark.…
72Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)74.27sTemps de réponse (max)100.41sTemps de réponse (total)222.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
61Jetons de sortie…
34,748Jetons de raisonnement…
OpenAI: GPT-5.3-Codex
40Score moyen sur l’ensemble des tests de benchmark.…
72Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)64.31sTemps de réponse (max)100.93sTemps de réponse (total)192.94sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
64Jetons de sortie…
25,308Jetons de raisonnement…
OpenAI: GPT-5.2
40Score moyen sur l’ensemble des tests de benchmark.…
72Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)77.80sTemps de réponse (max)77.80sTemps de réponse (total)77.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
42Jetons de sortie…
10,342Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.4
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.11sTemps de réponse (max)3.68sTemps de réponse (total)6.22sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
93Jetons de sortie…
897Jetons de raisonnement…
OpenAI: GPT-5.3-Codex
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.04sTemps de réponse (max)3.44sTemps de réponse (total)6.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
93Jetons de sortie…
693Jetons de raisonnement…
OpenAI: GPT-5.2
95Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.12sTemps de réponse (max)3.12sTemps de réponse (total)3.12sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
94Jetons de sortie…
614Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.4
70Score moyen sur l’ensemble des tests de benchmark.…
72Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)9.13sTemps de réponse (max)18.14sTemps de réponse (total)27.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
442Jetons de sortie…
3,832Jetons de raisonnement…
OpenAI: GPT-5.3-Codex
93Score moyen sur l’ensemble des tests de benchmark.…
79Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.12sTemps de réponse (max)8.73sTemps de réponse (total)15.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
352Jetons de sortie…
1,644Jetons de raisonnement…
OpenAI: GPT-5.2
70Score moyen sur l’ensemble des tests de benchmark.…
73Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.47sTemps de réponse (max)6.45sTemps de réponse (total)10.94sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
609Jetons de sortie…
938Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.4
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)13.28sTemps de réponse (max)13.28sTemps de réponse (total)13.28sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
264Jetons de sortie…
1,031Jetons de raisonnement…
OpenAI: GPT-5.3-Codex
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.37sTemps de réponse (max)6.37sTemps de réponse (total)6.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
254Jetons de sortie…
492Jetons de raisonnement…
OpenAI: GPT-5.2
100Score moyen sur l’ensemble des tests de benchmark.…
16Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)10.30sTemps de réponse (max)10.30sTemps de réponse (total)10.30sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…