8.1Score moyen sur l’ensemble des tests de benchmark.…
8.2Score moyen sur l’ensemble des tests de benchmark.…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)6.27sTemps de réponse (max)14.72sTemps de réponse (total)94.05sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)21.06sTemps de réponse (max)100.41sTemps de réponse (total)315.95sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Rang
#8
#7
Cohérence
9.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
0.627Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
6.533Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.076Coût total…
$0.784Coût total…
Taux de réussite par tentative
82.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
86.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
common.totalAttempts
45 (15 x 3)common.totalAttempts…
45 (15 x 3)common.totalAttempts…
Jetons de sortie
1,466Jetons de sortie…
1,611Jetons de sortie…
Jetons de raisonnement
18,969Jetons de raisonnement…
46,321Jetons de raisonnement…
Temps de réponse (moy.)
6.27sTemps de réponse (moy.)…
21.06sTemps de réponse (moy.)…
Temps de réponse (max)
14.72sTemps de réponse (max)…
100.41sTemps de réponse (max)…
Temps de réponse (total)
94.05sTemps de réponse (total)…
315.95sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3 Flash Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.50sTemps de réponse (max)4.31sTemps de réponse (total)10.49sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.50sTemps de réponse (moy.)…
275Jetons de sortie…
2,476Jetons de raisonnement…
OpenAI: GPT-5.4
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.02sTemps de réponse (max)6.42sTemps de réponse (total)15.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.02sTemps de réponse (moy.)…
216Jetons de sortie…
1,466Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3 Flash Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.27sTemps de réponse (max)3.27sTemps de réponse (total)3.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.27sTemps de réponse (moy.)…
326Jetons de sortie…
0Jetons de raisonnement…
OpenAI: GPT-5.4
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)20.57sTemps de réponse (max)20.57sTemps de réponse (total)20.57sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
20.57sTemps de réponse (moy.)…
301Jetons de sortie…
3,543Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3 Flash Preview
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.40sTemps de réponse (max)14.72sTemps de réponse (total)18.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.40sTemps de réponse (moy.)…
279Jetons de sortie…
3,656Jetons de raisonnement…
OpenAI: GPT-5.4
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.32sTemps de réponse (max)5.40sTemps de réponse (total)10.64sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.32sTemps de réponse (moy.)…
234Jetons de sortie…
804Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3 Flash Preview
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)8.05sTemps de réponse (max)14.40sTemps de réponse (total)24.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.05sTemps de réponse (moy.)…
12Jetons de sortie…
6,410Jetons de raisonnement…
OpenAI: GPT-5.4
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)74.27sTemps de réponse (max)100.41sTemps de réponse (total)222.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
74.27sTemps de réponse (moy.)…
61Jetons de sortie…
34,748Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3 Flash Preview
9.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.02sTemps de réponse (max)7.35sTemps de réponse (total)14.03sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.02sTemps de réponse (moy.)…
71Jetons de sortie…
2,752Jetons de raisonnement…
OpenAI: GPT-5.4
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.11sTemps de réponse (max)3.68sTemps de réponse (total)6.22sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.11sTemps de réponse (moy.)…
93Jetons de sortie…
897Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3 Flash Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.11sTemps de réponse (max)10.27sTemps de réponse (total)18.32sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.11sTemps de réponse (moy.)…
269Jetons de sortie…
3,260Jetons de raisonnement…
OpenAI: GPT-5.4
7.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)9.13sTemps de réponse (max)18.14sTemps de réponse (total)27.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.13sTemps de réponse (moy.)…
442Jetons de sortie…
3,832Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3 Flash Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.99sTemps de réponse (max)4.99sTemps de réponse (total)4.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.99sTemps de réponse (moy.)…
234Jetons de sortie…
415Jetons de raisonnement…
OpenAI: GPT-5.4
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)13.28sTemps de réponse (max)13.28sTemps de réponse (total)13.28sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…