48Score moyen sur l’ensemble des tests de benchmark.…
46Score moyen sur l’ensemble des tests de benchmark.…
Cohérence
58Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
89Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
4.937Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
1.496Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.247Coût total…
$0.090Coût total…
Temps de réponse (moy.)
47.58sTemps de réponse (moy.)…
1.46sTemps de réponse (moy.)…
Temps de réponse (max)
237.27sTemps de réponse (max)…
2.89sTemps de réponse (max)…
Temps de réponse (total)
380.62sTemps de réponse (total)…
21.86sTemps de réponse (total)…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 5N'a pas suivi les instructions: 2Délai dépassé: 2invalid tool call: 1Temps de réponse (moy.)47.58sTemps de réponse (max)237.27sTemps de réponse (total)380.62sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 8N'a pas suivi les instructions: 1Temps de réponse (moy.)1.46sTemps de réponse (max)2.89sTemps de réponse (total)21.86sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
62.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
8Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Jetons de sortie
107,019Jetons de sortie…
1,635Jetons de sortie…
Jetons de raisonnement
204,504Jetons de raisonnement…
0Jetons de raisonnement…
Meilleurs modèles par score
Temps de réponse (moy.)
Score vs coût total
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
MiniMax: MiniMax M2.5
93Score moyen sur l’ensemble des tests de benchmark.…
79Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)32.42sTemps de réponse (max)32.42sTemps de réponse (total)32.42sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
32.42sTemps de réponse (moy.)…
286Jetons de sortie…
45,112Jetons de raisonnement…
OpenAI: GPT-5.4
100Score moyen sur l’ensemble des tests de benchmark.…
73Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
11.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.41sTemps de réponse (max)2.58sTemps de réponse (total)4.23sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.41sTemps de réponse (moy.)…
388Jetons de sortie…
0Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
MiniMax: MiniMax M2.5
100Score moyen sur l’ensemble des tests de benchmark.…
21Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.invalid tool call: 1Temps de réponse (moy.)60.39sTemps de réponse (max)60.39sTemps de réponse (total)60.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
60.39sTemps de réponse (moy.)…
740Jetons de sortie…
9,713Jetons de raisonnement…
OpenAI: GPT-5.4
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.89sTemps de réponse (max)2.89sTemps de réponse (total)2.89sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.89sTemps de réponse (moy.)…
291Jetons de sortie…
0Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
MiniMax: MiniMax M2.5
100Score moyen sur l’ensemble des tests de benchmark.…
17Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)7.48sTemps de réponse (max)7.48sTemps de réponse (total)7.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.48sTemps de réponse (moy.)…
266Jetons de sortie…
3,835Jetons de raisonnement…
OpenAI: GPT-5.4
99Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.04sTemps de réponse (max)1.06sTemps de réponse (total)2.08sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.04sTemps de réponse (moy.)…
222Jetons de sortie…
0Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
MiniMax: MiniMax M2.5
100Score moyen sur l’ensemble des tests de benchmark.…
44Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
22.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)237.27sTemps de réponse (max)237.27sTemps de réponse (total)237.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
237.27sTemps de réponse (moy.)…
105,047Jetons de sortie…
133,487Jetons de raisonnement…
OpenAI: GPT-5.4
40Score moyen sur l’ensemble des tests de benchmark.…
72Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.07sTemps de réponse (max)1.54sTemps de réponse (total)3.22sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.07sTemps de réponse (moy.)…
50Jetons de sortie…
0Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
MiniMax: MiniMax M2.5
80Score moyen sur l’ensemble des tests de benchmark.…
68Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.64sTemps de réponse (max)4.64sTemps de réponse (total)4.64sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.64sTemps de réponse (moy.)…
252Jetons de sortie…
1,873Jetons de raisonnement…
OpenAI: GPT-5.4
55Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.07sTemps de réponse (max)1.17sTemps de réponse (total)2.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.07sTemps de réponse (moy.)…
81Jetons de sortie…
0Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
MiniMax: MiniMax M2.5
40Score moyen sur l’ensemble des tests de benchmark.…
72Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)11.54sTemps de réponse (max)17.37sTemps de réponse (total)23.08sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
11.54sTemps de réponse (moy.)…
159Jetons de sortie…
9,547Jetons de raisonnement…
OpenAI: GPT-5.4
40Score moyen sur l’ensemble des tests de benchmark.…
98Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.52sTemps de réponse (max)1.82sTemps de réponse (total)4.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.52sTemps de réponse (moy.)…
357Jetons de sortie…
0Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
MiniMax: MiniMax M2.5
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.35sTemps de réponse (max)15.35sTemps de réponse (total)15.35sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
15.35sTemps de réponse (moy.)…
269Jetons de sortie…
937Jetons de raisonnement…
OpenAI: GPT-5.4
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.75sTemps de réponse (max)2.75sTemps de réponse (total)2.75sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…