3.4Score moyen sur l’ensemble des tests de benchmark.…
6.4Score moyen sur l’ensemble des tests de benchmark.…
Rang
#50
#28
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11Temps de réponse (moy.)594msTemps de réponse (max)1.27sTemps de réponse (total)8.91sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Mauvaise réponse: 2Aucune réponse: 1Délai dépassé: 1Temps de réponse (moy.)27.61sTemps de réponse (max)121.79sTemps de réponse (total)220.87sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Cohérence
8.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
7.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
0.147Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.541Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.006Coût total…
$0.049Coût total…
Taux de réussite par tentative
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
71.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
4Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Jetons de sortie
1,144Jetons de sortie…
1,056Jetons de sortie…
Jetons de raisonnement
0Jetons de raisonnement…
80,419Jetons de raisonnement…
Temps de réponse (moy.)
594msTemps de réponse (moy.)…
27.61sTemps de réponse (moy.)…
Temps de réponse (max)
1.27sTemps de réponse (max)…
121.79sTemps de réponse (max)…
Temps de réponse (total)
8.91sTemps de réponse (total)…
220.87sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)466msTemps de réponse (max)716msTemps de réponse (total)1.40sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
466msTemps de réponse (moy.)…
274Jetons de sortie…
0Jetons de raisonnement…
xAI: Grok 4.1 Fast
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.65sTemps de réponse (max)5.65sTemps de réponse (total)5.65sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.65sTemps de réponse (moy.)…
102Jetons de sortie…
4,021Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)606msTemps de réponse (max)606msTemps de réponse (total)606msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
606msTemps de réponse (moy.)…
131Jetons de sortie…
0Jetons de raisonnement…
xAI: Grok 4.1 Fast
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)37.64sTemps de réponse (max)37.64sTemps de réponse (total)37.64sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
37.64sTemps de réponse (moy.)…
261Jetons de sortie…
12,272Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
5.5Score moyen sur l’ensemble des tests de benchmark.…
5.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)667msTemps de réponse (max)819msTemps de réponse (total)1.33sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
667msTemps de réponse (moy.)…
180Jetons de sortie…
0Jetons de raisonnement…
xAI: Grok 4.1 Fast
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.63sTemps de réponse (max)6.63sTemps de réponse (total)6.63sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.63sTemps de réponse (moy.)…
180Jetons de sortie…
5,409Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)534msTemps de réponse (max)733msTemps de réponse (total)1.60sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
534msTemps de réponse (moy.)…
46Jetons de sortie…
0Jetons de raisonnement…
xAI: Grok 4.1 Fast
4.0Score moyen sur l’ensemble des tests de benchmark.…
4.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)121.79sTemps de réponse (max)121.79sTemps de réponse (total)121.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
121.79sTemps de réponse (moy.)…
11Jetons de sortie…
37,657Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
5.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)551msTemps de réponse (max)622msTemps de réponse (total)1.10sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
551msTemps de réponse (moy.)…
82Jetons de sortie…
0Jetons de raisonnement…
xAI: Grok 4.1 Fast
5.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.30sTemps de réponse (max)5.30sTemps de réponse (total)5.30sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.30sTemps de réponse (moy.)…
55Jetons de sortie…
3,489Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)533msTemps de réponse (max)637msTemps de réponse (total)1.60sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
533msTemps de réponse (moy.)…
234Jetons de sortie…
0Jetons de raisonnement…
xAI: Grok 4.1 Fast
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)8.08sTemps de réponse (max)8.38sTemps de réponse (total)16.17sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.08sTemps de réponse (moy.)…
187Jetons de sortie…
6,086Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.27sTemps de réponse (max)1.27sTemps de réponse (total)1.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.27sTemps de réponse (moy.)…
197Jetons de sortie…
0Jetons de raisonnement…
xAI: Grok 4.1 Fast
10.0Score moyen sur l’ensemble des tests de benchmark.…
1.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)27.71sTemps de réponse (max)27.71sTemps de réponse (total)27.71sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…