5.4Score moyen sur l’ensemble des tests de benchmark.…
2.9Score moyen sur l’ensemble des tests de benchmark.…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 5N'a pas suivi les instructions: 3Temps de réponse (moy.)2.47sTemps de réponse (max)14.63sTemps de réponse (total)34.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11N'a pas suivi les instructions: 1Temps de réponse (moy.)2.01sTemps de réponse (max)5.51sTemps de réponse (total)16.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Cohérence
8.3Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
0.622Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.239Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.044Coût total…
$0.008Coût total…
Taux de réussite par tentative
57.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
26.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
3Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
common.totalAttempts
45 (15 x 3)common.totalAttempts…
45 (15 x 3)common.totalAttempts…
Jetons de sortie
3,571Jetons de sortie…
1,036Jetons de sortie…
Jetons de raisonnement
45,379Jetons de raisonnement…
0Jetons de raisonnement…
Temps de réponse (moy.)
2.47sTemps de réponse (moy.)…
2.01sTemps de réponse (moy.)…
Temps de réponse (max)
14.63sTemps de réponse (max)…
5.51sTemps de réponse (max)…
Temps de réponse (total)
34.56sTemps de réponse (total)…
16.06sTemps de réponse (total)…
Meilleurs modèles par score
Temps de réponse (moy.)
Score vs coût total
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
7.3Score moyen sur l’ensemble des tests de benchmark.…
9.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.30sTemps de réponse (max)2.46sTemps de réponse (total)3.89sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.30sTemps de réponse (moy.)…
2,531Jetons de sortie…
2,410Jetons de raisonnement…
xAI: Grok 4.1 Fast
1.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)1.73sTemps de réponse (max)1.73sTemps de réponse (total)1.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.73sTemps de réponse (moy.)…
229Jetons de sortie…
0Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.28sTemps de réponse (max)3.28sTemps de réponse (total)3.28sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.28sTemps de réponse (moy.)…
268Jetons de sortie…
4,887Jetons de raisonnement…
xAI: Grok 4.1 Fast
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.33sTemps de réponse (max)3.33sTemps de réponse (total)3.33sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.33sTemps de réponse (moy.)…
105Jetons de sortie…
0Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
5.5Score moyen sur l’ensemble des tests de benchmark.…
5.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.11sTemps de réponse (max)1.47sTemps de réponse (total)2.21sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.11sTemps de réponse (moy.)…
183Jetons de sortie…
1,656Jetons de raisonnement…
xAI: Grok 4.1 Fast
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)943msTemps de réponse (max)943msTemps de réponse (total)943msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
943msTemps de réponse (moy.)…
180Jetons de sortie…
0Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
10.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
11.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)6.48sTemps de réponse (max)14.63sTemps de réponse (total)19.43sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.48sTemps de réponse (moy.)…
41Jetons de sortie…
30,754Jetons de raisonnement…
xAI: Grok 4.1 Fast
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.06sTemps de réponse (max)1.06sTemps de réponse (total)1.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.06sTemps de réponse (moy.)…
15Jetons de sortie…
0Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.07sTemps de réponse (max)1.07sTemps de réponse (total)1.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.07sTemps de réponse (moy.)…
14Jetons de sortie…
958Jetons de raisonnement…
xAI: Grok 4.1 Fast
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)923msTemps de réponse (max)923msTemps de réponse (total)923msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
923msTemps de réponse (moy.)…
56Jetons de sortie…
0Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
1.7Score moyen sur l’ensemble des tests de benchmark.…
7.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
22.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Mauvaise réponse: 1Temps de réponse (moy.)934msTemps de réponse (max)1.18sTemps de réponse (total)2.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
934msTemps de réponse (moy.)…
354Jetons de sortie…
2,758Jetons de raisonnement…
xAI: Grok 4.1 Fast
1.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.28sTemps de réponse (max)1.36sTemps de réponse (total)2.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.28sTemps de réponse (moy.)…
243Jetons de sortie…
0Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.89sTemps de réponse (max)1.89sTemps de réponse (total)1.89sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.89sTemps de réponse (moy.)…
180Jetons de sortie…
1,956Jetons de raisonnement…
xAI: Grok 4.1 Fast
10.0Score moyen sur l’ensemble des tests de benchmark.…
1.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)5.51sTemps de réponse (max)5.51sTemps de réponse (total)5.51sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…