34Score moyen sur l’ensemble des tests de benchmark.…
64Score moyen sur l’ensemble des tests de benchmark.…
Cohérence
89Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
78Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
0.147Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
2.082Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.006Coût total…
$0.188Coût total…
Temps de réponse (moy.)
594msTemps de réponse (moy.)…
69.84sTemps de réponse (moy.)…
Temps de réponse (max)
1.27sTemps de réponse (max)…
137.29sTemps de réponse (max)…
Temps de réponse (total)
8.91sTemps de réponse (total)…
558.72sTemps de réponse (total)…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11Temps de réponse (moy.)594msTemps de réponse (max)1.27sTemps de réponse (total)8.91sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Aucune réponse: 1Délai dépassé: 1Temps de réponse (moy.)69.84sTemps de réponse (max)137.29sTemps de réponse (total)558.72sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
73.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
4Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Jetons de sortie
1,144Jetons de sortie…
34,638Jetons de sortie…
Jetons de raisonnement
0Jetons de raisonnement…
68,234Jetons de raisonnement…
Meilleurs modèles par score
Temps de réponse (moy.)
Score vs coût total
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)466msTemps de réponse (max)716msTemps de réponse (total)1.40sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
466msTemps de réponse (moy.)…
274Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
70Score moyen sur l’ensemble des tests de benchmark.…
72Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)85.28sTemps de réponse (max)85.28sTemps de réponse (total)85.28sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
85.28sTemps de réponse (moy.)…
335Jetons de sortie…
6,255Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)606msTemps de réponse (max)606msTemps de réponse (total)606msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
606msTemps de réponse (moy.)…
131Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)71.37sTemps de réponse (max)71.37sTemps de réponse (total)71.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
71.37sTemps de réponse (moy.)…
703Jetons de sortie…
3,713Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
55Score moyen sur l’ensemble des tests de benchmark.…
59Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)667msTemps de réponse (max)819msTemps de réponse (total)1.33sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
667msTemps de réponse (moy.)…
180Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
99Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)49.78sTemps de réponse (max)49.78sTemps de réponse (total)49.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
49.78sTemps de réponse (moy.)…
563Jetons de sortie…
7,940Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
40Score moyen sur l’ensemble des tests de benchmark.…
72Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)534msTemps de réponse (max)733msTemps de réponse (total)1.60sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
534msTemps de réponse (moy.)…
46Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
100Score moyen sur l’ensemble des tests de benchmark.…
44Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)137.29sTemps de réponse (max)137.29sTemps de réponse (total)137.29sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
137.29sTemps de réponse (moy.)…
20,753Jetons de sortie…
30,564Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
55Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)551msTemps de réponse (max)622msTemps de réponse (total)1.10sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
551msTemps de réponse (moy.)…
82Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)92.47sTemps de réponse (max)92.47sTemps de réponse (total)92.47sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
92.47sTemps de réponse (moy.)…
5,371Jetons de sortie…
6,547Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)533msTemps de réponse (max)637msTemps de réponse (total)1.60sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
533msTemps de réponse (moy.)…
234Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
40Score moyen sur l’ensemble des tests de benchmark.…
73Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)45.40sTemps de réponse (max)82.75sTemps de réponse (total)90.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
45.40sTemps de réponse (moy.)…
6,671Jetons de sortie…
12,403Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Inception: Mercury 2
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.27sTemps de réponse (max)1.27sTemps de réponse (total)1.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.27sTemps de réponse (moy.)…
197Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
100Score moyen sur l’ensemble des tests de benchmark.…
100Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)31.74sTemps de réponse (max)31.74sTemps de réponse (total)31.74sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…