4.2Score moyen sur l’ensemble des tests de benchmark.…
6.4Score moyen sur l’ensemble des tests de benchmark.…
Cohérence
9.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
7.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
0.000Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
2.171Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.000Coût total…
$0.196Coût total…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9N'a pas suivi les instructions: 2Temps de réponse (moy.)3.15sTemps de réponse (max)8.91sTemps de réponse (total)50.46sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 2Aucune réponse: 1Délai dépassé: 1Temps de réponse (moy.)69.83sTemps de réponse (max)137.29sTemps de réponse (total)628.45sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
72.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
5Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
48Exécutions totales…
48Exécutions totales…
Jetons de sortie
1,837Jetons de sortie…
38,453Jetons de sortie…
Jetons de raisonnement
0Jetons de raisonnement…
72,496Jetons de raisonnement…
Temps de réponse (moy.)
3.15sTemps de réponse (moy.)…
69.83sTemps de réponse (moy.)…
Temps de réponse (max)
8.91sTemps de réponse (max)…
137.29sTemps de réponse (max)…
Temps de réponse (total)
50.46sTemps de réponse (total)…
628.45sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Trinity Large Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)3.59sTemps de réponse (max)8.17sTemps de réponse (total)10.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.59sTemps de réponse (moy.)…
587Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
7.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)85.28sTemps de réponse (max)85.28sTemps de réponse (total)85.28sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
85.28sTemps de réponse (moy.)…
335Jetons de sortie…
6,255Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Trinity Large Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)8.91sTemps de réponse (max)8.91sTemps de réponse (total)8.91sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.91sTemps de réponse (moy.)…
294Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)71.37sTemps de réponse (max)71.37sTemps de réponse (total)71.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
71.37sTemps de réponse (moy.)…
703Jetons de sortie…
3,713Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Trinity Large Preview
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.26sTemps de réponse (max)4.66sTemps de réponse (total)6.52sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.26sTemps de réponse (moy.)…
186Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)49.78sTemps de réponse (max)49.78sTemps de réponse (total)49.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
49.78sTemps de réponse (moy.)…
563Jetons de sortie…
7,940Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Trinity Large Preview
4.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)877msTemps de réponse (max)894msTemps de réponse (total)2.63sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
877msTemps de réponse (moy.)…
25Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
10.0Score moyen sur l’ensemble des tests de benchmark.…
4.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)137.29sTemps de réponse (max)137.29sTemps de réponse (total)137.29sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
137.29sTemps de réponse (moy.)…
20,753Jetons de sortie…
30,564Jetons de raisonnement…
Intelligence générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Trinity Large Preview
3.0Score moyen sur l’ensemble des tests de benchmark.…
9.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.86sTemps de réponse (max)2.86sTemps de réponse (total)2.86sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.86sTemps de réponse (moy.)…
124Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
6.0Score moyen sur l’ensemble des tests de benchmark.…
3.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)69.73sTemps de réponse (max)69.73sTemps de réponse (total)69.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
69.73sTemps de réponse (moy.)…
3,815Jetons de sortie…
4,262Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Trinity Large Preview
3.5Score moyen sur l’ensemble des tests de benchmark.…
6.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
16.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.09sTemps de réponse (max)1.23sTemps de réponse (total)2.19sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.09sTemps de réponse (moy.)…
63Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)92.47sTemps de réponse (max)92.47sTemps de réponse (total)92.47sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
92.47sTemps de réponse (moy.)…
5,371Jetons de sortie…
6,547Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Trinity Large Preview
4.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)3.30sTemps de réponse (max)4.81sTemps de réponse (total)9.91sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.30sTemps de réponse (moy.)…
291Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.3Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)45.40sTemps de réponse (max)82.75sTemps de réponse (total)90.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
45.40sTemps de réponse (moy.)…
6,671Jetons de sortie…
12,403Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Trinity Large Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.67sTemps de réponse (max)6.67sTemps de réponse (total)6.67sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.67sTemps de réponse (moy.)…
267Jetons de sortie…
0Jetons de raisonnement…
MoonshotAI: Kimi K2.5
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)31.74sTemps de réponse (max)31.74sTemps de réponse (total)31.74sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…