8.2Score moyen sur l’ensemble des tests de benchmark.…
7.2Score moyen sur l’ensemble des tests de benchmark.…
Rang
#9
#21
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Temps de réponse (moy.)68.84sTemps de réponse (max)280.52sTemps de réponse (total)1101.43sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Erreur API: 1N'a pas suivi les instructions: 1Temps de réponse (moy.)25.25sTemps de réponse (max)96.01sTemps de réponse (total)252.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Cohérence
9.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
9.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
19.209Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.314Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$2.306Coût total…
$0.035Coût total…
Taux de réussite par tentative
77.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
72.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
common.totalRuns
46 (16 x 2.88)common.totalRuns…
46 (16 x 2.88)common.totalRuns…
Jetons de sortie
1,205Jetons de sortie…
11,556Jetons de sortie…
Jetons de raisonnement
1,530,700Jetons de raisonnement…
106,408Jetons de raisonnement…
Temps de réponse (moy.)
68.84sTemps de réponse (moy.)…
25.25sTemps de réponse (moy.)…
Temps de réponse (max)
280.52sTemps de réponse (max)…
96.01sTemps de réponse (max)…
Temps de réponse (total)
1101.43sTemps de réponse (total)…
252.48sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)43.87sTemps de réponse (max)121.88sTemps de réponse (total)131.62sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
43.87sTemps de réponse (moy.)…
144Jetons de sortie…
193,077Jetons de raisonnement…
Xiaomi: MiMo-V2-Flash
9.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)16.79sTemps de réponse (max)20.83sTemps de réponse (total)33.57sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
16.79sTemps de réponse (moy.)…
1,328Jetons de sortie…
18,739Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)280.52sTemps de réponse (max)280.52sTemps de réponse (total)280.52sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
280.52sTemps de réponse (moy.)…
335Jetons de sortie…
380,440Jetons de raisonnement…
Xiaomi: MiMo-V2-Flash
9.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)75.68sTemps de réponse (max)75.68sTemps de réponse (total)75.68sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
75.68sTemps de réponse (moy.)…
442Jetons de sortie…
26,859Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.16sTemps de réponse (max)8.54sTemps de réponse (total)14.31sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.16sTemps de réponse (moy.)…
279Jetons de sortie…
6,186Jetons de raisonnement…
Xiaomi: MiMo-V2-Flash
5.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
0msTemps de réponse (moy.)…
153Jetons de sortie…
0Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
4.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)127.58sTemps de réponse (max)133.93sTemps de réponse (total)382.74sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
127.58sTemps de réponse (moy.)…
18Jetons de sortie…
566,202Jetons de raisonnement…
Xiaomi: MiMo-V2-Flash
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)96.01sTemps de réponse (max)96.01sTemps de réponse (total)96.01sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
96.01sTemps de réponse (moy.)…
8,374Jetons de sortie…
42,461Jetons de raisonnement…
Intelligence générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.36sTemps de réponse (max)5.36sTemps de réponse (total)5.36sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.36sTemps de réponse (moy.)…
39Jetons de sortie…
1,305Jetons de raisonnement…
Xiaomi: MiMo-V2-Flash
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)3.34sTemps de réponse (max)3.34sTemps de réponse (total)3.34sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.34sTemps de réponse (moy.)…
30Jetons de sortie…
182Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
9.0Score moyen sur l’ensemble des tests de benchmark.…
6.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)70.07sTemps de réponse (max)136.53sTemps de réponse (total)140.14sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
70.07sTemps de réponse (moy.)…
69Jetons de sortie…
190,053Jetons de raisonnement…
Xiaomi: MiMo-V2-Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.28sTemps de réponse (max)7.37sTemps de réponse (total)8.55sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.28sTemps de réponse (moy.)…
75Jetons de sortie…
3,504Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
7.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)46.33sTemps de réponse (max)134.22sTemps de réponse (total)139.00sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
46.33sTemps de réponse (moy.)…
87Jetons de sortie…
190,953Jetons de raisonnement…
Xiaomi: MiMo-V2-Flash
7.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.77sTemps de réponse (max)5.26sTemps de réponse (total)7.55sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.77sTemps de réponse (moy.)…
833Jetons de sortie…
1,948Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.73sTemps de réponse (max)7.73sTemps de réponse (total)7.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.73sTemps de réponse (moy.)…
234Jetons de sortie…
2,484Jetons de raisonnement…
Xiaomi: MiMo-V2-Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)27.78sTemps de réponse (max)27.78sTemps de réponse (total)27.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…