7.6Score moyen sur l’ensemble des tests de benchmark.…
7.0Score moyen sur l’ensemble des tests de benchmark.…
Rang
#12
#24
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)3.49sTemps de réponse (max)11.91sTemps de réponse (total)52.29sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 3Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)72.86sTemps de réponse (max)234.29sTemps de réponse (total)1092.84sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Cohérence
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
7.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
0.170Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.565Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.019Coût total…
$0.057Coût total…
Taux de réussite par tentative
73.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
82.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
4Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Jetons de sortie
1,542Jetons de sortie…
1,708Jetons de sortie…
Jetons de raisonnement
6,888Jetons de raisonnement…
131,466Jetons de raisonnement…
Temps de réponse (moy.)
3.49sTemps de réponse (moy.)…
72.86sTemps de réponse (moy.)…
Temps de réponse (max)
11.91sTemps de réponse (max)…
234.29sTemps de réponse (max)…
Temps de réponse (total)
52.29sTemps de réponse (total)…
1092.84sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
7.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.18sTemps de réponse (max)3.18sTemps de réponse (total)6.53sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.18sTemps de réponse (moy.)…
456Jetons de sortie…
1,224Jetons de raisonnement…
Qwen: Qwen3.5-Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)71.35sTemps de réponse (max)168.31sTemps de réponse (total)214.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
71.35sTemps de réponse (moy.)…
363Jetons de sortie…
23,645Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)11.91sTemps de réponse (max)11.91sTemps de réponse (total)11.91sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
11.91sTemps de réponse (moy.)…
225Jetons de sortie…
762Jetons de raisonnement…
Qwen: Qwen3.5-Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)17.78sTemps de réponse (max)17.78sTemps de réponse (total)17.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
17.78sTemps de réponse (moy.)…
483Jetons de sortie…
8,270Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.00sTemps de réponse (max)3.74sTemps de réponse (total)5.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.00sTemps de réponse (moy.)…
291Jetons de sortie…
696Jetons de raisonnement…
Qwen: Qwen3.5-Flash
5.5Score moyen sur l’ensemble des tests de benchmark.…
5.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)56.99sTemps de réponse (max)80.14sTemps de réponse (total)113.98sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
56.99sTemps de réponse (moy.)…
235Jetons de sortie…
16,237Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
4.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)2.36sTemps de réponse (max)3.51sTemps de réponse (total)7.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.36sTemps de réponse (moy.)…
18Jetons de sortie…
1,212Jetons de raisonnement…
Qwen: Qwen3.5-Flash
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)146.50sTemps de réponse (max)234.29sTemps de réponse (total)439.49sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
146.50sTemps de réponse (moy.)…
58Jetons de sortie…
43,615Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.49sTemps de réponse (max)1.66sTemps de réponse (total)2.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.49sTemps de réponse (moy.)…
72Jetons de sortie…
753Jetons de raisonnement…
Qwen: Qwen3.5-Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)63.49sTemps de réponse (max)111.61sTemps de réponse (total)126.98sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
63.49sTemps de réponse (moy.)…
98Jetons de sortie…
14,139Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.76sTemps de réponse (max)5.08sTemps de réponse (total)8.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.76sTemps de réponse (moy.)…
243Jetons de sortie…
1,248Jetons de raisonnement…
Qwen: Qwen3.5-Flash
4.0Score moyen sur l’ensemble des tests de benchmark.…
4.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 2Temps de réponse (moy.)56.74sTemps de réponse (max)115.01sTemps de réponse (total)170.23sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
56.74sTemps de réponse (moy.)…
162Jetons de sortie…
24,276Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.54sTemps de réponse (max)9.54sTemps de réponse (total)9.54sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.54sTemps de réponse (moy.)…
237Jetons de sortie…
993Jetons de raisonnement…
Qwen: Qwen3.5-Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)10.33sTemps de réponse (max)10.33sTemps de réponse (total)10.33sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…