7.5Score moyen sur l’ensemble des tests de benchmark.…
7.9Score moyen sur l’ensemble des tests de benchmark.…
Rang
#48
#25
Fiabilité
9.8Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
8.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 3Mauvaise réponse: 3Aucune réponse: 1Temps de réponse (moy.)61.96sTemps de réponse (max)149.23sTemps de réponse (total)1115.31sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
74.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
73.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
4Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
3Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
54Exécutions totales…
60Exécutions totales…
Coût par résultat
18.579Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
4.664Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$2.044Coût total…
$0.607Coût total…
Prix d'entrée
$0.250 / 1MPrix d'entrée…
$0.195 / 1MPrix d'entrée…
Prix de sortie
$1.500 / 1MPrix de sortie…
$1.560 / 1MPrix de sortie…
Jetons de sortie
1,984Jetons de sortie…
2,572Jetons de sortie…
Jetons de raisonnement
1,355,583Jetons de raisonnement…
312,011Jetons de raisonnement…
Temps de réponse (moy.)
61.96sTemps de réponse (moy.)…
60.85sTemps de réponse (moy.)…
Temps de réponse (max)
149.23sTemps de réponse (max)…
177.36sTemps de réponse (max)…
Temps de réponse (total)
1115.31sTemps de réponse (total)…
1216.93sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score vs Temps de réponse (moy.)
Total des jetons de sortie
Score vs Total des jetons de sortie
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
9.4Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)37.16sTemps de réponse (max)140.53sTemps de réponse (total)148.65sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.7Score moyen sur l’ensemble des tests de benchmark.…
7.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
91.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Temps de réponse (moy.)19.75sTemps de réponse (max)49.95sTemps de réponse (total)79.01sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
19.75sTemps de réponse (moy.)…
569Jetons de sortie…
31,505Jetons de raisonnement…
Programmation
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)137.63sTemps de réponse (max)137.63sTemps de réponse (total)137.63sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.0Score moyen sur l’ensemble des tests de benchmark.…
9.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)123.86sTemps de réponse (max)177.36sTemps de réponse (total)247.71sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
123.86sTemps de réponse (moy.)…
416Jetons de sortie…
64,993Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)149.23sTemps de réponse (max)149.23sTemps de réponse (total)149.23sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)163.96sTemps de réponse (max)163.96sTemps de réponse (total)163.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
163.96sTemps de réponse (moy.)…
483Jetons de sortie…
9,991Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.49sTemps de réponse (max)4.96sTemps de réponse (total)8.98sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)30.26sTemps de réponse (max)32.03sTemps de réponse (total)60.52sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
30.26sTemps de réponse (moy.)…
270Jetons de sortie…
16,150Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.6Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
22.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)139.90sTemps de réponse (max)141.40sTemps de réponse (total)419.69sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)79.53sTemps de réponse (max)95.52sTemps de réponse (total)238.59sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
79.53sTemps de réponse (moy.)…
43Jetons de sortie…
52,368Jetons de raisonnement…
Intelligence générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.0Score moyen sur l’ensemble des tests de benchmark.…
2.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)45.69sTemps de réponse (max)45.69sTemps de réponse (total)45.69sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.1Score moyen sur l’ensemble des tests de benchmark.…
3.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)101.41sTemps de réponse (max)101.41sTemps de réponse (total)101.41sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
101.41sTemps de réponse (moy.)…
70Jetons de sortie…
23,147Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.3Score moyen sur l’ensemble des tests de benchmark.…
5.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)23.26sTemps de réponse (max)43.87sTemps de réponse (total)46.51sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)19.66sTemps de réponse (max)32.25sTemps de réponse (total)39.32sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
19.66sTemps de réponse (moy.)…
97Jetons de sortie…
11,638Jetons de raisonnement…
Résolution d'énigmes
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.7Score moyen sur l’ensemble des tests de benchmark.…
6.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Temps de réponse (moy.)50.83sTemps de réponse (max)144.85sTemps de réponse (total)152.49sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.2Score moyen sur l’ensemble des tests de benchmark.…
7.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)64.61sTemps de réponse (max)123.57sTemps de réponse (total)193.84sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
64.61sTemps de réponse (moy.)…
245Jetons de sortie…
77,213Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.44sTemps de réponse (max)6.44sTemps de réponse (total)6.44sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.45sTemps de réponse (max)7.45sTemps de réponse (total)7.45sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.45sTemps de réponse (moy.)…
348Jetons de sortie…
1,323Jetons de raisonnement…
Culture générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Gemini 3.1 Flash LiteModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)85.11sTemps de réponse (max)85.11sTemps de réponse (total)85.11sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…