7.38Score moyen sur l’ensemble des tests de benchmark.…
7.12Score moyen sur l’ensemble des tests de benchmark.…
7.92Score moyen sur l’ensemble des tests de benchmark.…
7.87Score moyen sur l’ensemble des tests de benchmark.…
Cohérence
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
9.99Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
9.44Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
0.162Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.403Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
17.455Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.624Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.017Coût total…
$0.037Coût total…
$1.920Coût total…
$0.069Coût total…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 1Temps de réponse (moy.)2.89sTemps de réponse (max)9.54sTemps de réponse (total)43.35sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 2Temps de réponse (moy.)3.74sTemps de réponse (max)12.98sTemps de réponse (total)56.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Temps de réponse (moy.)69.85sTemps de réponse (max)232.25sTemps de réponse (total)1047.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Temps de réponse (moy.)6.32sTemps de réponse (max)14.72sTemps de réponse (total)94.86sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
60.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
73.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
75.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Jetons de sortie
1,392Jetons de sortie…
1,417Jetons de sortie…
943Jetons de sortie…
1,274Jetons de sortie…
Jetons de raisonnement
6,379Jetons de raisonnement…
19,435Jetons de raisonnement…
1,275,768Jetons de raisonnement…
18,372Jetons de raisonnement…
Meilleurs modèles par score
Score vs coût total
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
7.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.18sTemps de réponse (max)3.18sTemps de réponse (total)6.53sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
456Jetons de sortie…
1,224Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
9.00Score moyen sur l’ensemble des tests de benchmark.…
9.99Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.53sTemps de réponse (max)3.89sTemps de réponse (total)7.58sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
564Jetons de sortie…
3,780Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)43.87sTemps de réponse (max)121.88sTemps de réponse (total)131.62sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
144Jetons de sortie…
193,077Jetons de raisonnement…
Google: Gemini 3 Flash Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.50sTemps de réponse (max)4.31sTemps de réponse (total)10.49sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
275Jetons de sortie…
2,476Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
1.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.96sTemps de réponse (max)2.96sTemps de réponse (total)2.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
75Jetons de sortie…
253Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)12.98sTemps de réponse (max)12.98sTemps de réponse (total)12.98sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
109Jetons de sortie…
2,449Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)232.25sTemps de réponse (max)232.25sTemps de réponse (total)232.25sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
112Jetons de sortie…
126,813Jetons de raisonnement…
Google: Gemini 3 Flash Preview
1.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.96sTemps de réponse (max)2.96sTemps de réponse (total)2.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
104Jetons de sortie…
0Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
9.88Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.00sTemps de réponse (max)3.74sTemps de réponse (total)5.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
291Jetons de sortie…
696Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
9.88Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.29sTemps de réponse (max)2.31sTemps de réponse (total)4.59sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
279Jetons de sortie…
2,952Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
9.88Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.16sTemps de réponse (max)8.54sTemps de réponse (total)14.31sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
279Jetons de sortie…
6,186Jetons de raisonnement…
Google: Gemini 3 Flash Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.46sTemps de réponse (max)14.72sTemps de réponse (total)18.92sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
305Jetons de sortie…
3,004Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
4.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)2.36sTemps de réponse (max)3.51sTemps de réponse (total)7.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
18Jetons de sortie…
1,212Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
1.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)4.21sTemps de réponse (max)5.86sTemps de réponse (total)12.62sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
18Jetons de sortie…
5,325Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
4.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)127.58sTemps de réponse (max)133.93sTemps de réponse (total)382.74sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
18Jetons de sortie…
566,202Jetons de raisonnement…
Google: Gemini 3 Flash Preview
4.00Score moyen sur l’ensemble des tests de benchmark.…
7.21Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)8.05sTemps de réponse (max)14.40sTemps de réponse (total)24.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
12Jetons de sortie…
6,410Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
8.50Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.49sTemps de réponse (max)1.66sTemps de réponse (total)2.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
72Jetons de sortie…
753Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
8.00Score moyen sur l’ensemble des tests de benchmark.…
9.99Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.91sTemps de réponse (max)1.93sTemps de réponse (total)3.82sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
72Jetons de sortie…
2,121Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
8.00Score moyen sur l’ensemble des tests de benchmark.…
9.96Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)70.07sTemps de réponse (max)136.53sTemps de réponse (total)140.14sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
69Jetons de sortie…
190,053Jetons de raisonnement…
Google: Gemini 3 Flash Preview
7.50Score moyen sur l’ensemble des tests de benchmark.…
9.99Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)7.02sTemps de réponse (max)7.35sTemps de réponse (total)14.03sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
71Jetons de sortie…
2,752Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.76sTemps de réponse (max)5.08sTemps de réponse (total)8.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
243Jetons de sortie…
1,248Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
7.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.58sTemps de réponse (max)4.41sTemps de réponse (total)10.75sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
141Jetons de sortie…
1,896Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
7.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)46.33sTemps de réponse (max)134.22sTemps de réponse (total)139.00sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
87Jetons de sortie…
190,953Jetons de raisonnement…
Google: Gemini 3 Flash Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.44sTemps de réponse (max)10.27sTemps de réponse (total)19.32sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
273Jetons de sortie…
3,315Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.54sTemps de réponse (max)9.54sTemps de réponse (total)9.54sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
237Jetons de sortie…
993Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.80sTemps de réponse (max)3.80sTemps de réponse (total)3.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
234Jetons de sortie…
912Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.73sTemps de réponse (max)7.73sTemps de réponse (total)7.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
234Jetons de sortie…
2,484Jetons de raisonnement…
Google: Gemini 3 Flash Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.99sTemps de réponse (max)4.99sTemps de réponse (total)4.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…