Comparaison benchmark Gemini 3.5 Flash vs Grok 4.20 Beta : Gemini 3.5 Flash mène au score moyen avec 9.4 vs 8.5. Gemini 3.5 Flash a le coût de benchmark le plus bas avec $0.349 vs $0.750. Gemini 3.5 Flash est plus rapide avec 3.27s vs 9.75s, avec des taux de réussite de 90.5% vs 81.5%.
Modèle recommandé: Gemini 3.5 Flash - Il obtient le meilleur score ici (9.4) tout en coûtant environ 2.2x moins que Grok 4.20 Beta.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-10
Grok 4.20 BetaGrok 4.20 BetamediumModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.Sortie: 2026-03-12
Score
9.4Score moyen sur l’ensemble des tests de benchmark.…
8.5Score moyen sur l’ensemble des tests de benchmark.…
Rang
#3
#14
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
N/DScore de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
9.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)3.27sTemps de réponse (max)9.05sTemps de réponse (total)68.65sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Temps de réponse (moy.)9.75sTemps de réponse (max)31.36sTemps de réponse (total)175.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
90.5%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
81.5%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
63Exécutions totales…
52Exécutions totales…
Coût par résultat
1.834Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
4.505Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.349Coût total (prix actuel)…
$0.750Coût total (prix actuel)…
Prix d'entrée
$1.500 / 1MPrix d'entrée…
$5.805 / 1MPrix d'entrée…
Prix de sortie
$9.000 / 1MPrix de sortie…
$5.805 / 1MPrix de sortie…
Total des jetons d'entrée
36,938Total des jetons d'entrée…
35,955Total des jetons d'entrée…
Jetons de sortie
2,033Jetons de sortie…
1,647Jetons de sortie…
Jetons de raisonnement
30,519Jetons de raisonnement…
91,565Jetons de raisonnement…
Temps de réponse (moy.)
3.27sTemps de réponse (moy.)…
9.75sTemps de réponse (moy.)…
Temps de réponse (max)
9.05sTemps de réponse (max)…
31.36sTemps de réponse (max)…
Temps de réponse (total)
68.65sTemps de réponse (total)…
175.48sTemps de réponse (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.52sTemps de réponse (max)5.40sTemps de réponse (total)10.08sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.52sTemps de réponse (moy.)…
494Total des jetons d'entrée…
209Jetons de sortie…
2,536Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
8.7Score moyen sur l’ensemble des tests de benchmark.…
7.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
91.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.16sTemps de réponse (max)3.44sTemps de réponse (total)12.65sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)6.71sTemps de réponse (max)9.05sTemps de réponse (total)20.13sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.71sTemps de réponse (moy.)…
8,118Total des jetons d'entrée…
458Jetons de sortie…
13,420Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)31.36sTemps de réponse (max)31.36sTemps de réponse (total)31.36sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.44sTemps de réponse (max)6.44sTemps de réponse (total)6.44sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.44sTemps de réponse (moy.)…
12,873Total des jetons d'entrée…
351Jetons de sortie…
3,050Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)20.93sTemps de réponse (max)20.93sTemps de réponse (total)20.93sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.81sTemps de réponse (max)2.32sTemps de réponse (total)3.63sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.81sTemps de réponse (moy.)…
7,548Total des jetons d'entrée…
279Jetons de sortie…
1,164Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.01sTemps de réponse (max)4.27sTemps de réponse (total)8.02sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.39sTemps de réponse (max)4.44sTemps de réponse (total)10.16sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.39sTemps de réponse (moy.)…
633Total des jetons d'entrée…
12Jetons de sortie…
4,538Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)21.33sTemps de réponse (max)24.21sTemps de réponse (total)64.00sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.27sTemps de réponse (max)2.27sTemps de réponse (total)2.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.27sTemps de réponse (moy.)…
486Total des jetons d'entrée…
119Jetons de sortie…
916Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.78sTemps de réponse (max)5.78sTemps de réponse (total)5.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.86sTemps de réponse (max)2.10sTemps de réponse (total)3.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.86sTemps de réponse (moy.)…
615Total des jetons d'entrée…
71Jetons de sortie…
1,652Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
9.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.89sTemps de réponse (max)5.89sTemps de réponse (total)9.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.35sTemps de réponse (max)3.25sTemps de réponse (total)7.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.35sTemps de réponse (moy.)…
558Total des jetons d'entrée…
288Jetons de sortie…
2,150Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.52sTemps de réponse (max)4.53sTemps de réponse (total)10.57sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.27sTemps de réponse (max)3.27sTemps de réponse (total)3.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.27sTemps de réponse (moy.)…
5,457Total des jetons d'entrée…
234Jetons de sortie…
403Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)12.39sTemps de réponse (max)12.39sTemps de réponse (total)12.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.88sTemps de réponse (max)1.88sTemps de réponse (total)1.88sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.88sTemps de réponse (moy.)…
156Total des jetons d'entrée…
12Jetons de sortie…
690Jetons de raisonnement…
Grok 4.20 BetaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.