Comparaison benchmark Gemini 2.5 Flash vs GLM 5 Turbo : GLM 5 Turbo mène au score moyen avec 8.4 vs 8.2. GLM 5 Turbo a le coût de benchmark le plus bas avec $0.323 vs $0.379. Gemini 2.5 Flash est plus rapide avec 15.49s vs 23.00s, avec des taux de réussite de 69.8% vs 74.6%.
Modèle recommandé: Gemini 2.5 Flash - Il offre le meilleur compromis global: score compétitif (8.2), réponse plus rapide que GLM 5 Turbo et coût équilibré.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-18
GLM 5 TurboGLM 5 TurbomediumModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.Sortie: 2026-03-15
Score
8.2Score moyen sur l’ensemble des tests de benchmark.…
8.4Score moyen sur l’ensemble des tests de benchmark.…
Rang
#24
#21
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
9.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 6N'a pas suivi les instructions: 1Temps de réponse (moy.)15.49sTemps de réponse (max)95.48sTemps de réponse (total)325.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.4Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
75.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)6.30sTemps de réponse (max)15.56sTemps de réponse (total)25.21sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.30sTemps de réponse (moy.)…
492Total des jetons d'entrée…
255Jetons de sortie…
10,233Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.82sTemps de réponse (max)7.69sTemps de réponse (total)19.26sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)41.01sTemps de réponse (max)92.88sTemps de réponse (total)123.04sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
41.01sTemps de réponse (moy.)…
6,669Total des jetons d'entrée…
543Jetons de sortie…
32,303Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
8.2Score moyen sur l’ensemble des tests de benchmark.…
9.3Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)45.90sTemps de réponse (max)95.57sTemps de réponse (total)137.71sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)28.44sTemps de réponse (max)28.44sTemps de réponse (total)28.44sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
28.44sTemps de réponse (moy.)…
12,522Total des jetons d'entrée…
303Jetons de sortie…
11,922Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)13.88sTemps de réponse (max)13.88sTemps de réponse (total)13.88sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.06sTemps de réponse (max)5.06sTemps de réponse (total)8.11sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.06sTemps de réponse (moy.)…
7,257Total des jetons d'entrée…
279Jetons de sortie…
2,325Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.19sTemps de réponse (max)6.42sTemps de réponse (total)12.38sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.9Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)37.34sTemps de réponse (max)95.48sTemps de réponse (total)112.01sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
37.34sTemps de réponse (moy.)…
633Total des jetons d'entrée…
18Jetons de sortie…
80,702Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
2.9Score moyen sur l’ensemble des tests de benchmark.…
4.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
22.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)71.07sTemps de réponse (max)194.23sTemps de réponse (total)213.22sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.86sTemps de réponse (max)4.86sTemps de réponse (total)4.86sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.86sTemps de réponse (moy.)…
486Total des jetons d'entrée…
92Jetons de sortie…
1,899Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.1Score moyen sur l’ensemble des tests de benchmark.…
3.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)10.05sTemps de réponse (max)10.05sTemps de réponse (total)10.05sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.62sTemps de réponse (max)2.78sTemps de réponse (total)5.24sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.62sTemps de réponse (moy.)…
615Total des jetons d'entrée…
69Jetons de sortie…
1,203Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.38sTemps de réponse (max)5.70sTemps de réponse (total)10.77sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.18sTemps de réponse (max)4.05sTemps de réponse (total)9.54sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.18sTemps de réponse (moy.)…
558Total des jetons d'entrée…
126Jetons de sortie…
2,499Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
8.7Score moyen sur l’ensemble des tests de benchmark.…
7.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.23sTemps de réponse (max)7.26sTemps de réponse (total)15.69sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.20sTemps de réponse (max)6.20sTemps de réponse (total)6.20sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.20sTemps de réponse (moy.)…
5,088Total des jetons d'entrée…
234Jetons de sortie…
1,140Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.84sTemps de réponse (max)9.84sTemps de réponse (total)9.84sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.76sTemps de réponse (max)2.76sTemps de réponse (total)2.76sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.76sTemps de réponse (moy.)…
156Total des jetons d'entrée…
11Jetons de sortie…
919Jetons de raisonnement…
GLM 5 TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)40.17sTemps de réponse (max)40.17sTemps de réponse (total)40.17sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…