Comparaison benchmark Gemini 3.5 Flash vs GLM 5V Turbo : Gemini 3.5 Flash mène au score moyen avec 9.8 vs 7.3. GLM 5V Turbo a le coût de benchmark le plus bas avec $0.457 vs $1.115. Gemini 3.5 Flash est plus rapide avec 8.84s vs 23.08s, avec des taux de réussite de 96.8% vs 68.3%.
Modèle recommandé: Gemini 3.5 Flash - Il obtient le meilleur score ici (9.8) et répond environ 2.6x plus vite que GLM 5V Turbo.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-07-02
GLM 5V TurboGLM 5V TurbomediumModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.Sortie: 2026-04-01
Score
9.8Score moyen sur l’ensemble des tests de benchmark.…
7.3Score moyen sur l’ensemble des tests de benchmark.…
Rang
#1
#58
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
9.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
7.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)8.84sTemps de réponse (max)34.82sTemps de réponse (total)185.57sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 7Appel d'outil invalide: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)23.08sTemps de réponse (max)95.88sTemps de réponse (total)484.63sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
96.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
68.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
6Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
63Exécutions totales…
63Exécutions totales…
Coût par résultat
5.575Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
4.151Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$1.115Coût total (prix actuel)…
$0.457Coût total (prix actuel)…
Prix d'entrée
$1.500 / 1MPrix d'entrée…
$1.200 / 1MPrix d'entrée…
Prix de sortie
$9.000 / 1MPrix de sortie…
$4.000 / 1MPrix de sortie…
Total des jetons d'entrée
37,594Total des jetons d'entrée…
44,615Total des jetons d'entrée…
Jetons de sortie
1,975Jetons de sortie…
2,347Jetons de sortie…
Jetons de raisonnement
115,638Jetons de raisonnement…
98,415Jetons de raisonnement…
Temps de réponse (moy.)
8.84sTemps de réponse (moy.)…
23.08sTemps de réponse (moy.)…
Temps de réponse (max)
34.82sTemps de réponse (max)…
95.88sTemps de réponse (max)…
Temps de réponse (total)
185.57sTemps de réponse (total)…
484.63sTemps de réponse (total)…
Génération showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.57sTemps de réponse (max)3.60sTemps de réponse (total)10.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.57sTemps de réponse (moy.)…
492Total des jetons d'entrée…
174Jetons de sortie…
4,997Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.2Score moyen sur l’ensemble des tests de benchmark.…
6.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
75.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)10.76sTemps de réponse (max)14.40sTemps de réponse (total)43.02sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)22.96sTemps de réponse (max)34.82sTemps de réponse (total)68.88sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
22.96sTemps de réponse (moy.)…
8,118Total des jetons d'entrée…
456Jetons de sortie…
47,129Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)63.38sTemps de réponse (max)95.88sTemps de réponse (total)190.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)22.37sTemps de réponse (max)22.37sTemps de réponse (total)22.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
22.37sTemps de réponse (moy.)…
12,873Total des jetons d'entrée…
351Jetons de sortie…
16,323Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.9Score moyen sur l’ensemble des tests de benchmark.…
3.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)15.06sTemps de réponse (max)15.06sTemps de réponse (total)15.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.43sTemps de réponse (max)8.51sTemps de réponse (total)12.87sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.43sTemps de réponse (moy.)…
7,548Total des jetons d'entrée…
279Jetons de sortie…
8,466Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.60sTemps de réponse (max)9.92sTemps de réponse (total)19.19sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.6Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)14.09sTemps de réponse (max)22.00sTemps de réponse (total)42.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
14.09sTemps de réponse (moy.)…
633Total des jetons d'entrée…
12Jetons de sortie…
24,721Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.3Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)38.15sTemps de réponse (max)67.08sTemps de réponse (total)114.45sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.63sTemps de réponse (max)3.63sTemps de réponse (total)3.63sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.63sTemps de réponse (moy.)…
486Total des jetons d'entrée…
115Jetons de sortie…
1,650Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.09sTemps de réponse (max)11.09sTemps de réponse (total)11.09sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.35sTemps de réponse (max)3.42sTemps de réponse (total)6.69sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.35sTemps de réponse (moy.)…
615Total des jetons d'entrée…
70Jetons de sortie…
3,799Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.74sTemps de réponse (max)5.23sTemps de réponse (total)7.47sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.23sTemps de réponse (max)3.68sTemps de réponse (total)9.69sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.23sTemps de réponse (moy.)…
558Total des jetons d'entrée…
241Jetons de sortie…
4,940Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)10.24sTemps de réponse (max)16.95sTemps de réponse (total)30.72sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.96sTemps de réponse (max)4.96sTemps de réponse (total)4.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.96sTemps de réponse (moy.)…
6,115Total des jetons d'entrée…
265Jetons de sortie…
1,608Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.0Score moyen sur l’ensemble des tests de benchmark.…
3.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)12.53sTemps de réponse (max)12.53sTemps de réponse (total)12.53sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.94sTemps de réponse (max)3.94sTemps de réponse (total)3.94sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.94sTemps de réponse (moy.)…
156Total des jetons d'entrée…
12Jetons de sortie…
2,005Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)40.96sTemps de réponse (max)40.96sTemps de réponse (total)40.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…