Comparaison benchmark Grok 4.20 vs GLM 5V Turbo : Grok 4.20 mène au score moyen avec 7.3 vs 7.3. GLM 5V Turbo a le coût de benchmark le plus bas avec $0.457 vs $0.609. GLM 5V Turbo est plus rapide avec 23.08s vs 27.68s, avec des taux de réussite de 63.5% vs 68.3%.
Modèle recommandé: GLM 5V Turbo - Il offre le meilleur compromis global: score compétitif (7.3), coût inférieur à Grok 4.20 et temps de réponse équilibré.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-18
GLM 5V TurboGLM 5V TurbomediumModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.Sortie: 2026-04-01
Score
7.3Score moyen sur l’ensemble des tests de benchmark.…
7.3Score moyen sur l’ensemble des tests de benchmark.…
Rang
#53
#56
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
8.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
7.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 7Appel d'outil invalide: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)23.08sTemps de réponse (max)95.88sTemps de réponse (total)484.63sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
63.5%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
68.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
3Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
6Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
63Exécutions totales…
63Exécutions totales…
Coût par résultat
8.309Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
4.151Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.609Coût total (prix actuel)…
$0.457Coût total (prix actuel)…
Prix d'entrée
$1.250 / 1MPrix d'entrée…
$1.200 / 1MPrix d'entrée…
Prix de sortie
$2.500 / 1MPrix de sortie…
$4.000 / 1MPrix de sortie…
Total des jetons d'entrée
44,433Total des jetons d'entrée…
44,615Total des jetons d'entrée…
Jetons de sortie
1,819Jetons de sortie…
2,347Jetons de sortie…
Jetons de raisonnement
219,524Jetons de raisonnement…
98,415Jetons de raisonnement…
Temps de réponse (moy.)
27.68sTemps de réponse (moy.)…
23.08sTemps de réponse (moy.)…
Temps de réponse (max)
199.66sTemps de réponse (max)…
95.88sTemps de réponse (max)…
Temps de réponse (total)
581.26sTemps de réponse (total)…
484.63sTemps de réponse (total)…
Génération showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
8.2Score moyen sur l’ensemble des tests de benchmark.…
7.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.95sTemps de réponse (max)5.68sTemps de réponse (total)15.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.95sTemps de réponse (moy.)…
2,010Total des jetons d'entrée…
287Jetons de sortie…
8,312Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.2Score moyen sur l’ensemble des tests de benchmark.…
6.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
75.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)10.76sTemps de réponse (max)14.40sTemps de réponse (total)43.02sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.3Score moyen sur l’ensemble des tests de benchmark.…
6.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)109.93sTemps de réponse (max)199.66sTemps de réponse (total)329.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
109.93sTemps de réponse (moy.)…
8,307Total des jetons d'entrée…
268Jetons de sortie…
103,150Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)63.38sTemps de réponse (max)95.88sTemps de réponse (total)190.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)17.40sTemps de réponse (max)17.40sTemps de réponse (total)17.40sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
17.40sTemps de réponse (moy.)…
12,909Total des jetons d'entrée…
232Jetons de sortie…
9,556Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.9Score moyen sur l’ensemble des tests de benchmark.…
3.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)15.06sTemps de réponse (max)15.06sTemps de réponse (total)15.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.17sTemps de réponse (max)5.02sTemps de réponse (total)8.34sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.17sTemps de réponse (moy.)…
7,761Total des jetons d'entrée…
180Jetons de sortie…
5,333Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.60sTemps de réponse (max)9.92sTemps de réponse (total)19.19sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Mauvaise réponse: 1Temps de réponse (moy.)27.03sTemps de réponse (max)29.87sTemps de réponse (total)81.10sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
27.03sTemps de réponse (moy.)…
1,764Total des jetons d'entrée…
375Jetons de sortie…
49,339Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.3Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)38.15sTemps de réponse (max)67.08sTemps de réponse (total)114.45sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.9Score moyen sur l’ensemble des tests de benchmark.…
2.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)24.48sTemps de réponse (max)24.48sTemps de réponse (total)24.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
24.48sTemps de réponse (moy.)…
825Total des jetons d'entrée…
65Jetons de sortie…
6,440Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.09sTemps de réponse (max)11.09sTemps de réponse (total)11.09sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.26sTemps de réponse (max)4.46sTemps de réponse (total)8.52sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.26sTemps de réponse (moy.)…
1,362Total des jetons d'entrée…
57Jetons de sortie…
6,419Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.74sTemps de réponse (max)5.23sTemps de réponse (total)7.47sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)6.22sTemps de réponse (max)11.63sTemps de réponse (total)18.66sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.22sTemps de réponse (moy.)…
1,689Total des jetons d'entrée…
149Jetons de sortie…
7,913Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)10.24sTemps de réponse (max)16.95sTemps de réponse (total)30.72sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)13.68sTemps de réponse (max)13.68sTemps de réponse (total)13.68sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
13.68sTemps de réponse (moy.)…
7,275Total des jetons d'entrée…
197Jetons de sortie…
6,620Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.0Score moyen sur l’ensemble des tests de benchmark.…
3.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)12.53sTemps de réponse (max)12.53sTemps de réponse (total)12.53sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)63.48sTemps de réponse (max)63.48sTemps de réponse (total)63.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
63.48sTemps de réponse (moy.)…
531Total des jetons d'entrée…
9Jetons de sortie…
16,442Jetons de raisonnement…
GLM 5V TurboModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)40.96sTemps de réponse (max)40.96sTemps de réponse (total)40.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…