AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Z.ai: GLM 5.1

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-04-29

Métrique	Claude Opus 4.6 Claude Opus 4.6 medium Sortie: 2026-02-05	GLM 5.1 GLM 5.1 medium Sortie: 2026-04-07

Métrique	Claude Opus 4.6 Claude Opus 4.6 medium Sortie: 2026-02-05	GLM 5.1 GLM 5.1 medium Sortie: 2026-04-07
Score	7.6	7.8
Rang	#49	#44
Fiabilité	N/D	N/D
Cohérence	9.1	8.6
Tests corrects
Taux de réussite par tentative	70.4%	75.9%
Tests instables	2	3
Exécutions totales	54	54
Coût par résultat	12.047	1.674
Coût total	$1.446	$0.201
Prix d'entrée	$5.000 / 1M	$1.050 / 1M
Prix de sortie	$25.000 / 1M	$3.500 / 1M
Jetons de sortie	29,829	8,005
Jetons de raisonnement	18,938	49,090
Temps de réponse (moy.)	21.08s	24.13s
Temps de réponse (max)	83.40s	118.52s
Temps de réponse (total)	231.84s	410.25s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
GLM 5.1	4.7	1.6	66.7%	1		118.52s	1,339	13,777

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

Comparaison rapide

Changer la paire de comparaison

Claude Opus 4.6mediumvsGPT-5.3 Chatnone DeepSeek V4 FlashhighvsGLM 5.1medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.2 ChatnonevsGLM 5.1medium GPT-5.3 ChatnonevsGLM 5.1medium Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium Gemini 3 Flash PreviewnonevsGLM 5.1medium HY3 PreviewlowDisponible gratuitementvsGLM 5.1medium