AI BENCHY Compare

OpenAI: GPT-5.3-Codex vs Z.ai: GLM 5

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-05-22

Métrique	GPT-5.3-Codex GPT-5.3-Codex medium Sortie: 2026-02-05	GLM 5 GLM 5 medium Sortie: 2026-02-12

Métrique	GPT-5.3-Codex GPT-5.3-Codex medium Sortie: 2026-02-05	GLM 5 GLM 5 medium Sortie: 2026-02-12
Score	8.3	8.2
Rang	#15	#18
Fiabilité	10.0	10.0
Cohérence	8.4	8.4
Tests corrects
Taux de réussite par tentative	81.7%	81.7%
Tests instables	4	4
Exécutions totales	60	60
Coût par résultat	4.891	1.688
Coût total	$0.685	$0.237
Prix d'entrée	$1.750 / 1M	$0.600 / 1M
Prix de sortie	$14.000 / 1M	$1.920 / 1M
Jetons de sortie	2,332	23,219
Jetons de raisonnement	42,616	96,679
Temps de réponse (moy.)	15.97s	33.39s
Temps de réponse (max)	100.93s	99.85s
Temps de réponse (total)	319.30s	400.62s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	240	1,722
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056

Programmation	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		18.45s	514	7,266
GLM 5	10.0	10.0	100.0%	0		89.47s	2,985	45,706

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129

Résolution d'énigmes	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994

Culture générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	30	1,701
GLM 5	3.0	10.0	0.0%	0		67.37s	401	12,450

Comparaison rapide

Changer la paire de comparaison

Gemini 3.5 FlashminimalvsGLM 5medium Qwen3.7 MaxnonevsGLM 5medium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3.5 FlashminimalvsGPT-5.3-Codexmedium GPT-5.3-CodexmediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewlowvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3.5 FlashnonevsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium GPT-5.2 ChatnonevsGLM 5medium Gemini 3 Flash PreviewnonevsGPT-5.3-Codexmedium Gemini 3.5 FlashnonevsGLM 5medium