AI BENCHY Compare

xAI: Grok 4.20 vs Z.ai: GLM 5

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-10

Metrică	Grok 4.20 Grok 4.20 medium Lansare: 2026-03-31	GLM 5 GLM 5 none Lansare: 2026-02-12

Metrică	Grok 4.20 Grok 4.20 medium Lansare: 2026-03-31	GLM 5 GLM 5 none Lansare: 2026-02-12
Scor	6.9	6.5
Rang	#68	#80
Fiabilitate	10.0	10.0
Consistență	8.3	9.7
Teste corecte
Rată de trecere pe încercare	63.2%	49.1%
Teste instabile	4	1
Rulări totale	57	57
Cost per rezultat	7.559	0.219
Cost total	$0.756	$0.020
Preț de intrare	$1.250 / 1M	$0.600 / 1M
Preț de ieșire	$2.500 / 1M	$1.920 / 1M
Tokenuri de ieșire	1,784	1,972
Tokenuri de raționament	128,233	0
Timp de răspuns (mediu)	14.53s	4.18s
Timp de răspuns (maxim)	63.48s	11.07s
Timp de răspuns (total)	276.06s	50.12s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	8.2	7.9	83.3%	1		3.95s	287	8,312
GLM 5	4.8	10.0	25.0%	0		2.37s	275	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	4.3	1.1	66.7%	1		24.33s	250	12,804
GLM 5	5.6	3.5	33.3%	1		8.84s	408	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556
GLM 5	3.0	10.0	0.0%	0		4.98s	406	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333
GLM 5	10.0	10.0	100.0%	0		5.78s	203	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339
GLM 5	3.0	10.0	0.0%	0		2.24s	19	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	3.9	2.6	33.3%	1		24.48s	65	6,440
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	7.3	6.0	83.3%	1		4.42s	40	5,474
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	7.7	10.0	66.7%	0		6.20s	149	7,913
GLM 5	7.7	10.0	66.7%	0		2.05s	264	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	3.0	10.0	0.0%	0		63.48s	9	16,442
GLM 5	3.0	10.0	0.0%	0		3.62s	13	0

Comparație rapidă

Schimbă perechea de comparație

DeepSeek V4 ProhighvsGrok 4.20medium Grok 4.1 FastmediumvsGLM 5none Gemma 4 31BnoneDisponibil gratuitvsGrok 4.20medium Gemini 3.1 Flash LiteminimalvsGrok 4.20medium GPT-5.5nonevsGrok 4.20medium Mercury 2mediumvsGLM 5none Gemini 3.1 Flash LitenonevsGrok 4.20medium GPT-5 NanomediumvsGLM 5none Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium Claude Sonnet 4.6nonevsGrok 4.20medium Qwen3.6 27BmediumvsGLM 5none Kimi K2.5mediumvsGLM 5none