AI BENCHY Compare

xAI: Grok 4.20 vs Z.ai: GLM 4.7 Flash

Rezumat

Comparație benchmark Grok 4.20 vs GLM 4.7 Flash: Grok 4.20 conduce la scorul mediu cu 4.4 vs 4.3. GLM 4.7 Flash are costul de benchmark mai mic, $0.054 vs $0.057. Grok 4.20 este mai rapid cu 1.11s vs 35.10s, cu rate de reușită de 28.6% vs 33.3%.

Model recomandat: Grok 4.20 - Are cel mai bun scor aici (4.4) și răspunde de aproximativ 31.6x mai rapid decât GLM 4.7 Flash.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-02

Metrică	Grok 4.20 Grok 4.20 none Lansare: 2026-03-31	GLM 4.7 Flash GLM 4.7 Flash medium Lansare: 2026-01-19

Metrică	Grok 4.20 Grok 4.20 none Lansare: 2026-03-31	GLM 4.7 Flash GLM 4.7 Flash medium Lansare: 2026-01-19
Scor	4.4	4.3
Rang	#160	#162
Fiabilitate	N/D	6.7
Consistență	8.5	6.8
Teste corecte
Rată de trecere pe încercare	28.6%	33.3%
Teste instabile	0	8
Rulări totale	54	63
Cost per rezultat	1.570	1.337
Cost total	$0.057	$0.054
Preț de intrare	$1.250 / 1M	$0.060 / 1M
Preț de ieșire	$2.500 / 1M	$0.400 / 1M
Total tokenuri de intrare	41,313	37,206
Tokenuri de ieșire	1,923	43,754
Tokenuri de raționament	0	89,079
Timp de răspuns (mediu)	1.11s	35.10s
Timp de răspuns (maxim)	6.04s	174.55s
Timp de răspuns (total)	19.96s	456.24s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#160 xAI: Grok 4.20

none

Cost: $0.004
Timp: 6.5s
Tokenuri: 1,367 tok

#162 GLM 4.7 Flash

medium

SVG invalid

Cost: $0.000
Timp: 186.2s
Tokenuri: 12,112 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	4.8	10.0	25.0%	0		501ms	1,986	267	0
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	555	1,122	6,110

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	1.1	3.1	0.0%	0		1.22s	1,074	312	0
GLM 4.7 Flash	3.2	7.4	11.1%	1		55.33s	3,106	4,981	22,387

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	3.0	10.0	0.0%	0		6.04s	17,673	282	0
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	17,185	2,585	20,648

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	10.0	10.0	100.0%	0		522ms	7,749	207	0
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	7,107	584	2,755

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	3.0	10.0	0.0%	0		687ms	1,746	325	0
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	643	33,000	25,394

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	4.8	10.0	0.0%	0		659ms	819	83	0
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	318	18	2,138

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	6.3	10.0	50.0%	0		445ms	1,350	60	0
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	636	388	2,181

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	5.3	10.0	33.3%	0		473ms	1,671	198	0
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.93s	521	781	5,255

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	10.0	10.0	100.0%	0		4.63s	7,245	189	0
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	6,949	224	1,014

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	0.0	0.0	0.0%	0		0ms	0	0	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		11.13s	186	71	1,197

Comparație rapidă

Schimbă perechea de comparație

Granite 4.1 8BnonevsGLM 4.7 Flashmedium gpt-oss-120bnoneDisponibil gratuitvsGLM 4.7 Flashmedium Qwen3 Coder NextmediumvsGrok 4.20none Mercury 2nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsGrok 4.20none Ling-2.6-1TnonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Ring-2.6-1TnonevsGLM 4.7 Flashmedium CobuddymediumvsGrok 4.20none Ling-2.6-flashnonevsGLM 4.7 Flashmedium Nemotron 3 SupernoneDisponibil gratuitvsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsGrok 4.20none