AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Z.ai: GLM 5

Rezumat

Comparație benchmark Claude Opus 4.8 (medium) vs GLM 5 (medium): Claude Opus 4.8 (medium) conduce la scorul mediu cu 8.8 vs 8.6. GLM 5 (medium) are costul de benchmark mai mic, $0.228 vs $1.107. Claude Opus 4.8 (medium) este mai rapid cu 9.72s vs 33.54s, cu rate de reușită de 84.1% vs 82.5%.

Model recomandat: GLM 5 (medium) - Scorul rămâne aproape de cel mai bun scor de aici (8.6 vs 8.8) și costă de aproximativ 4.9x mai puțin decât Claude Opus 4.8 (medium).

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-10

Metrică	Claude Opus 4.8 Claude Opus 4.8 medium Lansare: 2026-05-28	GLM 5 GLM 5 medium Lansare: 2026-02-12

Metrică	Claude Opus 4.8 Claude Opus 4.8 medium Lansare: 2026-05-28	GLM 5 GLM 5 medium Lansare: 2026-02-12
Scor	8.8	8.6
Rang	#15	#18
Fiabilitate	10.0	10.0
Consistență	9.6	8.5
Teste corecte
Rată de trecere pe încercare	84.1%	82.5%
Teste instabile	1	4
Rulări totale	63	63
Cost per rezultat	6.512	1.668
Cost total	$1.107	$0.228
Preț de intrare	$5.000 / 1M	$0.600 / 1M
Preț de ieșire	$25.000 / 1M	$1.920 / 1M
Total tokenuri de intrare	61,007	35,224
Tokenuri de ieșire	26,495	21,570
Tokenuri de raționament	5,901	102,996
Timp de răspuns (mediu)	9.72s	33.54s
Timp de răspuns (maxim)	38.03s	99.85s
Timp de răspuns (total)	204.19s	435.99s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#15 Claude Opus 4.8

medium

Cost: $0.057
Timp: 23.1s
Tokenuri: 2,412 tok

#18 GLM 5

medium

Cost: $0.005
Timp: 20.7s
Tokenuri: 2,068 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	834	1,179	478
GLM 5	10.0	10.0	100.0%	0		23.66s	555	480	7,056

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		15.33s	10,590	9,945	1,381
GLM 5	10.0	10.0	100.0%	0		74.30s	7,254	2,997	52,930

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	9.8	10.0	100.0%	0		38.03s	23,561	5,260	1,588
GLM 5	10.0	10.0	100.0%	0		28.96s	12,804	662	3,242

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	10,503	481	312
GLM 5	7.1	5.6	83.3%	1		8.90s	5,508	567	3,734

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	5.3	10.0	33.3%	0		14.59s	975	7,477	900
GLM 5	3.5	4.4	33.3%	2		0ms	260	13,176	14,137

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	708	237	0
GLM 5	6.1	3.1	66.7%	1		14.69s	477	2,020	2,248

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	909	373	320
GLM 5	10.0	10.0	100.0%	0		7.25s	636	1,001	2,129

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	894	791	483
GLM 5	10.0	10.0	100.0%	0		11.33s	609	33	4,076

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	11,775	301	225
GLM 5	10.0	10.0	100.0%	0		15.93s	6,935	233	994

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	258	451	214
GLM 5	3.0	10.0	0.0%	0		67.37s	186	401	12,450

Comparație rapidă

Schimbă perechea de comparație

GPT-5.2 ChatnonevsGLM 5medium DeepSeek V4 FlashhighvsGLM 5medium Claude Opus 4.8mediumvsGPT-5.2 Chatnone GPT-5.6 TerrahighvsGLM 5medium Claude Opus 4.8mediumvsGemini 3.5 Flashlow Claude Opus 4.8mediumvsGPT-5.5low Claude Opus 4.8mediumvsGPT-5.6 Solhigh Claude Opus 4.8mediumvsDeepSeek V4 Flashhigh Claude Opus 4.8mediumvsGPT-5.6 Terrahigh Gemini 3.5 FlashlowvsGLM 5medium Claude Opus 4.8mediumvsGPT-5.6 Sollow Grok 4.5lowvsGLM 5medium