AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Z.ai: GLM 5

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-01

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	GLM 5 GLM 5 none Lansare: 2026-02-12

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	GLM 5 GLM 5 none Lansare: 2026-02-12
Scor	7.6	6.6
Rang	#50	#70
Fiabilitate	N/D	N/D
Consistență	9.1	9.6
Teste corecte
Rată de trecere pe încercare	70.4%	51.9%
Teste instabile	2	1
Rulări totale	54	54
Cost per rezultat	12.047	0.217
Cost total	$1.446	$0.020
Preț de intrare	$5.000 / 1M	$0.600 / 1M
Preț de ieșire	$25.000 / 1M	$2.080 / 1M
Tokenuri de ieșire	29,829	1,959
Tokenuri de raționament	18,938	0
Timp de răspuns (mediu)	21.08s	4.23s
Timp de răspuns (maxim)	83.40s	11.07s
Timp de răspuns (total)	231.84s	46.51s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
GLM 5	4.8	10.0	25.0%	0		2.37s	275	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
GLM 5	5.6	3.5	33.3%	1		8.84s	408	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
GLM 5	3.0	10.0	0.0%	0		4.98s	406	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
GLM 5	10.0	10.0	100.0%	0		5.78s	203	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
GLM 5	3.0	10.0	0.0%	0		2.24s	19	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
GLM 5	7.7	10.0	66.7%	0		2.05s	264	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Comparație rapidă

Schimbă perechea de comparație

Nemotron 3 SupermediumDisponibil gratuitvsGLM 5none Grok 4.1 FastmediumvsGLM 5none Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Mercury 2mediumvsGLM 5none Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsGPT-5.3 Chatnone GPT-5 NanomediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.2 Chatnone Laguna M.1mediumDisponibil gratuitvsGLM 5none Grok 4.20mediumvsGLM 5none DeepSeek V4 ProhighvsGLM 5none