AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs Z.ai: GLM 5.1

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-30

Metrică	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20	GLM 5.1 GLM 5.1 medium Lansare: 2026-04-07

Metrică	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20	GLM 5.1 GLM 5.1 medium Lansare: 2026-04-07
Scor	7.5	7.8
Rang	#51	#45
Fiabilitate	10.0	N/D
Consistență	9.1	8.6
Teste corecte
Rată de trecere pe încercare	68.5%	75.9%
Teste instabile	2	3
Rulări totale	54	54
Cost per rezultat	0.752	1.674
Cost total	$0.083	$0.201
Preț de intrare	$1.040 / 1M	$1.050 / 1M
Preț de ieșire	$6.240 / 1M	$3.500 / 1M
Tokenuri de ieșire	4,732	8,005
Tokenuri de raționament	0	49,090
Timp de răspuns (mediu)	3.38s	24.13s
Timp de răspuns (maxim)	20.51s	118.52s
Timp de răspuns (total)	60.83s	410.25s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0
GLM 5.1	4.7	1.6	66.7%	1		118.52s	1,339	13,777

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.45s	69	0
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

Comparație rapidă

Schimbă perechea de comparație

Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone DeepSeek V4 FlashhighvsGLM 5.1medium GPT-5.3 ChatnonevsGLM 5.1medium GPT-5.2mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.2 ChatnonevsGLM 5.1medium Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Kimi K2.6mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2.5medium