AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Z.ai: GLM 5.1

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-22

Métrica	DeepSeek V4 Pro DeepSeek V4 Pro none Lançamento: 2026-04-24	GLM 5.1 GLM 5.1 none Lançamento: 2026-04-07

Métrica	DeepSeek V4 Pro DeepSeek V4 Pro none Lançamento: 2026-04-24	GLM 5.1 GLM 5.1 none Lançamento: 2026-04-07
Pontuação	6.0	5.6
Posição	#95	#113
Confiabilidade	8.1	10.0
Consistência	8.9	8.1
Testes corretos
Taxa de acerto por tentativa	48.3%	40.0%
Testes instáveis	3	5
Execuções totais	60	60
Custo por resultado	0.564	0.941
Custo total	$0.046	$0.057
Preço de entrada	$0.435 / 1M	$0.980 / 1M
Preço de saída	$0.870 / 1M	$3.080 / 1M
Tokens de saída	5,347	3,749
Tokens de raciocínio	0	0
Tempo de resposta (médio)	13.48s	4.16s
Tempo de resposta (máx.)	58.65s	32.57s
Tempo de resposta (total)	269.56s	83.23s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	3.5	8.0	16.7%	1		14.02s	704	0
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	5.4	6.8	33.3%	1		8.27s	527	0
GLM 5.1	4.3	9.5	0.0%	0		6.33s	519	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	9.5	10.0	100.0%	0		25.49s	1,911	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	8.8	10.0	100.0%	0		30.54s	170	0
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.17s	18	0
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	4.3	9.9	0.0%	0		3.75s	132	0
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	6.3	10.0	50.0%	0		8.23s	64	0
GLM 5.1	9.8	10.0	100.0%	0		1.58s	66	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	7.6	7.2	77.8%	1		19.72s	175	0
GLM 5.1	6.1	7.8	44.4%	1		1.48s	152	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	10.0	10.0	100.0%	0		5.92s	219	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
DeepSeek V4 Pro	3.0	10.0	0.0%	0		15.59s	1,427	0
GLM 5.1	3.0	10.0	0.0%	0		2.34s	11	0

Comparação rápida

Trocar par de comparação

gpt-oss-120bmediumDisponível grátisvsGLM 5.1none DeepSeek V4 PrononevsGPT-5 Nanomedium DeepSeek V4 PrononevsNemotron 3 SupermediumDisponível grátis MiniMax M2.5mediumDisponível grátisvsGLM 5.1none CobuddymediumDisponível grátisvsGLM 5.1none Mistral Small 4mediumvsGLM 5.1none DeepSeek V4 PrononevsOwl Alphamedium Elephant AlphamediumvsGLM 5.1none DeepSeek V4 PrononevsMercury 2medium Owl AlphamediumvsGLM 5.1none CobuddymediumDisponível grátisvsDeepSeek V4 Pronone Nemotron 3 SupermediumDisponível grátisvsGLM 5.1none