AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Z.ai: GLM 5V Turbo

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-01

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	GLM 5V Turbo GLM 5V Turbo medium Lançamento: 2026-04-01

Métrica	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17	GLM 5V Turbo GLM 5V Turbo medium Lançamento: 2026-04-01
Pontuação	8.0	7.8
Posição	#37	#44
Confiabilidade	N/D	N/D
Consistência	9.5	7.5
Testes corretos
Taxa de acerto por tentativa	74.1%	77.8%
Testes instáveis	1	6
Execuções totais	54	54
Custo por resultado	8.930	2.643
Custo total	$1.161	$0.291
Preço de entrada	$3.000 / 1M	$1.200 / 1M
Preço de saída	$15.000 / 1M	$4.000 / 1M
Tokens de saída	42,068	2,351
Tokens de raciocínio	26,784	58,941
Tempo de resposta (médio)	12.66s	14.96s
Tempo de resposta (máx.)	46.35s	67.08s
Tempo de resposta (total)	126.62s	269.32s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
GLM 5V Turbo	7.2	6.1	75.0%	2		10.76s	587	7,872

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
GLM 5V Turbo	10.0	10.0	100.0%	0		13.78s	404	4,628

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GLM 5V Turbo	6.9	3.8	66.7%	1		15.06s	403	2,523

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
GLM 5V Turbo	10.0	10.0	100.0%	0		9.60s	236	4,333

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
GLM 5V Turbo	5.3	7.2	44.4%	1		38.15s	32	29,035

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GLM 5V Turbo	10.0	10.0	100.0%	0		11.09s	131	2,183

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GLM 5V Turbo	9.9	10.0	100.0%	0		3.74s	72	1,813

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GLM 5V Turbo	7.7	7.3	77.8%	1		10.91s	193	5,789

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GLM 5V Turbo	7.0	3.7	66.7%	1		12.53s	293	765

Comparação rápida

Trocar par de comparação

DeepSeek V4 FlashhighvsGLM 5V Turbomedium GPT-5.3 ChatnonevsGLM 5V Turbomedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsHY3 PreviewlowDisponível grátis GPT-5.2 ChatnonevsGLM 5V Turbomedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh Qwen3.6 Max PreviewnonevsGLM 5V Turbomedium