AI BENCHY Compare

Grok 4.20 Beta vs Z.ai: GLM 4.7 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-04

Métrica	Grok 4.20 Beta Grok 4.20 Beta none Lançamento: 2026-03-12	GLM 4.7 Flash GLM 4.7 Flash none Lançamento: 2026-01-19

Métrica	Grok 4.20 Beta Grok 4.20 Beta none Lançamento: 2026-03-12	GLM 4.7 Flash GLM 4.7 Flash none Lançamento: 2026-01-19
Pontuação	5.3	5.6
Posição	#72	#70
Consistência	9.1	8.5
Testes corretos
Taxa de acerto por tentativa	31.4%	39.2%
Testes instáveis	2	3
Execuções totais	51	51
Custo por resultado	2.240	0.053
Custo total	$0.090	$0.003
Preço de entrada	$0.000 / 1M	$0.060 / 1M
Preço de saída	$0.000 / 1M	$0.400 / 1M
Tokens de saída	1,517	1,863
Tokens de raciocínio	0	0
Tempo de resposta (médio)	1.19s	3.13s
Tempo de resposta (máx.)	6.48s	7.05s
Tempo de resposta (total)	20.22s	31.33s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	4.0	8.4	16.7%	1		597ms	251	0
GLM 4.7 Flash	5.2	7.9	41.7%	1		5.51s	438	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	3.0	10.0	0.0%	0		6.48s	282	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		3.22s	704	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	10.0	10.0	100.0%	0		601ms	197	0
GLM 4.7 Flash	7.3	5.8	83.3%	1		4.82s	196	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	3.0	10.0	0.0%	0		611ms	160	0
GLM 4.7 Flash	7.7	10.0	66.7%	0		744ms	19	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0
GLM 4.7 Flash	4.0	10.0	0.0%	0		1.59s	134	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	4.8	10.0	0.0%	0		687ms	60	0
GLM 4.7 Flash	6.5	10.0	50.0%	0		888ms	62	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	5.9	7.2	55.6%	1		541ms	291	0
GLM 4.7 Flash	4.4	10.0	0.0%	0		1.00s	98	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0
GLM 4.7 Flash	2.8	1.6	33.3%	1		7.05s	212	0

Comparação rápida

Trocar par de comparação

Mistral Small 4mediumvsGLM 4.7 Flashnone Mistral Small 4mediumvsGrok 4.20 Betanone MiniMax M2.7mediumvsGrok 4.20 Betanone MiniMax M2.5mediumDisponível grátisvsGLM 4.7 Flashnone gpt-oss-120bmediumDisponível grátisvsGLM 4.7 Flashnone Qwen3 Coder NextmediumvsGrok 4.20 Betanone MiniMax M2.7mediumvsGLM 4.7 Flashnone MiniMax M2.5mediumDisponível grátisvsGrok 4.20 Betanone Grok 4.20 BetanonevsGLM 4.7 Flashmedium gpt-oss-120bmediumDisponível grátisvsGrok 4.20 Betanone Grok 4.20 Multi Agent BetamediumvsGLM 4.7 Flashnone GPT-5 NanomediumvsGLM 4.7 Flashnone