AI BENCHY Compare

OpenAI: GPT-4o-mini vs Z.ai: GLM 4.7 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-29

Métrica	GPT-4o-mini GPT-4o-mini none Lançamento: 2024-07-18	GLM 4.7 Flash GLM 4.7 Flash medium Lançamento: 2026-01-19

Métrica	GPT-4o-mini GPT-4o-mini none Lançamento: 2024-07-18	GLM 4.7 Flash GLM 4.7 Flash medium Lançamento: 2026-01-19
Pontuação	4.9	4.5
Posição	#144	#154
Confiabilidade	10.0	10.0
Consistência	9.9	6.7
Testes corretos
Taxa de acerto por tentativa	25.0%	35.0%
Testes instáveis	0	8
Execuções totais	60	60
Custo por resultado	0.111	1.337
Custo total	$0.006	$0.054
Preço de entrada	$0.150 / 1M	$0.060 / 1M
Preço de saída	$0.600 / 1M	$0.400 / 1M
Tokens de saída	1,977	43,754
Tokens de raciocínio	0	89,079
Tempo de resposta (médio)	1.85s	35.10s
Tempo de resposta (máx.)	7.58s	174.55s
Tempo de resposta (total)	24.00s	456.24s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	186	0
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	1,122	6,110

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	3.2	9.3	0.0%	0		2.05s	362	0
GLM 4.7 Flash	3.4	6.0	16.7%	1		55.33s	4,981	22,387

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	568	0
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	2,585	20,648

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	183	0
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	584	2,755

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	15	0
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	33,000	25,394

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	66	0
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	18	2,138

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	6.3	10.0	50.0%	0		1.11s	69	0
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	388	2,181

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	3.5	10.0	0.0%	0		1.21s	308	0
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.93s	781	5,255

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-4o-mini	3.0	10.0	0.0%	0		794ms	15	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		11.13s	71	1,197

Comparação rápida

Trocar par de comparação

Ling-2.6-1TnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Trinity Large PreviewnonevsGLM 4.7 Flashmedium Granite 4.1 8BnonevsGLM 4.7 Flashmedium Qwen3.6 35B A3BnonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium MiMo-V2.5nonevsGLM 4.7 Flashmedium Mistral Small 4nonevsGLM 4.7 Flashmedium