AI BENCHY Compare

OpenAI: gpt-oss-120b vs Z.ai: GLM 5.1

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-11

Métrica	gpt-oss-120b gpt-oss-120b none Lançamento: 2025-08-05 Disponível grátis	GLM 5.1 GLM 5.1 none Lançamento: 2026-04-07

Métrica	gpt-oss-120b gpt-oss-120b none Lançamento: 2025-08-05 Disponível grátis	GLM 5.1 GLM 5.1 none Lançamento: 2026-04-07
Pontuação	5.2	5.6
Posição	#79	#71
Consistência	7.9	8.2
Testes corretos
Taxa de acerto por tentativa	38.9%	37.0%
Testes instáveis	5	4
Execuções totais	54	54
Custo por resultado	0.221	1.046
Custo total	$0.009	$0.053
Preço de entrada	$0.039 / 1M	$0.950 / 1M
Preço de saída	$0.190 / 1M	$3.150 / 1M
Tokens de saída	44,652	3,720
Tokens de raciocínio	0	0
Tempo de resposta (médio)	11.96s	4.33s
Tempo de resposta (máx.)	68.97s	32.57s
Tempo de resposta (total)	179.34s	78.02s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	6.6	8.0	58.3%	1		6.03s	4,867	0
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0
GLM 5.1	5.1	9.1	0.0%	0		9.79s	501	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	4.6	10.0	0.0%	0		2.83s	586	0
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	8.4	6.9	83.3%	1		5.10s	1,982	0
GLM 5.1	8.3	10.0	50.0%	0		1.58s	66	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	4.5	4.8	44.5%	2		6.86s	3,904	0
GLM 5.1	5.7	10.0	33.3%	0		1.48s	152	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Comparação rápida

Trocar par de comparação

MiniMax M2.7mediumvsgpt-oss-120bnoneDisponível grátis Mistral Small 4mediumvsGLM 5.1none MiniMax M2.5mediumDisponível grátisvsGLM 5.1none gpt-oss-120bmediumDisponível grátisvsGLM 5.1none MiniMax M2.7mediumvsGLM 5.1none Mistral Small 4mediumvsgpt-oss-120bnoneDisponível grátis gpt-oss-120bnoneDisponível grátisvsQwen3 Coder Nextmedium MiniMax M2.5mediumDisponível grátisvsgpt-oss-120bnoneDisponível grátis gpt-oss-120bnoneDisponível grátisvsGLM 4.7 Flashmedium GPT-5 NanomediumvsGLM 5.1none gpt-oss-120bnoneDisponível grátisvsQwen3.5-9Bmedium Qwen3 Coder NextmediumvsGLM 5.1none