Ranking de Programação x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Programação, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

230

Modelo mais afetado

Qwen3.6 Flash 3

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado23 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Específico do domínio367 Truques anti-IA270 Programação230 Resolução de quebra-cabeças172 Conhecimentos gerais149 Combinado58 Seguimento de instruções56 Inteligência geral49 Análise e extração de dados36 Chamada de ferramentas3

134/134

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
Total de testes 3 Testes errados 3 Custo total $0.288 Tempo de resposta (médio) 42.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
Total de testes 3 Testes errados 3 Custo total $0.075 Tempo de resposta (médio) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
Total de testes 3 Testes errados 3 Custo total $0.027 Tempo de resposta (médio) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
Total de testes 3 Testes errados 3 Custo total $0.016 Tempo de resposta (médio) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 320.4s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
Total de testes 3 Testes errados 3 Custo total $0.287 Tempo de resposta (médio) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
Total de testes 3 Testes errados 3 Custo total $0.057 Tempo de resposta (médio) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
Total de testes 3 Testes errados 3 Custo total $0.007 Tempo de resposta (médio) 17.1s
#140	GLM 5 Turbo none	Z.ai	3	3.9	$0.047	0/3	2.41s
Total de testes 3 Testes errados 3 Custo total $0.047 Tempo de resposta (médio) 2.41s
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Total de testes 3 Testes errados 3 Custo total $0.003 Tempo de resposta (médio) 623ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Total de testes 3 Testes errados 3 Custo total $0.047 Tempo de resposta (médio) 980ms
#144	Qwen3.5-122B-A10B none	Qwen	3	3.7	$0.020	0/3	2.77s
Total de testes 3 Testes errados 3 Custo total $0.020 Tempo de resposta (médio) 2.77s
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Total de testes 3 Testes errados 3 Custo total $0.007 Tempo de resposta (médio) 901ms
#149	Qwen3 Coder Next none	Qwen	3	4.6	$0.009	0/3	2.22s
Total de testes 3 Testes errados 3 Custo total $0.009 Tempo de resposta (médio) 2.22s
#150	North Mini Code none	Cohere	3	3.9	$0.000	0/3	22.0s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 22.0s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado