Ranking de Programação x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Programação, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

230

Modelo mais afetado

Qwen3.6 Flash 3

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado23 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Específico do domínio367 Truques anti-IA270 Programação230 Resolução de quebra-cabeças172 Conhecimentos gerais149 Combinado58 Seguimento de instruções56 Inteligência geral49 Análise e extração de dados36 Chamada de ferramentas3

134/134

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#152	Mistral Small 4 medium	Mistral	3	4.4	$0.068	0/3	40.0s
Total de testes 3 Testes errados 3 Custo total $0.068 Tempo de resposta (médio) 40.0s
#154	Qwen3.5-9B none	Qwen	3	3.9	$0.006	0/3	5.60s
Total de testes 3 Testes errados 3 Custo total $0.006 Tempo de resposta (médio) 5.60s
#158	GPT-4o-mini none	OpenAI	3	3.2	$0.006	0/3	1.63s
Total de testes 3 Testes errados 3 Custo total $0.006 Tempo de resposta (médio) 1.63s
#160	GLM 4.7 Flash none	Z.ai	3	4.3	$0.004	0/3	2.54s
Total de testes 3 Testes errados 3 Custo total $0.004 Tempo de resposta (médio) 2.54s
#161	Nemotron 3 Super none	NVIDIA	3	3.3	$0.006	0/3	2.64s
Total de testes 3 Testes errados 3 Custo total $0.006 Tempo de resposta (médio) 2.64s
#164	GPT-5.4 Nano none	OpenAI	3	4.6	$0.011	0/3	2.22s
Total de testes 3 Testes errados 3 Custo total $0.011 Tempo de resposta (médio) 2.22s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
Total de testes 3 Testes errados 3 Custo total $0.011 Tempo de resposta (médio) 1.03s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
Total de testes 3 Testes errados 2 Custo total $0.536 Tempo de resposta (médio) 160.7s
#37	GPT-5.6 Terra medium	OpenAI	2	6.1	$0.496	1/3	7.19s
Total de testes 3 Testes errados 2 Custo total $0.496 Tempo de resposta (médio) 7.19s
#40	Gemini 3.1 Flash Lite Preview medium	Google	2	5.5	$0.068	1/3	4.09s
Total de testes 3 Testes errados 2 Custo total $0.068 Tempo de resposta (médio) 4.09s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
Total de testes 3 Testes errados 2 Custo total $0.317 Tempo de resposta (médio) 125.3s
#42	Gemini 3.1 Flash Lite medium	Google	2	5.5	$0.071	1/3	3.81s
Total de testes 3 Testes errados 2 Custo total $0.071 Tempo de resposta (médio) 3.81s
#47	GPT-5.6 Terra low	OpenAI	2	6.6	$0.343	1/3	9.56s
Total de testes 3 Testes errados 2 Custo total $0.343 Tempo de resposta (médio) 9.56s
#50	GPT-5.6 Luna high	OpenAI	2	5.5	$0.924	1/3	15.6s
Total de testes 3 Testes errados 2 Custo total $0.924 Tempo de resposta (médio) 15.6s
#54	GPT-5.6 Luna medium	OpenAI	2	5.4	$0.258	1/3	10.4s
Total de testes 3 Testes errados 2 Custo total $0.258 Tempo de resposta (médio) 10.4s

←

1 2 3 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado