Ranking de Programação x Não seguiu as instruções

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Programação, para identificar pontos fracos mais rápido. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Gemini 3.5 Flash 1

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado23 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Resolução de quebra-cabeças82 Inteligência geral74 Truques anti-IA31 Programação16 Seguimento de instruções15 Chamada de ferramentas6 Combinado1 Específico do domínio1

16/16

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
Total de testes 3 Testes errados 1 Custo total $0.582 Tempo de resposta (médio) 12.6s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Total de testes 3 Testes errados 2 Custo total $2.053 Tempo de resposta (médio) 30.1s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
Total de testes 3 Testes errados 2 Custo total $0.539 Tempo de resposta (médio) 3.29s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
Total de testes 3 Testes errados 2 Custo total $0.034 Tempo de resposta (médio) 13.4s
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
Total de testes 3 Testes errados 3 Custo total $0.030 Tempo de resposta (médio) 7.55s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
Total de testes 3 Testes errados 2 Custo total $0.108 Tempo de resposta (médio) 2.75s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
Total de testes 3 Testes errados 2 Custo total $0.078 Tempo de resposta (médio) 82.6s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
Total de testes 1 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 23.6s
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
Total de testes 3 Testes errados 3 Custo total $0.017 Tempo de resposta (médio) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
Total de testes 3 Testes errados 3 Custo total $0.032 Tempo de resposta (médio) 1.69s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
Total de testes 3 Testes errados 3 Custo total $0.017 Tempo de resposta (médio) 14.5s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
Total de testes 1 Testes errados 1 Custo total $0.033 Tempo de resposta (médio) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 79.2s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
Total de testes 3 Testes errados 3 Custo total $0.025 Tempo de resposta (médio) 2.64s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Total de testes 3 Testes errados 3 Custo total $0.003 Tempo de resposta (médio) 775ms

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado