Ranking de Programação x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Programação, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

230

Modelo mais afetado

North Mini Code 3

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado23 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Específico do domínio367 Truques anti-IA270 Programação230 Resolução de quebra-cabeças172 Conhecimentos gerais149 Combinado58 Seguimento de instruções56 Inteligência geral49 Análise e extração de dados36 Chamada de ferramentas3

134/134

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 320.4s
#60	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.044	1/3	248.7s
Total de testes 3 Testes errados 2 Custo total $0.044 Tempo de resposta (médio) 248.7s
#62	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
Total de testes 3 Testes errados 2 Custo total $0.044 Tempo de resposta (médio) 220.5s
#75	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
Total de testes 3 Testes errados 3 Custo total $1.148 Tempo de resposta (médio) 206.2s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Total de testes 3 Testes errados 3 Custo total $0.303 Tempo de resposta (médio) 188.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Total de testes 3 Testes errados 3 Custo total $0.683 Tempo de resposta (médio) 183.9s
#33	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
Total de testes 3 Testes errados 2 Custo total $0.310 Tempo de resposta (médio) 180.7s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
Total de testes 3 Testes errados 2 Custo total $0.536 Tempo de resposta (médio) 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Total de testes 3 Testes errados 1 Custo total $0.175 Tempo de resposta (médio) 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Total de testes 3 Testes errados 1 Custo total $1.696 Tempo de resposta (médio) 155.7s
#36	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
Total de testes 3 Testes errados 2 Custo total $0.294 Tempo de resposta (médio) 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Total de testes 3 Testes errados 1 Custo total $0.960 Tempo de resposta (médio) 146.5s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
Total de testes 3 Testes errados 2 Custo total $0.317 Tempo de resposta (médio) 125.3s
#44	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
Total de testes 3 Testes errados 2 Custo total $0.588 Tempo de resposta (médio) 114.5s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Total de testes 3 Testes errados 2 Custo total $0.609 Tempo de resposta (médio) 109.9s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado