Ranking de Programação x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Programação, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

230

Modelo mais afetado

Qwen3.6 Flash 3

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado25 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Específico do domínio368 Truques anti-IA270 Programação230 Resolução de quebra-cabeças173 Conhecimentos gerais150 Combinado58 Seguimento de instruções56 Inteligência geral49 Análise e extração de dados36 Chamada de ferramentas3

134/134

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#121	Qwen3.5-27B none	Qwen	2	5.8	$0.015	1/3	1.80s
Total de testes 3 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 1.80s
#122	GLM 5V Turbo none	Z.ai	2	5.5	$0.052	1/3	3.13s
Total de testes 3 Testes errados 2 Custo total $0.052 Tempo de resposta (médio) 3.13s
#129	GPT-5.4 none	OpenAI	2	5.5	$0.122	1/3	1.62s
Total de testes 3 Testes errados 2 Custo total $0.122 Tempo de resposta (médio) 1.62s
#136	Kimi K2.5 none	Moonshot AI	2	5.5	$0.027	1/3	24.6s
Total de testes 3 Testes errados 2 Custo total $0.027 Tempo de resposta (médio) 24.6s
#137	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
Total de testes 3 Testes errados 3 Custo total $0.017 Tempo de resposta (médio) 1.41s
#138	Qwen3.6 27B none	Qwen	2	5.5	$0.025	1/3	4.16s
Total de testes 3 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 4.16s
#139	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
Total de testes 3 Testes errados 3 Custo total $0.004 Tempo de resposta (médio) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	2	3.9	$0.032	0/3	1.69s
Total de testes 3 Testes errados 3 Custo total $0.032 Tempo de resposta (médio) 1.69s
#144	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Total de testes 3 Testes errados 2 Custo total $0.038 Tempo de resposta (médio) 913ms
#146	DeepSeek V3.2 none	DeepSeek	2	3.1	$0.016	0/3	14.5s
Total de testes 3 Testes errados 3 Custo total $0.016 Tempo de resposta (médio) 14.5s
#148	Qwen3.6 35B A3B none	Qwen	2	5.5	$0.031	1/3	8.77s
Total de testes 3 Testes errados 2 Custo total $0.031 Tempo de resposta (médio) 8.77s
#154	MiMo-V2.5 none	Xiaomi	2	5.5	$0.006	1/3	3.24s
Total de testes 3 Testes errados 2 Custo total $0.006 Tempo de resposta (médio) 3.24s
#168	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Total de testes 3 Testes errados 3 Custo total $0.008 Tempo de resposta (médio) 924ms
#179	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	0/3	2.64s
Total de testes 3 Testes errados 3 Custo total $0.025 Tempo de resposta (médio) 2.64s
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
Total de testes 3 Testes errados 1 Custo total $0.667 Tempo de resposta (médio) 84.4s

←

1 4 5 6 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado