Ranking de Programação x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Programação, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

230

Modelo mais afetado

Qwen3.6 Flash 3

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado23 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Específico do domínio367 Truques anti-IA270 Programação230 Resolução de quebra-cabeças172 Conhecimentos gerais149 Combinado58 Seguimento de instruções56 Inteligência geral49 Análise e extração de dados36 Chamada de ferramentas3

134/134

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
Total de testes 3 Testes errados 2 Custo total $0.433 Tempo de resposta (médio) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
Total de testes 3 Testes errados 2 Custo total $0.107 Tempo de resposta (médio) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
Total de testes 3 Testes errados 2 Custo total $0.111 Tempo de resposta (médio) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Total de testes 3 Testes errados 2 Custo total $0.609 Tempo de resposta (médio) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
Total de testes 3 Testes errados 2 Custo total $0.457 Tempo de resposta (médio) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
Total de testes 3 Testes errados 2 Custo total $0.023 Tempo de resposta (médio) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
Total de testes 3 Testes errados 3 Custo total $0.030 Tempo de resposta (médio) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
Total de testes 3 Testes errados 2 Custo total $0.036 Tempo de resposta (médio) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
Total de testes 3 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
Total de testes 3 Testes errados 2 Custo total $0.054 Tempo de resposta (médio) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
Total de testes 3 Testes errados 3 Custo total $0.080 Tempo de resposta (médio) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
Total de testes 3 Testes errados 2 Custo total $0.061 Tempo de resposta (médio) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
Total de testes 3 Testes errados 2 Custo total $0.013 Tempo de resposta (médio) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
Total de testes 3 Testes errados 2 Custo total $0.081 Tempo de resposta (médio) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
Total de testes 3 Testes errados 2 Custo total $0.026 Tempo de resposta (médio) 1.39s

←

1 2 3 4 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado