Ranking de Programação x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Programação, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

230

Modelo mais afetado

Qwen3.6 Flash 3

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado25 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Específico do domínio368 Truques anti-IA270 Programação230 Resolução de quebra-cabeças173 Conhecimentos gerais150 Combinado58 Seguimento de instruções56 Inteligência geral49 Análise e extração de dados36 Chamada de ferramentas3

134/134

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
Total de testes 3 Testes errados 1 Custo total $0.349 Tempo de resposta (médio) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
Total de testes 3 Testes errados 1 Custo total $1.054 Tempo de resposta (médio) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
Total de testes 3 Testes errados 1 Custo total $3.679 Tempo de resposta (médio) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Total de testes 3 Testes errados 1 Custo total $0.960 Tempo de resposta (médio) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
Total de testes 3 Testes errados 1 Custo total $0.679 Tempo de resposta (médio) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
Total de testes 3 Testes errados 1 Custo total $0.179 Tempo de resposta (médio) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
Total de testes 3 Testes errados 1 Custo total $1.210 Tempo de resposta (médio) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Total de testes 3 Testes errados 1 Custo total $0.175 Tempo de resposta (médio) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
Total de testes 3 Testes errados 1 Custo total $0.393 Tempo de resposta (médio) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
Total de testes 3 Testes errados 1 Custo total $0.376 Tempo de resposta (médio) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Total de testes 3 Testes errados 1 Custo total $1.696 Tempo de resposta (médio) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
Total de testes 3 Testes errados 1 Custo total $0.027 Tempo de resposta (médio) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
Total de testes 3 Testes errados 1 Custo total $0.379 Tempo de resposta (médio) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
Total de testes 3 Testes errados 1 Custo total $0.852 Tempo de resposta (médio) 9.14s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
Total de testes 3 Testes errados 2 Custo total $0.177 Tempo de resposta (médio) 108.6s

←

1 5 6 7 9

→

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado