Ranking de Programação x Resposta incorreta

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Programação, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Motivos de falha

Resposta incorreta26 Tempo esgotado12 Erro de API6 Não seguiu as instruções2

Categorias

Específico do domínio173 Truques anti-IA156 Resolução de quebra-cabeças80 Seguimento de instruções43 Combinado34 Programação26 Análise e extração de dados17 Inteligência geral10 Chamada de ferramentas2

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Testes corretos	Tempo de resposta (médio)
#32	MiMo-V2-Omni medium	Xiaomi	1	4.0	0/1	68.5s
#44	Grok 4.20 medium	X AI	1	4.3	0/1	24.3s
#46	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.3	0/1	3.63s
#50	GLM 5 none	Z.ai	1	5.6	0/1	8.84s
#52	MiMo-V2-Omni none	Xiaomi	1	6.6	0/1	1.72s
#54	GPT-5 Nano medium	OpenAI	1	6.7	0/1	40.7s
#61	DeepSeek V3.2 none	DeepSeek	1	2.4	0/1	7.63s
#65	gpt-oss-120b medium	OpenAI	1	4.3	0/1	26.3s
#66	Qwen3.5-122B-A10B none	Qwen	1	4.3	0/1	3.44s
#69	Mistral Small 4 medium	Mistral	1	6.7	0/1	30.5s
#70	GLM 4.7 Flash none	Z.ai	1	6.4	0/1	5.57s
#71	GLM 5.1 none	Z.ai	1	5.1	0/1	9.79s
#73	GLM 5 Turbo none	Z.ai	1	5.3	0/1	3.93s
#74	Trinity Large Preview none	Arcee AI	1	6.3	0/1	39.5s
#75	Grok 4.20 Beta none	X AI	1	5.5	0/1	1.14s

Melhores modelos por Contagem de Resposta incorreta