Ranking de Programação x Formatação extra

Falhas por categoria AI BENCHY

Veja quais modelos de IA têm mais chance de encontrar Formatação extra em Programação, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Claude Sonnet 4.6 1

Motivos de falha

Resposta incorreta230 Erro de API43 Tempo esgotado23 Sem resposta18 Não seguiu as instruções16 Formatação extra12

Categorias

Truques anti-IA20 Específico do domínio13 Programação12 Resolução de quebra-cabeças6 Análise e extração de dados4 Seguimento de instruções3 Combinado1

12/12

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
Total de testes 3 Testes errados 2 Custo total $1.418 Tempo de resposta (médio) 33.3s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
Total de testes 3 Testes errados 2 Custo total $1.270 Tempo de resposta (médio) 7.58s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
Total de testes 3 Testes errados 2 Custo total $0.614 Tempo de resposta (médio) 41.2s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Total de testes 3 Testes errados 2 Custo total $2.053 Tempo de resposta (médio) 30.1s
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
Total de testes 3 Testes errados 2 Custo total $0.131 Tempo de resposta (médio) 144.7s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
Total de testes 3 Testes errados 2 Custo total $0.927 Tempo de resposta (médio) 108.5s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
Total de testes 3 Testes errados 2 Custo total $0.106 Tempo de resposta (médio) 92.1s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
Total de testes 3 Testes errados 2 Custo total $0.316 Tempo de resposta (médio) 5.19s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 36.9s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Total de testes 3 Testes errados 3 Custo total $0.288 Tempo de resposta (médio) 109.6s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
Total de testes 3 Testes errados 3 Custo total $0.021 Tempo de resposta (médio) 2.75s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Total de testes 3 Testes errados 3 Custo total $0.003 Tempo de resposta (médio) 775ms

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Programação: Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado