Ranking de falhas por Formatação extra

Falhas AI BENCHY

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

North Mini Code 2

Categorias

Na categoria Truques anti-IA18 Na categoria Específico do domínio13 Na categoria Programação11 Na categoria Análise e extração de dados4 Na categoria Resolução de quebra-cabeças4 Na categoria Seguimento de instruções2 Na categoria Combinado1

32/32

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#155	Grok 4.20 none	X AI	1	4.4	$0.057	6/18	1.11s
Total de testes 18 Testes errados 12 Custo total $0.057 Tempo de resposta (médio) 1.11s
#163	Granite 4.1 8B none	IBM Granite	1	4.0	$0.003	2/21	728ms
Total de testes 21 Testes errados 19 Custo total $0.003 Tempo de resposta (médio) 728ms

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)