Ranking de falhas por Formatação extra

Falhas AI BENCHY

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Custo total ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

North Mini Code 2

Categorias

Na categoria Truques anti-IA18 Na categoria Específico do domínio13 Na categoria Programação11 Na categoria Análise e extração de dados4 Na categoria Resolução de quebra-cabeças4 Na categoria Seguimento de instruções2 Na categoria Combinado1

32/32

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#38	Claude Opus 4.6 medium	Anthropic	5	7.7	$2.053	12/21	25.9s
Total de testes 21 Testes errados 9 Custo total $2.053 Tempo de resposta (médio) 25.9s
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
Total de testes 18 Testes errados 10 Custo total $5.599 Tempo de resposta (médio) 9.69s

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)