Ranking de falhas por Formatação extra

Falhas AI BENCHY

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Granite 4.1 8B 1

Categorias

Na categoria Truques anti-IA18 Na categoria Específico do domínio13 Na categoria Programação11 Na categoria Análise e extração de dados4 Na categoria Resolução de quebra-cabeças4 Na categoria Seguimento de instruções2 Na categoria Combinado1

32/32

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#163	Granite 4.1 8B none	IBM Granite	1	4.0	$0.003	2/21	728ms
Total de testes 21 Testes errados 19 Custo total $0.003 Tempo de resposta (médio) 728ms
#155	Grok 4.20 none	X AI	1	4.4	$0.057	6/18	1.11s
Total de testes 18 Testes errados 12 Custo total $0.057 Tempo de resposta (médio) 1.11s
#134	MiMo-V2.5 none	Xiaomi	1	5.1	$0.007	5/21	2.20s
Total de testes 21 Testes errados 16 Custo total $0.007 Tempo de resposta (médio) 2.20s
#114	Mimo V2 Omni none	Xiaomi	1	5.7	$0.021	8/21	2.44s
Total de testes 21 Testes errados 13 Custo total $0.021 Tempo de resposta (médio) 2.44s
#159	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	4/21	2.76s
Total de testes 21 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 2.76s
#57	Claude Opus 4.8 none	Anthropic	3	7.2	$0.539	12/21	3.47s
Total de testes 21 Testes errados 9 Custo total $0.539 Tempo de resposta (médio) 3.47s
#55	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.316	11/21	5.04s
Total de testes 21 Testes errados 10 Custo total $0.316 Tempo de resposta (médio) 5.04s
#58	DeepSeek V4 Pro none	DeepSeek	1	7.2	$0.034	10/21	6.41s
Total de testes 21 Testes errados 11 Custo total $0.034 Tempo de resposta (médio) 6.41s
#130	Qwen3 Coder Next none	Qwen	1	5.1	$0.009	5/21	8.62s
Total de testes 21 Testes errados 16 Custo total $0.009 Tempo de resposta (médio) 8.62s
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
Total de testes 18 Testes errados 10 Custo total $5.599 Tempo de resposta (médio) 9.69s
#110	Owl Alpha none	Openrouter	1	5.8	$0.000	7/21	9.88s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 9.88s
#132	Hunter Alpha medium	OpenRouter	1	5.1	$0.000	8/18	10.3s
Total de testes 18 Testes errados 10 Custo total $0.000 Tempo de resposta (médio) 10.3s
#158	Hy3 preview none	Tencent	1	4.3	$0.003	4/21	12.9s
Total de testes 21 Testes errados 17 Custo total $0.003 Tempo de resposta (médio) 12.9s
#126	DeepSeek V3.2 none	DeepSeek	2	5.3	$0.017	6/21	13.8s
Total de testes 21 Testes errados 15 Custo total $0.017 Tempo de resposta (médio) 13.8s
#31	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$1.418	13/21	17.1s
Total de testes 21 Testes errados 8 Custo total $1.418 Tempo de resposta (médio) 17.1s

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)