Ranking de falhas por Formatação extra

Falhas AI BENCHY

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Custo total ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Grok 4.20 Multi Agent Beta 2

Categorias

Na categoria Truques anti-IA18 Na categoria Específico do domínio13 Na categoria Programação11 Na categoria Análise e extração de dados4 Na categoria Resolução de quebra-cabeças4 Na categoria Seguimento de instruções2 Na categoria Combinado1

32/32

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
Total de testes 18 Testes errados 10 Custo total $5.599 Tempo de resposta (médio) 9.69s
#38	Claude Opus 4.6 medium	Anthropic	5	7.7	$2.053	12/21	25.9s
Total de testes 21 Testes errados 9 Custo total $2.053 Tempo de resposta (médio) 25.9s
#31	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$1.418	13/21	17.1s
Total de testes 21 Testes errados 8 Custo total $1.418 Tempo de resposta (médio) 17.1s
#42	Grok Build 0.1 medium	X AI	3	7.6	$0.927	13/21	49.9s
Total de testes 21 Testes errados 8 Custo total $0.927 Tempo de resposta (médio) 49.9s
#73	Mimo V2 Omni medium	Xiaomi	1	6.8	$0.683	10/21	41.2s
Total de testes 21 Testes errados 11 Custo total $0.683 Tempo de resposta (médio) 41.2s
#37	Grok 4.3 medium	X AI	1	7.7	$0.614	13/21	47.5s
Total de testes 21 Testes errados 8 Custo total $0.614 Tempo de resposta (médio) 47.5s
#53	Grok 4.20 medium	X AI	1	7.3	$0.609	12/21	27.7s
Total de testes 21 Testes errados 9 Custo total $0.609 Tempo de resposta (médio) 27.7s
#57	Claude Opus 4.8 none	Anthropic	3	7.2	$0.539	12/21	3.47s
Total de testes 21 Testes errados 9 Custo total $0.539 Tempo de resposta (médio) 3.47s
#29	Qwen3.5-27B medium	Qwen	1	7.9	$0.536	13/21	68.4s
Total de testes 21 Testes errados 8 Custo total $0.536 Tempo de resposta (médio) 68.4s
#77	Mimo V2 PRO medium	Xiaomi	1	6.7	$0.333	12/21	22.2s
Total de testes 21 Testes errados 9 Custo total $0.333 Tempo de resposta (médio) 22.2s
#55	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.316	11/21	5.04s
Total de testes 21 Testes errados 10 Custo total $0.316 Tempo de resposta (médio) 5.04s
#64	GLM 5.1 medium	Z.ai	1	7.1	$0.292	12/21	33.7s
Total de testes 21 Testes errados 9 Custo total $0.292 Tempo de resposta (médio) 33.7s
#41	DeepSeek V4 Pro high	DeepSeek	1	7.6	$0.157	9/21	77.2s
Total de testes 21 Testes errados 12 Custo total $0.157 Tempo de resposta (médio) 77.2s
#40	MiniMax M3 medium	Minimax	1	7.6	$0.131	11/21	68.2s
Total de testes 21 Testes errados 10 Custo total $0.131 Tempo de resposta (médio) 68.2s
#51	MiMo-V2.5-Pro medium	Xiaomi	3	7.4	$0.106	12/21	26.1s
Total de testes 21 Testes errados 9 Custo total $0.106 Tempo de resposta (médio) 26.1s

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)