Ranking de falhas por Formatação extra

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Granite 4.1 8B 1

Categorias

Na categoria Truques anti-IA20 Na categoria Programação18 Na categoria Específico do domínio17 Na categoria Resolução de quebra-cabeças8 Na categoria Análise e extração de dados6 Na categoria Seguimento de instruções3 Na categoria Combinado1

42/42

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 9.88s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Total de testes 18 Testes errados 12 Custo total $0.057 Tempo de resposta (médio) 1.11s
#112	Claude Sonnet 5 none	Anthropic	4	6.3	$0.548	8/22	6.04s
Total de testes 22 Testes errados 14 Custo total $0.548 Tempo de resposta (médio) 6.04s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Total de testes 22 Testes errados 14 Custo total $0.048 Tempo de resposta (médio) 8.42s
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Total de testes 21 Testes errados 13 Custo total $0.021 Tempo de resposta (médio) 2.44s
#137	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
Total de testes 22 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 137.1s
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Total de testes 18 Testes errados 10 Custo total $5.599 Tempo de resposta (médio) 9.69s
#184	Hunter Alpha medium	OpenRouter	1	4.7	$0.000	8/18	10.3s
Total de testes 18 Testes errados 10 Custo total $0.000 Tempo de resposta (médio) 10.3s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total de testes 22 Testes errados 12 Custo total $0.200 Tempo de resposta (médio) 79.1s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Total de testes 22 Testes errados 12 Custo total $0.096 Tempo de resposta (médio) 11.6s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
Total de testes 21 Testes errados 11 Custo total $0.683 Tempo de resposta (médio) 41.2s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
Total de testes 22 Testes errados 10 Custo total $0.286 Tempo de resposta (médio) 75.0s
#63	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.661	12/22	8.12s
Total de testes 22 Testes errados 10 Custo total $0.661 Tempo de resposta (médio) 8.12s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Total de testes 22 Testes errados 10 Custo total $0.777 Tempo de resposta (médio) 29.5s
#84	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Total de testes 22 Testes errados 10 Custo total $0.187 Tempo de resposta (médio) 33.9s

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)