Ranking de falhas por Formatação extra

Falhas AI BENCHY

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Custo total ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

North Mini Code 2

Categorias

Na categoria Truques anti-IA18 Na categoria Específico do domínio13 Na categoria Programação11 Na categoria Análise e extração de dados4 Na categoria Resolução de quebra-cabeças4 Na categoria Seguimento de instruções2 Na categoria Combinado1

32/32

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#107	North Mini Code medium	Cohere	2	5.8	$0.000	9/21	106.2s
Total de testes 21 Testes errados 12 Custo total $0.000 Tempo de resposta (médio) 106.2s
#110	Owl Alpha none	Openrouter	1	5.8	$0.000	7/21	9.88s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 9.88s
#131	North Mini Code none	Cohere	2	5.1	$0.000	4/21	29.8s
Total de testes 21 Testes errados 17 Custo total $0.000 Tempo de resposta (médio) 29.8s
#132	Hunter Alpha medium	OpenRouter	1	5.1	$0.000	8/18	10.3s
Total de testes 18 Testes errados 10 Custo total $0.000 Tempo de resposta (médio) 10.3s
#158	Hy3 preview none	Tencent	1	4.3	$0.003	4/21	12.9s
Total de testes 21 Testes errados 17 Custo total $0.003 Tempo de resposta (médio) 12.9s
#163	Granite 4.1 8B none	IBM Granite	1	4.0	$0.003	2/21	728ms
Total de testes 21 Testes errados 19 Custo total $0.003 Tempo de resposta (médio) 728ms
#134	MiMo-V2.5 none	Xiaomi	1	5.1	$0.007	5/21	2.20s
Total de testes 21 Testes errados 16 Custo total $0.007 Tempo de resposta (médio) 2.20s
#117	DeepSeek V4 Flash none	DeepSeek	2	5.5	$0.007	5/21	26.8s
Total de testes 21 Testes errados 16 Custo total $0.007 Tempo de resposta (médio) 26.8s
#130	Qwen3 Coder Next none	Qwen	1	5.1	$0.009	5/21	8.62s
Total de testes 21 Testes errados 16 Custo total $0.009 Tempo de resposta (médio) 8.62s
#126	DeepSeek V3.2 none	DeepSeek	2	5.3	$0.017	6/21	13.8s
Total de testes 21 Testes errados 15 Custo total $0.017 Tempo de resposta (médio) 13.8s
#114	Mimo V2 Omni none	Xiaomi	1	5.7	$0.021	8/21	2.44s
Total de testes 21 Testes errados 13 Custo total $0.021 Tempo de resposta (médio) 2.44s
#159	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	4/21	2.76s
Total de testes 21 Testes errados 17 Custo total $0.025 Tempo de resposta (médio) 2.76s
#58	DeepSeek V4 Pro none	DeepSeek	1	7.2	$0.034	10/21	6.41s
Total de testes 21 Testes errados 11 Custo total $0.034 Tempo de resposta (médio) 6.41s
#165	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/21	82.2s
Total de testes 21 Testes errados 18 Custo total $0.036 Tempo de resposta (médio) 82.2s
#62	MiMo-V2-Flash medium	Xiaomi	1	7.1	$0.043	12/21	20.1s
Total de testes 21 Testes errados 9 Custo total $0.043 Tempo de resposta (médio) 20.1s

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)