Ranking de falhas por Formatação extra

Falhas AI BENCHY

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

North Mini Code 2

Categorias

Na categoria Truques anti-IA18 Na categoria Específico do domínio13 Na categoria Programação11 Na categoria Análise e extração de dados4 Na categoria Resolução de quebra-cabeças4 Na categoria Seguimento de instruções2 Na categoria Combinado1

32/32

Posição	Modelo	Empresa	Contagem de Formatação extra	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#107	North Mini Code medium	Cohere	2	5.8	$0.000	9/21	106.2s
Total de testes 21 Testes errados 12 Custo total $0.000 Tempo de resposta (médio) 106.2s
#165	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/21	82.2s
Total de testes 21 Testes errados 18 Custo total $0.036 Tempo de resposta (médio) 82.2s
#41	DeepSeek V4 Pro high	DeepSeek	1	7.6	$0.157	9/21	77.2s
Total de testes 21 Testes errados 12 Custo total $0.157 Tempo de resposta (médio) 77.2s
#29	Qwen3.5-27B medium	Qwen	1	7.9	$0.536	13/21	68.4s
Total de testes 21 Testes errados 8 Custo total $0.536 Tempo de resposta (médio) 68.4s
#40	MiniMax M3 medium	Minimax	1	7.6	$0.131	11/21	68.2s
Total de testes 21 Testes errados 10 Custo total $0.131 Tempo de resposta (médio) 68.2s
#42	Grok Build 0.1 medium	X AI	3	7.6	$0.927	13/21	49.9s
Total de testes 21 Testes errados 8 Custo total $0.927 Tempo de resposta (médio) 49.9s
#37	Grok 4.3 medium	X AI	1	7.7	$0.614	13/21	47.5s
Total de testes 21 Testes errados 8 Custo total $0.614 Tempo de resposta (médio) 47.5s
#73	Mimo V2 Omni medium	Xiaomi	1	6.8	$0.683	10/21	41.2s
Total de testes 21 Testes errados 11 Custo total $0.683 Tempo de resposta (médio) 41.2s
#64	GLM 5.1 medium	Z.ai	1	7.1	$0.292	12/21	33.7s
Total de testes 21 Testes errados 9 Custo total $0.292 Tempo de resposta (médio) 33.7s
#131	North Mini Code none	Cohere	2	5.1	$0.000	4/21	29.8s
Total de testes 21 Testes errados 17 Custo total $0.000 Tempo de resposta (médio) 29.8s
#53	Grok 4.20 medium	X AI	1	7.3	$0.609	12/21	27.7s
Total de testes 21 Testes errados 9 Custo total $0.609 Tempo de resposta (médio) 27.7s
#76	MiMo-V2.5 medium	Xiaomi	2	6.7	$0.063	12/21	27.1s
Total de testes 21 Testes errados 9 Custo total $0.063 Tempo de resposta (médio) 27.1s
#117	DeepSeek V4 Flash none	DeepSeek	2	5.5	$0.007	5/21	26.8s
Total de testes 21 Testes errados 16 Custo total $0.007 Tempo de resposta (médio) 26.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	3	7.4	$0.106	12/21	26.1s
Total de testes 21 Testes errados 9 Custo total $0.106 Tempo de resposta (médio) 26.1s
#38	Claude Opus 4.6 medium	Anthropic	5	7.7	$2.053	12/21	25.9s
Total de testes 21 Testes errados 9 Custo total $2.053 Tempo de resposta (médio) 25.9s

Falhas por Formatação extra

Filtrar modelos

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)