Ranking de falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

246

Modelo mais afetado

Gemini 3.5 Flash 1

Categorias

Na categoria Resolução de quebra-cabeças90 Na categoria Inteligência geral78 Na categoria Truques anti-IA33 Na categoria Seguimento de instruções19 Na categoria Programação16 Na categoria Chamada de ferramentas8 Na categoria Combinado1 Na categoria Específico do domínio1

141/141

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
Total de testes 22 Testes errados 13 Custo total $0.114 Tempo de resposta (médio) 54.9s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
Total de testes 21 Testes errados 11 Custo total $0.683 Tempo de resposta (médio) 41.2s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
Total de testes 22 Testes errados 16 Custo total $0.247 Tempo de resposta (médio) 12.9s
#151	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
Total de testes 21 Testes errados 13 Custo total $0.052 Tempo de resposta (médio) 2.99s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
Total de testes 21 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 11.9s
#153	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
Total de testes 21 Testes errados 14 Custo total $0.045 Tempo de resposta (médio) 2.27s
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
Total de testes 22 Testes errados 15 Custo total $0.087 Tempo de resposta (médio) 10.7s
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
Total de testes 22 Testes errados 14 Custo total $0.015 Tempo de resposta (médio) 7.64s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
Total de testes 22 Testes errados 15 Custo total $0.041 Tempo de resposta (médio) 10.1s
#167	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
Total de testes 22 Testes errados 18 Custo total $0.061 Tempo de resposta (médio) 5.52s
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
Total de testes 22 Testes errados 18 Custo total $0.016 Tempo de resposta (médio) 8.58s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
Total de testes 22 Testes errados 17 Custo total $0.096 Tempo de resposta (médio) 10.8s
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
Total de testes 22 Testes errados 18 Custo total $0.021 Tempo de resposta (médio) 19.2s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
Total de testes 21 Testes errados 15 Custo total $0.047 Tempo de resposta (médio) 2.82s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Total de testes 22 Testes errados 18 Custo total $0.000 Tempo de resposta (médio) 29.9s

Falhas por Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)