Ranking de falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

250

Modelo mais afetado

Gemini 3.5 Flash 1

Categorias

Na categoria Resolução de quebra-cabeças90 Na categoria Inteligência geral78 Na categoria Truques anti-IA33 Na categoria Seguimento de instruções23 Na categoria Programação16 Na categoria Chamada de ferramentas8 Na categoria Combinado1 Na categoria Específico do domínio1

145/145

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
Total de testes 22 Testes errados 13 Custo total $0.019 Tempo de resposta (médio) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
Total de testes 22 Testes errados 13 Custo total $0.046 Tempo de resposta (médio) 1.75s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
Total de testes 22 Testes errados 13 Custo total $0.114 Tempo de resposta (médio) 54.9s
#188	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
Total de testes 22 Testes errados 13 Custo total $0.026 Tempo de resposta (médio) 55.1s
#151	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
Total de testes 21 Testes errados 13 Custo total $0.052 Tempo de resposta (médio) 2.99s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
Total de testes 21 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 11.9s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Total de testes 21 Testes errados 13 Custo total $0.021 Tempo de resposta (médio) 2.44s
#212	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
Total de testes 19 Testes errados 12 Custo total $0.547 Tempo de resposta (médio) 28.7s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
Total de testes 22 Testes errados 14 Custo total $0.090 Tempo de resposta (médio) 4.76s
#118	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
Total de testes 22 Testes errados 14 Custo total $0.548 Tempo de resposta (médio) 6.04s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
Total de testes 22 Testes errados 14 Custo total $0.122 Tempo de resposta (médio) 13.6s
#135	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
Total de testes 22 Testes errados 14 Custo total $0.095 Tempo de resposta (médio) 3.87s
#138	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Total de testes 22 Testes errados 14 Custo total $0.349 Tempo de resposta (médio) 1.65s
#146	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.055	8/22	52.0s
Total de testes 22 Testes errados 14 Custo total $0.055 Tempo de resposta (médio) 52.0s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Total de testes 22 Testes errados 14 Custo total $0.048 Tempo de resposta (médio) 8.42s

Falhas por Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)