Ranking de falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

246

Modelo mais afetado

Granite 4.1 8B 4

Categorias

Na categoria Resolução de quebra-cabeças90 Na categoria Inteligência geral78 Na categoria Truques anti-IA33 Na categoria Seguimento de instruções19 Na categoria Programação16 Na categoria Chamada de ferramentas8 Na categoria Combinado1 Na categoria Específico do domínio1

141/141

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
Total de testes 21 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 11.9s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Total de testes 21 Testes errados 13 Custo total $0.021 Tempo de resposta (médio) 2.44s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
Total de testes 22 Testes errados 13 Custo total $0.469 Tempo de resposta (médio) 148.7s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
Total de testes 22 Testes errados 13 Custo total $0.019 Tempo de resposta (médio) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
Total de testes 22 Testes errados 13 Custo total $0.046 Tempo de resposta (médio) 1.75s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
Total de testes 22 Testes errados 13 Custo total $0.114 Tempo de resposta (médio) 54.9s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
Total de testes 22 Testes errados 13 Custo total $0.026 Tempo de resposta (médio) 55.1s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Total de testes 18 Testes errados 10 Custo total $5.599 Tempo de resposta (médio) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
Total de testes 18 Testes errados 10 Custo total $0.000 Tempo de resposta (médio) 10.3s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
Total de testes 22 Testes errados 12 Custo total $0.200 Tempo de resposta (médio) 79.1s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total de testes 22 Testes errados 12 Custo total $0.600 Tempo de resposta (médio) 99.0s
#82	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
Total de testes 22 Testes errados 12 Custo total $0.093 Tempo de resposta (médio) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
Total de testes 22 Testes errados 12 Custo total $0.096 Tempo de resposta (médio) 11.6s
#96	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
Total de testes 22 Testes errados 12 Custo total $0.391 Tempo de resposta (médio) 100.3s
#105	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
Total de testes 22 Testes errados 12 Custo total $0.779 Tempo de resposta (médio) 106.3s

Falhas por Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)