Ranking de falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher.

Modelos exibidos

Falhas totais

245

Modelo mais afetado

MiniMax M2.7 5

Categorias

Na categoria Resolução de quebra-cabeças90 Na categoria Inteligência geral78 Na categoria Truques anti-IA33 Na categoria Seguimento de instruções18 Na categoria Programação16 Na categoria Chamada de ferramentas8 Na categoria Combinado1 Na categoria Específico do domínio1

140/140

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#46	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
Total de testes 22 Testes errados 12 Custo total $0.200 Tempo de resposta (médio) 79.1s
#47	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
Total de testes 22 Testes errados 10 Custo total $0.286 Tempo de resposta (médio) 75.0s
#53	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Total de testes 22 Testes errados 10 Custo total $0.138 Tempo de resposta (médio) 13.2s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Total de testes 22 Testes errados 9 Custo total $0.571 Tempo de resposta (médio) 6.88s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
Total de testes 22 Testes errados 9 Custo total $1.627 Tempo de resposta (médio) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
Total de testes 22 Testes errados 10 Custo total $1.036 Tempo de resposta (médio) 110.0s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Total de testes 22 Testes errados 9 Custo total $0.779 Tempo de resposta (médio) 47.4s
#75	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
Total de testes 22 Testes errados 10 Custo total $0.777 Tempo de resposta (médio) 29.5s
#77	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total de testes 22 Testes errados 12 Custo total $0.600 Tempo de resposta (médio) 99.0s
#82	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
Total de testes 22 Testes errados 12 Custo total $0.096 Tempo de resposta (médio) 11.6s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
Total de testes 22 Testes errados 10 Custo total $0.187 Tempo de resposta (médio) 33.9s
#97	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
Total de testes 22 Testes errados 13 Custo total $0.469 Tempo de resposta (médio) 148.7s
#103	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
Total de testes 22 Testes errados 14 Custo total $0.090 Tempo de resposta (médio) 4.76s
#106	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
Total de testes 22 Testes errados 10 Custo total $0.052 Tempo de resposta (médio) 1.58s
#108	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
Total de testes 22 Testes errados 11 Custo total $0.103 Tempo de resposta (médio) 68.7s

Falhas por Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)