Ranking de falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

Falhas totais

246

Modelo mais afetado

LFM2-24B-A2B 1

Categorias

Na categoria Resolução de quebra-cabeças90 Na categoria Inteligência geral78 Na categoria Truques anti-IA33 Na categoria Seguimento de instruções19 Na categoria Programação16 Na categoria Chamada de ferramentas8 Na categoria Combinado1 Na categoria Específico do domínio1

141/141

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Total de testes 22 Testes errados 9 Custo total $0.779 Tempo de resposta (médio) 47.4s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
Total de testes 22 Testes errados 11 Custo total $0.106 Tempo de resposta (médio) 12.1s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
Total de testes 22 Testes errados 10 Custo total $1.036 Tempo de resposta (médio) 110.0s
#70	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
Total de testes 22 Testes errados 9 Custo total $1.166 Tempo de resposta (médio) 4.91s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Total de testes 22 Testes errados 9 Custo total $0.117 Tempo de resposta (médio) 4.27s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
Total de testes 22 Testes errados 9 Custo total $0.115 Tempo de resposta (médio) 4.61s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
Total de testes 22 Testes errados 10 Custo total $0.661 Tempo de resposta (médio) 8.12s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
Total de testes 22 Testes errados 9 Custo total $1.627 Tempo de resposta (médio) 111.9s
#60	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
Total de testes 22 Testes errados 10 Custo total $0.756 Tempo de resposta (médio) 25.9s
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Total de testes 22 Testes errados 9 Custo total $0.571 Tempo de resposta (médio) 6.88s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Total de testes 22 Testes errados 10 Custo total $0.138 Tempo de resposta (médio) 13.2s
#56	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.740	12/22	84.2s
Total de testes 22 Testes errados 10 Custo total $0.740 Tempo de resposta (médio) 84.2s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
Total de testes 21 Testes errados 7 Custo total $0.323 Tempo de resposta (médio) 23.0s
#51	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
Total de testes 22 Testes errados 10 Custo total $0.286 Tempo de resposta (médio) 75.0s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
Total de testes 22 Testes errados 12 Custo total $0.200 Tempo de resposta (médio) 79.1s

Falhas por Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)