Ranking de Seguimento de instruções x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Seguimento de instruções, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

Modelo mais afetado

Muse Spark 1.1 1

Motivos de falha

Resposta incorreta61 Não seguiu as instruções18 Formatação extra3 Sem resposta2 Erro de API1 Tempo esgotado1

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

18/18

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
Total de testes 2 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
Total de testes 2 Testes errados 1 Custo total $0.647 Tempo de resposta (médio) 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
Total de testes 2 Testes errados 1 Custo total $1.694 Tempo de resposta (médio) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
Total de testes 2 Testes errados 1 Custo total $0.200 Tempo de resposta (médio) 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
Total de testes 2 Testes errados 1 Custo total $0.524 Tempo de resposta (médio) 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
Total de testes 2 Testes errados 1 Custo total $0.249 Tempo de resposta (médio) 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
Total de testes 2 Testes errados 1 Custo total $0.108 Tempo de resposta (médio) 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
Total de testes 2 Testes errados 1 Custo total $0.349 Tempo de resposta (médio) 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
Total de testes 2 Testes errados 1 Custo total $0.683 Tempo de resposta (médio) 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
Total de testes 2 Testes errados 1 Custo total $0.050 Tempo de resposta (médio) 6.97s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Total de testes 2 Testes errados 2 Custo total $0.163 Tempo de resposta (médio) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
Total de testes 2 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 822ms
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
Total de testes 2 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 4.63s
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
Total de testes 2 Testes errados 1 Custo total $0.340 Tempo de resposta (médio) 621ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
Total de testes 2 Testes errados 2 Custo total $0.007 Tempo de resposta (médio) 344ms

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Seguimento de instruções: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado