Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.5

Melhor modelo

Granite 4.1 8B 3.6

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções18 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

210/210

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
Total de testes 2 Testes errados 2 Custo total $0.007 Tempo de resposta (médio) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
Total de testes 2 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 364ms
#165	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
Total de testes 2 Testes errados 1 Custo total $0.022 Tempo de resposta (médio) 380ms
#205	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
Total de testes 2 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 439ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
Total de testes 2 Testes errados 1 Custo total $0.057 Tempo de resposta (médio) 445ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
Total de testes 2 Testes errados 1 Custo total $0.247 Tempo de resposta (médio) 513ms
#169	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
Total de testes 2 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 514ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
Total de testes 2 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 541ms
#189	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
Total de testes 2 Testes errados 1 Custo total $0.030 Tempo de resposta (médio) 551ms
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
Total de testes 2 Testes errados 0 Custo total $0.017 Tempo de resposta (médio) 590ms
#190	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
Total de testes 2 Testes errados 1 Custo total $0.340 Tempo de resposta (médio) 621ms
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
Total de testes 2 Testes errados 1 Custo total $0.087 Tempo de resposta (médio) 649ms
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
Total de testes 2 Testes errados 1 Custo total $0.009 Tempo de resposta (médio) 683ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
Total de testes 2 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 685ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
Total de testes 2 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 690ms

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)