Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.5

Melhor modelo

Grok 4.1 Fast 3.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções18 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

210/210

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
Total de testes 2 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 685ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
Total de testes 2 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 822ms
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
Total de testes 2 Testes errados 2 Custo total $0.007 Tempo de resposta (médio) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
Total de testes 2 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 364ms
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
Total de testes 2 Testes errados 2 Custo total $0.163 Tempo de resposta (médio) 12.8s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
Total de testes 2 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 541ms
#209	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
Total de testes 1 Testes errados 0 Custo total $0.020 Tempo de resposta (médio) 9.30s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
Total de testes 2 Testes errados 1 Custo total $0.544 Tempo de resposta (médio) 1.15s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
Total de testes 2 Testes errados 1 Custo total $0.122 Tempo de resposta (médio) 1.17s
#161	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
Total de testes 2 Testes errados 1 Custo total $0.061 Tempo de resposta (médio) 1.86s
#194	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
Total de testes 2 Testes errados 1 Custo total $0.166 Tempo de resposta (médio) 2.97s
#152	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
Total de testes 2 Testes errados 1 Custo total $0.087 Tempo de resposta (médio) 1.92s
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
Total de testes 2 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 929ms
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
Total de testes 2 Testes errados 1 Custo total $0.090 Tempo de resposta (médio) 1.03s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
Total de testes 2 Testes errados 1 Custo total $0.062 Tempo de resposta (médio) 1.10s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)