Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.5

Melhor modelo

Granite 4.1 8B 3.6

Motivos de falha

Com motivo de falha Resposta incorreta65 Com motivo de falha Não seguiu as instruções23 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

220/220

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#91	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
Total de testes 2 Testes errados 1 Custo total $0.544 Tempo de resposta (médio) 1.15s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
Total de testes 2 Testes errados 1 Custo total $0.122 Tempo de resposta (médio) 1.17s
#166	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
Total de testes 2 Testes errados 1 Custo total $0.142 Tempo de resposta (médio) 1.23s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
Total de testes 2 Testes errados 1 Custo total $0.524 Tempo de resposta (médio) 1.33s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
Total de testes 2 Testes errados 0 Custo total $1.166 Tempo de resposta (médio) 1.37s
#217	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 1.37s
#175	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
Total de testes 2 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 1.38s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
Total de testes 2 Testes errados 0 Custo total $0.231 Tempo de resposta (médio) 1.40s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
Total de testes 2 Testes errados 0 Custo total $0.676 Tempo de resposta (médio) 1.43s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	2/2	1.46s
Total de testes 2 Testes errados 0 Custo total $0.505 Tempo de resposta (médio) 1.46s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
Total de testes 2 Testes errados 0 Custo total $0.095 Tempo de resposta (médio) 1.46s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
Total de testes 2 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 1.48s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
Total de testes 2 Testes errados 0 Custo total $0.519 Tempo de resposta (médio) 1.48s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
Total de testes 2 Testes errados 0 Custo total $0.646 Tempo de resposta (médio) 1.49s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
Total de testes 2 Testes errados 0 Custo total $0.048 Tempo de resposta (médio) 1.50s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)