Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Granite 4.1 8B 3.6

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
Total de testes 2 Testes errados 0 Custo total $0.433 Tempo de resposta (médio) 1.86s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
Total de testes 2 Testes errados 1 Custo total $0.584 Tempo de resposta (médio) 1.87s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
Total de testes 2 Testes errados 0 Custo total $0.138 Tempo de resposta (médio) 1.88s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
Total de testes 2 Testes errados 0 Custo total $0.115 Tempo de resposta (médio) 1.91s
#158	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
Total de testes 2 Testes errados 1 Custo total $0.087 Tempo de resposta (médio) 1.92s
#67	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
Total de testes 2 Testes errados 1 Custo total $0.661 Tempo de resposta (médio) 1.96s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
Total de testes 2 Testes errados 1 Custo total $0.052 Tempo de resposta (médio) 1.97s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
Total de testes 2 Testes errados 0 Custo total $0.164 Tempo de resposta (médio) 1.98s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
Total de testes 2 Testes errados 1 Custo total $0.249 Tempo de resposta (médio) 2.04s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	2.05s
Total de testes 2 Testes errados 0 Custo total $0.517 Tempo de resposta (médio) 2.05s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
Total de testes 2 Testes errados 0 Custo total $0.756 Tempo de resposta (médio) 2.13s
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
Total de testes 2 Testes errados 1 Custo total $0.047 Tempo de resposta (médio) 2.13s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
Total de testes 2 Testes errados 0 Custo total $1.055 Tempo de resposta (médio) 2.14s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
Total de testes 2 Testes errados 0 Custo total $0.971 Tempo de resposta (médio) 2.27s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
Total de testes 2 Testes errados 0 Custo total $0.352 Tempo de resposta (médio) 2.38s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)