Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Granite 4.1 8B 3.6

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
Total de testes 2 Testes errados 0 Custo total $1.976 Tempo de resposta (médio) 3.35s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
Total de testes 2 Testes errados 0 Custo total $0.333 Tempo de resposta (médio) 3.36s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
Total de testes 2 Testes errados 0 Custo total $4.137 Tempo de resposta (médio) 3.36s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
Total de testes 2 Testes errados 0 Custo total $1.079 Tempo de resposta (médio) 3.38s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 3.40s
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
Total de testes 2 Testes errados 0 Custo total $0.571 Tempo de resposta (médio) 3.51s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
Total de testes 2 Testes errados 0 Custo total $5.599 Tempo de resposta (médio) 3.52s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
Total de testes 2 Testes errados 0 Custo total $0.457 Tempo de resposta (médio) 3.74s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
Total de testes 2 Testes errados 0 Custo total $1.253 Tempo de resposta (médio) 3.74s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
Total de testes 2 Testes errados 0 Custo total $0.128 Tempo de resposta (médio) 3.84s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
Total de testes 2 Testes errados 0 Custo total $1.785 Tempo de resposta (médio) 3.94s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
Total de testes 2 Testes errados 0 Custo total $0.742 Tempo de resposta (médio) 4.04s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
Total de testes 2 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 4.12s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
Total de testes 2 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 4.18s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Total de testes 2 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 4.26s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)