Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Kimi K2.5 10.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
Total de testes 2 Testes errados 0 Custo total $0.571 Tempo de resposta (médio) 3.51s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 3.40s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
Total de testes 2 Testes errados 0 Custo total $1.079 Tempo de resposta (médio) 3.38s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
Total de testes 2 Testes errados 0 Custo total $4.137 Tempo de resposta (médio) 3.36s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
Total de testes 2 Testes errados 0 Custo total $0.333 Tempo de resposta (médio) 3.36s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
Total de testes 2 Testes errados 0 Custo total $1.976 Tempo de resposta (médio) 3.35s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
Total de testes 2 Testes errados 0 Custo total $1.931 Tempo de resposta (médio) 3.32s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
Total de testes 2 Testes errados 0 Custo total $0.385 Tempo de resposta (médio) 3.26s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
Total de testes 2 Testes errados 0 Custo total $0.951 Tempo de resposta (médio) 3.12s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
Total de testes 2 Testes errados 0 Custo total $1.533 Tempo de resposta (médio) 3.11s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
Total de testes 2 Testes errados 0 Custo total $0.922 Tempo de resposta (médio) 3.10s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
Total de testes 2 Testes errados 0 Custo total $0.920 Tempo de resposta (médio) 3.04s
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
Total de testes 2 Testes errados 1 Custo total $0.166 Tempo de resposta (médio) 2.97s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
Total de testes 2 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 2.84s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 2.82s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)