Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Kimi K2.5 10.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
Total de testes 2 Testes errados 1 Custo total $0.108 Tempo de resposta (médio) 4.78s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
Total de testes 2 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 4.63s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
Total de testes 2 Testes errados 0 Custo total $0.033 Tempo de resposta (médio) 4.30s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
Total de testes 2 Testes errados 0 Custo total $0.043 Tempo de resposta (médio) 4.28s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
Total de testes 2 Testes errados 0 Custo total $0.777 Tempo de resposta (médio) 4.26s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
Total de testes 2 Testes errados 0 Custo total $0.817 Tempo de resposta (médio) 4.26s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Total de testes 2 Testes errados 1 Custo total $0.021 Tempo de resposta (médio) 4.26s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
Total de testes 2 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 4.18s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
Total de testes 2 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 4.12s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
Total de testes 2 Testes errados 0 Custo total $0.742 Tempo de resposta (médio) 4.04s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
Total de testes 2 Testes errados 0 Custo total $1.785 Tempo de resposta (médio) 3.94s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
Total de testes 2 Testes errados 0 Custo total $0.128 Tempo de resposta (médio) 3.84s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
Total de testes 2 Testes errados 0 Custo total $1.253 Tempo de resposta (médio) 3.74s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
Total de testes 2 Testes errados 0 Custo total $0.457 Tempo de resposta (médio) 3.74s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
Total de testes 2 Testes errados 0 Custo total $5.599 Tempo de resposta (médio) 3.52s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)