Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Kimi K2.5 10.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
Total de testes 2 Testes errados 0 Custo total $0.018 Tempo de resposta (médio) 6.16s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
Total de testes 2 Testes errados 0 Custo total $0.286 Tempo de resposta (médio) 6.14s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
Total de testes 2 Testes errados 0 Custo total $1.928 Tempo de resposta (médio) 6.06s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	2/2	6.05s
Total de testes 2 Testes errados 0 Custo total $0.738 Tempo de resposta (médio) 6.05s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
Total de testes 2 Testes errados 0 Custo total $3.478 Tempo de resposta (médio) 5.90s
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
Total de testes 2 Testes errados 1 Custo total $0.036 Tempo de resposta (médio) 5.75s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
Total de testes 2 Testes errados 0 Custo total $0.002 Tempo de resposta (médio) 5.52s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
Total de testes 2 Testes errados 0 Custo total $0.604 Tempo de resposta (médio) 5.51s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
Total de testes 2 Testes errados 1 Custo total $0.647 Tempo de resposta (médio) 5.42s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
Total de testes 2 Testes errados 0 Custo total $0.740 Tempo de resposta (médio) 5.39s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
Total de testes 2 Testes errados 0 Custo total $0.323 Tempo de resposta (médio) 5.38s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
Total de testes 2 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 5.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
Total de testes 2 Testes errados 0 Custo total $0.010 Tempo de resposta (médio) 5.06s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
Total de testes 2 Testes errados 1 Custo total $0.683 Tempo de resposta (médio) 4.99s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
Total de testes 2 Testes errados 0 Custo total $0.750 Tempo de resposta (médio) 4.89s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)