Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Grok 4.1 Fast 3.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 30.7s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
Total de testes 2 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 888ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
Total de testes 2 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 4.63s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
Total de testes 2 Testes errados 1 Custo total $0.030 Tempo de resposta (médio) 551ms
#206	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
Total de testes 2 Testes errados 1 Custo total $0.025 Tempo de resposta (médio) 857ms
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
Total de testes 2 Testes errados 1 Custo total $0.036 Tempo de resposta (médio) 5.75s
#211	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
Total de testes 2 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 439ms
#165	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
Total de testes 2 Testes errados 1 Custo total $0.142 Tempo de resposta (médio) 1.23s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
Total de testes 2 Testes errados 1 Custo total $0.055 Tempo de resposta (médio) 6.97s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 1.37s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
Total de testes 2 Testes errados 1 Custo total $0.647 Tempo de resposta (médio) 5.42s
#149	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
Total de testes 2 Testes errados 1 Custo total $2.044 Tempo de resposta (médio) 23.3s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
Total de testes 2 Testes errados 1 Custo total $0.096 Tempo de resposta (médio) 1.38s
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
Total de testes 2 Testes errados 1 Custo total $0.340 Tempo de resposta (médio) 621ms

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)