Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.5

Melhor modelo

Grok 4.1 Fast 3.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções18 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

210/210

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
Total de testes 2 Testes errados 1 Custo total $0.009 Tempo de resposta (médio) 683ms
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
Total de testes 2 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 13.0s
#112	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
Total de testes 2 Testes errados 1 Custo total $0.548 Tempo de resposta (médio) 2.58s
#148	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 2.63s
#154	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
Total de testes 2 Testes errados 1 Custo total $0.068 Tempo de resposta (médio) 1.03s
#162	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
Total de testes 2 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 5.36s
#196	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
Total de testes 2 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 2.82s
#27	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
Total de testes 2 Testes errados 1 Custo total $1.694 Tempo de resposta (médio) 7.81s
#74	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
Total de testes 2 Testes errados 1 Custo total $0.535 Tempo de resposta (médio) 7.47s
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
Total de testes 2 Testes errados 1 Custo total $0.300 Tempo de resposta (médio) 893ms
#89	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
Total de testes 2 Testes errados 1 Custo total $0.085 Tempo de resposta (médio) 1.58s
#16	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
Total de testes 2 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 6.31s
#60	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
Total de testes 2 Testes errados 1 Custo total $0.478 Tempo de resposta (médio) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
Total de testes 2 Testes errados 1 Custo total $0.661 Tempo de resposta (médio) 1.96s
#91	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
Total de testes 2 Testes errados 1 Custo total $0.391 Tempo de resposta (médio) 6.39s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)