Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.5

Melhor modelo

Granite 4.1 8B 3.6

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções18 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

210/210

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
Total de testes 2 Testes errados 1 Custo total $0.095 Tempo de resposta (médio) 728ms
#168	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
Total de testes 2 Testes errados 1 Custo total $0.025 Tempo de resposta (médio) 751ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
Total de testes 2 Testes errados 1 Custo total $0.001 Tempo de resposta (médio) 752ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
Total de testes 2 Testes errados 1 Custo total $0.041 Tempo de resposta (médio) 784ms
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
Total de testes 2 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 804ms
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
Total de testes 2 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 809ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
Total de testes 2 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 822ms
#200	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
Total de testes 2 Testes errados 1 Custo total $0.025 Tempo de resposta (médio) 857ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
Total de testes 2 Testes errados 0 Custo total $0.046 Tempo de resposta (médio) 859ms
#176	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
Total de testes 2 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 888ms
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
Total de testes 2 Testes errados 1 Custo total $0.300 Tempo de resposta (médio) 893ms
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
Total de testes 2 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 929ms
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
Total de testes 2 Testes errados 0 Custo total $0.047 Tempo de resposta (médio) 932ms
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
Total de testes 2 Testes errados 0 Custo total $0.197 Tempo de resposta (médio) 943ms
#195	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
Total de testes 2 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 987ms

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)