Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Grok 4.1 Fast 3.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
Total de testes 2 Testes errados 1 Custo total $0.200 Tempo de resposta (médio) 8.73s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
Total de testes 2 Testes errados 1 Custo total $0.108 Tempo de resposta (médio) 4.78s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
Total de testes 2 Testes errados 1 Custo total $0.683 Tempo de resposta (médio) 4.99s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
Total de testes 2 Testes errados 1 Custo total $0.584 Tempo de resposta (médio) 1.87s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
Total de testes 2 Testes errados 1 Custo total $0.249 Tempo de resposta (médio) 2.04s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
Total de testes 2 Testes errados 1 Custo total $0.524 Tempo de resposta (médio) 1.33s
#138	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
Total de testes 2 Testes errados 1 Custo total $0.349 Tempo de resposta (médio) 1.15s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
Total de testes 2 Testes errados 0 Custo total $1.707 Tempo de resposta (médio) 6.23s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
Total de testes 2 Testes errados 0 Custo total $0.935 Tempo de resposta (médio) 2.80s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
Total de testes 2 Testes errados 0 Custo total $1.928 Tempo de resposta (médio) 6.06s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
Total de testes 2 Testes errados 0 Custo total $0.643 Tempo de resposta (médio) 2.62s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
Total de testes 2 Testes errados 0 Custo total $0.515 Tempo de resposta (médio) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
Total de testes 2 Testes errados 0 Custo total $0.604 Tempo de resposta (médio) 5.51s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
Total de testes 2 Testes errados 0 Custo total $0.391 Tempo de resposta (médio) 6.17s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
Total de testes 2 Testes errados 0 Custo total $0.774 Tempo de resposta (médio) 6.35s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)