Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Granite 4.1 8B 3.6

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
Total de testes 2 Testes errados 1 Custo total $0.036 Tempo de resposta (médio) 5.75s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
Total de testes 2 Testes errados 0 Custo total $3.478 Tempo de resposta (médio) 5.90s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	2/2	6.05s
Total de testes 2 Testes errados 0 Custo total $0.738 Tempo de resposta (médio) 6.05s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
Total de testes 2 Testes errados 0 Custo total $1.928 Tempo de resposta (médio) 6.06s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
Total de testes 2 Testes errados 0 Custo total $0.286 Tempo de resposta (médio) 6.14s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
Total de testes 2 Testes errados 0 Custo total $0.018 Tempo de resposta (médio) 6.16s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
Total de testes 2 Testes errados 0 Custo total $0.391 Tempo de resposta (médio) 6.17s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
Total de testes 2 Testes errados 0 Custo total $1.707 Tempo de resposta (médio) 6.23s
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
Total de testes 2 Testes errados 1 Custo total $1.357 Tempo de resposta (médio) 6.31s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
Total de testes 2 Testes errados 0 Custo total $0.774 Tempo de resposta (médio) 6.35s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
Total de testes 2 Testes errados 1 Custo total $0.391 Tempo de resposta (médio) 6.39s
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
Total de testes 2 Testes errados 1 Custo total $0.469 Tempo de resposta (médio) 6.96s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
Total de testes 2 Testes errados 1 Custo total $0.055 Tempo de resposta (médio) 6.97s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
Total de testes 2 Testes errados 0 Custo total $1.006 Tempo de resposta (médio) 7.00s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
Total de testes 2 Testes errados 0 Custo total $0.177 Tempo de resposta (médio) 7.02s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)