Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.6

Melhor modelo

Gemini 3 Flash Preview 10.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções19 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

216/216

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
Total de testes 2 Testes errados 0 Custo total $1.006 Tempo de resposta (médio) 7.00s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
Total de testes 2 Testes errados 0 Custo total $2.077 Tempo de resposta (médio) 2.78s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
Total de testes 2 Testes errados 0 Custo total $0.286 Tempo de resposta (médio) 6.14s
#52	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
Total de testes 2 Testes errados 0 Custo total $1.097 Tempo de resposta (médio) 12.4s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
Total de testes 2 Testes errados 0 Custo total $0.138 Tempo de resposta (médio) 1.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
Total de testes 2 Testes errados 0 Custo total $0.779 Tempo de resposta (médio) 18.6s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
Total de testes 2 Testes errados 0 Custo total $1.079 Tempo de resposta (médio) 3.38s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
Total de testes 2 Testes errados 0 Custo total $0.476 Tempo de resposta (médio) 2.61s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
Total de testes 2 Testes errados 0 Custo total $0.077 Tempo de resposta (médio) 1.51s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
Total de testes 2 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 1.64s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
Total de testes 2 Testes errados 0 Custo total $0.002 Tempo de resposta (médio) 5.52s
#194	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
Total de testes 2 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 11.6s
#199	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
Total de testes 2 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 1.03s
#201	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
Total de testes 2 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 987ms
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
Total de testes 2 Testes errados 0 Custo total $1.707 Tempo de resposta (médio) 6.23s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)