Ranking de modelos de Seguimento de instruções

Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Seguimento de instruções

8.5

Melhor modelo

Kimi K2.5 10.0

Motivos de falha

Com motivo de falha Resposta incorreta61 Com motivo de falha Não seguiu as instruções18 Com motivo de falha Formatação extra3 Com motivo de falha Sem resposta2 Com motivo de falha Erro de API1 Com motivo de falha Tempo esgotado1

210/210

Posição	Modelo	Empresa	Pontuação de Seguimento de instruções	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#150	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.044	1/2	17.5s
Total de testes 2 Testes errados 1 Custo total $0.044 Tempo de resposta (médio) 17.5s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
Total de testes 2 Testes errados 0 Custo total $0.089 Tempo de resposta (médio) 17.5s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
Total de testes 2 Testes errados 0 Custo total $0.101 Tempo de resposta (médio) 17.5s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
Total de testes 2 Testes errados 0 Custo total $0.267 Tempo de resposta (médio) 16.1s
#153	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
Total de testes 2 Testes errados 0 Custo total $0.015 Tempo de resposta (médio) 16.0s
#128	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
Total de testes 2 Testes errados 0 Custo total $0.114 Tempo de resposta (médio) 15.6s
#137	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
Total de testes 2 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 15.4s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
Total de testes 2 Testes errados 0 Custo total $0.042 Tempo de resposta (médio) 15.4s
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
Total de testes 2 Testes errados 1 Custo total $0.003 Tempo de resposta (médio) 13.0s
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
Total de testes 2 Testes errados 2 Custo total $0.163 Tempo de resposta (médio) 12.8s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
Total de testes 2 Testes errados 0 Custo total $0.163 Tempo de resposta (médio) 12.8s
#68	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
Total de testes 2 Testes errados 0 Custo total $1.036 Tempo de resposta (médio) 12.5s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
Total de testes 2 Testes errados 0 Custo total $1.097 Tempo de resposta (médio) 12.4s
#108	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
Total de testes 2 Testes errados 0 Custo total $0.103 Tempo de resposta (médio) 11.8s
#188	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
Total de testes 2 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 11.6s

Ranking de Seguimento de instruções

Filtrar modelos

Melhores modelos por Pontuação de Seguimento de instruções

Pontuação de Seguimento de instruções vs custo total

Melhores modelos por Tempo de resposta (médio)