Categoria AI BENCHY
Ranking de Seguimento de instruções
Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Métrica ↑.
Modelos exibidos
15
Média de Pontuação de Seguimento de instruções
8.5
Melhor modelo
Grok 4.1 Fast 3.0| Posição | Modelo | Empresa | Pontuação de Seguimento de instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #136 | Elephant Alpha medium | Openrouter | 9.8 | 5.1 | 2/2 | 987ms |
| #137 | Elephant Alpha none | Openrouter | 9.8 | 5.1 | 2/2 | 1.03s |
| #138 | Ling-2.6-flash none | Inclusionai | 9.8 | 5.0 | 2/2 | 5.52s |
| #3 | Gemini 3.5 Flash low | 9.9 | 9.4 | 2/2 | 1.86s | |
| #6 | GPT-5.5 low | OpenAI | 9.9 | 9.0 | 2/2 | 3.74s |
| #7 | Gemini 3.5 Flash medium | 9.9 | 9.0 | 2/2 | 2.70s | |
| #16 | Gemini 3 Flash Preview low | 9.9 | 8.4 | 2/2 | 7.02s | |
| #42 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 9.9 | 7.5 | 2/2 | 2.77s |
| #44 | Gemini 3.1 Flash Lite medium | 9.9 | 7.5 | 2/2 | 2.59s | |
| #51 | Mimo V2 PRO medium | Xiaomi | 9.9 | 7.4 | 2/2 | 3.36s |
| #56 | MiMo-V2.5 medium | Xiaomi | 9.9 | 7.3 | 2/2 | 1.80s |
| #59 | GLM 5V Turbo medium | Z.ai | 9.9 | 7.2 | 2/2 | 3.74s |
| #68 | Claude Opus 4.8 none | Anthropic | 9.9 | 7.0 | 2/2 | 1.37s |
| #79 | Hunter Alpha medium | OpenRouter | 9.9 | 6.7 | 2/2 | 4.18s |