Categoria AI BENCHY
Ranking de Seguimento de instruções
Veja quais modelos de IA vão melhor em Seguimento de instruções, quais permanecem confiáveis e onde aparecem as maiores diferenças.
Modelos exibidos
15
Média de Pontuação de Seguimento de instruções
8.5
Melhor modelo
Gemini 3 Flash Preview 10.0| Posição | Modelo | Empresa | Pontuação de Seguimento de instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #16 | Gemini 3 Flash Preview low | 9.9 | 8.4 | 2/2 | 7.02s | |
| #42 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 9.9 | 7.5 | 2/2 | 2.77s |
| #44 | Gemini 3.1 Flash Lite medium | 9.9 | 7.5 | 2/2 | 2.59s | |
| #51 | Mimo V2 PRO medium | Xiaomi | 9.9 | 7.4 | 2/2 | 3.36s |
| #56 | MiMo-V2.5 medium | Xiaomi | 9.9 | 7.3 | 2/2 | 1.80s |
| #59 | GLM 5V Turbo medium | Z.ai | 9.9 | 7.2 | 2/2 | 3.74s |
| #68 | Claude Opus 4.8 none | Anthropic | 9.9 | 7.0 | 2/2 | 1.37s |
| #79 | Hunter Alpha medium | OpenRouter | 9.9 | 6.7 | 2/2 | 4.18s |
| #99 | gpt-oss-120b medium | OpenAI | 9.9 | 6.1 | 2/2 | 7.63s |
| #20 | Gemini 3.5 Flash none | 9.8 | 8.1 | 2/2 | 3.38s | |
| #38 | Grok 4.3 medium | X AI | 9.8 | 7.6 | 2/2 | 18.6s |
| #47 | Grok Build 0.1 medium | X AI | 9.8 | 7.4 | 2/2 | 12.4s |
| #67 | MiniMax M3 medium | Minimax | 9.8 | 7.1 | 2/2 | 6.14s |
| #70 | GPT-5.4 Nano medium | OpenAI | 9.8 | 7.0 | 2/2 | 1.88s |