Falhas por categoria AI BENCHY
Seguimento de instruções: Não seguiu as instruções
Seguimento de instruções
Não seguiu as instruções
Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Seguimento de instruções, para identificar pontos fracos mais rápido.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #11 | Gemini 3.1 Flash Lite Preview high | 1 | 7.9 | 1/2 | 70.1s | |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 8.3 | 1/2 | 4.97s |
| #30 | Step 3.5 Flash medium | Stepfun | 1 | 8.5 | 1/2 | 4.98s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 8.3 | 1/2 | 4.92s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 7.4 | 1/2 | 2.50s |
| #45 | GPT-5 Mini medium | OpenAI | 1 | 8.0 | 1/2 | 15.7s |
| #51 | Nemotron 3 Super medium | NVIDIA | 1 | 7.2 | 1/2 | 7.72s |
| #52 | Grok 4.1 Fast medium | X AI | 1 | 6.6 | 1/2 | 5.30s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 8.3 | 1/2 | 4.63s |
| #57 | GPT-5 Nano medium | OpenAI | 1 | 8.5 | 1/2 | 11.9s |
| #60 | Gemma 4 26B A4B none | 1 | 4.4 | 0/2 | 1.08s | |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 8.1 | 1/2 | 4.64s |
| #75 | GLM 5.1 none | Z.ai | 1 | 8.3 | 1/2 | 1.58s |
| #78 | Trinity Large Preview none | Arcee AI | 1 | 4.1 | 0/2 | 1.09s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 4.8 | 0/2 | 687ms |