Falhas AI BENCHY
Falhas por Não seguiu as instruções
Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 3 | 5.5 | 7/21 | 9.88s |
| #124 | Kimi K2.6 none | Moonshot AI | 3 | 5.5 | 7/21 | 13.3s |
| #129 | MiniMax M2.5 medium | Minimax | 3 | 5.3 | 5/21 | 65.4s |
| #137 | Elephant Alpha none | Openrouter | 3 | 5.1 | 5/21 | 1.22s |
| #144 | GPT-5.4 Mini none | OpenAI | 3 | 4.9 | 5/21 | 1.13s |
| #150 | Qwen3 Coder Next medium | Qwen | 3 | 4.6 | 4/21 | 8.58s |
| #151 | Trinity Large Preview none | Arcee AI | 3 | 4.6 | 4/21 | 2.98s |
| #157 | Grok 4.1 Fast none | X AI | 3 | 4.4 | 3/19 | 1.62s |
| #86 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 23.8s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 4 | 5.5 | 6/21 | 1.78s |
| #156 | Hy3 preview none | Tencent | 4 | 4.4 | 4/21 | 12.9s |
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | 2/21 | 728ms |
| #130 | MiniMax M2.7 medium | Minimax | 5 | 5.3 | 5/21 | 38.2s |