Falhas AI BENCHY
Falhas por Não seguiu as instruções
Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | 2/21 | 728ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 4.1 | 2/19 | 728ms |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 4.2 | 2/16 | 782ms |
| #159 | Ling-2.6-1T none | Inclusionai | 2 | 4.3 | 3/21 | 7.72s |
| #161 | Qwen3.5-9B medium | Qwen | 1 | 4.2 | 3/21 | 82.2s |
| #157 | Grok 4.1 Fast none | X AI | 3 | 4.4 | 3/19 | 1.62s |
| #148 | GPT-5.4 Nano none | OpenAI | 2 | 4.7 | 4/21 | 1.48s |
| #150 | Qwen3 Coder Next medium | Qwen | 3 | 4.6 | 4/21 | 8.58s |
| #151 | Trinity Large Preview none | Arcee AI | 3 | 4.6 | 4/21 | 2.98s |
| #152 | MiMo-V2-Flash none | Xiaomi | 2 | 4.6 | 4/21 | 2.76s |
| #153 | Qwen3.6 35B A3B none | Qwen | 2 | 4.6 | 4/21 | 3.73s |
| #154 | Qwen3.5-9B none | Qwen | 2 | 4.6 | 4/21 | 1.89s |
| #155 | Mercury 2 none | Inception | 1 | 4.5 | 4/21 | 653ms |
| #156 | Hy3 preview none | Tencent | 4 | 4.4 | 4/21 | 12.9s |
| #158 | GLM 4.7 Flash medium | Z.ai | 2 | 4.4 | 4/21 | 35.1s |