Falhas AI BENCHY
Falhas por Não seguiu as instruções
Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #153 | Qwen3.6 35B A3B none | Qwen | 2 | 4.6 | 4/21 | 3.73s |
| #154 | Qwen3.5-9B none | Qwen | 2 | 4.6 | 4/21 | 1.89s |
| #158 | GLM 4.7 Flash medium | Z.ai | 2 | 4.4 | 4/21 | 35.1s |
| #159 | Ling-2.6-1T none | Inclusionai | 2 | 4.3 | 3/21 | 7.72s |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 4.1 | 2/19 | 728ms |
| #42 | GPT-5.2 medium | OpenAI | 3 | 7.5 | 13/21 | 16.9s |
| #45 | GPT-5.4 Mini medium | OpenAI | 3 | 7.5 | 12/21 | 22.3s |
| #53 | Gemini 3.1 Flash Lite high | 3 | 7.3 | 10/18 | 62.0s | |
| #54 | GPT-5 Mini medium | OpenAI | 3 | 7.3 | 12/21 | 23.6s |
| #62 | Step 3.5 Flash medium | Stepfun | 3 | 7.2 | 11/20 | 72.5s |
| #81 | Mercury 2 medium | Inception | 3 | 6.6 | 10/21 | 2.24s |
| #87 | Gemini 3.1 Flash Lite minimal | 3 | 6.4 | 10/21 | 1.33s | |
| #99 | gpt-oss-120b medium | OpenAI | 3 | 6.1 | 9/21 | 22.3s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #119 | Cobuddy medium | Baidu | 3 | 5.6 | 7/21 | 39.9s |