Falhas AI BENCHY
Falhas por Não seguiu as instruções
Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↓.
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #33 | Hy3 preview medium | Tencent | 1 | 7.7 | 14/21 | 16.3s |
| #38 | Grok 4.3 medium | X AI | 2 | 7.6 | 13/21 | 47.5s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 7.5 | 12/21 | 19.2s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 1 | 7.5 | 13/21 | 3.96s | |
| #42 | GPT-5.2 medium | OpenAI | 3 | 7.5 | 13/21 | 16.9s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.5 | 12/21 | 26.1s |
| #44 | Gemini 3.1 Flash Lite medium | 1 | 7.5 | 13/21 | 3.23s | |
| #45 | GPT-5.4 Mini medium | OpenAI | 3 | 7.5 | 12/21 | 22.3s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 1 | 7.4 | 13/21 | 18.1s |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 7.4 | 12/21 | 63.3s |
| #50 | Gemini 3.1 Flash Lite Preview low | 1 | 7.4 | 13/21 | 2.77s | |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.4 | 12/21 | 22.2s |
| #53 | Gemini 3.1 Flash Lite high | 3 | 7.3 | 10/18 | 62.0s | |
| #54 | GPT-5 Mini medium | OpenAI | 3 | 7.3 | 12/21 | 23.6s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 7.3 | 12/21 | 27.1s |