Falhas AI BENCHY
Falhas por Não seguiu as instruções
Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #13 | GLM 5 medium | Z.ai | 1 | 8.4 | 13/18 | 23.3s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.5 | 11/18 | 23.4s |
| #52 | Grok 4.1 Fast medium | X AI | 4 | 6.7 | 9/18 | 23.9s |
| #45 | GPT-5 Mini medium | OpenAI | 4 | 7.0 | 9/18 | 24.0s |
| #14 | Gemma 4 31B medium | 1 | 8.3 | 13/18 | 24.9s | |
| #24 | Gemma 4 26B A4B medium | 1 | 8.0 | 13/18 | 25.0s | |
| #30 | Step 3.5 Flash medium | Stepfun | 3 | 7.9 | 11/17 | 26.8s |
| #6 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.6 | 13/18 | 30.4s |
| #80 | MiniMax M2.7 medium | Minimax | 6 | 5.3 | 4/18 | 31.1s |
| #93 | GLM 4.7 Flash medium | Z.ai | 2 | 4.6 | 4/18 | 32.3s |
| #71 | MiniMax M2.5 medium | Minimax | 3 | 5.7 | 5/18 | 39.6s |
| #57 | GPT-5 Nano medium | OpenAI | 3 | 6.3 | 7/18 | 44.1s |
| #34 | Kimi K2.6 medium | Moonshot AI | 3 | 7.7 | 11/18 | 45.2s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 8.0 | 12/18 | 46.4s |
| #10 | Qwen3.5-27B medium | Qwen | 2 | 8.4 | 13/18 | 53.0s |