Falhas AI BENCHY
Falhas por Não seguiu as instruções
Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 3 | 5.5 | 7/21 | 9.88s |
| #124 | Kimi K2.6 none | Moonshot AI | 3 | 5.5 | 7/21 | 13.3s |
| #125 | GPT-5.4 none | OpenAI | 1 | 5.5 | 7/21 | 1.42s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 5.4 | 7/21 | 1.60s |
| #100 | Grok Build 0.1 none | X AI | 2 | 6.0 | 7/19 | 28.7s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 6.0 | 8/21 | 2.44s |
| #102 | Gemma 4 26B A4B none | 2 | 6.0 | 8/21 | 5.91s | |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 6.0 | 8/21 | 65.2s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 6.0 | 8/21 | 2.27s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #109 | GLM 5V Turbo none | Z.ai | 2 | 5.8 | 8/21 | 2.99s |
| #111 | Owl Alpha medium | Openrouter | 2 | 5.7 | 8/21 | 11.9s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 6.4 | 9/21 | 1.06s | |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.3 | 9/21 | 42.5s |
| #96 | Ring-2.6-1T none | Inclusionai | 2 | 6.2 | 9/21 | 55.1s |