Falhas AI BENCHY
Falhas por Não seguiu as instruções
Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #147 | GPT-4o-mini none | OpenAI | 1 | 4.8 | 5/21 | 1.77s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #155 | Mercury 2 none | Inception | 1 | 4.5 | 4/21 | 653ms |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 4.2 | 2/16 | 782ms |
| #161 | Qwen3.5-9B medium | Qwen | 1 | 4.2 | 3/21 | 82.2s |
| #15 | GPT-5.3-Codex medium | OpenAI | 2 | 8.4 | 15/21 | 16.2s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.2 | 14/21 | 47.1s |
| #21 | GPT-5.4 medium | OpenAI | 2 | 8.0 | 14/21 | 22.3s |
| #30 | Qwen3.5-27B medium | Qwen | 2 | 7.8 | 13/21 | 68.4s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 2 | 7.7 | 13/21 | 45.8s |
| #38 | Grok 4.3 medium | X AI | 2 | 7.6 | 13/21 | 47.5s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 7.5 | 12/21 | 26.1s |
| #58 | Gemini 3.1 Flash Lite Preview none | 2 | 7.2 | 12/21 | 1.21s | |
| #60 | Kimi K2.6 medium | Moonshot AI | 2 | 7.2 | 12/21 | 71.7s |
| #63 | GPT-5.3 Chat none | OpenAI | 2 | 7.2 | 12/21 | 6.34s |