Falhas AI BENCHY
Falhas por Não seguiu as instruções
Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #78 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 5/18 | 5.07s |
| #82 | Grok 4.20 none | X AI | 2 | 5.2 | 5/18 | 1.11s |
| #83 | Mistral Small 4 none | Mistral | 2 | 5.2 | 5/18 | 665ms |
| #93 | GLM 4.7 Flash medium | Z.ai | 2 | 4.6 | 4/18 | 32.3s |
| #95 | Grok 4.1 Fast none | X AI | 2 | 4.5 | 3/18 | 1.76s |
| #97 | Qwen3.5-9B medium | Qwen | 2 | 4.4 | 3/18 | 73.6s |
| #98 | LFM2-24B-A2B none | Liquid | 2 | 4.1 | 1/16 | 811ms |
| #25 | Grok 4.20 Beta medium | X AI | 3 | 8.0 | 12/18 | 9.81s |
| #30 | Step 3.5 Flash medium | Stepfun | 3 | 7.9 | 11/17 | 26.8s |
| #34 | Kimi K2.6 medium | Moonshot AI | 3 | 7.7 | 11/18 | 45.2s |
| #38 | GPT-5.4 Nano medium | OpenAI | 3 | 7.6 | 11/18 | 11.2s |
| #40 | GPT-5.2 medium | OpenAI | 3 | 7.5 | 11/18 | 14.0s |
| #57 | GPT-5 Nano medium | OpenAI | 3 | 6.3 | 7/18 | 44.1s |
| #60 | Gemma 4 26B A4B none | 3 | 6.2 | 7/18 | 6.59s | |
| #69 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | 7/18 | 2.05s |