Falhas por categoria AI BENCHY
Inteligência geral: Não seguiu as instruções
Inteligência geral
Não seguiu as instruções
Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #134 | GLM 5 Turbo none | Z.ai | 1 | 4.2 | 0/1 | 2.18s |
| #136 | Elephant Alpha medium | Openrouter | 1 | 4.3 | 0/1 | 920ms |
| #137 | Elephant Alpha none | Openrouter | 1 | 4.0 | 0/1 | 854ms |
| #144 | GPT-5.4 Mini none | OpenAI | 1 | 4.8 | 0/1 | 1.82s |
| #148 | GPT-5.4 Nano none | OpenAI | 1 | 3.8 | 0/1 | 1.31s |
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 6.3 | 0/1 | 1.39s |
| #151 | Trinity Large Preview none | Arcee AI | 1 | 4.5 | 0/1 | 873ms |
| #152 | MiMo-V2-Flash none | Xiaomi | 1 | 4.6 | 0/1 | 1.67s |
| #154 | Qwen3.5-9B none | Qwen | 1 | 4.4 | 0/1 | 552ms |
| #155 | Mercury 2 none | Inception | 1 | 4.8 | 0/1 | 628ms |
| #156 | Hy3 preview none | Tencent | 1 | 4.1 | 0/1 | 16.1s |
| #157 | Grok 4.1 Fast none | X AI | 1 | 4.4 | 0/1 | 1.08s |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 5.0 | 0/1 | 20.3s |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 4.0 | 0/1 | 395ms |