Falhas por categoria AI BENCHY
Inteligência geral: Não seguiu as instruções
Inteligência geral
Não seguiu as instruções
Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #80 | MiniMax M2.7 medium | Minimax | 1 | 3.9 | 0/1 | 38.7s |
| #81 | Elephant medium | Openrouter | 1 | 4.3 | 0/1 | 920ms |
| #84 | gpt-oss-120b none | OpenAI | 1 | 4.6 | 0/1 | 2.83s |
| #85 | Elephant none | Openrouter | 1 | 4.0 | 0/1 | 854ms |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 4.8 | 0/1 | 1.82s |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.2 | 0/1 | 25.0s |
| #90 | Qwen3.5-9B none | Qwen | 1 | 4.4 | 0/1 | 552ms |
| #91 | Mercury 2 none | Inception | 1 | 4.8 | 0/1 | 628ms |
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 6.3 | 0/1 | 1.39s |
| #94 | MiMo-V2-Flash none | Xiaomi | 1 | 4.6 | 0/1 | 1.67s |
| #95 | Grok 4.1 Fast none | X AI | 1 | 4.4 | 0/1 | 1.08s |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 3.8 | 0/1 | 1.31s |
| #98 | LFM2-24B-A2B none | Liquid | 1 | 4.0 | 0/1 | 395ms |