Falhas por categoria AI BENCHY
Seguimento de instruções: Resposta incorreta
Seguimento de instruções
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Seguimento de instruções, para identificar pontos fracos mais rápido.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #154 | Qwen3.5-9B none | Qwen | 1 | 6.5 | 1/2 | 514ms |
| #155 | Mercury 2 none | Inception | 1 | 6.5 | 1/2 | 551ms |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/2 | 685ms |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 6.2 | 1/2 | 2.97s |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 6.4 | 1/2 | 5.36s |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 6.3 | 1/2 | 752ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 4.8 | 0/2 | 541ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.6 | 0/2 | 344ms |