Falhas por categoria AI BENCHY
Seguimento de instruções: Resposta incorreta
Seguimento de instruções
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Seguimento de instruções, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.6 | 0/2 | 344ms |
| #142 | Mistral Small 4 none | Mistral | 1 | 6.5 | 1/2 | 380ms |
| #146 | Laguna Xs.2 none | Poolside | 1 | 6.5 | 1/2 | 439ms |
| #127 | Grok 4.20 none | X AI | 1 | 6.3 | 1/2 | 445ms |
| #131 | Qwen3.5-122B-A10B none | Qwen | 1 | 6.3 | 1/2 | 513ms |
| #154 | Qwen3.5-9B none | Qwen | 1 | 6.5 | 1/2 | 514ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 4.8 | 0/2 | 541ms |
| #155 | Mercury 2 none | Inception | 1 | 6.5 | 1/2 | 551ms |
| #106 | Grok 4.20 Beta none | X AI | 1 | 6.3 | 1/2 | 649ms |
| #145 | Laguna M.1 none | Poolside | 1 | 6.3 | 1/2 | 683ms |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/2 | 685ms |
| #102 | Gemma 4 26B A4B none | 1 | 6.3 | 1/2 | 690ms | |
| #144 | GPT-5.4 Mini none | OpenAI | 1 | 6.3 | 1/2 | 728ms |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 6.5 | 1/2 | 751ms |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 6.3 | 1/2 | 752ms |