Falhas por categoria AI BENCHY
Seguimento de instruções: Resposta incorreta
Seguimento de instruções
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Seguimento de instruções, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #83 | Mistral Small 4 none | Mistral | 1 | 6.5 | 1/2 | 380ms |
| #82 | Grok 4.20 none | X AI | 1 | 4.8 | 0/2 | 455ms |
| #90 | Qwen3.5-9B none | Qwen | 1 | 6.5 | 1/2 | 514ms |
| #91 | Mercury 2 none | Inception | 1 | 6.5 | 1/2 | 551ms |
| #70 | Qwen3.5-122B-A10B none | Qwen | 2 | 4.5 | 0/2 | 585ms |
| #62 | Gemini 2.5 Flash none | 1 | 8.0 | 1/2 | 672ms | |
| #79 | Grok 4.20 Beta none | X AI | 1 | 4.8 | 0/2 | 687ms |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 6.3 | 1/2 | 728ms |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 5.0 | 0/2 | 787ms |
| #63 | Qwen3.5-35B-A3B none | Qwen | 1 | 6.3 | 1/2 | 809ms |
| #67 | Qwen3.5-27B none | Qwen | 2 | 4.8 | 0/2 | 815ms |
| #94 | MiMo-V2-Flash none | Xiaomi | 1 | 6.5 | 1/2 | 857ms |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 6.5 | 1/2 | 888ms |
| #95 | Grok 4.1 Fast none | X AI | 2 | 3.0 | 0/2 | 923ms |
| #66 | GPT-5.4 none | OpenAI | 1 | 6.5 | 1/2 | 1.07s |