Falhas por categoria AI BENCHY
Seguimento de instruções: Resposta incorreta
Seguimento de instruções
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Seguimento de instruções, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↓.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #32 | Gemini 3.5 Flash minimal | 1 | 6.4 | 1/2 | 893ms | |
| #48 | Gemini 3 Flash Preview none | 1 | 6.4 | 1/2 | 1.58s | |
| #55 | GLM 5.1 medium | Z.ai | 1 | 6.4 | 1/2 | 7.47s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.5 | 1/2 | 1.96s |
| #85 | Gemma 4 31B none | 1 | 6.5 | 1/2 | 2.84s | |
| #88 | Qwen3.7 Plus none | Qwen | 1 | 6.3 | 1/2 | 929ms |
| #91 | GPT-5.5 none | OpenAI | 1 | 6.2 | 1/2 | 1.15s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 6.5 | 1/2 | 4.26s |
| #102 | Gemma 4 26B A4B none | 1 | 6.3 | 1/2 | 690ms | |
| #106 | Grok 4.20 Beta none | X AI | 1 | 6.3 | 1/2 | 649ms |
| #108 | Qwen3.5-Flash none | Qwen | 1 | 6.3 | 1/2 | 8.81s |
| #109 | GLM 5V Turbo none | Z.ai | 1 | 6.5 | 1/2 | 1.97s |
| #111 | Owl Alpha medium | Openrouter | 1 | 6.5 | 1/2 | 10.2s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 1 | 6.3 | 1/2 | 8.23s |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 1 | 6.2 | 1/2 | 1.17s |